Dùng Node.js phân tích kết quả chương trình Dzựt cô hồn của Tiki.vn

19.168 views

Bài viết này được viết trong tâm trạng nặng nề và ê chề của một tên “cô hồn” chưa đủ trình độ, và dựa trên trí tưởng bở đầy ngông cuồng, Tui không phán xét cũng như đánh giá ai, Tui hoan nghênh mọi đóng góp, chê bai.

Dzựt Cô Hồn Online 2014 - Tiki.vn


Từ 2 năm nay, năm nào cũng vào tháng 7 – tháng “Cô Hồn”, Tiki.vn lại tổ chức sự kiện Dzựt Cô Hồn Online, sự kiện được đông đảo “cô hồn mạng”  từ Bắc chí Nam hưởng ứng nhiệt tình, Tui – tác giả bài viết này cũng nằm một trong số đó. Nhưng do chưa đủ độ “cô hồn”, chưa năm nào mà Tui giật được bất cứ thứ gì. Uất ức, căm phẫn, Tui nghĩ ra cái kịch bản là có những điều mờ ám ở đây và quyết tâm tìm ra những “cô hồn” nào là người đã ôm hết giải thưởng của Tui!

Mấy câu Tui thắc mắc như sau?

  1. Ai là người trúng thưởng?
  2. Trúng thưởng mấy lần?
  3. Trúng thưởng đợt nào?
  4. Trúng thưởng món gì?
  5. Giá trị trúng thưởng là bao nhiêu?
  6. Dzựt bao nhiêu lần thì trúng?
  7. Ai là “cô hồn” nhất? (chiêu trò, kỹ thuật tà đạo)
  8. Có mối liên quan nào giữa người trúng thưởng và nội bộ Tiki hay không?

Khi trả lời được các câu hỏi trên, chúng ta dễ dàng biết được ai là “cô hồn ăn gian”, ai là “cô hồn nội gián”. Để trả lời được các câu hỏi trên, chúng ta cần thu thập đủ dữ liệu. May thay, Tiki cho chúng ta xem trang kết quả:  http://dzut-co-hon.tiki.vn/result#main

I. Thu thập dữ liệu

1. Đồ nghề

  1. Module request: HTTP client
  2. Module cheerio: cho phép truy vấn HTML giống như jQuery dành cho Node.js, ưu điểm là nhanh, nhẹ, sử dụng i như jQuery ở client
  3. Module lodash: là bản port của Underscore.js áp dụng functional programming cho Node.js
  4. Module async: quản lý mớ callback hỗn loạn cho Node.js
  5. Node.js

2. Chiến thuật

  1. Mở trang kết quả Dzựt Cô Hồn Online http://dzut-co-hon.tiki.vn/result#main
  2. Lấy danh sách kết quả và lưu lại
  3. Mở trang tiếp theo
  4. Lặp lại 2 và 3 cho tới khi hết

3. Thực hiện

var request = require('request');
var fs = require('fs');
var _ = require('lodash');
var cheerio = require('cheerio');
var async = require('async');

// đường dẫn để crawl
var url = 'http://dzut-co-hon.tiki.vn/result?page=';

// hàm thực hiện truy vấn HTML và bóc tách dữ liệu
function crawl(currentPage, callback) {
  console.log('Going to crawl page: ' + currentPage);
  request(url + currentPage, function (r, e, b) {
    var $ = cheerio.load(b);
    $('table tr:first-child').remove();
    var $rows = $('table tr');
    if ($rows.length > 0) {
      var rows = [];
      $rows.each(function () {
        rows.push({
          email: $(this).find('td').eq(0).text(),
          product: $(this).find('td').eq(1).text(),
          batch: $(this).find('td').eq(2).text(),
          time: $(this).find('td').eq(3).text(),
          result: $(this).find('td').eq(4).text(),
        });
      });
      // ghi kết quả ra file: results/[page].json
      fs.writeFileSync('./results/' + currentPage + '.json', JSON.stringify(rows, undefined, 2));
      callback();
    } else {
      console.log('ended');
    }
  });
}

// quản lý hàng đợi, thực hiện 10 requests / thời điểm, tránh thực hiện DDOS server tiki
var queues = async.queue(function (page, done) {
  crawl(page, done);
}, 10);

// thực hiện xong
queues.drain = function () {
  console.log('ALL DONE!');
}

// 16000 là số trang kết quả của tiki
for(var _i=continuePage; _i<16000; _i++) {
  queues.push(_i);
}

4. Kết quả

[
  {
    "email": "tuyet*****@bidv.com.vn",
    "product": "Yêu Người Yêu Người Ta",
    "batch": "N/A",
    "time": "2014-08-14 16:27:55.294",
    "result": "Xém dzụt được"
  },
  {
    "email": "tuyet*****@bidv.com.vn",
    "product": "Tơ Đồng Rỏ Máu",
    "batch": "N/A",
    "time": "2014-08-14 16:24:07.573",
    "result": "Xém dzụt được"
  }
]

II. Bổ sung dữ liệu

Khi nhìn vào kết quả này, chúng ta vẫn chưa kết luận được gì, mà nếu có thì cũng không chính xác! Các dữ liệu còn thiếu:

  1. Sản phẩm, giá trị sản phẩm
  2. Email đầy đủ

Từ giá trị sản phẩm có thể nói lên được nhiều điều về “cô hồn gian lận”:

  • sản phẩm có giá trị cao sẽ hấp dẫn hơn
  • sản phẩm ít khi lặp lại (có A rồi, thôi lấy B)

Email đầy đủ có thể nói lên nhiều điều:

  • Loại trừ trường hợp mail bị che là giống nhau làm cho kết quả không còn chính xác.
  • Từ email có thể suy ra thêm nhiều thứ như: Facebook (có Facebook -> quan hệ), search Google để bổ sung thông tin

1. Thông tin sản phẩm

Thực hiện

var request = require('request');
var fs = require('fs');
var cheerio = require('cheerio');

request.get('http://dzut-co-hon.tiki.vn/', function (err, res, body) {
  if (err) {
    console.error('Lỗi', err);
    return;
  }
  var $ = cheerio.load(body);
  var products = [];
  $('.product-box .product-box-item').each(function () {
    var product = {
      name: $(this).find('span.title').attr('title').trim(),
      base_price: parseInt($(this).find('.price-regular').text().trim().replace(/[^0-9]/g, '')),
      sale_price: parseInt($(this).find('.price-sale').text().trim().replace(/[^0-9]/g, '')),
      image: $(this).find('img').attr('src'),
      discount: parseInt($(this).find('.sale-tag').text().trim().replace(/[^0-9]/g, '')),
    }
    products.push(product);
  });

  fs.writeFileSync('./results/products.json', JSON.stringify(products, undefined, 2));
  console.log('Done!');
});

Kết quả

[
  {
    "name": "Asus ZenFone 5 A501CG - 5 inch/ 2 nhân 1.6GHz/ 2 SIM/ 8GB/ 8MP/ 2110mAh",
    "base_price": 3990000,
    "sale_price": 377000,
    "image": "http://gs.tikicdn.com/assets/dch2014v2/media/white.png",
    "discount": 91
  },
  {
    "name": "Asus FonePad 7 FE170CG - 7 inch/ 8GB/ Wifi + 3G/ 3950mAh/ 2 SIM/ Hỗ Trợ Nghe Gọi",
    "base_price": 2990000,
    "sale_price": 277000,
    "image": "http://gs.tikicdn.com/assets/dch2014v2/media/white.png",
    "discount": 91
  }
]

2. Email đầy đủ (báo cho Tiki.vn fix)

Trang kết quả http://dzut-co-hon.tiki.vn/result có cái box search email bự bành ky khói lửa trên đầu, khi bạn gõ email của bạn nó sẽ hiện ra các lần dzựt, kết quả, sản phẩm dzựt và email đầy đủ.

Thử chức năng search email với cái email giả định của tui là [email protected] đã bị che là abcx*****@gmail.com:

  • abcx*****@gmail.com: không ra kết quả
  • abcx: không ra kết quả
  • gmail.com: không ra kết quả
  • abcxyz123: ra kết quả
  • [email protected]: ra kết quả

WTF? E hèm, Tui dừng lại, làm điếu thuốc cho thông não … 5, 10, 15 phút … Bingo!

  1. Tiki.vn dùng Magento (mở Tiki trong Chrome, mở console, gõ `Mage`, wah lah!)
  2. Tiki.vn’s Magento: Nginx + PHP + MySQL
  3. => dzut-co-hon.tiki.vn *: Nginx + PHP + MySQL
  4. Search trong MySQL?: full text search, LIKE
  5. Full text search: no way, overkill!
  6. LIKE: rất phổ biến

Tui suy ra thuật toán tìm kiếm của trang Dzựt Cô Hồn Online như sau:

  1. Người dùng gõ vô từ khóa
  2. Hệ thống dùng LIKE để tìm: %[từ-khóa]%
  3. Nếu kết quả là nhiều hơn 1 (hoặc 2?), không trả về
  4. Nếu kết quả là 1: trả về kết quả bao gồm đầy đủ email

=> muốn lấy được email đầy đủ, phải tạo ra từ khóa tìm kiếm trả về 1 kết quả.

Đào sâu vô toán tử LIKE của MySQL http://dev.mysql.com/doc/refman/5.0/en/pattern-matching.html, tui phát hiện ra 1 thứ dùng được

SQL pattern matching enables you to use “_” to match any single character and “%” to match an arbitrary number of characters (including zero characters).

Ký tự “_” chỉ khớp với 1 ký tự bất kỳ. Thử gõ lại từ khóa vô box search email xem nào:

  1. [email protected]: woh hoh! email đầy đủ của tui kia rồi.
  2. Thử với email bất kỳ, kết quả như mong đợi.

email-full

Đoạn này tui chỉ viết mã giả:


// đọc file kết quả đã lấy được từ bước trước

// lấy ra email đã bị che abcx*****@gmail.com

// định dạng email đã bị che thành từ khóa: [email protected]

// dùng từ khóa này lên dzut-co-hom.tiki.vn tìm kiếm
// lấy email đầy đủ
// cập nhật vô kết quả trước đó

var getMails = async.queue(function (task, done) {
  var keyword = task.keyword;
  var file = task.file;
  var hashed = task.hashed;
  request.post('http://dzut-co-hon.tiki.vn/result', { form: { email: keyword } }, function (e, r, b) {
    if (!e) {
      var $ = cheerio.load(b);
      $('table tr').eq(0).remove();
      var rows = [];
      $('table tr').each(function () {
        var row = {
          hashed: hashed,
          email: $(this).find('td').eq(0).text(),
          product: $(this).find('td').eq(1).text(),
          date: $(this).find('td').eq(2).text(),
          status: $(this).find('td').eq(3).text(),
          file: file
        };
        rows.push(row);
      })
      fs.writeFile('./results/' + file, JSON.stringify(rows, undefined, 2), done);
    } else {
      done()
    }
  })
}, 10)

Như vậy là chúng ta có đầy đủ dữ liệu cần thiết, bắt tay vào phân thích.

III. Phân tích kết quả

Khi đã có đầy đủ dữ liệu, ta có thể import vào cơ sở dữ liệu: MySQL, MongoDB và truy vấn để dễ dàng trả lời các câu hỏi ở phần đầu:

  1. Ai là người trúng thưởng?
  2. Trúng thưởng mấy lần?
  3. Trúng thưởng đợt nào?
  4. Trúng thưởng món gì?
  5. Giá trị trúng thưởng là bao nhiêu?
  6. Dzựt bao nhiêu lần thì trúng?

=> lọc ra danh sách nghi vấn:

  1. Giá trị trúng thưởng cao.
  2. Tỷ lệ dzựt / trúng rất cao (theo Tui thấy có trường hợp 100%, dzựt 1 nhát ăn liền giải to).
  3. Dzựt trúng nhiều và giải thưởng rải đều từ cao -> thấp.
  4. Đợt nào cũng trúng.

Mở rộng ra thêm tí xíu từ email có thể trả lời thêm

  1. Có mối liên quan nào giữa người trúng thưởng và nội bộ Tiki hay không?
  2. Có mối liên quan nào giữa những người trúng thưởng giải cao hay không?

Nghi vấn chiêu trò:

  1. Hệ thống tự thêm vào 1 email dzựt thành công định trước cho mỗi đợt.
  2. Chỉ hiện sản phẩm có thể dzựt cho 1 số email và sắp xếp theo giá trị từ cao tới thấp.
  3. Có câu trả lời ẩn, đúng cho tất cả câu hỏi khi giật.
  4. Bên trong Tiki sẽ có những câu trả lời chính xác hơn khi có ghi nhận địa chỉ IP tham gia Dzựt Cô Hồn Online

Viết tới đây thì Tui cũng thấy đói bụng rồi, xin kết bài viết ở khía cạnh kỹ thuật và kết quả thì Tui không có, mà có thì Tui cũng không công bố vì nó có liên quan tới Tiki cũng như quyền riêng tư cá nhân.

IV. Kết

1. Node.js cùng với hệ thống module thiệt là mạnh mẽ, nhà nhà, người người hãy học và dùng Node.js :-p

2. Trong quá trình mõ mẫm mới thấy sự chuẩn bị của Tiki cho Dzựt Cô Hồn Online năm nay thiệt là nghiêm túc

  • Năm nay chương trình Dzựt Cô Hồn Online được tách ra hệ thống máy chủ riêng để tránh ảnh hưởng Tiki.vn (năm ngoái là viết extension cho Magento, chạy chung hệ thống với trang Tiki.vn nên cả 2 cùng chết)
  • Việc tách ra dẫn đến cách chơi và phát quà khác: đăng ký ở trang Dzựt Cô Hồn Online, chơi thắng thì được phiếu giảm giá, phiếu giảm giá được tạo bên Tiki.vn.
  • Sử dụng Amazon Web Services (AWS), khu vực Singapore (giảm độ trễ khi truy cập)
  • Chỉ sử dụng chung hệ thống server CDN với Tiki.vn (nguyên nhân làm cho Tiki.vn chậm?)
  • Sử dụng Nginx + PHP-FPM

=> Tui nghĩ giải pháp của Tiki năm nay là đúng hướng và hợp lý rồi, một vài gợi ý cho Tiki cho năm sau làm tốt hơn:

  • Cho người chơi đăng ký tham gia trước, tới giờ chỉ chơi thôi -> dự đoán được số lượng người tham gia cùng lúc, tính toán máy chủ hợp lý hơn.
  • Cấu hình load balancing trước cho Nginx, khi thấy quá tải chỉ việc thêm server, reload Nginx config.
  • Tách máy chủ MySQL ra server riêng (không biết là năm nay có làm chưa?), cấu hình MySQL 1 master / 1 slave từ trước, đụng trận thì gia giảm server cho hợp lý.

3. Bài viết là sự đồng cảm của Tui đến mấy bạn giống Tui, làm kỹ thuật mà chưa đủ độ “cô hồn”.

4. Hẹn gặp lại các bạn “cô hồn” vào năm sau và cảm ơn Tiki đã đến sân chơi này.