Các nhà khoa học tại Trung tâm Nghiên cứu Watson của IBM đã sáng chế ra một bộ lọc thư rác mới dựa trên cách thức giới khoa học vẫn dùng để phân tích chuỗi gien thông thường. Với tên gọi "Chung-Kwei", bộ lọc này tự động "học" các biểu mẫu từ vựng xuất hiện trong thư rác và từ đó phát hiện ra thư rác với độ chính xác lên tới 96,5%.
Trong quá trình thử nghiệm, Chung - Kwei chỉ nhận dạng nhầm duy nhất một trong số 6.000 tin nhắn là thư rác (spam).
Nguyên lý hoạt động
Isidore Rigoutsos và Tien Huynva, hai nhà nghiên cứu của Trung tâm Sinh-Tin học IBM, bắt đầu phát triển thuật toán của bộ lọc "Chung-Kwei" cách đây vài năm. Tiền thân của "Chung-Kwei" là thuật toán có tên Teiresias mà giới nghiên cứu vẫn sử dụng để phân tích các biểu mẫu chuỗi gien trên máy tính, cụ thể ở đây là trong việc giải mã protein. Thuật toán Teiresias giúp xác định tự động các đặc tính của một tế bào protein, chẳng hạn như cấu trúc và chức năng của nó, ngay trong chuỗi protein liên tiếp mà không cần phải cách ly phân tích.
"Thuật toán định mẫu có phạm vi ứng dụng cực rộng." - Rigoutsos cho biết. Thay vì nghiên cứu các chuỗi protein, "Chung-Kwei" sử dụng Teiresias để nhận dạng các chuỗi ký tự ngẫu nhiên thường xuất hiện trong spam nhưng không bao giờ xuất hiện trong một bức email bình thường.
Quá trình nghiên cứu của họ đã được trợ giúp rất nhiều nhờ lượng spam khổng lồ mà họ nhận được ngay tại sở làm của mình. "Chúng tôi nhận được rất nhiều email biết đích xác là spam. Công cụ phân tích cho phép hiển thị ngay những ký tự xuất hiện thường xuyên, dẫu cho nó có nằm ở vị trí nào khó thấy nhất trên bức thư đi chăng nữa. Nếu tiến hành phân tích thường xuyên, bạn sẽ có nguyên một bộ sưu tập nho nhỏ những ký tự thuộc về "vốn từ vựng" của spam." - Rigoutsos nói.
Một thuật toán mở
Người sử dụng có thể "uốn nắn và huấn luyện thuật toán Chung-Kwei để nó không bị đánh lừa bởi thủ thuật gian xảo "thay thế S bằng $" mà các spammer thường dùng để lọt qua bộ lọc email thông thường.
Dụng ý của nhóm tác giả là xây dựng "Chung-Kwei" dưới dạng thuật toán mở, cho phép liên tục bổ sung và cập nhật những biểu mẫu spam mà nó mới phát hiện được để mở rộng vốn từ vựng của mình. Dựa vào vốn liếng này, nó sẽ tiến hành so sánh với những email gửi vào hòm thư. Một tin nhắn chứa quá nhiều ký tự "nằm trong vùng cấm" sẽ bị từ chối thẳng cánh.
"Chúng tôi đã tiến hành thí nghiệm với một lượng lớn email: "Chung-Kwei" đã được tôi luyện qua 60.000 thư rác và 22.000 tin nhắn "trong sạch". Với một bộ xử lý đơn bình thường, thuật toán này sẽ xử lý 88.000 tin nhắn trong khoảng 15 phút. Và cứ thế, chừng nào còn có tin nhắn thì kho từ vựng của Chung-Kwei còn được bồi đắp cho dày thêm." - Rigoutsos cho biết.
Hiện các phần mềm chống spam trên thị trường đang sử dụng rất nhiều kỹ thuật nhận dạng và tiêu diệt thư rác khác nhau, song IBM tin rằng chỉ có "Chung-Kwei" là công cụ duy nhất sử dụng phương pháp phân tích mẫu gien mà thôi. Một số công cụ truy xét lộ trình và nguồn gốc của email, một số khác lại xác minh nhận dạng và xây dựng các danh sách "đen-trắng" của những địa chỉ được chấp nhận và bị từ chối.
Mặc dù vậy, để có thể được phát hành rộng rãi ra thị trường, hệ thống này còn cần phải trải qua một số dự án nghiên cứu thí điểm khác nữa.
Cầm Thi (Theo BBC)