221
2083
Thế giới số
thegioiso
/cntt/thegioiso/
497042
Phần mềm ngôn ngữ - vũ khí chống khủng bố
1
Article
2081
CNTT - Viễn thông
cntt
/cntt/
Phần mềm ngôn ngữ - vũ khí chống khủng bố
,

Một phần mềm cho phép các nhân viên an ninh tìm kiếm và phiên dịch các tài liệu ngoại ngữ, đặc biệt là tiếng Ả Rập, được tốt hơn đã được giới thiệu tại hội chợ công nghệ ở Las Vegas mới đây.

Các công nghệ cao sẽ giúp tìm kiếm những đối tượng tình nghi khủng bố.

Có một câu nói có thể đang trở thành điển tích về máy tính - rác vào, rác lại ra. Và chưa bao giờ thế giới lại trở nên ngập lụt trong thông tin rác rưởi của công nghệ số nhiều như bây giờ.

Vấn đề "mò kim đáy bể" trong "biển rác" nội dung số thậm chí còn cụ thể hoá hơn nữa đối với các nhân viên tình báo của Mỹ trong cuộc truy tìm một cái tên: Osama Bin Laden.

Với những người chỉ huy, các cơ quan tình báo của Mỹ hiện có quá ít nhân viên có đủ trình độ ngoại ngữ tiếng Ả Rập, hoặc thậm chí có ý muốn trau dồi trình độ này.

Ông Steven Cohen của Basis Technology, một công ty Mỹ chuyên về phần mềm phân tích văn bản, cho biết: "Chúng tôi thấy rằng mọi người ở Washington DC hầu hết vẫn muốn làm việc bằng tiếng Anh nếu họ có thể. Và có một số vị trí tiền đồn, nơi họ vẫn cố gắng làm việc với tiếng Ả Rập như thể đó là tiếng Anh, hoặc chuyển đổi sang tiếng Anh. Điều đó không mang lại hiệu quả. Mục tiêu của chúng tôi là cố gắng xử lý một ngôn ngữ, thích nghi, phân tích nội dung của nó và tìm kiếm theo ngôn ngữ chữ viết của chúng tôi".

Ngôn ngữ quá phong phú

Hãng Basis đã phát triển một chương trình được thiết kế để cho phép một người đọc không hiểu tiếng Ả Rập có thể tìm kiếm các đoạn văn bản của ngôn ngữ này. Đây không phải là một chương trình biên dịch, mà giống một chương trình khai thác tìm kiếm đoạn văn bản text hơn.

Bạn sẽ đưa yêu cầu truy vấn tìm kiếm bằng tiếng Anh. Sau đó, chương trình của Basis sẽ tìm và phát hiện những kết quả truy vấn của bạn theo ngôn ngữ Ả Rập, và hiển thị chúng ra trước mặt bạn.

Một trong những thách thức là ngôn ngữ Ả Rập rất phong phú và phức tạp. Mặc dù từ al-Qaeda chỉ có một cách viết trong tiếng Anh, nhưng nó có thể được thể hiện rất đa dạng và khác nhau trong ngôn ngữ Ả Rập.

"Vấn đề là 'qua' hay 'qui'." - ông Cohen nói - "Nó có thể được viết theo nhiều cách khác nhau. Một trong những thử thách đầu tiên, và một trong những điều mà chúng ta thảo luận rất nhiều ở các cơ quan an ninh khác nhau, là việc sử dụng cách tiếp cận bằng so sánh ngữ âm. Với cách này, bạn có thể tìm kiếm được kết quả phù hợp với tất cả khoảng nửa tá cách viết khác nhau về chữ al-Qaeda".

Các quan chức Mỹ không hy vọng gì nhiều về các loại công nghệ kiểu này. Họ muốn có thể tìm ra các tài liệu có chứa thông tin, chẳng hạn như các từ Osama Bin Laden và các loại vũ khí hoá học.

Các tài liệu trên, có thể là các văn bản được quét nội dung, các website, hoặc các e-mail đọc trộm, sau đó sẽ được chuyển tới những chuyên gia ngôn ngữ Ả Rập để phân tích kỹ hơn.

Ít nhất năm công ty tại cuộc triển lãm Government Convention on Emerging Technologies ở Las Vegas trong tuần trước đã cung cấp một số dạng thành phần ngôn ngữ trong phần mềm tìm kiếm của họ.

Ông John Machonis của Basis Technology cho rằng các công ty chỉ đơn giản đáp ứng nhu cầu của giới điều tra: "Việc tìm kiếm các tài liệu có thể có một cái tên, một địa điểm hoặc một cuộc hẹn là điều rất quan trọng đối với họ, và từ đó chúng sẽ dẫn tới các tài liệu khác có những cái tên tương tự. Sau đó, họ bắt đầu hình thành một dạng quan hệ giữa tất cả những người có tên được liệt kê. Bằng cách đó, các nhân viên tình báo có thể hình thành ý tưởng về các hoạt động của những người có cùng tên này, và những gì sẽ xảy ra tiếp theo. Đây chính là cách mà công nghệ có thể giúp tăng khả năng tìm kiếm và điều tra".

Lựa chọn tự nhiên

Các công cụ có thể giúp tìm kiếm Osama bin Laden

Không phải tất cả các công nghệ ngôn ngữ được trình bày tại Las Vegas đều phủ nhận quan điểm cho rằng máy tính không thể biên dịch các tài liệu Ả Rập trực tiếp sang tiếng Anh một cách chính xác.

Language Weaver là một công ty tại California, hiện đang thực hiện một công nghệ được gọi là xử lý ngôn ngữ tự nhiên theo thống kê.

Ý tưởng của Weaver là đào tạo cho phần mềm sử dụng các phương thức biên dịch hiện đang tồn tại của con người. Nói theo cách khác, chương trình sẽ học được cách dịch ngôn ngữ theo một xu hướng giống con người hơn nếu được cung cấp nhiều thông tin và kinh nghiệm dịch thuật hơn.

Bà Laurie Gerber của Language Weaver cho biết: "Ưu điểm đầu tiên là ngôn ngữ kết quả biên dịch sẽ trở nên tự nhiên hơn nhiều. Quá trình học tập mang tính thống kê này sẽ giúp hệ thống có khả năng phán đoán xem cách dịch nào là gần với lối sử dụng ngôn ngữ tự nhiên trong thực tế nhất. Ưu điểm thứ hai là vì nó học tập một cách tự động, nên bạn có thể phát triển các cặp ngôn ngữ mới cần biên dịch qua lại một cách nhanh chóng. Ưu thế thứ ba là, với cùng khả năng học tập kinh nghiệm biên dịch tự động, chúng ta có thể tuỳ chỉnh hệ thống tập trung vào bất kỳ mảng chủ đề nội dung nào".

Language Weaver đã vừa đưa ra phiên bản phần mềm biên dịch ngôn ngữ Ả Rập sang tiếng Anh. Chẳng hạn, các nhân viên chính phủ có thể sử dụng những công cụ như vậy để bám sát các diễn biến mới nhất  trên báo giới Ả Rập. Công nghệ này cũng có thể được sử dụng để hỗ trợ khả năng phiên dịch ngoài mặt trận cho binh lính Mỹ.

Bà Gerber nói: "Một trong những thứ quan trọng nhất mà nó có thể thực hiện ngay bây giờ là khả năng quét các tài liệu ngoài mặt trận, đôi khi trong điều kiện khá gian khó, và họ cần có khả năng hiểu và luận ra được những thông tin quan trọng mang tính chiến lược từ những tài liệu của đối phương. Và dù thậm chí nếu thông tin dịch ra còn quá thô về ngữ pháp, nó vẫn có thể mang tới cho họ một cấp độ tình báo chiến lược cao hơn ngoài mặt trận".

Nhu cầu an ninh thiết thực

Language Weaver xử lý văn bản biên dịch giống như con người

Tình báo chiến lược là một yếu tố quyết định, bất kể nó được cung cấp từ một máy tìm kiếm kiểu Basis hay phần mềm biên dịch của Language Weaver. Và với các quan chức chính phủ, sự lựa chọn này không nhất thiết phải duy nhất là cái này hoặc cái kia.

Chuyên gia Stephen Gale, thuộc Trung tâm Nghiên cứu Khủng bố, Chống Khủng bố An ninh Nội địa tại Viện Nghiên cứu Chính sách Nước ngoài ở Philadelphia, quả quyết rằng nhiều công nghệ được giới thiệu tại Las Vegas mới đây sẽ rất hữu ích, nếu chính phủ quyết định sử dụng chúng một cách hợp lý.

"Nhiều ví dụ công nghệ mà bạn thấy ở đây rất thú vị và là các thành phần điểm mạnh của toàn bộ một hệ thống. Đó là cách mà chúng tôi sử dụng, tích hợp chúng, và cách các tổ chức hỗ trợ những công nghệ đó để mang lại những giá trị trong lĩnh vực an ninh." - Stephen Gale nói. 

Các quan chức an ninh Mỹ không phải là những người duy nhất đang kêu gọi việc sử dụng các phần mềm hỗ trợ ngôn ngữ theo cách như vậy.  Mới đây, nhà chức trách Nhật Bản cũng đã liên hệ với công nghệ của Basis để đặt hàng một phiên bản chương trình có khả năng tìm kiếm các đoạn nội dung văn bản tiếng Ả Rập từ các yêu cầu tìm kiếm ban đầu là các ký tự tiếng Nhật.

Bình Minh (Theo BBC)

,
Ý kiến của bạn
Ý kiến bạn đọc
,
,
,
,