Sunday, October 12, 2008

Một công cụ tìm kiếm tài liệu internet của Việt Nam (Hà Thanh, Đức Tuấn)

Hà Thanh, Đức Tuấn
“… Còn gì vui bằng nếu nước ta có sản phẩm cạnh tranh với thế giới? Khốn nỗi, sau khi thử tìm hiểu, so sánh, thì câu trả lời của tôi là... còn tuỳ. Tuỳ các bạn …”



Thưa các bạn sinh viên,

Chúng ta rất thường phải tìm tài liệu tiếng Việt trên mạng internet. Thì chúng ta cứ việc tìm chứ sao! Ai cấm? Mà làm sao có thể cấm được?

Tuy vậy, cho đến gần đây tôi mới biết rằng: Tìm kiếm thông tin là quyền của mỗi con người. Con người sống không thể thiếu thông tin. Ngăn cản điều này, hoặc cố tình che giấu thông tin, đều là vi phạm nhân quyền. Vậy mà người ta cứ cấm. Chỉ còn hai tháng nữa là tới ngày toàn nhân loại kỷ niệm 60 năm bản Tuyên Ngôn Nhân Quyền ( http://www.thongluan.org/vn/modules.php?name=News&file=article&sid=10) ra đời, có chữ ký của Nhà Nước CHXHCNVN “cam kết thực hiện”.

Liệu có đáng mừng?

Một nhóm tác giả Việt Nam vừa đưa ra một Công cụ tìm kiếm thông tin, có địa chỉ là XALO.com.vn, và tuyên bố: sẽ cạnh tranh với Yahoo searchGoogle search. Nếu được như vậy thì thật “tuyệt”.

Liệu chúng ta có vui mừng không, nếu ở ngay trên đất nước Việt Nam có một công cụ tìm kiếm thông tin do người Việt Nam tạo ra? Và nếu nó khách quan, thích hợp và có hiệu quả cao?

Lẽ ra, hơn ai hết, sinh viên chúng ta phải vui mừng nhất. Thậm chí, nếu công cụ của Việt Nam có kém chút ít thì có lẽ chúng ta vẫn hoan nghênh và sử dụng, hy vọng nhóm tác giả sẽ cải tiến dần. Còn gì vui bằng nếu nước ta có sản phẩm cạnh tranh với thế giới? Khốn nỗi, sau khi thử tìm hiểu, so sánh, thì câu trả lời của tôi là... còn tuỳ. Tuỳ các bạn.

Đảng cấm tìm kiếm thông tin loại nào?

“Đảng ta” dựng tường lửa để ngăn cản mọi người truy cập một số trang web có hại cho đảng. Các bạn cứ thử vào một số trang mà đảng gọi là “phản động”, của các “thế lực thù địch”... là thấy ngay: Nếu bạn không có khả năng vượt tường lửa thì đố mà truy cập được chúng.

Giấu giếm chuyện dựng tường lửa thì không nổi (nó sờ sờ ra đó), nhưng công khai thừa nhận cũng không ổn. Cách mà hiện nay đảng chọn là “lập lờ” nếu không thể “lờ tịt”.

Tuy vậy, các văn bản công khai của Nhà Nước CHXHCNVN thì không thể nói trắng trợn rằng “tao cấm chúng mày truy cập đấy”. Ít ra, Nhà nước VN cũng đã ký cam kết thực hiện bản Tuyên Ngôn Nhân Quyền.


an toàn trên xa lộ thông tin


Văn bản chính thức của Nhà Nước chỉ cấm truy cập vào hai (2) loại trang webs; và tất nhiên phải tìm cách giải thích (sao cho “nghe được”) với mọi người (và với thế giới), rằng vì sao mà chúng lại bị cấm.

- Các trang webs “phản động”: Bị cẩm truy cập vì có hại cho... dân tộc, đất nước (thực ra là hại cho sự độc quyền cai trị của đảng). Cấm trên văn bản, cho công an rình mò phát hiện, nhưng đảng vẫn không yên tâm với lòng dân ở thế kỷ XXI. Do vậy, đảng phải dựng tường lửa để ngăn cản tối đa mọi người, như chúng ta đã thấy.

- Các trang web “người nhớn”: Bị cấm, với lời giải thích là có hại cho thuần phong mỹ tục. Tôi đã thử truy cập một số trang sex, tự thấy không ham lắm. Chỉ cần biết rằng các trang sex là hợp pháp ở hầu hết các nước. Dân các nước đó tự do truy cập, miễn là trên 18 tuổi. Nhưng không vì thế mà xã hội tư bản bị “đồi trụy” hay “thối nát” hơn xã hội chúng ta. Tôi không bàn tiếp chuyện này vì e rằng lạc đề; mặc dù có bạn nói rằng Việt Nam nên tạo ra 1000 trang sex đưa sang các nước tư bản để chế độ tư bản sẽ “thối nát” tới mức tự sụp đổ (!).

Các từ ngữ thử dùng để truy cập

Tôi xin đưa ra một số kết quả tìm kiếm đã thu thập được khi thử sử dụng công cụ XALO.com.vn (của Việt Nam, so sánh với kết quả sử dụng YAHOO và GOOGLE để các bạn tự suy nghĩ, cân nhắc. Bạn nào muốn thử kiểm tra con số của tôi cũng không có gì khó khăn. Tuy vậy, tôi vẫn khuyên các bạn tự thu thập lấy kết quả của riêng mình để tự quyết định sử dụng công cụ tìm kiếm nào.

Các từ khoá (key words) đã sử dụng.

Tôi đã thử tìm từ đa đảng. Đây là một từ ngữ quá đỗi bình thường ở mọi nước. Nó bình thường như từ xã hội chủ nghĩa ở nước ta, vì chế độ mà họ công khai và tự hào là chế độ đa đảng, y như đảng ta tự hào về chế độ XHCN do đảng chọn cho toàn dân. Tuy vậy, nếu tôi không để đa đảng trong ngoặc kép (“đa đảng”) thì số trang có thể rất cao. Tới nhiều triệu. Bởi vì bất cứ tài liệu nào, hễ có chữ đa và chữ đảng (dù chúng nằm cách xa nhau) cũng bị đưa vào kết quả tìm kiếm. Nhưng nếu tôi không để đa đảng trong ngoặc kép, thì khi đa và đảng đi liền với nhau, mới được tính vào kết quả. Đó là kết quả đáp ứng tốt mục đích tìm kiếm của chúng ta.

Các từ khác tôi đã thử là đa nguyên. Đa nguyên là từ còn bình thường hơn từ đa đảng. Rồi từ nhân quyền (không hoặc có ngoặc kép). Về tên nhân vật, tôi tìm các trang có từ Nông Đức Mạnh và các trang có Bùi Tín.

Trang web “phản động” mà tôi tìm là thông luận (đây là một trong những trang mà đảng “ta” coi là nguy hiểm nhất).

Để coi thử, đảng ta có vây tường lửa với các trang SEX hay không, tôi cũng dùng các từ (thông tục) về bộ phận sinh dục nam và nữ.

Dưới đây là kết quả.


Bảng 1 : Kết quả và so sánh:




Vài nhận xét

- Nói chung, công cụ tìm kiếm VN có tốc độ tìm chậm hơn (không quan trọng) và số lượng trang tìm được thấp hơn (key words phải đặt trong ngoặc kép) – so với Yahoo và Google. Nếu bạn không đòi hỏi nhiều, thì điều này cũng không quan trọng lắm.

- Nếu không đặt từ ngữ tiếng Việt trong ngoặc kép thì kết quả sẽ rất “loạn”. Trường hợp này, công cụ của Việt Nam cho kết quả “loạn” nhiều hơn (xem kết quả tìm với nhân quyền và thông luận). Nếu không ghi “thông luận” (trong ngoặc kép) thì số trang lên tới 9 triệu; trong đó vô số trang có từ thông và từ luận nằm rất xa nhau – ví dụ một trang có câu “thông thường, mọi người vẫn bàn luận rằng...”.

- Có những từ bị cấm truy cập ở Việt Nam (đa nguyên, đa đảng, bùi tín là ví dụ). Phải rà soát nhiều mới có danh sách đầy đủ các từ bị cấm. Qua đó, chúng ta sẽ biết “đảng ta” rất sợ cái gì.

- Công cụ của VN vẫn cung cấp những trang có từ “thông luận”, nhưng mở các trang đó ra, thì không phải cái chúng ta định tìm (tạp chí “phản động Thông Luận). Nếu ghi rõ là “tạp chí thông luận” vào ô search thì được hai (2) trang của... Nhật Bản.

- Sách báo, tài liệu, văn bản của đảng có từ nhân quyền, nên đảng không thể cấm truy cập tài liệu có từ này. Nhưng số lượng tìm được rất không nhiều so với Yahoo và Google.

Có nguy hiểm không?

- Nhóm tác giả của XALO.com.vn phải tuân theo những điều mà đảng cấm. Họ phải đặt bộ lọc để dân Việt Nam không thể hiểu đa nguyên, đa đảng là gì (nếu hiểu rằng “đa đảng sẽ loạn” thì được phép). Dễ hiểu.

- Nhưng liệu nhóm này có phải công cụ của đảng nhằm dỗ dành, đánh bẫy mọi người sử dụng nó để tìm ra dấu tích của họ không? Tôi chưa dám kết luận.

Xin các bạn tự suy nghĩ.
Hà Thanh, Đức Tuấn
(SV Sư Phạm)
http://www.thongluan.org/vn/modules.php?name=News&file=article&sid=3154

No comments: