Friday, July 11, 2008

Unicode cho chữ Việt

Unicode là một cách dùng chữ Việt theo tiêu chuẩn quốc tế cho tin học. Ðặc điểm chính của nó là người ta dùng 2 bytes (16 bits) cho mỗi mẫu tự như ô, ơ, ă . Cho đến nay có nhiều bộ chữ Việt Nam như VISCII, VPS, VNI ..vv..đang đưọc dùng rất thịnh hành trong nhiều áp dụng phần mềm khác nhau.

VISCII là một chuẩn của nhóm khoa học gia Tricholor. Trong chuẩn nầy mỗi mẫu tự được biểu diễn bằng một byte (8 bits). Nhóm Tricholor dùng các con số trống của bộ chữ ASCII ( của Mỹ - A là viết tắt cho American, trong khi VI cho Vietnamese) để biểu diễn các chữ Việt Nam có dấu. Vì con số lớn nhất có thể biểu diển bằng 1 byte là 255, đó chính là tổng số mẫu tự Việt Nam tối đa ta có thể dùng được bất cứ lúc nào. Rất tiếc chữ Việt Nam cần hơn 255 mẫu tự nên người ta phải đặt thêm bộ chữ Hoa (thí dụ như UHoàiH 1.1) hay thay thế các dấu hiệu ít dùng, như dấu ngoặc kép, bằng những mẫu tự Việt Nam cần phải có. Tức là hể muốn có đầy đủ bộ chữ Việt ta phải hy sinh vài dấu hiệu ít dùng của bộ chữ ASCII.

Bộ chữ VPS của Hội Vietnamese Professionals Society cũng dùng cùng một nguyên tắc như VISCII. Có điều khác là vì VPS được triển khai ở Pháp, nên các khoa học gia muốn bắt đầu bằng một bộ chữ dùng cho tiếng Pháp rồi mở mang thêm để dùng cho chữ Việt. Nói tóm lại, hai bộ chữ VISCII và VPS khác nhau chỉ ở chỗ quy ước dùng con số nào để biểu diễn một mẫu tự Việt Nam.

Ở Việt Nam có kiểu chữ .vnTimes rất thịnh hành trên các trang Web. Các khoa học gia thiết kế kiểu chữ nầy cũng dùng một nguyên tắc giống như trong VISCII và VPS. Nói một cách khác, ta có thể dịch (convert, map) từ kiểu chữ nầy qua kiểu chữ kia rất dễ dàng vì có mối liên hệ từng mẫu tự một (one-to-one correspondence).

Kiểu chữ VNI hơi khác một chút vì có nhiều chỗ người ta dùng 2 bytes để biểu diển một mẫu tự. VNI là một trong những bộ chữ đầu tiên được dùng cho chữ Việt trong tin học. Ðiều đáng nói là sự thành công về thương mại của VNI. Mặc dầu muốn đánh máy với bộ chữ VNI ta phải trả tiền, công ty VNI tích cực nhất trong việc triển khai các áp dụng phần mềm của VNI để phục vụ khách hàng. Trong khi đó các tổ chức Tricholor và Vietnamese Professionals Society là gồm những khoa học gia thiện nguyện, tất cả đều có việc làm toàn thời gian nên công việc triển khai phần mềm cho các bộ chữ phải bị giới hạn.

Còn VietNet chẳng qua chỉ là một quy ước về cách dùng các mẫu tự có sẵn của ASCII để đánh tiếng Việt. Những dấu dùng cho các nguyên âm được đánh thêm, thí dụ như chữ "Ðưa đón" được đánh là "DDu+a ddón". Do đó, nói cho đúng ra VietNet không phải là một bộ chữ.


Áp dụng Unicode cho chữ Việt trên mạng Web

Vovisoft dùng Unicode cho chữ Việt trên mạng Web. Ðể đọc được chữ Việt trên mạng Vovisoft bạn không cần phải download một font chữ Việt Nam nào cả. Font chữ Vovisoft dùng trên Web là "Tahoma", một Unicode font có sẵn trong Windows98 hay hệ thống máy tính nào đã cài đặt Internet Explorer 5.0. Nếu cần bạn chỉ cần sửa lại settings của browser như sau:

Internet Explorer 5.x: View Encoding chọn Western European và Auto Select

Netscape 4.x: Website Vovisoft không support Netscape. Sorry!



Cách Dùng Unicode Để Đánh Máy Tiếng Việt Trong MS-WORD và MS-Outlook

Thiết Kế MS-WORD Template:

Vào Tools \ Options \ File Location tab để xem directory của Startup files.
Ra khỏi MS-WORD và copy vnunicode.dot vào directory của startup files. Thường thường directory này là C:\Windows\Application Data\Microsoft\Word\Startup\
Mở MS-WORD trở lại và vào Tools \ Templates and Add-Ins và check check box của vnunicode.dot nếu cần.
Hiện giờ nên dùng font Tahoma cho bảo đảm. Bạn có thể vào Format \ Styles để set Tahoma làm default font. Trong tương lai có thể dùng các fonts khác như Arial, Times New Roman, v…v…

Nếu muốn thì vào Tools \ Auto Correct và uncheck hết tất cả các check boxes để MS-Word khỏi tự động đổi những chữ như i thành I (đây là một feature có thể rất phiền phức hơn là ích lợi).
Downnload vnunicode.zip

Cách Đánh Dấu:






Nói tóm lại:

đánh dấu trước, nguyên âm sau.

dùng Ctrl cho dấu đơn, Alt cho ô hay â với dấu và Ctrl + Alt cho ư hay ơ với dấu.


Thiết Kế MS Outlook Express 5:

Vào Tools \ Options \ Read.

Bấm vào nút [Fonts] - chọn "Universal Alphabet" trong khung "Font settings"
Bấm vào (Proportional font:) chọn "Tahoma"
Bấm vào (Encoding:) chọn "Unicode (UTF-8)"
Rồi bấm nút "Set As Default"


Vào Tools \ Options \ Send

Bấm vào nút [International Settings...]
Trong phần (Default encoding:) Chọn Unicode (UTF-8)
Trong phần (Mail Sending Format) bấm ô chọn "HTML"
Bấm vào nút [HTML Settings...]: trong phần (MIME message format)
Bấm vào (Encode text using:) chọn "None"

Chỉ để chuyển điện thư bằng cách Paste Unicode từ Ms Word vào Outlook Express

Thiết Kế MS-Outlook:

Thiết kế để MS-Word thành Email editor:

Nếu là Outlook 97, vào Tools rồi chọn "Use Word as Email editor".

Nếu là Outlook 2000, vào Tools \ Options \ Mail Format tab và check check box "Use Microsft Word to edit Email messages".

· Thiết kế để Outlook gửi emails dưới dạng HTML và Unicode để người nhận đọc được:

Vào Tools \ Options \ Mail Format tab. Bấm drop box của "Send in this message format" rồi chọn HTML.

Bấm nút "International Options". Sau đó bấm drop box của "Use this encoding for outgoing messages" và của "Use this encoding for unmarked received messages" rồi chọn Unicode(UTF-8) cho cả hai thứ.

http://www.vovisoft.com/vovisoft/UnicodeChoVN.htm

No comments: