June 28, 2008

Unicode 5.1 သို႔ ေျပာင္းသင့္ၿပီ

ၾကိဳက္သည္ျဖစ္ေစ၊ မၾကိဳက္သည္ျဖစ္ေစ website မ်ားတြင္ Unicode 5.1 compatible Font ကို တေျဖးေျဖးျခင္း စသုံးရမွာ ေတာ့မွာျဖစ္ပါတယ္။ Myanmar web developer မ်ားအေနျဖင့္ သိသင့္သည္မ်ားကို အတိုဆုံးေဖာ္ျပလိုက္ပါတယ္။ ၁။ Myanmar character အတြက္ အေရးၾကီးသည့္ ​Unicode 5.1 Standard ကို 2008 April 4 တြင္ The Unicode Consortium မွျပဌာန္းလိုက္ျပီး သိပ္ေျပာင္းလဲဖို႕ မရွိဘူးဟု ယူဆရပါသည္။ ျမန္မာျပည္အေနျဖင့္ေတာ့ တရားဝင္ ျပဌာန္းျခင္း မရွိေသးပါ (၁)။ ​Mainstream OS မ်ားတြင္ Myanmar Font build-in ပါဖို႕ ႏွစ္အခ်ိဳ႕ၾကာႏိုင္ပါတယ္။ ၂။ Unicode Font တစ္ခုတည္းတြင္ computer ျဖင့္ေရးလို႕ ရေသာ ဘာသာစကား အားလုံးကို အကန္႕လိုက္ ပါဝင္ႏိုင္ပါတယ္။ Unicode 5.1 တြင္ ျမန္မာဘာသာအတြက္ တိုင္းရင္းသားဘာသာစကား အပါအဝင္ U+1000 မွ U+109F ထိ ၁၅၆ လုံးပါဝင္ပါတယ္။ ထို႕ေၾကာင့္ system ႏွင့္ application မ်ားသည္ annotate မွလုပ္ရဘဲ language ကို အလိုေလွ်ာက္သိရွိျပီး search engine မ်ားက localize လုပ္သြားျမည္ျဖစ္ပါသည္။ ၃။ Unicode Format သည္ data ကို အေလးေပး ေသာ format ျဖစ္ပါသည္ (၂)။ ​ Unicode Format data သိမ္းဆီးမႈ စနစ္က်ပါတယ္။ အျမင္ ဘယ္လိုျဖစ္ေနေန syllable တိုင္းတြင္ ဗ်ည္းမွစ၍ ပင့္ရစ္ဆြဲထိုး၊ finals, သရ၊ အသံ စသည့္ သက္မွတ္ထားသည့္အတိုင္း သိမ္းဆီးရမွာျဖစ္ပါတယ္။ ဥပမာ ေပါ ကို ပေ ါ ဟုသိမ္းဆီးပါမယ္ (၃)။ ဒါဟာ algorithm မ်ား ေရးသားရာတြင္ လြယ္ကူေစပါတယ္။ ဥပမာ sorting ဆို အလိုလို အဆင္ေျပသြားမလားပဲ။ ၄။ Unicode Format data သည္ data က်စ္လစ္သည္။ ဥပမာ ေအာက္ကာျမင့္ ကို U+1037 တစ္လုံး ျဖင့္ သက္မွတ္ထားပါတယ္။ Non-Unicode Font တစ္ခုျဖစ္တဲ့ Wininnwa မွာ ေအာက္ကာျမင့္ သုံးေလးခုရွိပါတယ္။ Unicode Font တြင္ အလုံးဆင့္ မရွိပါ။ အထူးရွယ္ အပဲ့အရြဲ႕ အသတ္အေညႇာက္ မ်ားမရွိပါ (၅)။​​​ ထို႕အတြက္ အျမင္ အဆင္ေျပေအာင္ ေနရာအထားအသို ညိွေပးေသာ algorithm မ်ား Unicode Format Font တြင္ ပါရွိပါတယ္။ ၅။ ျမန္မာစာ Line breaking ျပႆနာ ဟာအမ်ားသိျဖစ္ပါတယ္။ ဥပမာ တေဝးထိုး အေပၚ line မွာ က်န္ေနတာမ်ိဳး။​ ထို႕အတြက္ U+200B ကို Word break marker အျဖစ္ အသုံးျပဳရန္ Unicode standard မွ ​ဆိုထား ပါသည္။ သို႕ေသာ္လည္း web page အတြက္မူ line break ႏွင့္ indexing ေကာင္းရန္ U+200B ကို syllable break marker အသုံးျပဳျခင္းက ပို၍သင့္ေတာ္ပါမည္ (၄)။ Unicode 5.1 Font မ်ားသုံးျခင္းျဖင့္ ျမန္မာစာ အတြက္ annotate မလုပ္ပဲ Multi-lingual content ျပႏိုင္ျခင္း၊ SEO ေကာင္းျခင္း၊ စာလုံး ပိုမိုလွပျခင္း၊ data သန္႕ျခင္း၊ language processing algorithm မ်ားရွင္းလင္း လြယ္ကူျခင္း၊ font ေျပာင္းရန္ လြယ္ကူျခင္း တို႕ေၾကာင့္ Unicode 5.1 Font ​ကို တေျဖးေျဖးျခင္း ေျပာင္းလဲအသုံးျပဳၾကရမွာျဖစ္ပါတယ္။ ​ Unicode 5.1 Font ေျပာင္းရန္ Burglish Toolkit မ်ားသုံးႏိုင္ပါတယ္။ Open source Myanmar Unicode Font မ်ားကို Zawgyi.ORG တြင္ရယူႏိုင္ပါတယ္။ ၁။ Unicode 5.1.0 ၂။ Unicode Explained by J. K. Korpela 2006 ၃။ Representing Myanmar in Unicode by Martin Hosken ၄။ Discussion for Syllable breaking ၅။ Myanmar charmap rendering အေၾကာင္းရွင္းျပေပးေသာ ကိုရဲျမတ္သူ အား ေက်းဇူးတင္ပါသည္။

IT Men said....
www.zawgyi.org မွာ ေဖာ္ျပထားတာကို ျပန္လည္ေဖာက္သည္ခ်ထားတာပါ။ ကဲ.ဘယ္လိုလုပ္ၾကမလဲ။ Unicode 5.1 ကို စသံုးရေတာ့မွာတဲ့။ ၀မ္းနည္းစရာေကာင္းတာက ကၽြန္ေတာ္တို႔ blogger ေတြ မက္မက္ေမာေမာသံုးေနတဲ့ Zawgyi ႀကီးက Unicode 5.1 မဟုတ္ဘူးတဲ့။ Unicode 5.1 ျဖစ္ဖို႔အတြက္လည္း အခ်ိန္အေတာ္ၾကာဦးမွာ၊ ျဖစ္ခ်င္မွလည္း ျဖစ္လာမွာလို႔ သူတို႔ Site ထဲမွာ ေျပာထားပါတယ္။ ဒါေၾကာင့္ Zawgyi ကို မသံုးသင့္ေတာ့ဘူးလို႔ ယူဆမိပါတယ္။ ဘာေၾကာင့္လဲဆိုေတာ့ Zawgyi One Font နဲ႔ ရိုက္ထားတဲ့ data ေတြဟာ ေနာက္ဆိုရင္ သံုးရမွာ မဟုတ္ေတာ့ဘူး။ ရွင္းေအာင္ေျပာရရင္ ေနာက္ပိုင္းမွာ ျမန္မာစာ sorting စီေပးတဲ့စနစ္ေတြ၊ Searching၊ Spelling Checking စတာေတြ ေပၚလာရင္ သူတို႔ေတြက Unicode 5.1 Font ေတြသံုးၿပီး ရိုက္ထားတဲ့ data ေတြကိုပဲ လုပ္ေပးမွာ။ Zawgyi နဲ႔ ရိုက္ထားတဲ့ စာေတြကိုေတာ့ ၀မ္းနည္းပါတယ္ဗ်ာဆိုၿပီး တာ့တာ လုပ္မွာဗ်။ အခု Unicode 5.1 Font ေတြ ေပၚလာပါၿပီ။ Myanmar 3, Parabaik, Padauk, MyMyanmar ေတြပါပဲ။ ကဲ..အဲဒီထဲက ဘာေရြးၾကမလဲ။

No comments:

Post a Comment