Friday, February 03, 2006

தமிழ் ஒருங்குறி - தேட்டைச் சிக்கல்

"அண்மையில் இங்கு ஒரு நண்பர் தமிழுலகம் மடற்குழு ஏன் ஒருங்குறிக்கு மாறக் கூடாது?"என்று கேட்டிருந்தார். ஒருங்குறி பற்றி தமிழுலகம் மடற்குழுவில் நெடுகவும் பேசியாயிற்று. அந்த நண்பர் பழைய மடல்களைக் கொஞ்சம் தேடிப் பிடித்துப் படிக்க வேண்டும். அந்த உரையாடல்கள் கொஞ்சம் சூடு பறக்க நடந்தது உண்மைதான். இருந்தாலும் நண்பர்களுக்குள் புரிதலோடு வாதிட்டதில் தவறில்லை.

அப்பொழுது ஒருங்குறி வைத்துத் தேடுதலில் உள்ள சரவல்கள் பற்றிச் சொல்லியிருந்தேன். சிலர் "ஒருங்குறியில் இருந்தால் அங்கு தேடலாம்; இங்கு தேடலாம், கூகுளில் தேடலாம்; வலைப்பதிவு வைத்துக் கொள்ளலாம்; ஒருங்குறி என்பது வாராது போல் வந்த மாமணி" என்று சொன்னார்கள். "நான் பழசைக் கட்டிக் கொண்டு அழுகிறேன்; முன்னேற்றத்திற்குத் தடைக்கல்லாக இருக்கிறேன்" என்று நக்கல் கூடச் செய்திருந்தார்கள். சரி, கொஞ்ச காலம் பொறுத்திருப்போம்; நடைமுறைச் சிக்கல்கள் வரும்போது இவர்கள் புரிந்து கொள்வார்கள் என்று நான் அப்பொழுது வாளாவிருந்தேன்.

இப்பொழுது, ஓய்வு நேரத்தில், கூகுளில் தேடிய போது தேட்டையில் உள்ள நடைமுறைச் சிக்கல் இன்னும் புலப்பட்டது.

கூகுள் என்பது பலமொழி ஆவணங்களில் சொற்களைத் தேடுவதற்கென உருவாக்கப் பட்ட நிரல். இதில் ஒருங்குறியைப் பயன் படுத்த முடியும். ஒரு சோதனையாக, இ-கலப்பை மூலம் ஒருங்குறியைத் தேர்ந்தெடுத்து keyman வழியாக "வளவு" என்ற தமிழ்ச் சொல்லைத் தட்டி கூகுளில் உள்ளிட்டேன்; அப்பொழுது வளவு என்ற சொல்லைக் கொண்ட 47 ஆவணங்கள் கிட்டின. இந்தத் தேட்டை, ஒன்று போலத் தெரியும் ஆவணங்களை ஒதுக்கி, எஞ்சியவற்றைத் தேடி எடுக்கப் பட்டது. இந்த 47-ன் சுருக்கத்தைப் படித்துப் பார்த்தால் "அவ்வளவு, இவ்வளவு, எவ்வளவு" என்று வரக் கூடிய ஆவணங்களுமாய் 6 ஆவணங்கள் உள்ளடங்கி இருந்தது தெரிந்தது. தமிழுக்குப் பொருத்தமான தேடு நிரலாய் இருக்குமானால் இந்த 6 ஆவணங்களையும் ஒதுக்கி இருக்க வேண்டும். ஆனால் அப்படிச் செய்யவில்லை. "வளவு" என்ற பெயர்ச்சொல்லோடு "வளவில், வளவால், வளவோடு, வளவை......" என்று உருபுகள் சேர்ந்து வரும் ஆவணங்களையும் இந்தத் தேடி நிரலி எடுத்துக் காட்டியிருக்க வேண்டும். ஆனால் செய்யவில்லை.

அப்படிச் செய்யாதது எதைக் காட்டுகிறது?

இன்றைய நிலையில் கூகுள் நிரலி தமிழ் ஒருங்குறி ஆவணங்களுக்கு ஓரளவுதான் பயன்படும் என்றே தெரிகிறது. இதைப் பயன்படுத்த வேண்டுமானால், நாம் பத்துப் பதினைந்து வகையில் தேட்டைகளைச் செய்ய வேண்டும். அதாவது வெறும் பெயர்ச்சொல்லோடு அமையாது, "வளவில், வளவால், வளவோடு, வளவை......" என எல்லாவித உருபுகளோடு சேர்த்து, ஒவ்வொரு முறையும் உள்ளிட்டு, அதனால் கிடைக்கும் அத்தனை ஆவணங்களையும் ஒன்று சேர்த்து, பின் அவற்றில் "அவ்வளவு, இவ்வளவு, எவ்வளவு" என்பவற்றையும், அந்தச் சொற்களோடு வேற்றுமை உருபுகள் சேர்ந்த மற்றவை கொண்ட ஆவணங்களை எல்லாம் ஒதுக்கிப் பின் தொகுக்க வேண்டும்.

ஓர்ந்து பார்த்தால் இப்படிப் பலவழியாகச் செய்யும் முறை அவ்வளவு நேர்த்தியானதாகத் தெரியவில்லை. (வேண்டுமானால், ஒவ்வொரு வாசகரும் ஒருங்குறி முறையில் ஏதேனும் ஒரு சொல்லை எடுத்துக் கொண்டு கூகுளின் மூலம் செய்து பாருங்கள்; முன்னொட்டுக்களும், பின்னொட்டுக்களுமாய் ஒரு பெயர்ச்சொல்லில் எழும் கூத்தைப் பாருங்கள். இதே போல வினைச் சொல்லுக்கு வேறு மாதிரிச் சிக்கல்கள் எழும்.)

அப்படியானால் குறை கூகுளிடமா என்றால், இல்லை என்றுதான் சொல்ல வேண்டும். தனி உயிர், தனி மெய் என அகர வரிசை எழுத்துக்களைக் கொண்ட எல்லா மொழிகளுக்கும் கூகுள் நிரலில் சரியாகவே வேலை செய்யும். மாறாகத் தனி உயிர், தனி மெய் எழுத்துக்களோடு, உயிர்மெய் எழுத்துக்களையும் கொண்ட ஒட்டுநிலை மொழிகளுக்கு, குறிப்பாக இந்திய மொழிகளுக்கு, இந்த நிரலி வேலை செய்யாது.

இந்த மொழிகளுக்கு உதவுமாப் போல, விதப்பான தனித் தனி கூகுள் தேடிகளை உருவாக்க வேண்டும்; அதாவது இந்திக்கு என ஒரு கூகுள் தேடி, தமிழுக்கு என ஒரு கூகுள் தேடி என்னுமாப் போல செய்ய வேண்டும். இது மூக்கைச் சுற்றி வளைத்துத் தொடும் வேலை அல்லவா? இப்படிச் செய்வதால், சொவ்வறையாளர்களின் (software personnel) தேவை வேண்டுமானால் கூடும்; நிறையப் பேருக்கு வேலை கிடைக்கும்; ஆனால் தமிழ், கணியில் புகுந்து விளையாடும் என்பது குதிரைக் கொம்பே. இதைத்தான் நான் முன்பு சொன்னேன்; ஆனால் ஒருங்குறிக்கு அணியமாய் இருந்த பலரும் இதைப் பொருட்படுத்தியதாய்த் தெரியவில்லை. இன்னும் சொந்னால், தமிழ் ஒரு ஒட்டுநிலை மொழி (agglutinative language) என்பதையும், நம் எழுத்தைத் தொலைத்தால் ஒழிய இன்றைய ஒருங்குறியை வைத்துக் கொண்டு, கணியில் நாம் தமிழ் எழுத்துப் படம் காட்டுவதோடு மட்டுமே அமையும் என்பதையும் கூட உணர மாட்டேம் என்று அவர்கள் இருந்தார்கள்.

அப்படியானால், நம் எழுத்தைத் தொலைப்பதா என்றால், காலிற்கேற்ற செருப்பா, செருப்பிற்கேற்ற காலா என்று நான் திருப்பிக் கேட்க வேண்டியிருக்கிறது.

இந்தக் குறைகளைப் போக்கும் வகையில் TUNE என்ற ஒரு 16 மடைக் குறியேற்றத்தைத் (16 bit encoding) தமிழ் இணையப் பல்கலைக் கழகம் முன்னிருத்திக் காட்டியிருக்கிறது. அவர்கள் ஒரு RFQ கூட வெளியீட்டு இருக்கிறார்கள். அது "கோரிக்கையற்றுக் கிடக்குதண்ணே வேரில் பழுத்த பலா" என்று எதிர் வினையில்லாமல் கிடக்கிறது. இதிலும் கூட அரசியல் தான் விரவிக் கிடக்கிறது. நடுவணரசு, மாநில அரசு ஆகியவற்றின் இன்றைய அரசியல் மாற்று நிலைகளாலும், வெளிநாட்டுத் தமிழர், உள்நாட்டுத் தமிழர் என்ற அகப்பாட்டு முரண்களாலும், அவரவர் வணிக நோக்காலும், உருப்படியான வேலை செய்ய மாட்டேம் என்கிறார்கள்; குறிப்பாக மைக்ரோசாவ்ட் முன்னிருந்து செயல்படும் ஒருங்குறிச் சேர்த்தியத்தின் நெருப்புக் கோழித்தனத்தை, நாட்டாமையை, யாரும் சுட்டிக் காட்டத் தயங்குகிறார்கள். தமிழின் எதிர்காலம் இப்படியாகப் பணயம் வைக்கப் பட்டுக் கொண்டிருக்கிறது.

தமிழுக்கு இப்பொழுது நடப்பது தான் (கணிகளில் இந்திய மொழிகள் நுழைவது என்ற புலனத்தில் தமிழ்க் கணிமை என்பது ஒரு வெள்ளோட்டம்), நாளை இந்திய மொழிகள் அனைத்துக்கும் நடக்கும் என்பதை உணரக்கூட யாரும் அணியமாய் இல்லை.

ஊதுகிற சங்கை ஊதி வைக்கிறேன். யாருக்காவது புரிந்தால் சரி. என்னைக் கேட்டால், TUNE ஒரு எதிர்காலம். ஆனால், பூனைக்கு மணி கட்டுபவர்கள் யார்?

அன்புடன்,
இராம.கி.

16 comments:

Voice on Wings said...

உங்கள் தகவலில் வியப்படைந்து, நீங்கள் குறிப்பிட்ட அதே பரிசோதனையை நானும் செய்தேன். ஏனென்றால், 'வளவு' என்று தேடினால் 'அவ்வளவு', 'இவ்வளவு' ஆகியவை வருவதற்கு வாய்ப்பில்லை என்பதுதான் எனது புரிதல். இறுதியில் உங்களுக்கு அத்தகைய விடை எவ்வாறு கிடைத்தது என்று புரிந்தது. இந்தப் பக்கத்தில் 'எவ்வளவு' என்பதை 'எவ் வளவு' என்று எழுத்துப்பிழையோடு வெளியிட்டிருக்கிறார்கள். இதன் காரணமாக அது உங்கள் தேடலில் சிக்கியிருக்கிறது.

//தமிழுக்குப் பொருத்தமான தேடு நிரலாய் இருக்குமானால் இந்த 6 ஆவணங்களையும் ஒதுக்கி இருக்க வேண்டும். ஆனால் அப்படிச் செய்யவில்லை. "வளவு" என்ற பெயர்ச்சொல்லோடு "வளவில், வளவால், வளவோடு, வளவை......" என்று உருபுகள் சேர்ந்து வரும் ஆவணங்களையும் இந்தத் தேடி நிரலி எடுத்துக் காட்டியிருக்க வேண்டும். ஆனால் செய்யவில்லை.//

இதை வைத்து நீங்கள் கூகிள் தமிழுக்குப் பொருத்தமான தேடுபொறி கிடையாது என்று நிறுவுவது சரியா என்று தெரியவில்லை. அதே அடிப்படையில், ஆங்கிலத்திலும் account என்று தேடினால், accounting, accountable, accounted ஆகிய சொற்கள் அடங்கிய பக்கங்கள் கிடைக்காமல் போகலாமென்பதால், அது ஆங்கிலத்திற்கும் பொருந்தாத தேடுபொறி என்று நிறுவ வாய்ப்பிருக்கிறது.

Voice on Wings said...

உங்கள் தகவலில் வியப்படைந்து, நீங்கள் குறிப்பிட்ட அதே பரிசோதனையை நானும் செய்தேன். ஏனென்றால், 'வளவு' என்று தேடினால் 'அவ்வளவு', 'இவ்வளவு' ஆகியவை வருவதற்கு வாய்ப்பில்லை என்பதுதான் எனது புரிதல். இறுதியில் உங்களுக்கு அத்தகைய விடை எவ்வாறு கிடைத்தது என்று புரிந்தது. இந்தப் பக்கத்தில் 'எவ்வளவு' என்பதை 'எவ் வளவு' என்று எழுத்துப்பிழையோடு வெளியிட்டிருக்கிறார்கள். இதன் காரணமாக அது உங்கள் தேடலில் சிக்கியிருக்கிறது. (அந்தப் பக்கம் முழுவதிலுமே இதுபோன்ற முத்துக்கள் நிறைந்திருப்பதைக் காணலாம்)

//தமிழுக்குப் பொருத்தமான தேடு நிரலாய் இருக்குமானால் இந்த 6 ஆவணங்களையும் ஒதுக்கி இருக்க வேண்டும். ஆனால் அப்படிச் செய்யவில்லை. "வளவு" என்ற பெயர்ச்சொல்லோடு "வளவில், வளவால், வளவோடு, வளவை......" என்று உருபுகள் சேர்ந்து வரும் ஆவணங்களையும் இந்தத் தேடி நிரலி எடுத்துக் காட்டியிருக்க வேண்டும். ஆனால் செய்யவில்லை.//

இதை வைத்து நீங்கள் கூகிள் தமிழுக்குப் பொருத்தமான தேடுபொறி கிடையாது என்று நிறுவுவது சரியா என்று தெரியவில்லை. அதே அடிப்படையில், ஆங்கிலத்திலும் account என்று தேடினால், accounting, accountable, accounted ஆகிய சொற்கள் அடங்கிய பக்கங்கள் கிடைக்காமல் போகலாமென்பதால், அது ஆங்கிலத்திற்கும் பொருந்தாத தேடுபொறி என்று நிறுவ வாய்ப்பிருக்கிறது.

பரி (Pari) said...

என்னைக் கேட்டால், TUNE ஒரு எதிர்காலம். ஆனால், பூனைக்கு மணி கட்டுபவர்கள் யார்?
>>>>>>
TUNE தாங்கள் அடுத்து என்ன செய்யப் போகிறோம், அதற்கான ஒத்துழைப்பு எப்படி யாரிடமிருந்து தேவை என்று ஒரு செய்தியும் சொல்லாமல் இருந்தால் என்ன நன்மை?

தமிழக அரசும் உலகளாவிய தன்முனைப்பாளர்களும் இணைந்து செயல்படுவதால் மட்டுமே இதை செயல்படுத்த முடியும் என்று நினைக்கிறேன். இல்லையென்றால் ரெட்டை மாட்டு வண்டியில் இரண்டு மாடும் தனித்தனியே போன கதைதான்(இது வரை நடந்தது).

aathirai said...

idhu edhirparthadhudhan. neengal thani thaniyaga valavil, valavaal
endru theda vendiyadhudhan.

ovvoru moziyin ilakanathirkum google kattu padadhu. thamiz google ezudhuvadhu dhan sirandha vazhi,

orunguriyal oralavavadhu ungalal theda mudindhadhu vetridhaane!

Mugunth said...

//இந்த மொழிகளுக்கு உதவுமாப் போல, விதப்பான தனித் தனி கூகுள் தேடிகளை உருவாக்க வேண்டும்; அதாவது இந்திக்கு என ஒரு கூகுள் தேடி, தமிழுக்கு என ஒரு கூகுள் தேடி என்னுமாப் போல செய்ய வேண்டும்.//

மொழிக்குத் தகுந்தவாறு நிரலெழுதுவது எப்படி அய்யா தவறாகும் ?? தேவைப்பட்டால் தமிழுக்குத்தகுந்தமாதிரி நிரலை செயல்பட வைக்கவேண்டும். ஆங்கிலத்திற்கு எழுதிய நிரலே தமிழுக்கும் பயன்படும்படி இருக்கவெண்டும் எப்படி எதிர்பார்க்க முடியும்.
இந்தப் பதிவில் நீங்கள் எழுதியிருக்கும் எந்த ஒரு வாதமும் எடுபடும்படி இல்லை.
வழக்கம்போல ஒருங்குறிக்கு எதிராக ஒரு வீண் குற்றச்சாட்டை வைத்திருக்கிறீர்கள்.

உங்களுக்கு இருக்கும் திறமையை பயர்பாக்ஸ் போன்ற செயலிகளை மொழிமாற்ற முயற்சிகளுக்க உதவினால் தமிழுக்கு ஒரு சிறப்பான எதிர்காலத்தை உருவாக்க முடியும்.

பயர்பாக்ஸ் தமிழாக்கத்திற்கு இந்த வலைப்பக்கத்தில் உங்கள் பங்களிப்பை அளிக்கலாம்.
http://developer.thamizha.com/firefox/

இதுபற்றிய யக்ஞாவின் பதிவையும் பாக்கவும். http://web.ics.purdue.edu/~ykalyana/blog/2006/02/blog-post.html

இராம.கி said...

அன்பிற்குரிய சிறகின் மேல்வரும் ஓசைக்காரரே! (voice on wings)

நான் கூறியதை நீங்கள் சரியாகப் புரிந்து கொள்ளவில்லை என்று எண்ணுகிறேன்.

அவ்வளவு, இவ்வளவு போன்று வரும் ஆவணங்களில் அவர்கள் ஒன்றும் பிழையாக எழுதவில்லை. அவர்களுடைய பத்திகள் சில இடங்களில் இடப் பக்கம் சரிசெய்யப் பட்ட பத்திகளாக (right justified paragraphs) வரும் பொழுது அவ் என்ற சொற்பகுதி முதல் வரியிலுமாய், வளவு என்ற பிற்பகுதி இரண்டாம் வரியிலுமாய் வந்திருக்கிறது. அவ்வளவு தான். தவிர இன்னும் சில ஆவணங்களில் சொற்களைக் கன்னா பின்னா என்று பிளந்து போட்டிருப்பது அவர்கள் பிழை என்று எனக்குத் தோன்றவில்லை. எழுதியவர்கள் ஒரு குறியேற்றத்தில் எழுதியிருப்பார்கள்; பின்னர் அதை ஒருங்குறிக்கு மாற்ற ஏதேனும் மாற்று நிரலிகளை நாடி இருந்தால் அவை இப்படிக் குதறிப் போடும். இது போன்ற நிலை, பல்வேறு குறியேற்றங்களும் மாற்றிகளும் உலவும் மின்னேற்றிய தமிழ் ஆவணங்களில்(electronic Tamil Documents) பெரிதும் பரவிக் கிடக்கும் குறைபாடு. இந்தக் குறைபாடுகளைப் பற்றிச் சொன்னால் யாரும் கேட்பதாக இல்லை. எல்லோரும் ஒருங்குறி என்ற சோதியின் முன்னே "அருட்பெருஞ் சோதியே! தனிப்பெருங் கடலே" என்று மெய்ம்மறந்து நிற்கிறார்கள். சிக்கல்களையும் புதிரிகளையும் எடுத்துச் சொன்னால் யாரும் அவற்றைக் கண்டுகொள்வதில்லை.

இனி, அவ்வளவு, இவ்வளவு, எவ்வளவு போன்ற சொற்களை எப்படிப் பிரித்துக் குதறியிருந்தாலும், அவை இருக்கும் ஆவணங்கள் வளவு என்ற தேடலில் வரக்கூடாது என்பதில் ஒப்புவீர்கள் என்றே நான் எண்ணுகிறேன்.

இப்பொழுது ஒரு ஆவணத்துள் நான் தடம் பார்த்துக் (tracking) கொண்டிருக்கிறேன் என்று வையுங்கள். ஆவணத்துள் வளவு என்ற சொல் எங்கெல்லாம் இருக்கிறதோ அதையெல்லாம் "என்வளவு" என்று திருத்தச் சொல்லி ஆணை கொடுக்க வேண்டும். என்னிடம் இருக்கும் Microsoft Word [என்னும் சொற் செலுத்தி (word processor)] அதைச் செய்யுமா, என்றால் செய்யாது. அவ்வளவு, இவ்வளவு, எவ்வளவு என்ற சொற்களிலும் புகுந்து அவ்என்வளவு, இவ்என்வளவு, எவ்என்வளவு என்று திருத்தி வைக்கும். அப்புறம் என்ன தமிழ்க் கணிமை வாழ்கிறது? இதில் ஒருங்குறி என்ன ஓவியமானது?

இதே போலத்தான் வளவு என்ற பெயர் எங்கெல்லாம் இருக்கிறதோ, அதைச் சளவு என்று திருத்த வேண்டும் என்று வைத்துக் கொள்ளுங்கள். இன்றைக்கு இருக்கும் நிரலிகள் வெறுமே வளவு என்று இருப்பவற்றை மட்டும் திருத்தி வளவில், வளவோடு, வளவால் என்பவற்றை விட்டுவிடும்.

நான் சொல்லுவது புரியவில்லையா? "இந்த மொழி ஒரு ஒட்டுநிலை மொழி. இதற்குப் பயன்படும் எழுத்துவரிசை உயிர்மெய் எழுத்துக்களை அடிப்படையாகக் கொண்டது; புணர்ச்சி என்பது இந்த மொழியில் அடிப்படையானது" என்று புரியவில்லையா?

நீங்கள் அறிவியலாராக, அல்லது பொறிஞராக இருந்தால், உயர் கணிதம் படித்திருப்பீர்கள். உயிர் எழுத்து என்பது ஒரு கொத்து (set); மெய் எழுத்து என்பது இன்னொரு கொத்து. உயிர்மெய் என்பது ஒரு மல்கிப் பெருகிய கொத்து (set obtained by multiplication); அது ஒரு புதுக்கக் கொத்து (product set); எவ்வளவு குட்டிக் கரணம் போட்டாலும், வெறுமே கூட்டல் வினையை வைத்து உயிர்மெய்க் கொத்தை உருவாக்க முடியாது.
ஆனால், உயிர் எழுத்து உருவங்களையும், அகரமேறிய மெய்யெழுத்து உருவங்களையும், கொக்கி, கால், கொம்பு போன்ற கீற்றுக்களையும் வைத்துக் கொண்டு உலகத்தையே உருட்டிக் காட்டுவேன் என்று பம்மாத்துப் பண்ணிக் கொண்டிருக்கிறார்கள், தமிழ் ஒருங்குறி பற்றிப் பேசும் சில சொவ்வறையாளர்கள்.

மொழியின் அடிப்படை தெரியாமல், தொல்காப்பியன் என்னும் இலக்கணி, உயிர் தனி, மெய் தனி, உயிர்மெய் தனி என்று நமக்கு 2700 ஆண்டுகளுக்கு முன் சொல்லவில்லை. அவன் கூற்றுப் படி, வெறுமே சடலங்களையும் (மெய்களையும்), உயிர்களையும் வைத்துக் கொண்டு உயிரோட்டமுள்ள புதல்களை, விலங்குகளை, மாந்தர்களை உருவாக்க முடியாது. You cannot do something with just a stand alone corpse and stand alone spirit, what an alive person has been so far doing. You have to be God or some Higher Entity

இரு பரிமானப் பரப்பில் ஒரு அச்சு உயிரெழுத்தைக் குறிக்கிறது என்று கொள்ளுங்கள்; இன்னொரு அச்சு மெய்யெழுத்தைக் குறிக்கிறது என்று கொள்ளுங்கள். இரண்டு அச்சுக்களுக்கும் நடுவில் உள்ள முதல் காலகத்தில் (quadrant) உள்ள புள்ளிகளின் இருப்பை ஏற்றுக் கொள்ளாமல், வெறுமே இரண்டு அச்சுக்களை வைத்துக் காரியம் சாதிக்க முடியுமா? Can a two dimensional quantity be described by an addition of two single dimensional quantities? Don't we need product of two single dimentional quantities? Can we always do a problem in maths which is described by a complex quantity by doing operation on two real numbers?

அடிப்படையைப் புரிந்துகொள்ளாமல் இவர்கள் குறியேற்றம் செய்யப் புறப்பட்டு விட்டார்கள். சொன்னால் இவர்களுக்குக் கோவம் வருகிறது.

For all indic languages, the same problem exists. Without acknowledging the concept of conjucation (புணர்ச்சி), and the centrality of vowel-consonant combinations, this canot be achieved.

நீங்கள் சொல்லிய account, accounting, accounted என்பதை எளிதில் தீர்க்கலாம் ஏனென்றால் உரோமன் எழுத்தில் உயிரும் மெய்யும் தனித்தே இருக்கின்றன. நீங்கள் இந்தச் சொற்களெல்லாம் விரவிய ஒரு ஆவணத்தை உருவாக்கி உங்கள் word செலுத்தியின் மூலம் account என்ற பகுதியைத் தேடிக் கண்டுபிடித்து மாற்றச் சொல்லுங்கள்; மாறும்.

நான் சொன்ன சிக்கல் இந்திய மொழிகளுக்கு மட்டுமில்லாமல், செமித்திய மொழிகளிலும் (அரேபிய, ஈப்ரு போன்றவை), எங்கெல்லாம் சொல்லின் வரும் எழுத்துக்கள் புணர்ச்சி விதிகளால் மாறுகிறதோ, அங்கெல்லாம் ஏற்படக்கூடிய சரவல் தான்.

நான் கூகுள் சரியான தேடி இல்லை என்று குறை கூற வரவில்லை. ஒருங்குறி என்று கூறி நம் கண்களைக் கட்டிப் போட்டு ஏமாற்ற நினைக்கிறார்கள் என்று சொல்ல வந்தேன்.

மைக்கேல் கெப்ளான் என்ற மைக்ரொசாவ்ட் வல்லுநர் எந்த அளவிற்கு தமிழின் தலைவிதியை நிருணயிப்பவராய், தமிழரை நக்கலடித்துக் கொண்டு இருக்கிறார் என்பதை அவருடைய வலைப்பதிவிற்குப் போய்ப் பாருங்கள். அவருக்குத் துதி பாடி, நம் தமிழர்களே, தங்கள் தலையில் மண்ணை வாரிப் போட்டுக் கொண்டு இருக்கிறார்கள்.

இன்னும் பின்னூட்டுக் கொடுத்த மற்றவர்களுக்கும் நான் மறுமொழி தரவேண்டும். தயவு செய்து பொறுத்திருங்கள். நேரம் கிடைக்கும் போது செய்கிறேன்.

அன்புடன்,
இராம.கி.

Voice on Wings said...

இராம.கி, உங்கள் நீண்ட விளக்கத்திற்கு நன்றி. உங்கள் பதிலைக் கண்டபின் நம்பிக்கையில்லாமல்தான் இந்தப் பரிசோதனையை என் word processor (OpenOffice Write) நிரலியில் செய்து பார்த்தேன்: "வளவு அவ்வளவு இவ்வளவு எவ்வளவு" என்று ஒருங்குறியில் உள்ளிட்டுக் கொண்டு, 'வளவு' என்று Findஇல் கொடுத்தேன். வியக்கும் வகையில், நான்கு சொற்களையும் தேடிக் கொடுத்தது. Whole words only என்பதனைத் தேர்வு செய்து கொண்ட பிறகும் இந்நான்கு சொற்களையும் கண்டெடுத்தது நிரலி. இது நிச்சயமாக ஏற்றுக் கொள்ள முடியாததே. இதே பரிசோதனையை திஸ்கி குறியில் உள்ளிட்டுச் செய்து பார்த்தால் எதிர்பார்க்கும் வகையில் வேலை செய்கிறது. (அதாவது, முதல் சொல் மட்டுமே தேடலில் கிடைக்கிறது, whole words only தேர்வு செய்த நிலையில்). இதிலிருந்து தெரிய வருவது, தமிழ் ஒருங்குறி வடிவமைப்பில் ஏதோ குறையுள்ளது, நீங்கள் கூறுவது போலவே. திஸ்கியில் (அதுவும் product setதானே?) அது சரியான முறையில் கையாளப் பட்டிருப்பதையும் கண்கூடாகக் காண முடிகிறது. இதைப் பெரிது படுத்தாமல் கம்பளத்திற்கு அடியில் பெருக்கித் தள்ளுவது அபாயகரமானதொரு அணுகுமுறை என்றே தோன்றுகிறது.

இராம.கி said...

அன்பிற்குரிய ஆதிரை,

மொழிகள் ஒவ்வொன்றிற்கும் இலக்கணங்கள் வேறு வேறு தான். ஆனால் குறியேற்றம் என்பது மொழி எழுத்துக்களைப் பொறுத்த வரை மூன்று வகைப் பட்டது. (கணிக்குள் அந்த எழுத்துக்களைக் கொண்டு வருவதை அப்புறம் பார்க்கலாம்.) அவையாவன:

1. வெறும் தனி உயிர், தனி மெய் காட்டும் அகரவரிசை (காட்டு உரோமன் எழுத்து)
2. தனி உயிர், தனி மெய் அல்லாது இவற்றின் கூட்டுப் பிறப்பான உயிர்மெய்களுக்கும் தனி எழுத்துக் காட்டும் அரிச்சுவடி (காட்டு: தமிழ்)
2. எழுத்துக்களைக் காட்டாமல் குறுங் கருத்துகளை அல்லது சொற்களையே காட்டும் படவெழுத்து (காட்டு: சீனம்)

உலகில் உள்ள மொழிகள் எல்லாம் இந்தக் குறியேற்றங்களின் படியோ, அல்லவது இவற்றின் கலவையாலோ பேச்சுமொழியை எழுத்தாக்கிக் கருத்தைப் பரிமாறிக் கொள்ளுகின்றன.

ஒரு பதினைந்து, இருபது ஆண்டுகளுக்கு முன்பு வரை முதல்வகை மொழிகளுக்கு மட்டுமே கணி என்ற நுட்பம் பயன்பட்டு வந்தது. அதன் விளைவு தான் ASCII. இரண்டாம் வகை எழுத்துக்களை கணிக்குள் கொண்டுவரும் போது "அதன் அடிப்படை வேறு; ASCII யைப் போலவே அதைச் செய்ய முடியாது" என்று வெள்ளைக்காரருக்கும், ஏன் நம்மூரில் ஒரு சிலருக்கும் கூடப் புரியவில்லை. அவர்கள் குறிக்கோள் எல்லாம் (நான் இங்கு தமிழ் என்பதை ஒரு காட்டாகவே கொள்ளுகிறேன்; மற்ற இந்திய மொழிகளுக்கும் இதே ஏரணத்தில் வாதம் எழுப்ப முடியும்.) தமிழ் எழுத்துக்களை கணித்திரையில் கொண்டு வருவது மட்டுமே. இதைத்தான் நான் படம் காட்டுவது என்று சொல்லுவேன்.

மொழி என்பது எழுத்துக்களைக் கணித்திரையில் கொண்டு வருவதல்ல. மொழியை வைத்துக் கொண்டு பல வேலைகளைச் செய்து காட்டுவது. மொழிச் செலுத்துதல் (Language processing) என்பது இன்னும் மேலானது. அதில் ஒரு மொழி ஆவணத்தை உருவாக்கும் போது தேடுதல், வரிசைப் படுத்துதல், ஒரு சொல்லுக்கு மாறாக இன்னொரு சொல்லைப் போடுதல் என இலக்கணத்திற்குச் சற்று முந்திய செயல்களும், உருபியல் அலசல் (morphological analysis) போன்ற இலக்கணச் செயல்களுமாய் இரண்டு வகையான செயல்களைச் செய்ய வேண்டும்.

முதல்வகைச் செயல், அந்தந்த எழுத்துக்களுக்குக் குறியேற்றத்தில் இருக்கும் எண்களை வைத்துக் கொண்டு, அவற்றை எண்களின் வரிசை மூலமே ஒழுங்கு படுத்துவதும், எண்களை ஒப்பிட்டே, அதாவது ஒரே மாதிரி எண்களின் தொகுதி வரும் இடங்களைக் கொண்டே, தேட்டையில் தேடிக் கொண்டு வருவதுமாய்க் காரியம் செய்ய வேண்டும். Here, you just have to compare the code points for searching and sorting; you don't need grammer. இதற்கு வழிசெய்யும் வகையில் நாம் பின்பற்றும் குறியேற்றம் இருக்க வேண்டும். இந்த அடிப்படைச் செயல்களைச் செய்ய இலக்கணம் தேடிக் கொண்டு இருக்கக் கூடாது; அப்படி இருந்தால் உலகில் இருக்கும் 600க்கும் மேற்பட்ட மொழிகளுக்கு 600க்கும் மேற்பட்ட தேட்டை நிரலிகளும், வரிசை நிரலிகளும் எழுதிக் கொண்டு இருக்க வேண்டும். அது சரியான வழிமுறை அல்ல. இதைத்தான் காலுக்கேற்ற செருப்பா, செருப்பிற்கேற்ற காலா என்று சொன்னேன்.

ஒருங்குறி என்பது ஒரு குறைப்பட்ட குறியேற்றம். இந்தக் குறியேற்றத்தில் எழுத்துக்களுக்கு (characters) பொந்துகள் கொடுத்திருப்பதாகவும், கீற்றுகளுக்கு (glyphs) கொடுப்பதில்லை என்றும் சொன்னார்கள்; ஆனால் ISCII யை அடிப்படையாகக் கொண்டதால் கொம்பு, கால், கொக்கி, இன்ன பிறவிற்கும் பொந்து கள் கொடுத்து க வையும் கொக்கியையும் சேர்த்தால் கி பிறந்துவிடும் என்று மயக்கம் காட்டுகிறார்கள். அது வெறும் தோற்றம்; "கி" என்ற ஒலி "க், இ" என்ற அடிப்படையில் இருந்து பெறப்பட்ட உயர்நிலை ஒலி என்று புரிபடாது, எல்லாவற்றையும் reductionisim என்றே பார்த்துக் கொண்டிருக்கிறார்கள். உயிருள்ள மாந்தனும் அந்த மாந்தனின் இறப்பிற்குப் பின் பிரிந்து போன அவன் உடலும், உயிரும் ஒன்றா? அந்த பிரிவை எங்கு போய் வைத்துக் கொள்வது?

The chosen encoding has to explicitly recognize the vowel-consonants; by deneying its existance and making it as a combination of some glyphs, we are making a gross mistake in handling Tamil as a language for computing.

பார்ப்பதற்கு ஒன்று போலத் தோன்றினாலும், ஏரணத்தின் படி (logically),

க் + இ is not canonically equivalent to க + கொக்கி.

It is this simple equation that Unicode consortium has failed to recognize. TUNE explicitly recognizes this non-equality.

அன்புடன்,
இராம.கி.

அமைதி விரும்பி said...

சரியான நேரத்தில் இடப்பட்ட மிகச்சரியான பதிவு இது. இது போன்ற பிரச்சினை இருப்பது எனக்கு இப்போது தான் தெரிந்தது. இந்த விடயத்தில் ஒவ்வொருவரும் செய்ய வேண்டியது என்ன?

aathirai said...

கீதா க ஈ தா வாகாது.
இப்பொழுது நான் ka+ee என்று அடித்தாலும் கீ என்று புரிந்துக்கொள்ளும் வசதி
இருக்கும்போது, வாயிலில் இருக்கும் மெசின் ஏன் தவறாக உச்சரிக்க வேண்டும்?

NLP is another different beast.

கூகிளுக்கு இந்தத் திறன் ஆங்கிலத்தில் கூட இல்லை. இதற்கும் ஒருங்குறிக்கும் சம்மந்தம் இல்லை.
Asciiயில் சேகரித்தாலும், ஒருங்குறியில் சேமித்தாலும் அதற்கு மொழி புரியாது.


டோ க்யோவில் unl என்ற universal natural language செய்திருக்கிறார்கள். இதற்கு இந்தியில் decoder
எழுதியிருக்கிறார்கள். தமிழில் எழுதவில்லை என்று நினைக்கிறேன். ஒரு மொழியிலிருந்து
மற்றொரு மொழிக்கு மாற்றுவதற்கு இடையில் இதை பயன்படுத்திக்கொள்ளலாம். இதன்மூலம்,
தேடு பொறிகளும் உண்மையில் மொழி புரிந்து தேடுமாறு செய்யலாம்.

aathirai said...

நானும் 'வளவு' என்பதை ஒருங்குறியில் கூகிளில் தேடி பார்த்தேன்.
அதில் அவ்வளவு எவ்வளவு என்று வந்தவை இந்த தளங்கள்.
அதில் உள்ளே போய் பார்த்தால், தமிழ் முரசும், சந்திரவதனாவும் தட்டச்சு
செய்யும் போது அவ் வளவு என்று இடைவெளி விட்டு தட்டச்சியிருக்கிறார்கள்.

நீங்கள் இதைத்தான் சொல்கிறீர்களா? மற்றபடி வேறு எந்த 'அவ்வளவு' தளங்களை
கண்டுபிடிக்கவில்லை.


http://tamilmurasu.asia1.com.sg/special/may-special.html

http://pennkal.blogspot.com/2003/08/4.html

Voice on Wings said...

ஆதிரை, கூகிள் தேடல்களில் பிரச்சனையிருப்பதாகத் தெரியவில்லை. ஆனால், MS Word, OpenOffice Writer போன்ற நிரலிகளில் தேடலில் (i.e. Find and Replace) பிரச்சனை இருக்கிறது. எனது பதிவில் (சுட்டி கீழே உள்ளது) நான் முகுந்திற்கு வழங்கிய பதிலைப் பாருங்கள். அதில், தமிழ் ஒருங்குறியிலுள்ள பிரச்சனைகளைப் பட்டியலிட்டிருக்கிறேன்.

நற்கீரன் said...

I have limited experience in high level and assembly language coding. From that experience I can say that it is essential to represent the full character set without the need for preprocessing for character rendering. If pre processing required for each character rendering, that is an additional burden for coders, and it adds unnecessary complexity to the soft ware. Even simple tasks such as sorting, character storage and rendering would require substantial code.

However, Kasi has expressed that current system has number of advantages. I can not recall the specifics, but an outline of the advantages of the current system by its advocates would be appreciated.

Tamil is at a stage where interface design is no longer the front end of language computing. Interface design has a standard solution, as it is just replacing the language files. Of course, in practical there may be more technical issues than that, but that is the essence.

Natural Language Processing must be efficiently developed, if we are to do any significant work in computing in Tamil. Otherwise, we would have to wait long time for some technology to dissolve these issues.

I have no expertise in NLP, but the opinion one the lead researcher (that I read some where on the Net) working for Anna or Madras Universities is same as that of Iramki.

Moreover, TUNE does seems to be a viable alternative.

Anonymous said...

«ñ½ý,
¸½¢¦Á¡Æ¢Â¢ø ¿¡ý ¾üÌÈ¢. ¬Â¢Ûõ ¿£í¸û ¦º¡øÄÅÕ¸¢È º¢ì¸ø Ò⸢ÈÐ. ì+þ-¨Â ì+¦¸¡ì¸¢Â¡¸ô À¼õ ¸¡ðθ¢È ÓÂüº¢ §¸Î¾¡ý.
Áü¦È¡ýÚ: Logic ±ýÀ¨¾ ²Ã½õ ±ýÚ ¿£í¸û ±Ø¾¢Â¢Õì¸ì ¸ñ§¼ý. ¦Áö¢Âø ÅÆì̸Ǣø «Ç¨Å¢Âø ±ýÈ ¦º¡ø¨Äô ÀÂýÀÎòи¢È¡÷¸û, «Çó¾È¢Â ¯¾×ÅÐ ±ýÛõ ¦À¡ÕÇ¢ø. «Ç¨Å ±ýÀÐ «Çì¸ô ÀÂýÀÎõ ÜÚ. ²Ã½õ ±ýÀÐ Ò¾¢Â ¦º¡øÄ¡¸ þÕ츢ÈÐ. §Å÷Ó¾ø ÑɢŨà «¾ý ÓØò§¾¡üÈõ ¸¡ðÎÅ£÷¸Ç¡?
«ýÀý,
¸Õ. ¬ÚÓ¸ò¾Á¢Æý

aathirai said...

Vow,
தற்போது என்னிடம் OpenOffice இல்லை.
247 எழுத்துக்கும் தனி தனி அறைகள் இருந்தாலும்
(நல்லாதான் இருக்கும்) தனிப்பட்ட நிரலியில்
குறைபாடுகள் இருந்தால் அது ஒருங்குறியின் குறைபாடாக
சொல்ல முடியாது.

ஒருங்குறி உலகளாவிய அளவில் உபயோகப்படுத்தப்படும்
standard. தமிழ் மட்டும் தனி தடத்தில் போவது அவ்வளவு நல்ல
யோசனையாக தெரியவில்லை.

சங்கர் said...

ஆங்கிலத்தில் உள்ள அனைத்து எழுத்துக்களும் அகர வரிசைப்படி ஒருங்குறி மற்றும் ASCII இல் உள்ளது. அதே போல் தமிழிழும் மற்ற பிற மொழிகளிழும் அகர வரிசைப்படி அனைத்து எழுத்துக்களும் (247) ஒருங்குறியிலும் இருக்குமானால் இந்தப் பேச்சே இருந்திருக்காது. அதற்கு 2 byte போதாதென்பதே UNICODE CONSORTIUM இன் எண்ணமாக இருந்திருக்கலாம். தமிழுக்கென 127 அறைகள் மட்டுமே தற்போது உள்ளன. தமிழுக்கென 300 அறைகள் பெறமுடியுமானால் தமிழிழும் வரிசைப்படுத்துதலும், தேடுதலும் எளிமையாகும்.