Sunday, February 26, 2006

குதிரைக்குக் குர்ரம்னா யானைக்கு அர்ரமா?

முன்பு சொன்ன தேடி மாற்றும் சோதனையை சோதனை - 1 என்று கொள்ளுவோம். அதில் குறித்திருந்த சொற்கள் ஐந்து

இவன்
இவனை
இவனால்
இவனோடு
இவனிடம்

இவற்றை அவன், அவனை, அவனால், அவனோடு, அவனிடம் என்பதாய் Microsoft word -ல் உள்ள find and replace மூலம் மாற்ற முயன்றோம். இப்பொழுதுள்ள நிலையில் முடியவில்லை. சிலர் அப்படி நடப்பதை நிரலியின் குறை என்று சொன்னார்கள். எனக்கு அப்படித் தோன்றவில்லை. அது வெறும் script - ஆல் ஏற்படும் சிக்கல் என்றே நான் புரிந்து கொள்ளுகிறேன்.

இதே தமிழ்ச் சொற்களை உரோமன் எழுத்தில் எழுதினால் (இதைச் சோதனை -2 என்று கொள்ளுவோம்) இதே தேடி மாற்றும் நிரலி சவ்க் என்று கண்சிமிட்டும் நேரத்தில் செய்கிறதே. அது, ஏன்?

ivan
ivanai
ivanaal
ivanoodu
ivanitam

என்ற வரிசையில் ivan என்பதை avan என்று மாற்றச் சொன்னால் மிக எளிதில் ஐந்து சொற்களையும் மாற்றுகிறது. Problem Nahi!

மொழி ஒன்றுதான், இருவேறு எழுத்துக்கள். ஒரே நிரலி உரோமன் எழுத்தில் இருந்தால் செய்கிறது. தமிழ் எழுத்தில் இருந்தால் செய்வதில்லை. மைக்ரோசாவ்ட் வோர்ட் நிரலில் Unicode compliant என்றுதான் சொல்லுகிறார்கள். குறை நிரலியிலா? நம்முடைய குறியேற்ற முறையிலா? குதிரைக்கு குர்ரம்னா, யானைக்கு அர்ரம்னு சொல்லலாமா என்பார்கள். அதைப் போல ஆங்கில எழுத்தில் செய்யும் அதே ஏரணம் [வேறு ஒன்றும் கம்பசூத்திரம் இல்லை; கொடுத்திருக்கும் சொல்லின் குறிப்புள்ளிகளை (code points) வைத்துக் கொண்டு அதே குறிப்புள்ளிகள் ஆவணத்தில் எந்தெந்த இடத்தில் தொகுதிகளாக வருகிறதோ, அந்தத் தொகுதிகளை இரண்டாவதாகக் கொடுத்திருக்கும் குறிப்புள்ளித் தொகுதிகளாக மாற்றுவது தான் find and replace.] தமிழில் வேலை செய்ய மாட்டேன் என்கிறது.

ஏன்? உடனே ஒருங்குறியாளர்கள் சொல்லுவார்கள். ன் என்பதே ஒருங்குறியின் படி ஒரு கூட்டு அல்லவா? அது ன + புள்ளி. சரி! "இவன" என்பதை "அவன" என்று மாற்று என்றால், ஐந்து சொற்களும் மாறுகிறதா? உள்ளதும் போச்சுது, தொள்ளைக் காதா!!!

முன்னாலாவது இவன் என்ற முதற்சொல்லையாவது மாற்ற முடிந்தது. இப்பொழுது அதுவும் முடியவில்லை. இப்பொழுது சொல்லுங்கள் பிழை நிரலியிடமா? அல்லது குறியேற்றத்தில் சரியானபடி நாம் தமிழெழுத்தை வரையறை செய்யாததாலா?

I am switching to English again unfortunately. Because, most Tamils writing in internet appear to be comfortable with English only in discussing technical matters. [You see, Tamil is fit only for discussing kacchara things :-((((]

The present day multipurpose programmes like WORD are so constrained by Roman type of encoding which has separate recognizable entities for vowels and consonants; When Roman script is used, the problem specifically faced above in Tamil words for "search and replace" does get solved within no time. We don't seem to be needing grammer at all; on the other hand if we render Tamil in Tamil Script, we are confounded. But why?

Why is that the developers just can't come out of the cage and think properly of Indic Scripts? Common guys, we need out - of - box solutions and not just fix-it 3M adhesives. Don't say you tweak here, and tweak there. You don't need them with Roman script.

Let us start defining our script better, identify the components and then slots required for good encoding.

அன்புடன்,
இராம.கி.

2 comments:

Anonymous said...

"சும்மா தமிழில் எழுதிக் கொண்டிருந்தால் போதுமா? ஆங்கிலத்தில் எழுதினால் தானே எல்லோரும் படிப்பபர்கள்" என்று ஒரு நண்பர் அண்மையில் எழுதினார். படித்ததும் நான் முதலில் திகைத்துக் குன்றிப் போனேன். பிறகு "நான் ஒரு பைத்தியக்ககரன் தானே" என்று எண்ணித் தேற்றிக் கொண்டேன்.)

நானும் உங்களை போல் ஒரு பைத்தியம் தான் ஐயா :)

வசந்தன்(Vasanthan) said...

ஒருங்குறி பற்றிய உங்கள் கட்டுரைகளையும், செல்வாராஜ், VOW ஆகியோரின் கட்டுரைகளையும் தொடர்ச்சியாகப் படித்து வருகிறேன்.
நல்ல முயற்சி தொடருங்கள்.