Friday, February 24, 2006

செருப்பிற்காகக் காலை வெட்டு

மைக்கொரோசவ்ட் word நிரலியைத் திறந்து கொள்ளுங்கள்.

இவன்
இவனை
இவனால்
இவனோடு
இவனிடம்

என்று ஒருங்குறியேற்றத்தில் எழுதிக் கொள்ளுங்கள்.

edit என்பதற்குப் போங்கள் search and replace -ன் மூலம் இவன் என்பதை அவன் என்று மாற்றச் சொல்லுங்கள்.

அது முதலில் இருக்கும் ஒன்றை மட்டுமே மாற்றும்; மற்ற நாலையும் விட்டு விடும்.

இப்பொழுது இவ என்பதை அவ என்று மாற்றச் சொல்லுங்கள், ஐந்தையும் சரியாக மாற்றும்.

இனி இவ என்னுமிடத்தில் இராம.கி அல்லது உங்கள் பெயர் எதோ அதை எழுதி மாற்றச் சொல்லுங்கள்; இன்னும் வேடிக்கையாக வரும்.

இப்படி ஒரு தமிழ் ஆவணத்தில் தேடி மாற்றமுடியாத நிலையில் தான் ஒருங்குறி இருக்கிறது. கேட்டால், கூகுளில் தேட முடிகிறதாம். நண்பர்கள் பலரும் சொல்லுகிறார்கள். நானோ "நம்மை எப்படி வெள்ளைக்காரர்களால் Unicode consortium வழி ஏமாற்றமுடிகிறது?" என்று எண்ணிக் கொள்கிறேன்.

இப்பொழுது புரிகிறதா? ஒருங்குறி என்று வந்தால்,

செருப்பிற்காகக் காலை வெட்டு.

அன்புடன்,
இராம.கி.

22 comments:

Vijay said...

இராம.கி அவர்களே

நான் கடந்த ஜந்து வருடங்களாக Unicode மற்றும் இந்திய மொழியில் சம்பந்தபட்ட மென்பொருட்கள் தயாரிக்கும் பணியில் உள்ளேன். மேலும் USP10.DLL இயக்கம் பற்றிய அடிப்படை கட்டமைப்பும், SIL -ன் அனேக நிரலிகளில் பணயாற்றிய அனுபவமும் உள்ளது. அகவே தங்கள் கேள்விக்கு பதில் அளிக்க விருப்புகிறேன்.

I.
நீங்கள் Ms-Word-ல் தேடல் பகுதியில் உள்ள More விருப்பத்தேர்வை சரியாக கவனிக்கவில்லை. அதில் Find wholed words only- என்பதை தேர்வு செய்வதன் முலம் "இவன்" என்கிற வார்த்தை எங்கெல்லாம் வருகிறதே அங்கு மட்டுமே மாற்ற முடியும். இது ANSI-ல் உள்ள ஆங்கில எழுத்துக்கும் பொருந்தும், Unicode-ல் உள்ள ஆங்கிலம் , தமிழ் மற்றும் பிற மொழிக்கும் பொருந்தும். முயற்று பார்க்கவும்

II
அவ்வாறு பிழை இருந்தாலும் அது Unicode-ன் பிழை அல்ல, நீங்கள் பயன்படுத்தும் நிரலியின் பிழை.

III

மேற்கட்ட தவலை Unicode-ல் எழுதிவிட்டு அதை குறை கூறுவது நல்லதல்ல.

செருப்பிற்காகக் காலை வெட்ட வேண்டாம். செருப்பை சரியான முறையில் மாட்டி இருக்கிறோமா என்று பார்த்தால் போதும். செருப்பை தவறாக மாட்டிக்கொண்டு, செருப்பை குறை சொல்ல வேண்டாம்.

மேலும் Unicode பற்றிய உங்கள் வினாக்களுக்கு பதில் அளிக்க தயாராக இருக்கிறேன்.

விஜய்
பெங்களூர்

Vijay said...

இராம.கி அவர்களே

நான் கடந்த ஜந்து வருடங்களாக Unicode மற்றும் இந்திய மொழியில் சம்பந்தபட்ட மென்பொருட்கள் தயாரிக்கும் பணியில் உள்ளேன். மேலும் USP10.DLL இயக்கம் பற்றிய அடிப்படை கட்டமைப்பும், SIL -ன் அனேக நிரலிகளில் பணயாற்றிய அனுபவமும் உள்ளது. அகவே தங்கள் கேள்விக்கு பதில் அளிக்க விருப்புகிறேன்.

I.
நீங்கள் Ms-Word-ல் தேடல் பகுதியில் உள்ள More விருப்பத்தேர்வை சரியாக கவனிக்கவில்லை. அதில் Find wholed words only- என்பதை தேர்வு செய்வதன் முலம் "இவன்" என்கிற வார்த்தை எங்கெல்லாம் வருகிறதே அங்கு மட்டுமே மாற்ற முடியும். இது ANSI-ல் உள்ள ஆங்கில எழுத்துக்கும் பொருந்தும், Unicode-ல் உள்ள ஆங்கிலம் , தமிழ் மற்றும் பிற மொழிக்கும் பொருந்தும். முயற்று பார்க்கவும்

II
அவ்வாறு பிழை இருந்தாலும் அது Unicode-ன் பிழை அல்ல, நீங்கள் பயன்படுத்தும் நிரலியின் பிழை.

III

மேற்கட்ட தவலை Unicode-ல் எழுதிவிட்டு அதை குறை கூறுவது நல்லதல்ல.

செருப்பிற்காகக் காலை வெட்ட வேண்டாம். செருப்பை சரியான முறையில் மாட்டி இருக்கிறோமா என்று பார்த்தால் போதும். செருப்பை தவறாக மாட்டிக்கொண்டு, செருப்பை குறை சொல்ல வேண்டாம்.

மேலும் Unicode பற்றிய உங்கள் வினாக்களுக்கு பதில் அளிக்க தயாராக இருக்கிறேன்.

விஜய்
பெங்களூர்

சீமாச்சு.. said...

அன்பின் இராம. கி அவர்களே..
எல்லோருக்கும் எல்லாமும் தெரிந்திருக்க வேண்டிய அவசியமில்லை.. சமயங்களில் நமக்குத் தெரியாதவற்றை மற்றவர்களிடம் கேட்டுத் தெரிந்து கொள்வதும் தவறில்லை.
உங்கள் துறையில்லாத இடங்களில்..இதை எப்படி செய்யவேண்டும் என்று கேட்டுத் தெரிந்து கொள்ளுங்கள். அது உங்களையும் வளர்க்கும். எங்களுக்கெல்லாம் தமிழில் சில விஷயங்கள் தெரியாவிட்டால்.. "ஹாங்..இதெல்லாம் தமிழில் இருக்காது..இதுக்குத்தான் இங்கிலீஷ் படிக்கணும்" னு முன் முடிவுக்கெல்லாம் வருவதில்லை.. யாருக்காவது தெரிந்திருக்க்கும். இராம. கி ஐயாவைக் கேட்கலாம் என்று கேட்கிறோம். அது போல் நீங்களும் கேட்கலாமே....

ஒருங்குறி என்பது தனி... மைக்ரோசாப்ட் வேர்டு என்பது தனி. ஒருங்குறி ஒர் புதிய வழிமுறை.. என்று எடுத்துக் கொண்டால்.. MS WORD அதைப் பயன் படுத்தும் ஒரு நிரலி மட்டுமே.. இதில் வரவில்லையென்றால் அது பிரயோசனமில்லை என்று சொல்வது..,.
எங்கள் ஊர் பெட்டிக்கடையில் அனாசின் மாதிரி கிடைக்க வில்லையென்றால்.. அந்த மருந்தே தேவையில்லை என்று சொல்வது போலிருக்கிறது உங்கள் வாதம்...

நீங்களெல்லாம் பெரியவங்க.. உங்களிடம் மிகுந்த மரியாதையுடனேயே என் கருத்துக்களை வைத்துள்ளேன்.
என்றென்றும் அன்புடன்,
சீமாச்சு...

Voice on Wings said...

Vijay, I think iramaki has not given a very suitable example to highlight the issue. I've mentioned this some where else also. Pls try the following in MS Word or OpenOffice Writer:

- create the text "and band grand stand strand"
- set the Find option to "Find whole words only"
- Do 'Find' for the string 'and'. It would highlight only the first word and ignore the rest, which is the expected and correct behaviour.
- now create the tamil text (in unicode) "மானம் அவமானம் தன்மானம் கட்டுமானம்"
- again set the Find option to 'Find whole words only"
- Do 'Find' for the string 'மானம்'. It would find not just the first word, but also the subsequent three words. This is just not acceptable! (Why? Because, if after 10 minutes of typing I realise that i've been typing 'மானம்' instead of 'மனம்' and would like to correct all such errors, and if I rely on 'find and replace', I would be changing not just the instances of மானம் to மனம், but also instances of அவமானம் and தன்மானம் to அவமனம் and தன்மனம் respectively)
- Repeat the above tamil experiment with TSCII and it would work like a charm, just like it worked for English.

Now please tell me what are your conclusions from the above.

இராம.கி said...
This comment has been removed by a blog administrator.
இராம.கி said...
This comment has been removed by a blog administrator.
இராம.கி said...

அன்பிற்குரிய விஜய்,

முதலில் வருகை தந்ததற்கு நன்றி. உங்களைப் போன்ற விவரம் தெரிந்தவர்கள் எங்களுக்குச் சொல்லிக் கொடுத்தால் நன்றாக இருக்கும்.

இவன்
இவனை
இவனால்
இவனோடு
இவனிடம்

என்Ú ´ÕíÌȢ¢ø ±Ø¾ôÀð¼ சொற்கள் ஐந்தையும் நான்

அவன்
அவனை
அவனால்
அவனோடு
அவனிடம்

என்று find and replace வைத்துச் செய்ய வேண்டும். எப்படிச் செய்வது என்று சொல்லுங்களேன்?

இதற்குள்ள வழிமுறை எது?

அன்புடன்,
இராம.கி.

இராம.கி said...

அன்பிற்குரிய சீமாச்சு,

மைக்ரோசாவ்ட் நிரலில் தனி, ஒருங்குறி என்ற குறியேற்றம் தனி என்றும் நானும் புரிந்துதான் இருக்கிறேன்.

நான் சொன்ன சோதனையை மைக்ரோசாவ்ட் word நிரலி செய்கிறதா என்று முதலில் பாருங்கள். நான் தவறு செய்திருந்தால் அதைச் சுட்டிக் காட்டுங்கள். திருத்திக் கொள்ளுகிறேன்.

சோதனை முடிவு சரியில்லை என்றால் அது நிரலியின் பிழையா, குறியேற்றத்தின் அரைகுறைத் தன்மையா என்ற கேள்விக்குப் பின்னால் வருவோம். உங்களைத் தாழ்மையுடன் கேட்டுக் கொள்வது: இது போல ஒரு சில சோதனைகளை நீங்களே செய்து பாருங்களேன்.

மைக்ரோசாவ்ட் நிரலி Office 2003 Unicode compliant என்றுதான் போட்டிருக்கிறது. அப்படியானால் என்ன பொருள்?

அன்புடன்,
இராம.கி.

dondu(#11168674346665545885) said...

இராமகி அவர்களே,

இவன்
இவனை
இவனால்
இவனோடு
இவனிடம்
ஆகியவற்றை டிஸ்கியில் எழுதி சோதித்தாலும் அதே முடிவுதானே வரும்? அதில் மட்டும் நீங்கள் எதிர்ப்பார்ப்பது வந்து விடுமா என்ன? இதில் ஒருங்குறி, நீங்கள் பரிந்துரைக்கும் டிஸ்கி எல்லாவற்றுக்கும் ஒரே நிலைதானே?

இப்பின்னூட்டத்தின் நகல் என்னுடைய தனிப்பதிவிலும் பின்னூட்டமாக இடப்படும். பார்க்க: http://dondu.blogspot.com/2005/12/2.html

அன்புடன்,
டோண்டு ராகவன்

அன்புடன்,
டோண்டு ராகவன்

இராம.கி said...

நண்பர்கள் விஜய், மற்றும் சீமாச்சு,

search and replace சாளரத்திற்குள் போய், more என்னும் பொத்தானை அமுக்கி, இன்னும் உள்ளே போய், கீழ்வரும் நாலில்

use wildcards
match kashida
match alef hamza
match half/full width forms

எதில் ஒன்றிலாவது டிக் அடித்து, replace all என்று போட்டால், வெறுமே இவன் என்பது மட்டும் அவன் என்று மாறுகிறது. மற்றவையான இவனை, இவனால், இவனோடு, இவனிடம் என்பவை மாறக் காணோம்.

அவையும் மாறவேண்டுமானால் என்ன செய்ய வேண்டும்?

சொல்லித் தாருங்களேன்?

அன்புடன்,
இராம.கி.

இரா. செல்வராசு (R.Selvaraj) said...

இது குறித்த இன்னும் கொஞ்சம் விளக்கங்களை எனது பதிவில் எழுதியுள்ளேன். விவாதங்களைக் கிளை பிரிக்க வேண்டாமென்று அங்கு மறுமொழிப் பெட்டியைத் தற்போது மூடி வைத்து விட்டேன்.

பிரச்சினையே இல்லை என்று மூடி வைக்காமல், புரிந்து கொண்டு, மேற்கொண்டு என்ன செய்யலாம் என்று யோசிக்கும் நிலைக்குச் செல்வதே சிறப்பு. புரிந்து கொள்ள இங்கு சொல்லப்பட்டிருக்கும் சிறு முயற்சியைச் செய்து பார்த்தாலே போதும். வாய்ஸ் பதிவில் டைனோ சுட்டியிருக்கும் பத்மகுமாரின் கட்டுரையையும் படிக்கலாம்.

இராம.கி said...

அன்பிற்குரிய டோண்டு,

இதில் தகுதரம் (TSCII) எங்கே வந்தது? TSCII தான் ஒரு எண்மடைக் (8 bit) குறியேற்றம் என்று எல்லோருக்கும் தெரியுமே! TSCII என்பது தொடக்க கால முயற்சியாக extended ASCII இருந்த இடத்தில் ஒண்டுக் குடித்தனம் செய்யப்பட்ட குறியேற்றம். அப்பொழுது நமக்கென்று தனியிடம் கிடைக்கவில்லை. ஒண்டுக் குடித்தனம் செய்யும் போது, இருக்கும் இடத்திற்குத் தக்க, நம் உடைமைகளை வேறுமுறையில் மருவொருங்கு (reorganize) செய்ய வேண்டிய நிலையில் இருந்தோம். அதனால் 128 பொந்துகளை அடிப்படை ASCII க்கு விட்டுவிட்டு, மீதி உள்ள 128 பொந்துகளில் நம்முடைய 247 எழுத்துக்களையும், ஒரு சில கிரந்த எழுத்துக்களையும் வைக்க வேண்டிய காரணத்தால், எழுத்துக்களை உடைத்துக் கீற்றுக்களாக்கி அந்தப் பொந்துகளில் போட்டுவைத்தோம். பின்னால் கணித்திரையில் படம் காட்டும் போது அகரமெய்யோடு ஒட்டுக் கீற்றுக்களைச் சேர்த்து, கி, கோ என்றெல்லாம் காட்டி வந்தோம். அதெல்லாம் அடிப்படைக் காலத்தில் சரி.

அப்பொழுது நம்முடைய எதிர்பார்ப்பு "கணித்திரையில் தமிழ்தெரியுமா? கணித்திரையில் தெரிவதை அச்சிட முடியுமா?" என்ற இரு கேள்விகள் மட்டுமே. அப்பொழுது தேடுதல், வரிசைப்படுத்தல், உருபியல் அலசல் என்ற வேலைகளை ஒரு பொதுப்பு வகை தேடி வரிசைப் படுத்தும் அல்கொரிதம் (general purpose search and sort algorithm) மூலம் இது போன்றக் குடித்தனக் குறியேற்றங்களில் செய்யமுடியாது என்று எல்லோருக்கும் தெரியும்; விதப்பான நிரலிகளை (specialized programmes) வைத்துத் தான் எண்மடைக் குறியேற்றத்தில் செய்ய முடியும் என்றும் தெரியும். செய்யவும் செய்தார்கள். காட்டாக முன்னாள் கணிச்சங்கத் தலைவர் திரு மனோஜ் அண்ணாதுரை TAB குறியேற்றம் வைத்து தேடி வரிசைப்படுத்தலை வெகு சரியாகச் செய்ததை அவருடைய அலுவத்தில் நானே பார்த்திருக்கிறேன். ஆனால் அது விதப்பான நிரலி.

ஒருங்குறிக் குறியேற்றம் என்பது பழைய கள் புதிய மொந்தை என்று தெரியாமல் பலர் இருக்கிறார்கள். ஒருங்குறியில் நமக்கென்று தனியிடம் கொடுத்திருக்கிறார்கள்; உண்மை. 128 பொந்துகள். (ஏன் இந்தக் கஞ்சம் என்று தெரியவில்லை.) மீண்டும் 128 பொந்திற்குள் நம்முடைய கணிவாழ்க்கையைத் தொடங்க வேண்டியிருந்ததால், இந்திய அரசு முன்னால் செய்த ISCII யைத் தான் அங்கு குடிவைத்திருக்கிறது. UNICODE is just basically ISCII encoding but kept at an unique place.

8அடிக்கு 8 அடி அறையில் வாழ்ந்து பழக்கப்பட்டுப் போன நாம் வாய்ப்புக் கிடைக்கையில் 2400 சதுர அடி கொடு என்று கேட்டுப் பெறாமல், மீண்டும் ஆண்டை (வேறு யார் வெள்ளைக்ககரன் தான்) கொடுத்த 128 பொந்துகளை, மறுபேச்சுப் பேசாமல், "மகராசன் கொடுத்திருக்கார், வாங்கிக்குனு போவியா" என்று வாங்கி வந்திருக்கிறோம். "ஏனய்யா, ஆண்டையிடம் அதிக இடம் கொடுக்கச் சொல்லிச் சத்தம் போடலாம்" என்று சொன்னால், நம்மோடு உள்ள தமிழர்களே, "8அடிக்கு 8 அடியில் இவ்வளவு நாள் வாழவில்லையா? இப்போது என்ன 2400 சதுரஅடி கேட்கிறாய்?" என்கிறார்கள். ஆண்டையோ நிலைப்புப் பொள்ளிகை (stability policy) என்று சொல்லி அதெல்லாம் செய்யமுடியாது என்கிறார்கள். இதுவும் ஒரு பித்தலாட்ட்ம். "தலித்தா? சாதி சனம் வாழும் தெருவுக்குள் நடக்கக் கூடாது; செருப்பைக் கையில் தூக்கிக் கொண்டு போகவேண்டும்; சுடுகாட்டுக்குச் சுற்றிக் கொண்டு போக வேண்டும். தேர்வடம் பிடிக்கக் கூடாது. சிவன்கோயில் வெளிச்சுற்றில் நின்றுதான் சாமி கும்பிட வெஏந்தும்..." இப்படி நம் நாட்டுப் புறங்களிலும் தான் stability policy இருக்கிறது. தலித் சமத்துவ புரம் என்றால் கூட 10 அடிக்கு 10அடி அளவில் தான் அரசே கொடுக்கிறது. அங்கும் கஞ்சத்தனம் மாறவில்லை. சேரியை ஊருக்கு வெளியில் தான் கட்டவேண்டும். எனக்கு நம்மூரின் சாதிய அடிமைத்தனம் தான் ஒருங்குறி பற்றிய காரியங்களைப் பார்த்தால் நினைவுக்கு வருகிறது. அந்த அடிமைத்தனம் நம்முடைய சிந்தனையையே மழுங்கடித்தது / மழுங்கடிக்கிறது அல்லவா? அது போல, எழுத்துக்களைக் கூறுபோட்டுப் பழகிவிட்ட ஒரே காரணத்தால் இந்த ஒருங்குறி வாய்ப்பிலும் கூறுபோட்டுக் கிண்டுங்கள் என்றால் எப்படி?

ISCII -யின் குறைகள் எல்லோரும் அறிந்ததால் தான் பல தமிழர்களும் பாடுபட்டு TSCII உருவாக்கினார்கள். மறுபடியும் 128 பொந்துகளை வைத்துக் கொண்டு ISCII யில் தோய்ந்து போவது ஒரு பின்னேற்றம் என்பது என் வாதம். ஆனால் நான் மிகச் சிறுபான்மையன். வெள்ளைக்காரன் அளித்த கொடையில் நம்மில் பெரும்பான்மையர் வியந்து போய்க் கொண்டிருக்கிறார்கள்.

இந்த ஒருங்குறியில் தமிழுக்கான குறியேற்றம் எப்படி என்றால் ஒரே அறையைக் குசினியாகவும் ஆக்கி, பின்னால் படிப்புக்கும், இருப்புக்கும், துயிலுக்கும், இன்னும் ஏதேதுக்கோ ஆக்கி முக்கி முனகிச் சாவதற்குத் தான். கூனிக் கூனிக் குறுகி வாத்தியார் ஆயிரத்தில் ஒருவன் படத்தில் விலங்கு போல ஆவார் பாருங்கள் அது போல ஆகவேண்டியது தான்.

மீண்டும் மீண்டும் சிக்கல்களைச் சொல்கிறேன்; இவர்களோ "உனக்குச் செருப்பு என்றாலே என்ன என்று தெரியவில்லை; உனக்குச் செருப்புப் போடத் தெரியவில்லை; காலை நுழைக்கத் தெரியவில்லை" என்று ஏதேதோ சொல்லுகிறார்கள். "அய்யா, எனக்கு 9 நுணுங்குழை (inch) அளவு; அதைக் கொடுப்பதற்கு மாறாக 8 நுணுங்குழை அளவைக் கொடுத்துப் போட்டுக் கொள்ளச் சொல்கிறீர்கள்" என்று சொன்னால் ஏன் இவர்களுக்குப் புரியவில்லை? டோண்டு! நான் கூறியதை இப்படிச் சரியயகப் புரிந்து கொள்ளுங்கள்:

16 மடைக் குறியேற்றமான ஒருங்குறியிலும் தேடுதல், வரிசைபடுத்தல், உருபியல் அலசல் என்ற அதே சிக்கல்கள் இருக்கின்றன. நாம் வெறும் படம் பார்த்துக் கொண்டிருக்கிறோம். இன்னும் அளவு சரியில்லை; நம் தமிழ்க் கணிமை முன்னேறவில்லை; அதை உணரக் கூட வில்லை. கொஞ்சம் கொஞ்சமாய் நீரின் சூடேறிக் கொண்டு இருக்கும் சூழ்நிலையில், தாவுவதற்கும் இயலாது போன தவளைகளாய் ஆகிக் கொண்டிருக்கிறோம்.

Let me switch over to English by breaking my usual practice. That is what many of our young guys in software and our so called intellectuals seems to be comfortable with. (They prefer to use Tamil only for poems, old literature, stories, tit-bits and the like. Anything connected with Modern, Scientific and Technical Knowledge, we Tamils don't seem to think that it is also to be written in Tamil. "சும்மா தமிழில் எழுதிக் கொண்டிருந்தால் போதுமா? ஆங்கிலத்தில் எழுதினால் தானே எல்லோரும் படிப்பபர்கள்" என்று ஒரு நண்பர் அண்மையில் எழுதினார். படித்ததும் நான் முதலில் திகைத்துக் குன்றிப் போனேன். பிறகு "நான் ஒரு பைத்தியக்ககரன் தானே" என்று எண்ணித் தேற்றிக் கொண்டேன்.)

I am not against getting a separate place for Tamil in encoding space.

1. I want a separate recognized place for Tamil Script.
2. The space given should be adequate to handle my Script and the extent of this place is to be decided by our experts and not by some commissor prevailing in a consortium.
3. We as Tamils should house a proper encoding which handles our Script as it exists (that means vowels, consonants and vowelized consonants; no hodge podge of joining glyphs to create consonats and vowelized consonants. Let me not worry about transliteration among Indic Languages which is an issue outside of encoding. ISCII encoding is an outcome obtained by placing all Indic scripts including Tamil in the altar of transliteration followed by cutting and classification.)

I will continue to higlight various problems with UNICODE in my Blog over the coming days..

அன்புடன்,
இராம.கி.

இராம.கி said...

வாத்தியார் படம் அடிமைப் பெண்ணோ?

Jayaprakash Sampath said...

அடிமைப் பெண் தான். ஆயிரத்தில் ஒருவன் அல்ல

dondu(#11168674346665545885) said...

பொறுமையாக நான் கேட்ட கேள்விக்கு பதிலளித்ததற்கு மிக்க நன்றி இராமகி அவர்களே.

மறுபடியும் உங்கள் உதாரணத்துக்கே வருவேன்.

இவன்
இவனை
இவனால்
இவனோடு
இவனிடம்
ஆகிய சொற்களில் உள்ள வேற்றுமை உருபுகள் கண்டு கொள்ளப்பட்டு அவன் என்று போட்டு ctrl H உபயோகித்து
அவன்
அவனை
அவனால்
அவனோடு
அவனிடம்
என்று மாற்றும் செயல்பாடு கேட்கிறீர்கள் என்று எனக்கு படுகிறது. எனது புரிதல் தவறானால் திருத்தவும்.

இந்தக் குறை பிரெஞ்சு, ஜெர்மன் ஆங்கிலம் என்து எல்லா மொழி எழுத்துக்களிலும் வரும். நான் புரிந்து கொண்டது என்னவென்றால் கணினிக்கு மொழியறிவு கிடையாது. வெறும் எழுத்துருக்களைத்தான் அதனால் இனம் காண முடியும் என்பது எனது துணிபு.

ஜெர்மனில் im என்பது in dem என்னும் இரு சொற்களின் சுருக்கமே. அதையெல்லாம் கணினி கண்டு கொண்டு சொற்களின் எண்ணிக்கையைக் காட்டும் மென்பொருள் (word counting software) அதை இரண்டு சொற்களாக எண்ணும் என்றெல்லாம் எதிர்ப்பார்க்க முடியாது. எங்களைப் போன்ற மொழிபெயர்ப்பாளர்கள் அவற்றை இரு வார்த்தைகளாக எண்ணுவோம். கணினி எண்ணாது. அதே போலத்தான் நீங்கள் சொல்லும் பிரச்சினையும் வருகிறது. இவ என்பதை அவ என்பதால் ரீப்ளேஸ் செய்யுமாறு ஆணை கொடுத்தால் பிரச்சினை தீர்ந்தது. அவ்வளவே. கணினிக்கு உண்டு இல்லை என்றுதான் பார்க்கத் தெரியும் என்ற பைனரி தத்துவத்தைதானே நாம் பயன்படுத்தி இவ்வளவு சாதித்துள்ளோம்? பத்தோடு பதினொண்ணாக இதை பார்ப்பதை விட்டு ஏன் அவதிப்பட வேண்டும். இதில் தலித் சேரிகளெல்லாம் எங்கிருந்து வந்தன?

ஓக்கே உங்கள் வாதத்துக்கே வருவோம். 128 பொந்துகள் போதாது என்கிறீர்கள். நல்லது. இன்னும் எவ்வளவு பொந்துகள் தேவை என்பதில் தெளிவாக இருக்கிறோமா? அது பற்றி உங்கள் இடுகைகளை ஆவலுடன் எதிர்ப்பார்க்கிறேன்.

இப்பின்னூட்டத்தின் நகல் என்னுடைய தனிப்பதிவிலும் பின்னூட்டமாக இடப்படும். பார்க்க: http://dondu.blogspot.com/2005/12/2.html

அன்புடன்,
டோண்டு ராகவன்

Anonymous said...

இராமகி, உங்கள் கடைசியான பின்னூட்டத்திலே மிகவும் தெளிவாக கணிநுட்பச்சிக்கல்களையும் நடைமுறைச்சிக்கல்களையும் சொல்லியிருக்கின்றீர்கள். உத்தமத்துக்கு முன்னைய webmasters list, tscii list ஆகியவற்றின் அஞ்சற்பரிமாற்றங்களை ஈடுபாடு உள்ளவர்கள் சென்று வாசித்தால், உயூனிகோடு எந்தளவுக்கு தோளிலே வலக்கையைப் போட்டுக்கொண்டே இடக்கையால் வெட்டும் வேலை என்று தெரியும்

arulselvan said...

I just request our friends here in computer profession to think through the Tamil encoding problem from scratch. Forget the current unicode encoding and do this as a mere exercise. If you donot come to the conclusions that Iramaki arrives at, convince others logically. Looks like the programmers are the only kind of engineers who seek unnecessary complexity as a solution. Obfuscation and longwindedness pays, folks?
arul

இராம.கி said...

அன்பிற்குரிய சிறகின் மேல் ஓசையாரே!

உங்கள் வருகைக்கு நன்றி. உங்களுடைய "மானம் அவமானம், தன்மானம், கட்டுமானம் " சொற்தொகுதி பற்றி முன்பே எழுதியிருந்தீர்கள். அதுவும் ஒரு சிக்கலே.

செய்தி என்னவென்றால், இது போல சோதனைகளை எடுத்துச் சொல்லி, "சிக்கல் இருக்கிறது, தீர்வு தாருங்கள்" என்று கேட்கிறோம். ஆனால் எல்லாவற்றையும் கூட்டிச் சமுக்காளத்திற்குக் கீழே தள்ளு என்பது தான் எதிர்வினையாகப் பலரிடம் இருக்கிறது.

இன்னும் சில சிக்கல்களை அடுத்தடுத்துச் சொல்லலாம் என்று இருக்கிறேன். (இதுவரை சோதனை 1, சோதனை 2 முடிந்தது)

உங்களின் தனிப் பதிவும் படித்தேன். அதற்கு நான் தரும் பின்னூட்டிற்குக் கொஞ்ச நாள் பொறுங்கள்.

அன்புடன்,
இராம.கி.

இராம.கி said...

அன்பிற்குரிய டோண்டு,

என்னுடைய சோதனை - 1 , சோதனை -2 இரண்டையும் மீண்டும் படியுங்கள். நான் சொல்லுவது புரியும். இன்றைக்கு இருக்கும் பல general purpose நிரலிகள் இதைச் சரியாகச் செய்வதில்லை. அதே பொழுது தமிழ் மொழி உரோமன் எழுத்தில் எழுதப்பட்டால் இதையெல்லாம் செய்யும். நான் சொல்ல வந்தது தமிழ் எழுத்து என்பது கணியில் சரியாகக் கையாளப் படவில்லை என்பதே. இதுவரை சொன்ன இரண்டு சோதனைகளில் கணி என்பது தமிழ் என்னும் மொழியை அடையாளம் காணத் தேவையே இல்லை (காணத் தேவையானதை அடுத்த சோதனையில் சொல்லுவேன்.) ஆனால் எழுத்தை அடையாளம் காணவேண்டும்.
மொழியையும் எழுத்தையும் பலர் குழப்பிக் கொள்கிறார்கள்.

நீங்கள் எழுதிய in dem = im என்பது செருமன் மொழியில் ஒருவித சுருக்கக் குறிப்பு. (ஓரளவு செருமன் மொழி தெரிந்தவன் தான். அந்தக் கால சென்னைப் பல்கலைக் கழக வேதிப் பொறியாளர் யாரும் செருமன் படிக்காமல் வெளி வரமுடியாது.) அது போன்ற சில சுருக்கக் குறிப்புகள் தமிழிலும் உண்டு. நாம் விளிம்புச் சிக்கலைப் பற்றிப் பேசவில்லை. அடித்தளமான சிக்கல்களைப் பேசுகிறோம். இன்னும் சில சோதனைகளைப் பதிவிட எண்ணியுள்ளேன். கொஞ்சம் பொறுத்திருங்கள்.

ஒப்புமையாக தலித் /சேரி என்று நான் சொன்னது stability policy என்று சொல்லி மாற்றம் செய்யவிடாமல் போக்கடிக்கும் unicode consortium பற்றியது. உங்களுக்கு அது புரிபடவில்லை போலிருக்கிறது.

மொத்தம் எவ்வளவு பொந்துகள் வேண்டும் என்பதை அடுத்தடுத்த பதிவுகளில் சொல்லுகிறேன்.

அன்புடன்,
இராம.கி.

இராம.கி said...

அன்பிற்குரிய செல்வராஜ்,

உங்களுடைய பதிவையும் படித்தேன். விளக்கிச் சொன்னதற்கு நன்றி. உங்களுடைய பின்னூட்டப் பெட்டியை மூடவேண்டியதில்லை. அங்கு படித்தவர்கள் அங்கே மறுமொழி சொன்னாலும் நல்லதே. நான் கேட்பதெல்லாம், பலருக்கும் இது விளங்கவேண்டும். இன்னும் செய்ய வேண்டிய வேலைகள் நிறைய இருக்கின்றன. அதே போல பறவைமேல் ஓசையாரின் பதிவும் படிக்கவேண்டியதொன்று. பத்மக் குமாரின் கட்டுரை நெடுநாட்களாகவே இணையத்தில் இருக்கிறது.

விவாதம் பரவலாக இருந்தால் தான் சரியான தீர்வு கிடைக்கும். ஒருங்குறிச் சேர்த்தியத்தின் வரட்டுப் பிடிவாதம் மாறவேண்டும். இந்தியமொழிகளின் எதிர்காலக் கணிமை கருதி தன்னுடைய நிலைப்புப் பொள்ளிகையைச் சற்றே விட்டுக் கொடுக்க முன்வரவேண்டும்.

அன்புடன்,
இராம.கி.

இராம.கி said...

அன்பிற்குரிய பெயரில்லாதவரே!

உங்கள் பின்னூட்டிற்கு நன்றி. நான் அந்தக் கால webmasters list, tscii list ஆகியவற்றின் அஞ்சற்பரிமாற்றங்களை ஓரளவு படித்தவன் தான். ஒருங்குறியின் மயக்கத்தில் ஈடுபட்டுக் கிடப்பவர்கள் 99 பேர், மயக்கம் என்று உணர்ந்தவர் ஒருவர், என்றுதான் இன்று விழுக்காட்டு அளவில் சொல்ல முடியும். இதை எவ்வளவு விரைவில் புரியவைத்து மயக்கத்தைத் தெளிய வைக்கிறோமோ அவ்வளவு நல்லது. இல்லையென்றால் தமிழ்நாட்டில் மடிக்குழைப் பள்ளிகள் (matriculation schools) நுழைந்து எல்லாவற்றையும் குதறிப் போட்டுத் தமிங்கிலரை உருவாக்கிய கதையாய் மாறிவிடும்.

அன்புடன்,
இராம.கி.

Yagna said...

இது சம்பந்தமாக என் கருத்துகளை அளவு காரணமாக என் பதிவில் உள்ளிட்டிருக்கிறேன்.