வளவு: செருப்பிற்காகக் காலை வெட்டு

Friday, February 24, 2006

செருப்பிற்காகக் காலை வெட்டு

மைக்கொரோசவ்ட் word நிரலியைத் திறந்து கொள்ளுங்கள்.

இவன்
இவனை
இவனால்
இவனோடு
இவனிடம்

என்று ஒருங்குறியேற்றத்தில் எழுதிக் கொள்ளுங்கள்.

edit என்பதற்குப் போங்கள் search and replace -ன் மூலம் இவன் என்பதை அவன் என்று மாற்றச் சொல்லுங்கள்.

அது முதலில் இருக்கும் ஒன்றை மட்டுமே மாற்றும்; மற்ற நாலையும் விட்டு விடும்.

இப்பொழுது இவ என்பதை அவ என்று மாற்றச் சொல்லுங்கள், ஐந்தையும் சரியாக மாற்றும்.

இனி இவ என்னுமிடத்தில் இராம.கி அல்லது உங்கள் பெயர் எதோ அதை எழுதி மாற்றச் சொல்லுங்கள்; இன்னும் வேடிக்கையாக வரும்.

இப்படி ஒரு தமிழ் ஆவணத்தில் தேடி மாற்றமுடியாத நிலையில் தான் ஒருங்குறி இருக்கிறது. கேட்டால், கூகுளில் தேட முடிகிறதாம். நண்பர்கள் பலரும் சொல்லுகிறார்கள். நானோ "நம்மை எப்படி வெள்ளைக்காரர்களால் Unicode consortium வழி ஏமாற்றமுடிகிறது?" என்று எண்ணிக் கொள்கிறேன்.

இப்பொழுது புரிகிறதா? ஒருங்குறி என்று வந்தால்,

செருப்பிற்காகக் காலை வெட்டு.

அன்புடன்,
இராம.கி.

22 comments:

Vijay said...: இராம.கி அவர்களே

நான் கடந்த ஜந்து வருடங்களாக Unicode மற்றும் இந்திய மொழியில் சம்பந்தபட்ட மென்பொருட்கள் தயாரிக்கும் பணியில் உள்ளேன். மேலும் USP10.DLL இயக்கம் பற்றிய அடிப்படை கட்டமைப்பும், SIL -ன் அனேக நிரலிகளில் பணயாற்றிய அனுபவமும் உள்ளது. அகவே தங்கள் கேள்விக்கு பதில் அளிக்க விருப்புகிறேன்.

I.
நீங்கள் Ms-Word-ல் தேடல் பகுதியில் உள்ள More விருப்பத்தேர்வை சரியாக கவனிக்கவில்லை. அதில் Find wholed words only- என்பதை தேர்வு செய்வதன் முலம் "இவன்" என்கிற வார்த்தை எங்கெல்லாம் வருகிறதே அங்கு மட்டுமே மாற்ற முடியும். இது ANSI-ல் உள்ள ஆங்கில எழுத்துக்கும் பொருந்தும், Unicode-ல் உள்ள ஆங்கிலம் , தமிழ் மற்றும் பிற மொழிக்கும் பொருந்தும். முயற்று பார்க்கவும்

II
அவ்வாறு பிழை இருந்தாலும் அது Unicode-ன் பிழை அல்ல, நீங்கள் பயன்படுத்தும் நிரலியின் பிழை.

III

மேற்கட்ட தவலை Unicode-ல் எழுதிவிட்டு அதை குறை கூறுவது நல்லதல்ல.

செருப்பிற்காகக் காலை வெட்ட வேண்டாம். செருப்பை சரியான முறையில் மாட்டி இருக்கிறோமா என்று பார்த்தால் போதும். செருப்பை தவறாக மாட்டிக்கொண்டு, செருப்பை குறை சொல்ல வேண்டாம்.

மேலும் Unicode பற்றிய உங்கள் வினாக்களுக்கு பதில் அளிக்க தயாராக இருக்கிறேன்.

விஜய்
பெங்களூர்; Friday, February 24, 2006 10:15:00 PM
Vijay said...: இராம.கி அவர்களே

நான் கடந்த ஜந்து வருடங்களாக Unicode மற்றும் இந்திய மொழியில் சம்பந்தபட்ட மென்பொருட்கள் தயாரிக்கும் பணியில் உள்ளேன். மேலும் USP10.DLL இயக்கம் பற்றிய அடிப்படை கட்டமைப்பும், SIL -ன் அனேக நிரலிகளில் பணயாற்றிய அனுபவமும் உள்ளது. அகவே தங்கள் கேள்விக்கு பதில் அளிக்க விருப்புகிறேன்.

I.
நீங்கள் Ms-Word-ல் தேடல் பகுதியில் உள்ள More விருப்பத்தேர்வை சரியாக கவனிக்கவில்லை. அதில் Find wholed words only- என்பதை தேர்வு செய்வதன் முலம் "இவன்" என்கிற வார்த்தை எங்கெல்லாம் வருகிறதே அங்கு மட்டுமே மாற்ற முடியும். இது ANSI-ல் உள்ள ஆங்கில எழுத்துக்கும் பொருந்தும், Unicode-ல் உள்ள ஆங்கிலம் , தமிழ் மற்றும் பிற மொழிக்கும் பொருந்தும். முயற்று பார்க்கவும்

II
அவ்வாறு பிழை இருந்தாலும் அது Unicode-ன் பிழை அல்ல, நீங்கள் பயன்படுத்தும் நிரலியின் பிழை.

III

மேற்கட்ட தவலை Unicode-ல் எழுதிவிட்டு அதை குறை கூறுவது நல்லதல்ல.

செருப்பிற்காகக் காலை வெட்ட வேண்டாம். செருப்பை சரியான முறையில் மாட்டி இருக்கிறோமா என்று பார்த்தால் போதும். செருப்பை தவறாக மாட்டிக்கொண்டு, செருப்பை குறை சொல்ல வேண்டாம்.

மேலும் Unicode பற்றிய உங்கள் வினாக்களுக்கு பதில் அளிக்க தயாராக இருக்கிறேன்.

விஜய்
பெங்களூர்; Friday, February 24, 2006 10:16:00 PM
சீமாச்சு.. said...: அன்பின் இராம. கி அவர்களே..
எல்லோருக்கும் எல்லாமும் தெரிந்திருக்க வேண்டிய அவசியமில்லை.. சமயங்களில் நமக்குத் தெரியாதவற்றை மற்றவர்களிடம் கேட்டுத் தெரிந்து கொள்வதும் தவறில்லை.
உங்கள் துறையில்லாத இடங்களில்..இதை எப்படி செய்யவேண்டும் என்று கேட்டுத் தெரிந்து கொள்ளுங்கள். அது உங்களையும் வளர்க்கும். எங்களுக்கெல்லாம் தமிழில் சில விஷயங்கள் தெரியாவிட்டால்.. "ஹாங்..இதெல்லாம் தமிழில் இருக்காது..இதுக்குத்தான் இங்கிலீஷ் படிக்கணும்" னு முன் முடிவுக்கெல்லாம் வருவதில்லை.. யாருக்காவது தெரிந்திருக்க்கும். இராம. கி ஐயாவைக் கேட்கலாம் என்று கேட்கிறோம். அது போல் நீங்களும் கேட்கலாமே....

ஒருங்குறி என்பது தனி... மைக்ரோசாப்ட் வேர்டு என்பது தனி. ஒருங்குறி ஒர் புதிய வழிமுறை.. என்று எடுத்துக் கொண்டால்.. MS WORD அதைப் பயன் படுத்தும் ஒரு நிரலி மட்டுமே.. இதில் வரவில்லையென்றால் அது பிரயோசனமில்லை என்று சொல்வது..,.
எங்கள் ஊர் பெட்டிக்கடையில் அனாசின் மாதிரி கிடைக்க வில்லையென்றால்.. அந்த மருந்தே தேவையில்லை என்று சொல்வது போலிருக்கிறது உங்கள் வாதம்...

நீங்களெல்லாம் பெரியவங்க.. உங்களிடம் மிகுந்த மரியாதையுடனேயே என் கருத்துக்களை வைத்துள்ளேன்.
என்றென்றும் அன்புடன்,
சீமாச்சு...; Saturday, February 25, 2006 9:06:00 AM
Voice on Wings said...: Vijay, I think iramaki has not given a very suitable example to highlight the issue. I've mentioned this some where else also. Pls try the following in MS Word or OpenOffice Writer:

- create the text "and band grand stand strand"
- set the Find option to "Find whole words only"
- Do 'Find' for the string 'and'. It would highlight only the first word and ignore the rest, which is the expected and correct behaviour.
- now create the tamil text (in unicode) "மானம் அவமானம் தன்மானம் கட்டுமானம்"
- again set the Find option to 'Find whole words only"
- Do 'Find' for the string 'மானம்'. It would find not just the first word, but also the subsequent three words. This is just not acceptable! (Why? Because, if after 10 minutes of typing I realise that i've been typing 'மானம்' instead of 'மனம்' and would like to correct all such errors, and if I rely on 'find and replace', I would be changing not just the instances of மானம் to மனம், but also instances of அவமானம் and தன்மானம் to அவமனம் and தன்மனம் respectively)
- Repeat the above tamil experiment with TSCII and it would work like a charm, just like it worked for English.

Now please tell me what are your conclusions from the above.; Saturday, February 25, 2006 10:20:00 AM
இராம.கி said...: This comment has been removed by a blog administrator.; Saturday, February 25, 2006 3:10:00 PM
இராம.கி said...: This comment has been removed by a blog administrator.; Saturday, February 25, 2006 3:17:00 PM
இராம.கி said...: அன்பிற்குரிய விஜய்,

முதலில் வருகை தந்ததற்கு நன்றி. உங்களைப் போன்ற விவரம் தெரிந்தவர்கள் எங்களுக்குச் சொல்லிக் கொடுத்தால் நன்றாக இருக்கும்.

இவன்
இவனை
இவனால்
இவனோடு
இவனிடம்

என்Ú ´ÕíÌÈ¢Â¢ø ±Ø¾ôÀð¼ சொற்கள் ஐந்தையும் நான்

அவன்
அவனை
அவனால்
அவனோடு
அவனிடம்

என்று find and replace வைத்துச் செய்ய வேண்டும். எப்படிச் செய்வது என்று சொல்லுங்களேன்?

இதற்குள்ள வழிமுறை எது?

அன்புடன்,
இராம.கி.; Saturday, February 25, 2006 3:23:00 PM
இராம.கி said...: அன்பிற்குரிய சீமாச்சு,

மைக்ரோசாவ்ட் நிரலில் தனி, ஒருங்குறி என்ற குறியேற்றம் தனி என்றும் நானும் புரிந்துதான் இருக்கிறேன்.

நான் சொன்ன சோதனையை மைக்ரோசாவ்ட் word நிரலி செய்கிறதா என்று முதலில் பாருங்கள். நான் தவறு செய்திருந்தால் அதைச் சுட்டிக் காட்டுங்கள். திருத்திக் கொள்ளுகிறேன்.

சோதனை முடிவு சரியில்லை என்றால் அது நிரலியின் பிழையா, குறியேற்றத்தின் அரைகுறைத் தன்மையா என்ற கேள்விக்குப் பின்னால் வருவோம். உங்களைத் தாழ்மையுடன் கேட்டுக் கொள்வது: இது போல ஒரு சில சோதனைகளை நீங்களே செய்து பாருங்களேன்.

மைக்ரோசாவ்ட் நிரலி Office 2003 Unicode compliant என்றுதான் போட்டிருக்கிறது. அப்படியானால் என்ன பொருள்?

அன்புடன்,
இராம.கி.; Saturday, February 25, 2006 3:28:00 PM
dondu(#11168674346665545885) said...: இராமகி அவர்களே,

இவன்
இவனை
இவனால்
இவனோடு
இவனிடம்
ஆகியவற்றை டிஸ்கியில் எழுதி சோதித்தாலும் அதே முடிவுதானே வரும்? அதில் மட்டும் நீங்கள் எதிர்ப்பார்ப்பது வந்து விடுமா என்ன? இதில் ஒருங்குறி, நீங்கள் பரிந்துரைக்கும் டிஸ்கி எல்லாவற்றுக்கும் ஒரே நிலைதானே?

இப்பின்னூட்டத்தின் நகல் என்னுடைய தனிப்பதிவிலும் பின்னூட்டமாக இடப்படும். பார்க்க: http://dondu.blogspot.com/2005/12/2.html

அன்புடன்,
டோண்டு ராகவன்

அன்புடன்,
டோண்டு ராகவன்; Saturday, February 25, 2006 3:34:00 PM
இராம.கி said...: நண்பர்கள் விஜய், மற்றும் சீமாச்சு,

search and replace சாளரத்திற்குள் போய், more என்னும் பொத்தானை அமுக்கி, இன்னும் உள்ளே போய், கீழ்வரும் நாலில்

use wildcards
match kashida
match alef hamza
match half/full width forms

எதில் ஒன்றிலாவது டிக் அடித்து, replace all என்று போட்டால், வெறுமே இவன் என்பது மட்டும் அவன் என்று மாறுகிறது. மற்றவையான இவனை, இவனால், இவனோடு, இவனிடம் என்பவை மாறக் காணோம்.

அவையும் மாறவேண்டுமானால் என்ன செய்ய வேண்டும்?

சொல்லித் தாருங்களேன்?

அன்புடன்,
இராம.கி.; Saturday, February 25, 2006 3:46:00 PM
இரா. செல்வராசு (R.Selvaraj) said...: இது குறித்த இன்னும் கொஞ்சம் விளக்கங்களை எனது பதிவில் எழுதியுள்ளேன். விவாதங்களைக் கிளை பிரிக்க வேண்டாமென்று அங்கு மறுமொழிப் பெட்டியைத் தற்போது மூடி வைத்து விட்டேன்.

பிரச்சினையே இல்லை என்று மூடி வைக்காமல், புரிந்து கொண்டு, மேற்கொண்டு என்ன செய்யலாம் என்று யோசிக்கும் நிலைக்குச் செல்வதே சிறப்பு. புரிந்து கொள்ள இங்கு சொல்லப்பட்டிருக்கும் சிறு முயற்சியைச் செய்து பார்த்தாலே போதும். வாய்ஸ் பதிவில் டைனோ சுட்டியிருக்கும் பத்மகுமாரின் கட்டுரையையும் படிக்கலாம்.; Saturday, February 25, 2006 7:33:00 PM
இராம.கி said...: அன்பிற்குரிய டோண்டு,

இதில் தகுதரம் (TSCII) எங்கே வந்தது? TSCII தான் ஒரு எண்மடைக் (8 bit) குறியேற்றம் என்று எல்லோருக்கும் தெரியுமே! TSCII என்பது தொடக்க கால முயற்சியாக extended ASCII இருந்த இடத்தில் ஒண்டுக் குடித்தனம் செய்யப்பட்ட குறியேற்றம். அப்பொழுது நமக்கென்று தனியிடம் கிடைக்கவில்லை. ஒண்டுக் குடித்தனம் செய்யும் போது, இருக்கும் இடத்திற்குத் தக்க, நம் உடைமைகளை வேறுமுறையில் மருவொருங்கு (reorganize) செய்ய வேண்டிய நிலையில் இருந்தோம். அதனால் 128 பொந்துகளை அடிப்படை ASCII க்கு விட்டுவிட்டு, மீதி உள்ள 128 பொந்துகளில் நம்முடைய 247 எழுத்துக்களையும், ஒரு சில கிரந்த எழுத்துக்களையும் வைக்க வேண்டிய காரணத்தால், எழுத்துக்களை உடைத்துக் கீற்றுக்களாக்கி அந்தப் பொந்துகளில் போட்டுவைத்தோம். பின்னால் கணித்திரையில் படம் காட்டும் போது அகரமெய்யோடு ஒட்டுக் கீற்றுக்களைச் சேர்த்து, கி, கோ என்றெல்லாம் காட்டி வந்தோம். அதெல்லாம் அடிப்படைக் காலத்தில் சரி.

அப்பொழுது நம்முடைய எதிர்பார்ப்பு "கணித்திரையில் தமிழ்தெரியுமா? கணித்திரையில் தெரிவதை அச்சிட முடியுமா?" என்ற இரு கேள்விகள் மட்டுமே. அப்பொழுது தேடுதல், வரிசைப்படுத்தல், உருபியல் அலசல் என்ற வேலைகளை ஒரு பொதுப்பு வகை தேடி வரிசைப் படுத்தும் அல்கொரிதம் (general purpose search and sort algorithm) மூலம் இது போன்றக் குடித்தனக் குறியேற்றங்களில் செய்யமுடியாது என்று எல்லோருக்கும் தெரியும்; விதப்பான நிரலிகளை (specialized programmes) வைத்துத் தான் எண்மடைக் குறியேற்றத்தில் செய்ய முடியும் என்றும் தெரியும். செய்யவும் செய்தார்கள். காட்டாக முன்னாள் கணிச்சங்கத் தலைவர் திரு மனோஜ் அண்ணாதுரை TAB குறியேற்றம் வைத்து தேடி வரிசைப்படுத்தலை வெகு சரியாகச் செய்ததை அவருடைய அலுவத்தில் நானே பார்த்திருக்கிறேன். ஆனால் அது விதப்பான நிரலி.

ஒருங்குறிக் குறியேற்றம் என்பது பழைய கள் புதிய மொந்தை என்று தெரியாமல் பலர் இருக்கிறார்கள். ஒருங்குறியில் நமக்கென்று தனியிடம் கொடுத்திருக்கிறார்கள்; உண்மை. 128 பொந்துகள். (ஏன் இந்தக் கஞ்சம் என்று தெரியவில்லை.) மீண்டும் 128 பொந்திற்குள் நம்முடைய கணிவாழ்க்கையைத் தொடங்க வேண்டியிருந்ததால், இந்திய அரசு முன்னால் செய்த ISCII யைத் தான் அங்கு குடிவைத்திருக்கிறது. UNICODE is just basically ISCII encoding but kept at an unique place.

8அடிக்கு 8 அடி அறையில் வாழ்ந்து பழக்கப்பட்டுப் போன நாம் வாய்ப்புக் கிடைக்கையில் 2400 சதுர அடி கொடு என்று கேட்டுப் பெறாமல், மீண்டும் ஆண்டை (வேறு யார் வெள்ளைக்ககரன் தான்) கொடுத்த 128 பொந்துகளை, மறுபேச்சுப் பேசாமல், "மகராசன் கொடுத்திருக்கார், வாங்கிக்குனு போவியா" என்று வாங்கி வந்திருக்கிறோம். "ஏனய்யா, ஆண்டையிடம் அதிக இடம் கொடுக்கச் சொல்லிச் சத்தம் போடலாம்" என்று சொன்னால், நம்மோடு உள்ள தமிழர்களே, "8அடிக்கு 8 அடியில் இவ்வளவு நாள் வாழவில்லையா? இப்போது என்ன 2400 சதுரஅடி கேட்கிறாய்?" என்கிறார்கள். ஆண்டையோ நிலைப்புப் பொள்ளிகை (stability policy) என்று சொல்லி அதெல்லாம் செய்யமுடியாது என்கிறார்கள். இதுவும் ஒரு பித்தலாட்ட்ம். "தலித்தா? சாதி சனம் வாழும் தெருவுக்குள் நடக்கக் கூடாது; செருப்பைக் கையில் தூக்கிக் கொண்டு போகவேண்டும்; சுடுகாட்டுக்குச் சுற்றிக் கொண்டு போக வேண்டும். தேர்வடம் பிடிக்கக் கூடாது. சிவன்கோயில் வெளிச்சுற்றில் நின்றுதான் சாமி கும்பிட வெஏந்தும்..." இப்படி நம் நாட்டுப் புறங்களிலும் தான் stability policy இருக்கிறது. தலித் சமத்துவ புரம் என்றால் கூட 10 அடிக்கு 10அடி அளவில் தான் அரசே கொடுக்கிறது. அங்கும் கஞ்சத்தனம் மாறவில்லை. சேரியை ஊருக்கு வெளியில் தான் கட்டவேண்டும். எனக்கு நம்மூரின் சாதிய அடிமைத்தனம் தான் ஒருங்குறி பற்றிய காரியங்களைப் பார்த்தால் நினைவுக்கு வருகிறது. அந்த அடிமைத்தனம் நம்முடைய சிந்தனையையே மழுங்கடித்தது / மழுங்கடிக்கிறது அல்லவா? அது போல, எழுத்துக்களைக் கூறுபோட்டுப் பழகிவிட்ட ஒரே காரணத்தால் இந்த ஒருங்குறி வாய்ப்பிலும் கூறுபோட்டுக் கிண்டுங்கள் என்றால் எப்படி?

ISCII -யின் குறைகள் எல்லோரும் அறிந்ததால் தான் பல தமிழர்களும் பாடுபட்டு TSCII உருவாக்கினார்கள். மறுபடியும் 128 பொந்துகளை வைத்துக் கொண்டு ISCII யில் தோய்ந்து போவது ஒரு பின்னேற்றம் என்பது என் வாதம். ஆனால் நான் மிகச் சிறுபான்மையன். வெள்ளைக்காரன் அளித்த கொடையில் நம்மில் பெரும்பான்மையர் வியந்து போய்க் கொண்டிருக்கிறார்கள்.

இந்த ஒருங்குறியில் தமிழுக்கான குறியேற்றம் எப்படி என்றால் ஒரே அறையைக் குசினியாகவும் ஆக்கி, பின்னால் படிப்புக்கும், இருப்புக்கும், துயிலுக்கும், இன்னும் ஏதேதுக்கோ ஆக்கி முக்கி முனகிச் சாவதற்குத் தான். கூனிக் கூனிக் குறுகி வாத்தியார் ஆயிரத்தில் ஒருவன் படத்தில் விலங்கு போல ஆவார் பாருங்கள் அது போல ஆகவேண்டியது தான்.

மீண்டும் மீண்டும் சிக்கல்களைச் சொல்கிறேன்; இவர்களோ "உனக்குச் செருப்பு என்றாலே என்ன என்று தெரியவில்லை; உனக்குச் செருப்புப் போடத் தெரியவில்லை; காலை நுழைக்கத் தெரியவில்லை" என்று ஏதேதோ சொல்லுகிறார்கள். "அய்யா, எனக்கு 9 நுணுங்குழை (inch) அளவு; அதைக் கொடுப்பதற்கு மாறாக 8 நுணுங்குழை அளவைக் கொடுத்துப் போட்டுக் கொள்ளச் சொல்கிறீர்கள்" என்று சொன்னால் ஏன் இவர்களுக்குப் புரியவில்லை? டோண்டு! நான் கூறியதை இப்படிச் சரியயகப் புரிந்து கொள்ளுங்கள்:

16 மடைக் குறியேற்றமான ஒருங்குறியிலும் தேடுதல், வரிசைபடுத்தல், உருபியல் அலசல் என்ற அதே சிக்கல்கள் இருக்கின்றன. நாம் வெறும் படம் பார்த்துக் கொண்டிருக்கிறோம். இன்னும் அளவு சரியில்லை; நம் தமிழ்க் கணிமை முன்னேறவில்லை; அதை உணரக் கூட வில்லை. கொஞ்சம் கொஞ்சமாய் நீரின் சூடேறிக் கொண்டு இருக்கும் சூழ்நிலையில், தாவுவதற்கும் இயலாது போன தவளைகளாய் ஆகிக் கொண்டிருக்கிறோம்.

Let me switch over to English by breaking my usual practice. That is what many of our young guys in software and our so called intellectuals seems to be comfortable with. (They prefer to use Tamil only for poems, old literature, stories, tit-bits and the like. Anything connected with Modern, Scientific and Technical Knowledge, we Tamils don't seem to think that it is also to be written in Tamil. "சும்மா தமிழில் எழுதிக் கொண்டிருந்தால் போதுமா? ஆங்கிலத்தில் எழுதினால் தானே எல்லோரும் படிப்பபர்கள்" என்று ஒரு நண்பர் அண்மையில் எழுதினார். படித்ததும் நான் முதலில் திகைத்துக் குன்றிப் போனேன். பிறகு "நான் ஒரு பைத்தியக்ககரன் தானே" என்று எண்ணித் தேற்றிக் கொண்டேன்.)

I am not against getting a separate place for Tamil in encoding space.

1. I want a separate recognized place for Tamil Script.
2. The space given should be adequate to handle my Script and the extent of this place is to be decided by our experts and not by some commissor prevailing in a consortium.
3. We as Tamils should house a proper encoding which handles our Script as it exists (that means vowels, consonants and vowelized consonants; no hodge podge of joining glyphs to create consonats and vowelized consonants. Let me not worry about transliteration among Indic Languages which is an issue outside of encoding. ISCII encoding is an outcome obtained by placing all Indic scripts including Tamil in the altar of transliteration followed by cutting and classification.)

I will continue to higlight various problems with UNICODE in my Blog over the coming days..

அன்புடன்,
இராம.கி.; Sunday, February 26, 2006 12:19:00 PM
இராம.கி said...: வாத்தியார் படம் அடிமைப் பெண்ணோ?; Sunday, February 26, 2006 12:23:00 PM
Jayaprakash Sampath said...: அடிமைப் பெண் தான். ஆயிரத்தில் ஒருவன் அல்ல; Sunday, February 26, 2006 12:48:00 PM
dondu(#11168674346665545885) said...: பொறுமையாக நான் கேட்ட கேள்விக்கு பதிலளித்ததற்கு மிக்க நன்றி இராமகி அவர்களே.

மறுபடியும் உங்கள் உதாரணத்துக்கே வருவேன்.

இவன்
இவனை
இவனால்
இவனோடு
இவனிடம்
ஆகிய சொற்களில் உள்ள வேற்றுமை உருபுகள் கண்டு கொள்ளப்பட்டு அவன் என்று போட்டு ctrl H உபயோகித்து
அவன்
அவனை
அவனால்
அவனோடு
அவனிடம்
என்று மாற்றும் செயல்பாடு கேட்கிறீர்கள் என்று எனக்கு படுகிறது. எனது புரிதல் தவறானால் திருத்தவும்.

இந்தக் குறை பிரெஞ்சு, ஜெர்மன் ஆங்கிலம் என்து எல்லா மொழி எழுத்துக்களிலும் வரும். நான் புரிந்து கொண்டது என்னவென்றால் கணினிக்கு மொழியறிவு கிடையாது. வெறும் எழுத்துருக்களைத்தான் அதனால் இனம் காண முடியும் என்பது எனது துணிபு.

ஜெர்மனில் im என்பது in dem என்னும் இரு சொற்களின் சுருக்கமே. அதையெல்லாம் கணினி கண்டு கொண்டு சொற்களின் எண்ணிக்கையைக் காட்டும் மென்பொருள் (word counting software) அதை இரண்டு சொற்களாக எண்ணும் என்றெல்லாம் எதிர்ப்பார்க்க முடியாது. எங்களைப் போன்ற மொழிபெயர்ப்பாளர்கள் அவற்றை இரு வார்த்தைகளாக எண்ணுவோம். கணினி எண்ணாது. அதே போலத்தான் நீங்கள் சொல்லும் பிரச்சினையும் வருகிறது. இவ என்பதை அவ என்பதால் ரீப்ளேஸ் செய்யுமாறு ஆணை கொடுத்தால் பிரச்சினை தீர்ந்தது. அவ்வளவே. கணினிக்கு உண்டு இல்லை என்றுதான் பார்க்கத் தெரியும் என்ற பைனரி தத்துவத்தைதானே நாம் பயன்படுத்தி இவ்வளவு சாதித்துள்ளோம்? பத்தோடு பதினொண்ணாக இதை பார்ப்பதை விட்டு ஏன் அவதிப்பட வேண்டும். இதில் தலித் சேரிகளெல்லாம் எங்கிருந்து வந்தன?

ஓக்கே உங்கள் வாதத்துக்கே வருவோம். 128 பொந்துகள் போதாது என்கிறீர்கள். நல்லது. இன்னும் எவ்வளவு பொந்துகள் தேவை என்பதில் தெளிவாக இருக்கிறோமா? அது பற்றி உங்கள் இடுகைகளை ஆவலுடன் எதிர்ப்பார்க்கிறேன்.

இப்பின்னூட்டத்தின் நகல் என்னுடைய தனிப்பதிவிலும் பின்னூட்டமாக இடப்படும். பார்க்க: http://dondu.blogspot.com/2005/12/2.html

அன்புடன்,
டோண்டு ராகவன்; Sunday, February 26, 2006 3:46:00 PM
Anonymous said...: இராமகி, உங்கள் கடைசியான பின்னூட்டத்திலே மிகவும் தெளிவாக கணிநுட்பச்சிக்கல்களையும் நடைமுறைச்சிக்கல்களையும் சொல்லியிருக்கின்றீர்கள். உத்தமத்துக்கு முன்னைய webmasters list, tscii list ஆகியவற்றின் அஞ்சற்பரிமாற்றங்களை ஈடுபாடு உள்ளவர்கள் சென்று வாசித்தால், உயூனிகோடு எந்தளவுக்கு தோளிலே வலக்கையைப் போட்டுக்கொண்டே இடக்கையால் வெட்டும் வேலை என்று தெரியும்; Sunday, February 26, 2006 6:04:00 PM
arulselvan said...: I just request our friends here in computer profession to think through the Tamil encoding problem from scratch. Forget the current unicode encoding and do this as a mere exercise. If you donot come to the conclusions that Iramaki arrives at, convince others logically. Looks like the programmers are the only kind of engineers who seek unnecessary complexity as a solution. Obfuscation and longwindedness pays, folks?
arul; Sunday, February 26, 2006 9:11:00 PM
இராம.கி said...: அன்பிற்குரிய சிறகின் மேல் ஓசையாரே!

உங்கள் வருகைக்கு நன்றி. உங்களுடைய "மானம் அவமானம், தன்மானம், கட்டுமானம் " சொற்தொகுதி பற்றி முன்பே எழுதியிருந்தீர்கள். அதுவும் ஒரு சிக்கலே.

செய்தி என்னவென்றால், இது போல சோதனைகளை எடுத்துச் சொல்லி, "சிக்கல் இருக்கிறது, தீர்வு தாருங்கள்" என்று கேட்கிறோம். ஆனால் எல்லாவற்றையும் கூட்டிச் சமுக்காளத்திற்குக் கீழே தள்ளு என்பது தான் எதிர்வினையாகப் பலரிடம் இருக்கிறது.

இன்னும் சில சிக்கல்களை அடுத்தடுத்துச் சொல்லலாம் என்று இருக்கிறேன். (இதுவரை சோதனை 1, சோதனை 2 முடிந்தது)

உங்களின் தனிப் பதிவும் படித்தேன். அதற்கு நான் தரும் பின்னூட்டிற்குக் கொஞ்ச நாள் பொறுங்கள்.

அன்புடன்,
இராம.கி.; Monday, February 27, 2006 10:04:00 AM
இராம.கி said...: அன்பிற்குரிய டோண்டு,

என்னுடைய சோதனை - 1 , சோதனை -2 இரண்டையும் மீண்டும் படியுங்கள். நான் சொல்லுவது புரியும். இன்றைக்கு இருக்கும் பல general purpose நிரலிகள் இதைச் சரியாகச் செய்வதில்லை. அதே பொழுது தமிழ் மொழி உரோமன் எழுத்தில் எழுதப்பட்டால் இதையெல்லாம் செய்யும். நான் சொல்ல வந்தது தமிழ் எழுத்து என்பது கணியில் சரியாகக் கையாளப் படவில்லை என்பதே. இதுவரை சொன்ன இரண்டு சோதனைகளில் கணி என்பது தமிழ் என்னும் மொழியை அடையாளம் காணத் தேவையே இல்லை (காணத் தேவையானதை அடுத்த சோதனையில் சொல்லுவேன்.) ஆனால் எழுத்தை அடையாளம் காணவேண்டும்.
மொழியையும் எழுத்தையும் பலர் குழப்பிக் கொள்கிறார்கள்.

நீங்கள் எழுதிய in dem = im என்பது செருமன் மொழியில் ஒருவித சுருக்கக் குறிப்பு. (ஓரளவு செருமன் மொழி தெரிந்தவன் தான். அந்தக் கால சென்னைப் பல்கலைக் கழக வேதிப் பொறியாளர் யாரும் செருமன் படிக்காமல் வெளி வரமுடியாது.) அது போன்ற சில சுருக்கக் குறிப்புகள் தமிழிலும் உண்டு. நாம் விளிம்புச் சிக்கலைப் பற்றிப் பேசவில்லை. அடித்தளமான சிக்கல்களைப் பேசுகிறோம். இன்னும் சில சோதனைகளைப் பதிவிட எண்ணியுள்ளேன். கொஞ்சம் பொறுத்திருங்கள்.

ஒப்புமையாக தலித் /சேரி என்று நான் சொன்னது stability policy என்று சொல்லி மாற்றம் செய்யவிடாமல் போக்கடிக்கும் unicode consortium பற்றியது. உங்களுக்கு அது புரிபடவில்லை போலிருக்கிறது.

மொத்தம் எவ்வளவு பொந்துகள் வேண்டும் என்பதை அடுத்தடுத்த பதிவுகளில் சொல்லுகிறேன்.

அன்புடன்,
இராம.கி.; Monday, February 27, 2006 10:22:00 AM
இராம.கி said...: அன்பிற்குரிய செல்வராஜ்,

உங்களுடைய பதிவையும் படித்தேன். விளக்கிச் சொன்னதற்கு நன்றி. உங்களுடைய பின்னூட்டப் பெட்டியை மூடவேண்டியதில்லை. அங்கு படித்தவர்கள் அங்கே மறுமொழி சொன்னாலும் நல்லதே. நான் கேட்பதெல்லாம், பலருக்கும் இது விளங்கவேண்டும். இன்னும் செய்ய வேண்டிய வேலைகள் நிறைய இருக்கின்றன. அதே போல பறவைமேல் ஓசையாரின் பதிவும் படிக்கவேண்டியதொன்று. பத்மக் குமாரின் கட்டுரை நெடுநாட்களாகவே இணையத்தில் இருக்கிறது.

விவாதம் பரவலாக இருந்தால் தான் சரியான தீர்வு கிடைக்கும். ஒருங்குறிச் சேர்த்தியத்தின் வரட்டுப் பிடிவாதம் மாறவேண்டும். இந்தியமொழிகளின் எதிர்காலக் கணிமை கருதி தன்னுடைய நிலைப்புப் பொள்ளிகையைச் சற்றே விட்டுக் கொடுக்க முன்வரவேண்டும்.

அன்புடன்,
இராம.கி.; Monday, February 27, 2006 10:30:00 AM
இராம.கி said...: அன்பிற்குரிய பெயரில்லாதவரே!

உங்கள் பின்னூட்டிற்கு நன்றி. நான் அந்தக் கால webmasters list, tscii list ஆகியவற்றின் அஞ்சற்பரிமாற்றங்களை ஓரளவு படித்தவன் தான். ஒருங்குறியின் மயக்கத்தில் ஈடுபட்டுக் கிடப்பவர்கள் 99 பேர், மயக்கம் என்று உணர்ந்தவர் ஒருவர், என்றுதான் இன்று விழுக்காட்டு அளவில் சொல்ல முடியும். இதை எவ்வளவு விரைவில் புரியவைத்து மயக்கத்தைத் தெளிய வைக்கிறோமோ அவ்வளவு நல்லது. இல்லையென்றால் தமிழ்நாட்டில் மடிக்குழைப் பள்ளிகள் (matriculation schools) நுழைந்து எல்லாவற்றையும் குதறிப் போட்டுத் தமிங்கிலரை உருவாக்கிய கதையாய் மாறிவிடும்.

அன்புடன்,
இராம.கி.; Monday, February 27, 2006 10:37:00 AM
Yagna said...: இது சம்பந்தமாக என் கருத்துகளை அளவு காரணமாக என் பதிவில் உள்ளிட்டிருக்கிறேன்.; Tuesday, February 28, 2006 9:22:00 PM