Sunday, July 12, 2020

தமிழும் ஒருங்குறியும் - 2

இலங்கையின் ”தமிழ் அறிதநுட்பியல் உலகாயம்” (Tami Information Technology International) என்ற நிறுவனம் Zoom வழி நடத்திய இணைய வழி உரையாடலில் நேற்று நான் உரையளித்தேன், இங்கே அதைப் பிரித்து 3 பகுதிகளாய்த் தருகிறேன். இது இரண்டாம் பகுதி. தமிழ்க் கணிமையில் ஆர்வமுள்ளோர் படியுங்கள். நிகழ்ச்சியை ஒருங்கிணைத்த இலங்கை நண்பர்களுக்கும் குறிப்பாக நண்பர் சி.சரவணபவானந்தனுக்கு என் நன்றி. தமிழ்கூறும் நல்லுலகம் இந்நிலை அறிந்துகொள்ளட்டும்.

-----------------------------------------
இனி வரலாற்றுள் போவோம். 1983 இல் GOI இன் DOE துறை, Centre for Development of Advanced Computing (CDAC) இன் மூலம் Indian Script Code for Information Interchange (ISCII) குறியீட்டை உருவாக்கினார். இது 1986-88 இல் ஆய்விற்கு உட்பட்டு, 1991 இல், Bureau of Indian Standards, ISCII ஐ ஏற்றுக் கொண்டது,  இச் செந்தர ஆவணம் ( ISCII document) BIS அலுவங்களில் IS13194:1991 என்று கேட்டால் கிடைக்கும்.

இதேபோது 1983 இல் ஈழப் போராட்டம் பெரிதானது. தமிழ்ப் போராளிகளுக்கும் இலங்கை அரசிற்கும் சண்டைகள் வலுத்தன. பல தமிழ்க் குடும்பங்கள்  இடம் பெயர்ந்தன. அப்பா ஓரிடம், அம்மா ஓரிடம், பிள்ளைகள் வேறிடம் எனச் சிதறின. அழிவைச் சந்திக்கையில், துன்பம் தாண்டிவர, பல்வேறு முயற்சிகள்  மேற்கொள்வார் தானே?  தேவைகளுக்குத் தீர்வும் எழும். இங்கு, மின்னஞ்சல் தேவை எழுந்தது. ஈழத்தமிழரோடு சேர்ந்து உலகத்தமிழர் TSCII எனும் தீர்வு கண்டார். ISCII இன் பார்வைக்கு மாறாய் இது உருவானது. 2007 இல் IANA வில் பதியப்பட்டது. இப்படிப் பதிவான ஒரே இந்திய எழுத்துச் செந்தரம் இதுவே.

இனி ISCII க்கு வருவோம். வட எழுத்துகளில் ஒரு வடிவம் ஓரொலி என்பது அடிப்படை. தமிழெழுத்திலோ ஓரெழுத்து பல ஒலிகள். 1 ககரம், 3 ஒலிகள். எவ்வொலி எங்கு வருமென விதிகள் உண்டு. விதிகள் பழகாது,  சங்கத மூளைச் சலவையால் குழம்புவாரும் நம்மிலுண்டு. தேவநகரியை அடிப்படையாக்கி, அதிலில்லா மற்ற எழுத்துக்கள் (காட்டாகத் தமிழின் எ, ஒ, ஒன்றைக் கொம்பு, ஒற்றைக் கொம்புக் கால்,  ற, ன, ழ) ஆகியவற்றையும் சேர்த்து  ஒரு superset உருவாக்கி ISCII யைக் குறியேற்றம் செய்தார். அதாவது ஒரே அடைப்பலகையில் (template) எங்கெலாம் தமிழெழுத்து இல்லையோ, அங்கெலாம் வெற்றிடம். ஒருங்குறிப்படம். ISCII இதன் அடிப்படை).  எனவே வருக்க எழுத்துக்களை வெற்றிடங்களில் நிரப்பி, வடபுல மொழிகள் போல் ஆக்கத் தொடர்முயற்சிகள் நடந்தன, நடக்கின்றன. இனியும் நடக்கும்.

இரண்டுமே 8 மடைக் குறியேற்றமாயினும், ISCIIக்கும் TSCII க்கும் அடிப்படை அடவு வேறாகும். 1991 இல் உருவான ISCII 12 ஆண்டுகள் பயன்பாட்டிற்கே வராது, சிலரின் மேசைப்பேழைகளில் தூங்கியது. TSCII யோ மின்னஞ்சல்களில், இணையத்தில், அச்சாவணங்களில் புகுந்து விளையாடத் தொடங்கியது. இதைச் செந்தரமாய்க் கொள்ளாது,  சிச்சிறு மாற்றங்கள் செய்து 1000 தமிழ் அடவுகள் தமிழ்கூறும் நல்லுலகில் எழத்தொடங்கின. ஈழத்தமிழரிடை  பெரிதும் புழங்கிய பாமினியும் அதிலொன்று. யாரும் எதையும் ஒப்பிச் செந்தரத்திற்கு வரவில்லை. (இதுவே தமிழரின் சிக்கல். எப்போதும் ஒற்றுமை குறைவு, ”இன்னொரு தமிழன் சொல்லி நானென்ன கேட்பது?” எனும் அகங்காரம், 1997-2010 வரை வெவ்வேறு இணையப் பக்கங்கள் படிக்க, வெவ்வேறு குறியேற்றங்கள் தேவைப்பட்டன.

அந்தவகையில் தான் ஒருங்குறியை நெடுநாள் மறுத்து அதன் போதாமையைச் சொன்ன என்போன்றோர் ஒருங்குறிக்குக் குரல்கொடுக்க முன்வர வேண்டியது ஆயிற்று. ஒருங்குறிக்கு வந்தாலாவது ஓராயிரம் தமிழ் தொலையுமே? வேறு உருப்படியான வேலை செய்யலாமே? You see, progress is always in the art of possible.
   
இந்நிலையில்  ஒருங்குறிச் சேர்த்தியம், GOI ஐத் தொடர்புகொண்டது.  8 மடைக் குறியேற்றமான ISCIIயை CDAC அப்படியே அனுப்பிவைத்தது. எந்தப் புது அடவும் செய்யாது 1991 இல் ISCII அடிப்படையில் ஒருங்குறிச் சேர்த்தியம் 16 மடைக் குறியேற்றம் உருவாக்கி வெள்ளோட்டம் விட்டது. 10 ஆண்டுகள் இந்தியாவில் இருந்து யாரும் இதற்கு மாற்றங்கள் பரிந்துரைக்கவில்லை. தமிழகத்திலும் தூங்கினோம். TSCII Vs TAB/TAM சண்டையே நமக்குப் பெரிதாகத் தெரிந்தது.  அப்போதே விழித்திருந்தால், அனைத்தெழுத்துக் குறியேற்றத்திற்கு (TACE) வழி செய்திருக்கலாம்.  இப்போது கடினம். We are struck with 128 code point Unicode block.

TACE பற்றிச் சிறிது சொல்லி, ஒருங்குறிக்கு வருகிறேன். ”முதலெழுத்துகளைக் குறியேற்றவேண்டுமா? அசையெழுத்துகளைக் குறியேற்ற வேண்டுமா?” என்பது ஆழமான சிக்கல். ஒருங்குறி செய்வது முதலெழுத்துக்கும் கீழே. அதாவது  உயிர், அகரமேறிய மெய், உயிர்மெய்க் குறியீடுகளைக் கணிக்குள் அனுப்பி rendering engine ஆல் உயிர்க்குறியீடுகளை ஒட்டித் திரையில் காட்டுவோம். இதைச் செய்வதில் சில கும்பணிகள் தவிரப் பல கும்பணிகள் தொடக்கத்தில் குழம்பின. நாம் சரியாக அடித்தனுப்பினும், பெறுபவர் பக்கம் எழுத்துக்கள் உடைந்து தெரியும். இப்போது 2,3 ஆண்டுகளாய் எழுத்துகள் உடைவதில்லை.

1991 இல் நாம் தூங்காது முயன்று, 247+87 = 334 குறிப்புள்ளிகள் கிட்டியிருந்தால், உயிர், மெய், உயிர் மெய் எல்லாவற்றிற்கும் இடம் வந்திருக்கும். rendering engine பணியுங் குறைந்திருக்கும். ஓர் எழுத்துக்கு 2 byte தேவைப்பட்டிருக்காது. 1 byte ஏ போதும். ”I will come tomorrow” என்பதற்காகும் செலவு போல் 2 மடங்கு “நான் நாளை வருவேன்” என்பதற்குக் கொடுக்கிறோம். எண்ணிப் பாருங்கள். எழுத்து விரவிய ஒவ்வோர் ஆவணத்துக்கும், எவ்வளவு காசு கொடுத்திருப்போம்?  Airtel ஓ, Jio வோ, வேறெதோ கும்பணிகளோ, தரவுகளின் பருமன் பொறுத்தே காசு வாங்குகின்றன. இதுபோக இன்னும் சில எளிமைகளை இழந்தோம். ஒலியியல் அலசல், உருபனியல் அலசல், search and replace, indexing எனப் பலவும் கடுமையாகின. மொத்தத்தில் சோம்பேறித் தனத்தால், தமிழ்க் குறியேற்றம் காலகாலத்திற்கும்  2 ஆம் நிலைக்கு வந்தது. இனி மாற்ற முடியாது. நாம் TACE பெறமுடியாது போனது பேரிழப்பு.  உள்ளூர்ச் சண்டை போடுவதில் மூழ்கிய நாம் உலகத்தேவையை மறந்தோம். தேவையின் ஞாயத்தை பின்னால் உணர்ந்த ஒருங்குறிச் சேர்த்தியம், ”ஏன் முன்பே 1990 களில் நீங்கள் வரவில்லை? இப்போது BMP இல் இடமில்லை. நீங்கள் தூங்கினீர்களா?” என்று கேட்டது.

இங்கே ஒருங்குறிச் சேர்த்தியம் பற்றி ஒன்று சொல்லவேண்டும். அது வணிக நோக்கில் எழுந்த நிறுவனமாகினும் செலுத்த அடிப்படையில் (process based) இயங்கும் நிறுவனம். அதற்கெனச் சட்ட திட்டங்கள் உள்ளன. அவற்றை மீறி தான்தோன்றியாய் எதுவும் செய்வதில்லை. அது பரிந்துரை நிறுவனம் மட்டுமே. ISO தான் செந்தரங்களுக்கு ஒப்புதல் தருகிறது. அதை அடைய 7,8 படிநிலைகள் உள்ளன. எந்த இடத்திலும் மறுப்புச் சொல்வோர் புகுந்து சொல்லலாம். மறுப்புச் சொல்வோருக்கு முழு மதிப்புண்டு. தனி மாந்தர், நுட்ப அடிப்படையில் மறுப்புக் கொடுத்தால் ஏற்றுக்கொள்கிறார். வெறுமே உணர்ச்சி வயமாய் எதிர்ப்பவரை மட்டுமே அவர் கண்டு கொள்வதில்லை.

அதேபோது மேற்சொன்ன நிறைகளோடு, குறைகளும் உண்டு. Any Tom, Dick and Harry can give a proposal. தொடர்பே இல்லாத எதைப் பற்றி வேண்டுமானாலும் கொடுக்கலாம். அச்சாதாரம் இருந்தால் போதும். ஆங்கிலத்தில் சொன்னால் printed salvation. இது நம்மூரில் பெரும் வசதி. கீழே விளக்குகிறேன்.     

2009 இல் அரசாணை இட்ட தமிழ்நாட்டரசும் கூட ஒருங்குறி, TACE ஐக் கண்டு கொள்ளவில்லை. இன்னும் வானவில் எனும் தனியார் குறியேற்றம் அரசு அலுவங்களில் கோலோச்சுகிறது. பாதி அலுவங்களில் ஒருங்குறி புழங்குமா? தெரியாது. TACE இல் எல்லா அரசாவணங்களும் சேமிக்கவேண்டும் என்றார். சேமித்தது போல் தெரியவில்லை.  ”நீங்கள் சேமித்த கணிசமான பக்கங்களைக் காண்பியுங்கள், உங்கள் TACE இற்கு வகைசெய்வோம்” என்றார் ஒருங்குறிச் சேர்த்தியத்தார். நாம் ஒரு பணியும் செய்யவில்லை. தமிழக அரசோ இன்னும் நீதிமன்றங்களில் ”English documents are the legal documents” என்கிறது. தமிழ் நமக்கு உப்புக்குச் சப்பாணி. ”தமில் வால்க” கூப்பாடு போட மட்டுமே அது உள்ளது. தமிழின்றித் தமிழ்நாட்டில் வாழ்ந்துவிடலாம். நம்மூரில் விற்கும் எந்த electronic கருவியும் Tamil enabled ஆகவில்லை. பெறுதிச் சீட்டுகள் (receipts) தமிழிலில்லை. பட்ட ஏட்டுச் சுருக்கங்கள் தமிழ் மொழிபெயர்ப்பில் இல்லை. வட்டாட்சியர் அலுவங்களில்  தமிழில் பேசினால், “தள்ளி உட்காரு” என்கிறார். தமிழுக்கே மதிப்பில்லை எனில், அப்புறம் ஒருங்குறி பற்றிப் பேசிப் பலனென்ன?   

ஆனாலும் ”தமிழும் ஒருங்குறியும்” பற்றிப் பேசவேண்டும். சௌராட்டிரா, படகா மொழிகளுக்கும், இந்தியா, இலங்கை, சிங்கப்பூர். மலேசியா நாடுகளுக்கும் தமிழ் ஒருங்குறிக் கட்டம் பயன்படுகிறது,  இதில் U+0B80 முதல் U+0BFF வரை 128 குறியீடுகள் கொள்ளும். சில குறிப்புள்ளிகள் இன்னும் வெற்றாய் உள்ளன https://en.wikipedia.org/wiki/Tamil_(Unicode_block) என்ற கட்டுரையைப் படியுங்கள்.

அன்புடன்,

இராம.கி.

No comments: