Monday, November 29, 2010

தமிழெழுத்தும் கிரந்தமும் குறியேற்ற ஊடாடல்களும் - 1

மொழிவது என்பது ஒலிகளின் திரட்சியே. ஒரு மொழியைப் பேசும்போது ஒலித்திரட்சிகளை வெவ்வேறு விதமாய்ச் சேர்த்து வெளிப்படுத்திச் சொல்லாக்கி நாம் சொல்ல விரும்பும் பொருளை அடுத்தவருக்கு உணர்த்துகிறோம். அப்படிப் பொருளை ஒலிமூலம் உணர்த்த முடியாத போதோ, அல்லது ஒலியின் வெளிப்பாடு பற்றாத போதோ, மாற்று வெளிப்பாடு தேவையாகிறது. அப்படி ஒலிகளின் மாற்றாய் அமைந்த உருவுகள்/வடிவுகளே எழுத்துகளாகும்.

ஒரு மொழியின் எல்லாவொலிகளுக்கும் எழுத்துக்கள் மாற்றாகா. அதிலும் ஓரொலிக்கு ஓரெழுத்து என்பது எல்லா மொழிகளிலும் இருப்பதில்லை. ஒருசில மொழிகளில், குறிப்பாகத் தமிழில், பல்லொலிகளுக்கு ஒரெழுத்துகளே இயல்பாகின்றன. அந்நிலையில், ஒலிகளை வேறுபடுத்தியுணர சில விதப்பு ஏரணங்களை (special logics) மொழிபேசுவோர் கையாளுவர். பொதுவாக, எழுத்து - ஒலித் தொடர்பு புரிவதற்கான ஏரணம் மொழி இலக்கணத்தில், அதன் அடவில் (design), அமைந்துள்ளது. இந்த மொழியடவு புரியாது எழுத்துக்களைத் திருத்துவதோ, இன்னொரு மொழிக்கு எந்திரத்தனமாய் எழுத்துக்களைப் பெயர்ப்பதோ, ஒருங்குறி எழுந்த இக்காலத்தில் இடரிற் தான் கொண்டு சேர்க்கும். ஆனாலும் ஒருவித நிகழ்ப்புக் (with an agenda) கொண்டோர் தமிழ் எழுத்துக்களைத் திருத்தவும், தமிழுக்குள்ளும் தமிழிலிருந்து எழுத்துக்களைப் பெயர்க்கவும் முற்படுகிறார்கள். அதே பொழுது மொழிபேசும் பெரும்பான்மையரோ இத் திருகுதத்தம் புரியாது அந்நிகழ்ப்பிற்குப் பலியாகின்றனர்.

சற்று ஆழமாய்ப் பார்ப்போம்.

கல், ஓடு, மரப்பட்டை, தோல், ஓலை, மாழை (metal), தாள், அச்சு ஆகியவற்றால் எழுத்தை வெளியிட்ட காலம் போய், கணித்திரையில் வெளியிட்டு அச்சடிக்கும் காலம் இன்று வந்துவிட்டது. ஒவ்வொரு கால கட்டத்திலும் எழுது பொருட்கள் எழுது நுட்பத்தை தமக்கேற்றவாறு மாற்றியிருக்கின்றன. எழுத்து உருவுகளையும் மாற்றியிருக்கின்றன. ஆனால் இம்மாற்றம் தாளோடு நின்று போயிற்று. கிட்டத்தட்ட 400 ஆண்டுகளுக்கு முன் அச்சுக்காலம் வந்தபோது வடிவுமாறா நிலைப்பேற்றைத் (constancy of the shape) தமிழெழுத்து பெற்றது. இற்றைக் கணிக் காலத்திலோ முற்றுமுழு நிலைப்பேறு (absolute constancy) நிலைக்கு வந்துவிட்டோம். இக்காலத்தில் மொழி மேலுள்ள கவனஞ் சிதைந்து, திருத்தக்காரர்களும், பெயர்ப்புக்காரர்களும் மனம்போன போக்கில் தமிழெழுத்தைச் சிதைக்க விட்டால் அப்புறம் சிதையெழுத்தே நிலைப்பேறு கொள்ளும். [காரணமில்லாது தமிழெழுத்தின் எதிர்காலம் பற்றி நாம் அச்சுறவில்லை. அதிலும் தமிங்கிலம் விரைவாகப் பரவிக் கொண்டிருக்கும் இக்காலத்தில், கி.பி. 1400 - 1600 களில் தமிழிலிருந்து மலையாளம் ஏற்பட்டது போல, வேற்றொலிகளை உள்ளிழுத்துக் கொண்டு அவற்றை எழுத்து மூலம் நிலைபெறச் செய்யும் முயற்சிகள் (மலையாளம் விருத்து - version - 2.0) தமிழில் விடாது நடக்கின்றன. இவற்றை எப்படி எதிர்கொள்ளுவது என்பது வேறு புலனம்.]

கல்லில் வெட்டிய காலத்திற் தமிழில் மெய்கள், அகர உயிர்மெய்கள், ஆகார உயிர்மெய்களைப் பிரித்துக் காண்பதிற் குழப்பம் இருந்தது. பின்னால் அடியெழுத்தோடு ஒரு குறுங்கோட்டை மேற் பக்கவாட்டிற் போட்டு, ஆகார உயிர்மெய்யைக் குறிக்கும் பழக்கம் வந்தது. [மேலே போடும் மேற்பக்கக் குறுங்கோடு தான் இப்பொழுது நாம் புழங்கும் கால் குறியீடாக மாறியது.] எந்தக் குறுங்கோடும் ஒட்டிப்போடாத எழுத்து அகர உயிர்மெய்யைக் குறித்தது. புள்ளி போட்ட எழுத்து மெய்யைக் குறித்தது. [புள்ளி போட்ட எழுத்தில் புள்ளியை அழித்து அகரமேறிய உயிர்மெய் உருவானதாய்க் கொள்ளுவதே தமிழ்ப்புரிதலின் அடிப்படையாகும்.]

இதற்கு மாற்றாய் வடபுலத்தில், ஒன்றின்கீழ் இன்னோர் உயிர்மெய்யைப் பொருத்தி மேலதை மெய்யாகவும், கீழதை உயிர்மெய்யாகவும் கொள்ளும் அடுக்குக் கட்டு முறை (stacking method) எழுந்தது. வடபுல அடுக்குக் கட்டு முறை, தமிழ்ப் புள்ளி முறைக்கு (dot method) எதிரானது. இற்றை இந்தியாவில் புள்ளி முறையைக் கையாளும் ஒரே எழுத்து தமிழெழுத்து மட்டுமே. மற்ற மொழியெழுத்துக்கள் எல்லாம் அடுக்குக் கட்டு முறையையே பயன்படுத்துகின்றன. அடுக்குக் கட்டு முறையில் இடம்வலமாய் எழுத்துக்களை வரிசைப் படுத்துவதோடு அல்லாது, எங்கு மெய்யை ஒலிக்கவேண்டுமோ அங்கு எழுத்துக்களை மேலிருந்து கீழாய் அடுக்கி உணர்த்துவார்கள். அடுக்கின் உயரம் நிரவலாக 3 எழுத்துக்கள் வரையிருக்கும். (சில விதப்பான இடங்களில் ஆறு எழுத்துக்கள் வரையும் இருக்கும்.)

அதாவது வடபுலத்து ஆவணங்கள் (தமிழல்லாத தென்புலத்து ஆவணங்களும் இதிற் சேர்ந்தவையே) இரு பரிமானப் பரப்புக் (two dimensional extent) கொண்டவை. தமிழ் ஆவணம் அப்படிப் பட்டதல்ல. தமிழில் 2 மெய்களுக்குமேற் சொல்லிற் சேர்ந்து வருவதே கிடையாது. அவையும் புள்ளி பழகுவதால் ஒரு பரிமானப் பரப்புக் (single dimensional extent) கொண்டு அடுத்தடுத்து இடம்வலமாய் மட்டுமே எழுதப்படும். எந்தத் தமிழாவணமும் இழுனை எழுத்தொழுங்கு (linear orthography) கொண்டதாகவேயிருக்கிறது.

மெய்யெழுத்து என்று சொல்வதிற் கூட வடபுலத்தாரும் (தமிழரல்லாத தென்புலத்தாரும் இதிற் சேர்த்தி) தமிழரும் வேறுபடுவர். தமிழில் மெய்யெழுத்து என்பது புள்ளியெழுத்து மட்டுமே. அகரமேறிய எழுத்து, அகர உயிர்மெய் என்றே சொல்லப்படும். வடபுலத்து மொழிகளில் அகரமேறிய உயிர்மெய்யையே மெய்யென்று சொல்லிவிடுவர். [அவர்களின் வரையறை நம்மில் இருந்து வேறுபடும்.] ஏனெனில் அகரமேறிய மெய்யொன்றின் கீழ் இன்னொன்றை எழுதி மேலெழுத்தை மெய்யெழுத்தாய் அவர்கள் ஒலிக்கிறார்கள் இல்லையா?

ஒரு சில இடங்களில் இப்படி அடுக்காய் எழுதாது (காட்டாக ஆறெழுத்து அடுக்காக வரும் இடங்களில் முதல் மூன்றை ஓரடுக்காகவும், இரண்டாம் மூன்றை அடுத்த அடுக்காகவும்) தனியாக எழுதி முதலடுக்கின் கீழ், மெய்யைப் பலுக்க வேண்டி விராமம் என்ற குறியைப் பயன்படுத்துவர். ”விராமக் குறி” என்பது ஒருவகை இறுமக் குறியாகும் (end marker). அது சொல்லிறுதியைக் குறிக்கும். தமிழில் உள்ளதோ ஒற்றுக் குறி. இரண்டிற்கும் நுணுகிய வேறுபாடுண்டு. அதாவது நம்மைப்போல் சொல்லின் இடை, கடை போன்றவற்றில் புள்ளி வராது, சொல்லின் கடையிலும், ஓர் எழுத்தடுக்கின் கடையிலும் மட்டுமே விராமம் வரும். [கடையில் வரும் காரணத்தாற்றான் அது இறுமக் குறி எனப்படுகிறது.] சொல்லின் முதல், இடையில் அடுக்குக் கட்டு முறையின் மூலமே மெய்யொலி உணர்த்தப் பெறும். (தமிழிலோ சொல்லின் முதலிடத்திற் புள்ளி வரவே வராது.)

வடபுலத்திற்கும் தமிழ்ப்புலத்திற்கும் இடையில் இன்னும் கூட வேறுபாடு உண்டு. தமிழெழுத்தில் வரும் கால், கொம்பு போன்றவை உயிர்மெய்க் குறியீடுகள் - vowelized consonant markers - என்றே தமிழிற் சொல்லப்படும். வடபுலத்திலோ இவை உயிர்க்குறியீடுகள் - vowel markers - என்றழைக்கப்படும். நம்முடைய கெட்ட காலமோ, என்னவோ, வட எழுத்துக்களைக் கையாளும் தமிழ்க்கணிஞர் ஒருசிலரும் வடவர் வரையறுப்பில் மயங்கி நம் வரையறுப்பை ஒதுக்கி vowel markers என்று இவைகளை அழைக்கத் தொடங்கி விட்டனர். [இப்படித்தான் தமிழ்க்காப்பில் பலமுறை நாம் வழுக்குகிறோம். தொல்காப்பியமும், பாணினியமும் குறிக்கும் மொழியமைப்புகள் வேறானவை என்று ஆழப் புரிந்து கொண்டவர் வரையறைக் குழப்பத்துள் விழமாட்டார்.]

ஆக இருவேறு மொழிகள், இருவேறு கட்டுப்பாடுகள். இவற்றை எழுதும் முறைகளும் இருவேறே. இரண்டையும் வலிந்து ஒன்றாக்க முயல்வது சதுரத்தையும் வட்டத்தையும் ஒன்றாக்குவது போலாகும். அடிப்படையில் இரு வேறு எழுத்துக்களை ஒன்றின் அச்சடிப்பாய் இன்னொன்றை வலிந்தாக்குவது பெரும் முட்டாள் தனமும். ஏமாற்றுவேலையும் ஆகும். வடமொழி எழுத்திலக்கணக்கக் கோட்பாடுகளைக் கொண்டுவந்து தமிழிற் புகுத்தும் தவறான செயல் இன்று நேற்றல்ல, 11 ஆம் நூற்றாண்டு புத்தமித்திரரின் வீரசோழியம் காலத்திலேயே தொடங்கிவிட்டது. அதன் இன்னொரு வெளிப்பாடு தான் 1700 களில் திருநெல்வேலி ஈசான மடம் சாமிநாத தேசிகர் ”ஐந்தெழுத்தால் ஒரு பாடை” என்று நக்கலடித்ததாகும். இப்போது ஒருங்குறி சேர்த்தியமும் சில இந்திய மொழியறிஞரும் இக்குழப்பத்தைத் தொடருகிறார்கள்.

தமிழெழுத்து வேறு, வடபுல எழுத்துக்கள் வேறு என்ற அடிப்படை வேறுபாடு இந்தப் பெரும்போக்குத் தனத்திற்குப் புரிவதேயில்லை. பெரும்பான்மைத் தமிழரும் என்ன நடக்கிறதென்று அறியாதவராய் உள்ளனர். பல்வேறு தமிழறிஞரும் ”கணித்தமிழுக்குள் நாம் என்ன நுழைய? யார் வீட்டுக்கோ வந்தது கேடு ” என்பதாய்த் தனித்து நிற்கிறார்கள். ஓரளவு தெரிந்தவரும் நிலைபுரியாது ஆழ்குழப்பத்தில் கிடக்கிறார்கள். ஒரு சில தமிழார்வலரோ, எதையுஞ் சரியாகத் தெரிந்து கொள்ளாமல், அரைகுறைப் புரிதலில் உணர்ச்சி மேலிட்டுத் தெருமுனைக்கு ஓடிவந்து போராடத் துடிக்கிறார்கள். அறிவார்ந்த செயலை, வல்லுநர் கொண்டு வகையறச் சூழ்ந்தாய்ந்து அதற்கேற்ற ஒரு தடந்தகையை (strategy) உருவாக்கி அறிவால் எதிர்க்காமல், உணர்வு கொண்டு துடித்தால் இழப்பு நமக்கல்லவோ வந்து சேரும்? குறளாசான் 465 ஆம் குறளில் அதையா நமக்குச் சொல்லித் தந்தான்?

வகையறச் சூழாது எழுதல் பகைவரைப்
பாத்திப் படுப்பதோர் ஆறு.

ஒருங்குறி என்றால் என்ன? அதில் தமிழெழுத்துக்களும் மற்றவையும் எங்குள்ளன? இப்பொழுது தமிழெழுத்தை நீட்டிக்கச் சொல்லி ஒரு முன்மொழிவு (proposal) வந்திருக்கிறதே? இது எதற்காகச் செய்யப் படுகிறது? எங்கு இது வரக்கூடும்? வந்திருப்பது நல்லதா? கெட்டதா? இதேபோலக் கிரந்தத்திற்கான இன்னொரு முன்மொழிவை யார் செய்கிறார்கள்? அம் முன்மொழிவு என்ன? அது தமிழெழுத்தைத் தாக்குமா? தாக்காதா? அந்தத் தாக்கம் இல்லாது, கிரந்தத்தை மட்டுமே முன்மொழிய முடியாதா? - இப்படிப் பல்வேறு கேள்விகளை விவரந் தெரிந்தவரிடம் கேட்டுத் தெளிந்து அவற்றிற்கு விடை கண்டு, வெற்றிபெறத் தக்க தடந்தகையை உருவாக்காது, போராடப் போனால் விளைவு என்ன? இன்னொரு முள்ளிவாய்க்காலா? அது தேவையா? “ஆகா.., எம் அன்னைக்குக் கேடுற்றதே! இதை வீணே பார்த்திருக்க முடியுமா? மறத்தமிழன் போருக்கு அஞ்சுவானா? ஓடிவாருங்கள் தோழர்களே! அன்னையைக் காப்போம்” என்று கூவியழைத்து மானகக் கவணுக்கு (machine gun - இயந்திரத் துப்பாக்கி) முன்னால் அணிவகுத்து நிற்பது தற்கொலைக்குச் சமம் அல்லவா?

”ஊரெங்கும் தாளில் எழுதுவதை நிறுத்திப் பொத்தான் அடிக்கவைக்கும் காலத்தில் கணிநுட்பியல் பற்றி ஓரளவு புரியாமற் தமிழன் இனி வாழமுடியாது, தாளில் எழுதும் காலம் போயே போயிற்று” என்று நமக்குத் தெரிய வேண்டுமல்லவா?

சரி, தமிழெழுத்துக்கு மீண்டும் வருவோம். கல், ஓடு, மரப்பட்டை, தோல் என்ற எழுதுபொருட்களை விட்டு ஓலைக்கு வந்த காலத்தில் மீண்டும் தமிழிற் புள்ளி போடுவதில் சரவல் ஏற்பட்டது. புள்ளி போடுவதால் ஓலையில் ஓட்டை விழுவதைத் தவிர்க்க வேண்டும் என்று கருதி, இடம் பொருள் ஏவல் கருதிப் புரிந்து கொள்ளும் முறையில் மீண்டும் புள்ளி இல்லாது எழுதும் பழக்கம் ஏற்பட்டது. தமிழ்ச்சொல் எழுத்துக்கோவையின் இரண்டக (reduntancy) ஒழுங்காலும், பழக்கத்தாலும், இது அவ்வளவு சிக்கலாய் ஓலையெழுத்தில் உணரப்படவில்லை. ஆனால் அடுத்த எழுதுபொருளான தாளுக்கு நகர்ந்தபோது இச்சிக்கல் பெரிதாய் உணரப்பட்டு புள்ளி போடுவது மீண்டும் பழக்கமாயிற்று.

கல், ஓடு, மரப்பட்டை, தோல், ஓலை, மாழை (metal), தாள், அச்சு ஆகியவற்றில் ஆவணம் வெளியிட்ட வரை யாரும் இவ்வெழுத்துக்களுக்கு ஒப்புதல் அளிக்க வேண்டிய கட்டாயம் ஏற்பட வில்லை. தமிழ்கூறும் நல்லுலகப் பொதுமக்களின் மரபே, பரவலான புழக்கமே, இவ்வொப்புதலை வழங்கிற்று. இன்றோ கணித்திரையில் எழுதி அச்சடிக்கும் காலத்தில் ”இவ்வெழுத்து இப்படி இருந்தால் இது தமிழ், இது வேறுமாதிரி இருந்தால் நாகரி, சித்தம், சாரதா, கிரந்தம், உரோமன்" என்று பிரித்துக் காட்டி எங்கோவோரிடத்திற் செந்தரமாக்கும் (standardization) தேவையும், ஒப்புதல் வாங்கும் கட்டாயமும் ஏற்பட்டு விட்டன. அவ்விதத்தில் தான் தமிழின் தலைவிதியை எங்கோ இருக்கும் (வணிக நோக்குள்ள) ஒருங்குறிச் சேர்த்தியம் நிருணயிக்க முற்படுகிறது. தமிழை அரசுமொழியாய்ப் புழங்கும் வெவ்வேறு அரசுகளும் இவ் விந்தையையுணராது, ஒருங்குறிச் சேர்த்தியத்தின் ஒப்புதலை வேண்டி “ஆமாஞ் சாமி” போட்டுக் கொண்டிருக்கின்றன.

இனிக் கணித்திரையில் எழுத்து வெளியிட்டு அச்சடிக்கும் ஆவணங்களின் பயன்பாடு பற்றிப் பார்ப்போம்.

கணித்திரையில் வெளியிடுவது தட்டச்சில் அடிப்பது போல் ஆனதல்ல. அதன் பயன் வேறுபட்டது. தட்டச்சு ஆவணம் என்பது வெறுமே படிப்பதற்கும், சில நாள் சேமிப்பதற்கும், மட்டுமே உருவாவது. கணி ஆவணமோ [அதனுள் என்னென்ன சொற்கள் பயனுற்றன என்றறிவது, எழுத்துப் பிழைகள் இருந்தால் அவற்றைத் தானாகவே தேடித் திருத்துவது, இலக்கணப் பிழைகள் ஏற்பட்டால் அவற்றையும் திருத்துவது, உருபனியல் அலசல் (morphological analysis) மூலம் மொழிநடையை ஆய்வது, ஆவணம் பற்றிய பல்வேறு புள்ளி விவரங்களைத் தொகுப்பது, ஆவணம் எழுதுபவரின் மொழிநடைக் கைச்சாத்தைக் (style signature) காணுவது, எனப்] பல்வேறு உயர் பயன்பாடுகளைச் செய்யும் வகையில் அமைந்தது. இப்படியெல்லாஞ் செய்ய வேண்டுமானால் ஒரு மொழியின் ஏரணம் கணிக்குக் கற்பிக்கப் படவேண்டும். [அதைப் படிப்படியாகக் கற்பிக்கவும் முடியும்.]

தொடக்க காலத்தில் கணி என்பது எண்களைக் கையாளுவதற்கே பயன்பட்டு வந்தது. எண்களைக் கொண்டு தனக்கிட்ட புதிரிகளைக் (problems) கணிப்பது, ஏரணத்தின் பாற்பட்டு பல்வேறு தீர்வுகளை முடிவெடுப்பது போன்ற செயல்களையே தொடக்கத்தில் கணி செய்தது. அப்படித் தொடங்கிய காலத்தில் எழுத்துக்கள் என்றால் என்னவென்றே கணிகளுக்குத் தெரியாது. பின்னால் மொழிநடை ஏரணத்தை, எண்களின் ஏரணம் போல் பெயர்த்து, உணரமுடியும் என்று அறிந்து, அவ்வேரணத்தைக் கணிக்கும் கற்பிக்குமாப் போல், எழுத்துக்களுக்கு இணையாக தனித்த எண்களைக் கொடுத்து (இவ்வெண்களை - code points - குறிப்புள்ளிகள் என்று கணியாளர் குறிப்பர்.)

எழுத்துகளை உள்ளீடு (character input) செய்தல் -> அவற்றைக் குறிப்புள்ளி எண்களாய் மாற்றல் -> இவ்வெண்களின் மேல் பல்வேறு கட்டளைகள் கொடுத்துக் கணித்தல் -> மீண்டும் குறிப்புள்ளி எண்களை எழுத்துகளாய் மாற்றல்

என்ற முறையில் பல்வேறு எழுத்து ஆவணங்களை உருவாக்கி அலச முடியும் என்ற புரிதல் வந்தது. முதலில் உரோமன் எழுத்திற்கு மட்டுமே இம்முறை எழுந்தது. இதில் வெறும் 2^7 = 128 இடங்களே (அதாவது குறியீடுகளே, அல்லது எண்களே) அமைந்தன. [ASCII என்று சொல்லுவார்கள்.] பின்னால் இரோப்பிய மொழிகளில் இருக்கும் பல்வேறு குறியீடுகளையும், மீக்குறிகளையும் சேர்த்து, ”நீட்டிக்கப் பட்ட உரோமன் (extended Roman)/நீட்டிக்கப் பட்ட இலத்தீன் (extended Latin) எழுத்துமுறை” வந்தது. இதில் 2^8 = 256 குறியீடுகள், அதற்கான எண்கள் அமைந்தன. [இதை extended ASCII என்றும் சொல்லுவார்கள்.]

இதே முறையில் அடுத்து உலகின் பல்வேறு மொழிகளை எழுதிக் காட்டும் எழுத்துகளுக்கும் எண்களைக் கொடுத்து அவற்றையெல்லாம் ஒருங்கு சேர்த்து ஒரே ஆவணத்திற் பயன்படுத்த முடியும் என்ற தீர்வு இயல்பாய் எழுந்தது. இம்முறைக்குத் தான் ஒருங்குறி என்று பெயர். Universal code என்பதை உணர்த்தும் வகையிற் சுருக்கி Unicode என்று பெயரிட்டார்கள். தமிழில் இதே பெயரை ”ஒருமிய, ஒருமுகிற, ஒருமும் குறி” என்ற பொருளில் வினைத்தொகையாய் ஒருங்குறி என்று குறிக்கத் தொடங்கினோம். ஒருங்குறி என்ற சொல்லின் பிறப்பிலக்கணம் புரியாது ”சீருரு” என்று ஒருசிலர் தமிழிற் சொல்ல முற்படுவது முற்றிலும் பிழை. This is not a uniform code. (அதே போல சிலர் ஒருங்குகுறி என்று சொல்ல முயலுகிறார்கள். அதுவும் தவறான புரிதலே. இரண்டு குகரங்கள் இதில் புழங்க வேண்டிய தேவையில்லை. ஒருங்குறியில் வரும் ஒரு குகரம் போதும். ஒரு வாக்கியத்திற் சொற்சிக்கனம் போல சொல்லில் எழுத்துச் சிக்கனம் தேவை.)

ஒருங்குறியின் தொடக்கத்தில் 2^16 = 65536 இடங்களே (அதாவது எண்களே) இருந்தன. ஆனால் இப்பொழுது 2^11 வரைக்கும் இடங்கள் போய்விட்டன. மெல்ல மெல்ல 16 தட்டுத் தளங்களுக்குக் குறியேற்றம் போய்க் கொண்டிருக்கிறது. ஒருங்குறி 6.0 ஆம் விருத்தில் (version) 93 எழுத்து முறைகளைக் குறித்திருக்கிறார்கள். இன்னும் நூற்றுக்கணக்கான எழுத்துமுறைகளைக் குறிக்கும் அளவிற்கு ஒருங்குறிச் சேர்த்தியம் போய்க் கொண்டிருக்கிறது.

சற்று முன்னே சொன்ன படிதான் உலகில் உள்ள பல்வேறு எழுத்து முறைகள் கணித்திரையில் எழுதுவதற்குத் தோதாய் ஒருங்குற்றன. ஒருங்குறியின் பெரும்பயன் ஒன்றிற்கு மேற்பட்ட எழுத்து முறைகளை (அதன் விளைவாய் ஒன்றிற்கு மேற்பட்ட மொழிப் பனுவல்களை - language texts) ஒரே ஆவணத்தில் காட்டமுடியும் என்பதேயாகும். இதை எல்லோரும் பயன்படுத்தினால் ஒரு செந்தரம் (standard) உருவாகும், ஒரு கணியில் இருந்து இன்னொரு கணிக்கு இணையத்தின் மூலம் ஆவணங்களை அனுப்பி எந்தச் சரவலும் இல்லாது படிக்கவைக்க முடியும் என்ற பயன்பாடு இரண்டாவதாகும். இந்தியாவில் வாழும் எழுத்துக்களைக் குறிக்குமாப் போல தேவநாகரி, சாரதா, பெருமி, தமிழெழுத்து, ஒரியவெழுத்து, குர்முகி, குசராத்தியெழுத்து, மராத்தியெழுத்து, வங்காள எழுத்து, தெலுங்கெழுத்து, கன்னட எழுத்து, மலையாள எழுத்து எனப் பல்வேறு எழுத்து முறைகள் ஒருங்குறியில் இடம் பெற்றுள்ளன.

ஒருங்குறி பற்றித் தெரியாது இந்தக் கட்டுரையைப் படிப்போருக்காக, ஒருங்குறியில் அடித்தளத் தட்டில் (BMP) இருக்கும் நம்முடைய தமிழ்க் குறியேற்றப் பட்டியலைக் கீழே கொடுத்துள்ளேன். [இதில் மொத்தம் 72 குறியீடுகள் இருக்கின்றன. அவற்றுள் தமிழுக்கு வேண்டாத குறியீடுகளையும் (0B82, 0BD7), சமயச் சார்பான குறியீடுகளையும் (0BD0), தமிழெண்கள், விதப்புக் குறியீடுகளையும் (0BE6 - 0BFA) கூடச் சேர்த்திருக்கிறார்கள். அவற்றை ஒதுக்கினால், மொத்தம் 48 குறியீடுகளே தமிழெழுத்துக்களைச் சேர்ந்ததாய் அமையும். இந்தக் கட்டுரையின் அடுத்த பகுதியில் இந்த 48 குறியீடுகளுக்கு ஏற்படப் போகும் தாக்கம் பற்றிப் பேசப் போகிறோம். தமிழுக்கு வேண்டாத குறியீடுகளை (0B82, 0BD7) ஆகியவற்றை எடுக்கச் சொல்லி இதுவரை பலரும் கேட்டிருக்கிறார்கள். இன்னும் பலர் கேட்கவேண்டும். அவற்றைப் பற்றிப் பேசினால் புலனம் வேறுபக்கம் போகும் என்று தவிர்க்கிறேன்.]



இன்னொரு செய்தியையும் இங்கு சொல்லவேண்டும். குறிப்புள்ளிகள் (code points) என்பவற்றிற்கும் வார்ப்புகள் என்பவற்றிற்கும் உள்ள வேறுபாட்டை ஒழுங்காய்ப் புரிந்து கொள்ள வேண்டும். (வார்ப்புகள் = fonts, இவற்றை ”எழுத்துருக்கள்” என்றே பலரும் குறிக்கிறார்கள். நானோ 400 ஆண்டுகால அச்சு வரலாற்றை விடாது பிடித்துத் தெளிவுறுத்துவதற்காக, வார்ப்படப் பட்டறைகளோடு - foundary workshops - அவற்றைத் தொடர்புறுத்தி ”வார்ப்புகள்” என்றே சொல்லுகிறேன். நம் அச்சு வரலாற்றை ஒதுக்கித் தள்ளி இந்தக் காலக் கணியெழுத்து வரலாற்றை எழுத முற்படலாமோ? நம் அப்பன் இன்றி நாம் ஏது? ”எழுத்துரு” என்பது ”நீர்வீழ்ச்சி” போலொரு கூட்டுச்சொல். ”வார்ப்பு” என்பது ”அருவி” போல் உட்பொருளால் அமையுஞ் சொல். ”எழுத்துரு”வைக் காட்டிலும் ”வார்ப்பின்” பொருள் அகண்டதாய், வரலாற்றை உணர்த்துவதாய், நான் கருதுகிறேன்.)

ககரம் என்பது ஓர் எழுத்து. அதற்கான ஒருங்குறிக் குறிப்புள்ளி U+0B95 ஆகும். அதன் வார்ப்பு வெளிப்பாடாக அலங்காரமான ககரத்திற்கு ஒரு வடிவமும், சாத்தாரக் (=சாதாரணக்) ககரத்திற்கு இன்னொரு வடிவமும் எனப் பல்வேறு ககர வடிவங்களைக் கொடுக்க முடியும். உண்மையில் குறிப்புள்ளிகள் எழுத்துக்களின் வடிவங்களை உணர்த்தவேயில்லை, அவை எழுத்துக்களை மட்டுமே நிகராள்கின்றன.

நாம் தேர்வு செய்யும் வார்ப்பு வரிசைக்குத் தக்க வெவ்வேறு வடிவங்களில் ககரம் என்ற எழுத்தைக் கிட்ட வைக்கலாம். [காட்டாக மைக்ரோசாவ்ட் கணியில் லதா என்ற வார்ப்பில் இருக்கும் ககரமும், ஏரியல் யுனிக்கோடு MS என்னும் வார்ப்பில் இருக்கும் ககரமும் வெவ்வேறு தோற்றம் காட்டும்.]

பின்னால் கிரந்தம், தமிழெழுத்து ஒற்றுமை வேற்றுமை பற்றிப் பேசும் போது இந்த குறிப்புள்ளிகள் - வார்ப்புகள் பற்றிய புரிதல் நமக்குப் பயன்படும். [மறக்காதீர்கள். கணியில் எழுத்துக்களுக்கு அடையாளமாய்க் குறிக்கக் கொடுக்கப்படும் எண்களைக் குறிப்புள்ளிகள் என்கிறோம். வார்ப்புகள் அந்தக் குறிப்புள்ளிகளுக்கு வெவ்வேறு வடிவங்களைக் கொடுக்கின்றன.]

அடுத்த செய்தி, ”மொழி என்பதும் எழுத்து முறை என்பதும் வெவ்வேறானவை” என்பதாகும். (பொதுவான தமிழரிற் பலரும் “எழுத்தும் மொழியும் ஒன்று” என்று எண்ணிக் குழம்பிக் கொள்கிறார்கள்.) உண்மையில் அவை வெவ்வேறானவை. இருவேறு மொழிகளை ஒரே எழுத்துமுறை கொண்டு குறிக்கலாம்.

காட்டாக இசுப்பானியம், ஆங்கிலம் என்ற இருவேறு மொழிகளை உரோமன் என்ற ஒரே எழுத்துமுறை குறிக்கிறது. பொதுவாய், இசுப்பானியம் எழுதப் பயன்படும் உரோமனும், ஆங்கிலம் எழுதப் பயன்படும் உரோமனும் அப்படியே அச்சடித்தாற் போல ஒரே வடிவங்களைக் கொண்டிருக்காது. ஆனால் பெரும் அளவில் ஒன்றுபட்டு இருக்கும். சிறு சிறு மாற்றங்களைத் தெரிவுபடுத்துமாப் போல இரண்டிற்கும் பொதுவான குறிகள் கொண்ட பெருங்கொத்தை (super set) உருவாக்கி அதைவைத்து இசுப்பானியத்தையும், ஆங்கிலத்தையும் ஒரே ஆவணத்தில் எழுத முடியும். உரோமன் என்ற பெருங்கொத்து இன்று இசுப்பானியம், இத்தாலியம், போர்த்துகீசியம், பிரெஞ்சு, செருமன், தேனிசு, டச்சு, ஆங்கிலம் போன்ற மொழிகளின் பெருங்கொத்தாகி எழுதப் படுகிறது.

எந்தெந்த மொழியெழுத்துக்களை ஒன்று சேர்த்து ஓர் எழுத்துப் பெருங்கொத்து உருவாக்கலாம் என்பதற்கும் வரம்பு இருக்கிறது. காட்டாக உருசிய மொழி எழுத்திற்கும், ஆங்கிலேய மொழி எழுத்திற்கும் கூடச் சில ஒப்புமைகள் இருக்கின்றன. இவ்விரு மொழிகளை எழுதும் போதும் a என்ற எழுத்து ஒன்று போலத் தான் இருக்கிறது. இது போல பல எழுத்துக்களை உருசியனுக்கும் ஆங்கிலத்திற்கும் இணை காட்ட முடியும் தான். இருந்தாலும் உருசியன் எழுதும் போது ஆங்கிலத்தில் இல்லாத பல எழுத்துக்களை எழுதவேண்டிய வேறுபாடுகளும் இருக்கின்றன.

வேறுபாடுகளையும், ஒப்புமைகளையும் மொழியமைப்பு அளவிற் சீர்தூக்கி அவற்றைத் தனித்தனிக் கொத்தாகவோ, ஒரே பெருங்கொத்தாகவோ அமைக்கிறார்கள். உருசியன், பல்கேரியன், உக்ரேனியன் போன்ற சுலாவிக் மொழிகள் சிரில்லிக் என்ற எழுத்து முறையையே தம் பெருங்கொத்தாகக் கொள்ளுகின்றன. உரோமன் என்ற பெருங்கொத்திற்கும் சிரில்லிக் என்ற பெருங்கொத்திற்கும் இடையே ஒற்றுமைகள் சிறிது காணப்பட்டாலும், வேற்றுமைகள் விதந்து காணப்படுவதால் அவற்றை ஒன்று சேர்க்காமல் தனித்தனிப் பெருங்கொத்தாகவே மொழியாளரும், அவர் வழிக் கணியாளரும் கொள்ளுகிறார்கள்.

உரோமன் என்னும் பெருங்கொத்து உருவானது போல ”இந்திக்” என்னும் பெருங்கொத்தை 1980-90 களில் உருவாக்க முயலாது, இந்திய நடுவணரசு அளித்த எண்மடைக் (8 bit) குறியீட்டிற்கான ISCII போல்மத்தை (model) ஒருங்குறிச் சேர்த்தியம் அடிப்படையாகக் கொண்டதால், இந்திய மொழியெழுத்துக்களை ஒருங்குறிக்குள் கொண்டுவருவதில் தொடக்கத்தில் இருந்தே அதற்குப் பெருஞ்சரவல் இருந்தது. [அது காலம் வரை அகரவரிசை (alphabet) அரிச்சுவடிகளை ஒழுங்கு செய்த குழுவினர் இந்திய எழுத்துக்கள் அசையெழுத்து அரிச்சுவடிகள் என்று சரியாக உணரத் தவறினார்கள்.]

இப்படி ஏற்பட்ட முதற்கோணல் முற்றுங் கோணல் ஆயிற்று. [மிக அழகாக அப்பொழுதே இந்திக், தமிழ் என்று இரு (பெருங்கொத்துப்) போல்மங்களை - models - உருவாக்கி இச்சிக்கலைத் தீர்த்திருக்கலாம். ஒரு நல்ல வாய்ப்பு பத்துப் பதினைந்து ஆண்டுகளுக்கு முன் தவறிப்போயிற்று.] ISCII இல் இருந்த குறைபாட்டை இங்கு நான் பேசவரவில்லை. அது வேறு எங்கோ நம்மை இழுத்துப் போகும். நடந்து போனவற்றைக் கிளறாமல், தமிழெழுத்து, கிரந்தத்துள் தமிழெழுத்து என்பது பற்றி மட்டுமே இப்பொழுது பார்க்கிறோம்.

[உலகில் உள்ள மொழிகளின் ஒலிகளை யெல்லாம் ஒன்று சேர்த்து அவற்றிற்கான international phonetic association குறியீடுகளைக் கொடுத்து பொதுமையைக் கொண்டுவரமுடியும் தான். அது பொதுமக்களை மீறிய அறிவார்ந்த மொழியாளருக்கு மட்டுமே புரியக் கூடியது என்றெண்ணி அதை ஒருங்குறிச் சேர்த்தியம் கணக்கில் எடுத்துக் கொள்ளவில்லை.]

தமிழெழுத்தும் கிரந்தவெழுத்தும் தமிழகத்தில் உருவாக்கப் பட்டவை. இரண்டும் இருவேறு மொழிகளைக் குறிக்க எழுந்தவையாகும். இரண்டுமே இந்தியாவில் தோன்றிய தமிழி, பெருமி (brahmi) ஆகிய எழுத்தமைப்புகள் ஒன்றிற்கொன்று ஊடுருவி உருவான எழுத்துக்களாகும். (தமிழி தமிழுக்கும், கிரந்தம் சங்கதத்திற்கும் எழுந்தவை). பின்னால் இவ்வெழுத்துக்கள் தனியிருப்புக் கொண்டு மாற்று மொழிகளைக் குறிக்க முற்படுகின்றன. காட்டாக உரோமன் எழுத்தோடு சில மீக்குறிகளையும், மரபுகளையும், சேர்த்து தமிழ் மொழியை இக்காலத்தில் எழுதுகிறோம் இல்லையா?

இது போல தமிழெழுத்துக்களோடு சில மீக்குறிகளையும், மரபுகளையும் சேர்த்து ஆங்கில மொழியை எழுத முடியும். இதேபோல சங்கத மொழியை, கன்னடத்தை, தெலுங்கை, மற்ற மொழிகளை தமிழெழுத்துக் கொண்டே எழுத முடியும். [இம்மீக்குறிகள் பற்றிய செந்தரத்திற்கு இன்னும் தமிழ்க் கணிமையர் வந்து சேரவில்லை.] ஆனால் இதுவரை மீக்குறிகள் தனியாகவும் எழுத்துக்கள் தனியாகவும் அடுத்தடுத்துச் சரமாகத் (sequence) தான் எழுதப்பட்டு வந்தன. யாருமே மீக்குறிகள் இணைந்த அணுக்குறிப் புள்ளிகளாய் (atomic code points) ஒருங்குறிச் சேர்த்தியத்திடம் கேட்கவில்லை.

இதுவரை நான் சொன்னது பாயிரம் தான்; இனிமேற் தான் கட்டுரையின் உள்ளீட்டிற்கு வருகிறேன். அடுத்த பகுதிக்குப் போகலாம், வாருங்கள்.

அன்புடன்,
இராம.கி.

4 comments:

புருனோ Bruno said...

தொடருங்கள்

ஆவலுடன் எதிர்ப்பார்த்துள்ளோம்

Kannabiran, Ravi Shankar (KRS) said...

//கல், ஓடு, மரப்பட்டை, தோல், ஓலை, மாழை (metal), தாள், அச்சு ஆகியவற்றில் ஆவணம் வெளியிட்ட வரை யாரும் இவ்வெழுத்துக்களுக்கு ஒப்புதல் அளிக்க வேண்டிய கட்டாயம் ஏற்பட வில்லை. தமிழ்கூறும் நல்லுலகப் பொதுமக்களின் மரபே, பரவலான புழக்கமே, இவ்வொப்புதலை வழங்கிற்று//

:)

//இன்றோ கணித்திரையில் எழுதி அச்சடிக்கும் காலத்தில் ”இவ்வெழுத்து இப்படி இருந்தால் இது தமிழ், வேறுமாதிரி இருந்தால் நாகரி, சித்தம், கிரந்தம், உரோமன்" என்று பிரித்துக் காட்டி எங்கோவோரிடத்திற் செந்தரமாக்கும் (standardization) தேவையும், ஒப்புதல் வாங்கும் கட்டாயமும் ஏற்பட்டு விட்டன. அவ்விதத்தில் தான் தமிழின் தலைவிதியை எங்கோ இருக்கும் (வணிக நோக்குள்ள) ஒருங்குறிச் சேர்த்தியம் நிருணயிக்க முற்படுகிறது. தமிழ் புழங்கும் வெவ்வேறு அரசுகளும் இவ் விந்தையையுணராது, ஒருங்குறிச் சேர்த்தியத்தின் ஒப்புதலை வேண்டி “ஆமாஞ் சாமி” போட்டுக் கொண்டிருக்கின்றன//

செந்தரமாக்கம் (standardization) என்னும் கிணறு வெட்ட,
கிரந்த பூதம் கிளம்பிய கதையோ? :)

ஆழமான பார்வை இராம.கி. ஐயா!
நோக்கத்தை முதலில் சொல்லி, தற்போதைய இருப்பு நிலையை (As-Is Condtion), இந்தப் பதிவில் காட்டி விட்டீர்கள்! To-Be Condition அடுத்த பதிவிலா?

இராம.கி said...

அன்பிற்குரிய புருனோ,

கனிவிற்கு நன்றி

அன்பிற்குரிய இரவிசங்கர்,

தங்களுடைய ஊக்கத்திற்கு நன்றி. தாங்கள் அனுப்பிய படம் இந்தத் தொடரின் இரண்டாம் பகுதியிற் சேர்க்கப்பட்டிருக்கிறது. என் உளமார்ந்த நன்றிகள்.

அன்புடன்,
இராம.கி.

MSATHIA said...

வழமை போல் ஆழமான விவரமான கட்டுரை.