வளவு: Regression

ஆங்கிலச் சொற்பிறப்பியல் தளத்தில் grade என்பதை

1510s, "degree of measurement," from French grade "grade, degree" (16c.), from Latin gradus "a step, a pace, gait; a step climbed (on a ladder or stair);" figuratively "a step toward something, a degree of something rising by stages," from gradi (past participle gressus) "to walk, step, go," from PIE *ghredh- "to walk, go" (source also of Lithuanian gridiju "to go, wander," Old Church Slavonic gredo "to come," Old Irish in-greinn "he pursues," and second element in congress, progress, etc.). Replaced Middle English gree "a step, degree in a series," from Old French grei "step," from Latin gradus.

என்று வரையறுப்பார். இதற்கு தரம், பிரிவு என ஏதேதோ சொற்களை நாம் இணையாகச் சொல்கிறோம். மாறாக இதைக் கட்டு என்று சொன்னால், நம்மால் மேலே நகர முடியும். சிவகங்கை மாவட்டத்தில் பென்னம் பெரிய வீடுகளில் முதற்கட்டு, இரண்டாங்கட்டு, மூன்றாங்கட்டு, நாலாங்கட்டு, பந்திக்கட்டு, சமையற்கட்டு என்று பல்வேறு கட்டுகள் கட்டப்படும். ஒவ்வொரு கட்டிற்கும், கடவும் கதவும் உண்டு. கடவு = கதவு பொருந்தும் நிலை = frame. கதவு = முன்சொன்ன நிலைக்குள் பொருந்தும் மூடுபலகை. ஆழ்ந்து ஓர்ந்து பார்த்தால் இங்கே சொல்லப்படும் gradus என்பதும் ஒருவகைக் கட்டு தான். ஒரு கட்டிலிருந்து இன்னொரு கட்டுக்கு அடுத்தடுத்து நாம் நகர்கிறோம். ஆங்கிலத்திற் சொன்னால் We move from one grade to another. gression என்பது கட்டும் தொழில். re-gression என்பது மீள்கட்டு.

இப்பொழுது இச்சொல்லின் பொருத்தத்திற்கு வருவோம். 5 பந்துறா வேறிகளும் (independent variables), ஒரு பந்துறு வேறியும் (dependent variables) இருப்பதாய் எண்ணிக் கொள்ளுங்கள். இப்பொழுது புள்ளிவிவரச் சேகரத்தின் (collection statistics) மூலம் நாம் கணிசமான (sufficient) புள்ளிகளைப் (ஒவ்வொன்றும் 1,5 என்ற வேறிகளைக் கொண்டது.) பெற்ற பின் புள்ளிவிவரச் செய்முறைகள் (statistical methods) முலம் ஒரு மீள்கட்டைச் (regression) செய்கிறோம். மீள்கட்டிய பந்துறு வேறியையும் (regressed dependent variable) நாம் சோதனை மூலம் ஏற்கனவே அளந்தெடுத்துப் பெற்ற பந்துறு வேறியையும் (raw dependent variable) ஒப்பிட்டுப் பார்த்து, இவற்றிடையே அமையும் செந்தர வேற்றம் (standard variation) குறையும் படி மீள்கட்டின் கெழுக்களைச் (regressional parameters) சரி செய்கிறோம். முடிவில் உருப்படியான ஒரு மீள்கட்டை (proper regression) உருவாக்குகிறோம்.

regression க்கு என் பரிந்துரை மீள்கட்டு என்பதே. Linear Regression = இழுனை மீள்கட்டு. Linear- க்கு நேர் என்பதை நான் பயன்படுத்துவதில்லை. direct -இற்கு மட்டுமே நேர் என்ற சொல்லைப் பயன்படுத்துகிறேன். Linear க்கு இழுனை (இழுத்து வருவது) என்றும், non-linear க்கு இழுனா என்றும் பயன்படுத்துகிறேன். இப்பயன்பாட்டில் இதுவரை சிக்கல் வந்ததில்லை. தவிரச் சொல்லும் சிறிதாக உள்ளது. Logistic Regression = மடக்கடி மீள்கட்டு exponential = மடக்கை. logarithm = மடக்கடி. exponential series = மடக்கைச் சரம். logarithmic series = மடக்கடிச் சரம்.

இனிக் கூகுளிலிருந்து ஒரு பத்தியைத் தமிழாக்கிக் காட்டுகிறேன்.

தமிழ்:

ஒரு நிகழ்வின் பெருதகையை (probability) மதிப்பிடும் போது, ஒன்றோ, பலவோ ஆன விளக்கவேறிகள் (explanatory variables) மூலம் அது தாக்குறலாம். இப் பெருதகையை மடக்கடி மீள்கட்டின் (logistic regression) மூலம் போல்மஞ் (model) செய்கையில் மடக்கடி வங்கங்கள் (Logistic functions) பயன்படுகின்றன. மடக்கடி வங்கம் என்பது மக்கள்தொகை ஈனியலில் (population genetics) முதன் முதலில் எழுந்ததாகும். இவ்வங்கத்தை p = f (a+bx) என்று எடுத்துக்காட்டலாம். இதில் p = பெருதகை; x = விளக்கவேறி; a,b போல்மக் கெழுக்கள் (model parameters). f (a+bx) = 1/[1+exp(ax+b)] எனப்படும் செந்தர மடக்கடி வங்கம் (standard logistic function). (இதை சிக்மாய்டு வங்கம் என்றுஞ் சொல்வர்.) பொதுவாக மடக்கடி மீள்கட்டும் மடக்கு-இழுனைப் போல்மங்களும் (log-linear models) மாகனக் கற்றலிற் (machine learning) பயன்படுகின்றன. மடக்கடி வங்கத்தை இன்னும் பொதுமைப்படுத்தி சொவ்வை-மீகும ஆற்றுவ வங்கமாய்ச் (softmax activation function) சொல்லுவர். இவ்வங்கம் பல்முனை மடங்கடி மீள்கட்டைச் (multinomial logistic regression) செய்யப் பயன்படுகிறது.

ஆங்கிலம்:

Logistic functions (மடக்கடி வங்கங்கள்) are used in logistic regression (மடக்கடி மீள்கட்டு) to model how the probability (பெருதகை) p of an event may be affected by one or more explanatory variables (விளக்க வேறிகள்): an example would be to have the model p=f(a+bx) where x is the explanatory variable and a and b are model parameters (போல்மக் கெழுக்கள்) to be fitted and f is the standard logistic function (செந்தர மடிக்கடி வங்கம்) 1/[1+exp(ax+b)]. Logistic regression and other log-linear models (மடக்கு-இழுனைப் போல்மங்கள்) are also commonly used in machine learning (மாகனப் படிப்பு). A generalisation of the logistic function to multiple inputs is the softmax activation function (சொவ்வை மீகும ஆற்றுவ வங்கம்), used in multinomial logistic regression (பல்முனை மடங்கடி மீள்கட்டு).

Numerical variable = எண்ணுதி வேறி, எண்ணுதியாகச் சொல்வது numerical - ஆகச் சொல்வது. எண்ணுதலில் எழுந்தது எண்ணுதி.

Categorical variable = கட்டுக்கூறு வேறி; category = கட்டுக்கூறு

அன்புடன்,

இராம.கி.

வளவு

Saturday, October 30, 2021

Regression

No comments: