رگرسیون حداقل مربعات معمولی Ordinary Least Squares regression (OLS)

رگرسیون حداقل مربعات معمولی (OLS)، به عنوان رگرسیون خطی Linear Regression نامیده می‌شود. رگرسیون حداقل مربعات معمولی (OLS) تکنیک رایج برای براورد ضرایب معادلات رگرسیون خطی است که رابطه بین یک یا چند Variable مستقل و یک کمیت وابسته (رگرسیون خطی ساده یا چندگانه) را توصیف می‌کند.

Ordinary Least Squares regression (OLS)

حداقل مربعات Least Squares بیانگر روشی جهت مینیمم کردن مجموع مربعات خطا (SSE) Sum of Squares of Errors است. خوب است بدانیم ماکزیمم درستنمایی Maximum Likelihood و روش تعمیم‌یافته تخمین‌گر گشتاورها Generalized Method of Moments Estimator، رویکردهای جایگزین OLS هستند.

من در لینک (رگرسیون خطی Linear Regression در نرم‌افزار SPSS) به بیان انجام تحلیل رگرسیون خطی با استفاده از نرم‌افزار SPSS پرداخته‌ام. علاقمند بودید آن را ببینید.

کمی معادله ببینیم

Equations for the Ordinary Least Squares Regression

سوالی که مطرح می شود این است که فرمول حداقل مربعات معمولی: معادله مدل چیست؟ در واقع ما در اینجا با چه فرمول رگرسیونی روبه‌رو هستیم؟ رابطه زیر را ببینید. مدل رگرسیونی OLS به صورت زیر نوشته می‌شود.

$ \displaystyle Y={{\beta }_{0}}+\sum\limits_{{i=1}}^{p}{{{{\beta }_{i}}}}{{X}_{i}}+\varepsilon $

در این رابطه، Y همان کمیت وابسته، $ \displaystyle {{\beta }_{0}}$ ضریب ثابت Intercept، $ \displaystyle {{X}_{i}}$ کمیت مستقل (i=1 to p)، $ \displaystyle {{{\beta }_{i}}}$ ضریب رگرسیونی کمیت iام و $ \displaystyle \varepsilon $ خطای تصادفی با میانگین صفر و واریانس $ \displaystyle {{\sigma }^{2}}$ است.

نکته‌ای که در اینجا وجود دارد و ویژگی متمایز رگرسیون OLS است، این است که براورد پارامترهای مدل رگرسیونی یعنی $ \displaystyle {{{\beta }_{i}}}$ ها به گونه‌ای انجام می‌شود که $ \displaystyle \varepsilon $ یعنی خطای تصادفی رگرسیون OLS دارای میانگین صفر و واریانس $ \displaystyle {{\sigma }^{2}}$ باشد.

مثال فرض کنید می‌خواهیم ارتفاع گیاهان را بر مبنای تعداد روزهایی که در آفتاب سپری کرده‌اند پیش‌بینی کنیم. قبل از قرار گرفتن در معرض نور خورشید، آنها 30 سانتیمتر هستند. گیاه پس از یک روز قرار گرفتن در معرض آفتاب 1 میلی متر (0.1 سانتی متر) رشد می‌کند. بنابراین در اینجا گزاره‌های زیر را داریم.

Y همان ارتفاع گیاه است.
X تعداد روزهای قرار گرفته گیاه در زیر نور خورشید است.
$ \displaystyle {{\beta }_{0}}$ برابر با 30 سانتیمتر است، زیرا مقداری از Y است اگر X = 0 باشد.
$ \displaystyle {{\beta }_{1}}$ برابر با 0.1 سانتمتر است، زیرا اندازه رشد گیاه در اثر قرار گرفتن یک روز بیشتر در معرض آفتاب را نشان می‌دهد.

به عنوان مثال گیاهی که به مدت 5 روز در معرض آفتاب قرار می‌گیرد دارای ارتفاع براوردی Y = 30 + 0.1 * 5 = 30.5 سانتیمتر است. البته این یافته همیشه دقیق نیست، به همین دلیل باید خطای تصادفی ε را در نظر بگیریم.

نکته‌ای که در این میان وجود دارد این است که قبل از پیش‌بینی، ما باید ضرایب β را پیدا کنیم. ما فقط با وارد کردن جدولی شامل ارتفاع چند گیاه به همراه تعداد روزهایی که آنها در آفتاب سپری کرده‌اند، شروع می‌کنیم. اگر می‌خواهید در مورد محاسبات بیشتر بدانید، ادامه مطلب را بخوانید.

فرمول‌ها و براورد پارامترها

How do ordinary least squares (OLS) work?

هدف روش OLS به حداقل رساندن مجموع مربعات اختلاف بین مقادیر مشاهده شده و پیش‌بینی شده است. یعنی در واقع می‌خواهیم عبارت زیر را مینیمم کنیم.

$ \displaystyle \text{to minimize}\begin{array}{*{20}{c}} {} & {{{{\sum\limits_{{j=1}}^{n}{{\left( {{{y}_{j}}-{{{\hat{y}}}_{j}}} \right)}}}}^{2}}=\sum\limits_{{j=1}}^{n}{{e_{j}^{2}}}} \end{array}$

بر این مبنا، برداز ضرایب β را به صورت زیر براورد می‌کنیم.

$\displaystyle \hat{\beta }={{\left( {{X}’X} \right)}^{{-1}}}{X}’Y$

در این رابطه X ماتریس کمیت‌های مستقل و Y ماتریس کمیت وابسته است. به این ترتیب بردار مقادیر پیش‌بینی شده را می‌توان به صورت زیر نوشت.

$ \displaystyle \hat{Y}=X\hat{\beta }=X{{\left( {{X}’X} \right)}^{{-1}}}{X}’Y$

حتی می توانیم واریانس σ² خطای تصادفی ε را با فرمول زیر به دست بیاوریم.

$ \displaystyle {{{\hat{\sigma }}}^{2}}=\frac{{{{{\sum\limits_{{j=1}}^{n}{{\left( {{{y}_{j}}-{{{\hat{y}}}_{j}}} \right)}}}}^{2}}}}{{n-p}}=\frac{{\sum\limits_{{j=1}}^{n}{{e_{j}^{2}}}}}{{n-p}}$

در این رابطه n تعداد نمونه و p تعداد ضرایب رگرسیونی مدل OLS است.

مثال عددی

What is the intuitive explanation of the least squares method?

به طور شهودی، هدف روش حداقل مربعات معمولی به حداقل رساندن خطای پیش‌بینی، بین مقادیر پیش‌بینی‌شده و واقعی است. ممکن است کسی بپرسد که چرا ما به جای مینیمم کردن مجموع خطاها، مجموع مربعات خطاها را می‌خواهیم مینیمم کنیم.

خطاها می‌توانند اعدادی مثبت و یا منفی باشد. خوب است این نکته را بدانیم که بر مبنای روش OLS، مجموع خطاها برابر با صفر است. یعنی $ \displaystyle \sum\limits_{{j=1}}^{n}{{{{e}_{j}}}}=0$

به عنوان مثال، اگر مقادیر واقعی شما 2، 3، 5، 2، و 4 و مقادیر پیش‌بینی شده شما 3، 2، 5، 1، 5 باشد، خطای کل به صورت زیر

$ \displaystyle \left( {5-4} \right)+\left( {1-2} \right)+\left( {5-5} \right)+\left( {2-3} \right)+\left( {3-2} \right)=1-1+0-1+1=0$

و میانگین خطا $ \displaystyle 0/5=0$ خواهد بود که می‌تواند منجر به نتیجه‌گیری نادرست شود. چرا که این نتیجه به دست می‌آید که ما هیچ خطایی نداریم و میانگین خطای ما صفر است.

با این حال، اگر مجموع مجذور خطا را محاسبه کنید،

$ \displaystyle {{\left( {5-4} \right)}^{2}}+{{\left( {1-2} \right)}^{2}}+{{\left( {5-5} \right)}^{2}}+{{\left( {2-3} \right)}^{2}}+{{\left( {3-2} \right)}^{2}}=4$

نتیجه خواهد شد. بنابراین میانگین مجذور خطا به صورت $ \displaystyle 4/5=0.8$ می‌باشد. با در نظر گرفتن جذر آن، Sqrt (0.8) = 0.89 را به دست می‌آوریم، بنابراین به طور متوسط، پیش‌بینی ما 89% با مقدار واقعی متفاوت است.

پیش‌فرض‌های رگرسیون OLS

What are the assumptions of Ordinary Least Squares (OLS)?

جهت انجام رگرسیون حداقل مربعات معمولی Ordinary Least Squares regression (OLS) به برقراری تعدادی پیش‌فرض آماری نیاز است. من در ادامه آن‌ها را آورده‌ام.

پیش فرض 1

کمیت وابسته Dependent Variable که به آن پاسخ Response و Y نیز گفته می‌شود، باید در مقیاس پیوسته Scale اندازه‌گیری شوند. به عنوان مثال زمان (برحسب ساعت)، هوش (با استفاده از نمره IQ)، عملکرد امتحان (از 0 تا 100)، وزن (برحسب کیلوگرم) و غیره.

پیش فرض 2

کمیت‌های مستقل Independent Variables که به آن‌ها پیش‌بینی کننده Predictor و یا X گفته می‌شود، نیز باید به صورت پیوسته Continuous اندازه‌گیری شده باشند.

پیش فرض 3

باید یک رابطه خطی linear relationship بین X و Y وجود داشته باشد. در حالی که روش‌های مختلفی برای بررسی رابطه خطی وجود دارد، پیشنهاد می‌کنیم با استفاده از نمودارهای پراکنش Scatter Plots استفاده کنید. در این لینک (رسم نمودار پراکنش Scatter Plot با استفاده از نرم‌افزار SPSS) می‌توانید آموزش رسم آن‌ها را ببینید. با استفاده از این گراف‌ها می‌توانید به صورت بصری پراکندگی داده‌ها را به منظور خطی بودن بررسی کنید. نمودار پراکندگی شما ممکن است چیزی شبیه به یکی از موارد زیر باشد.

اگر رابطه نمایش داده شده در نمودار پراکندگی شما خطی نیست، باید یک تحلیل رگرسیون غیرخطی انجام دهید، یک رگرسیون چند جمله‌ای Polynomial Regression انجام دهید یا داده‌های خود را تبدیل کنید، این کار را می‌توانید با استفاده از SPSS انجام دهید.

پیش فرض 4

نباید نقاط پرت Outliers قابل توجهی وجود داشته باشد. نقطه پرت یک نقطه داده مشاهده شده است که عدد پاسخ آن با مقدار پیش‌بینی شده توسط معادله رگرسیون بسیار متفاوت است. به این ترتیب، نقطه پرت نقطه‌ای در یک نمودار پراکنش خواهد بود که (به صورت عمودی) از خط رگرسیون دور است و نشان می‌دهد که باقیمانده Residual و خطای زیادی دارد، گراف‌های زیر را ببینید.

مشکل داده‌های پرت این است که می‌توانند تاثیر منفی بر تحلیل رگرسیون داشته باشند (به عنوان مثال، تناسب معادله رگرسیون را کاهش دهند) که برای پیش‌بینی مقدار کمیت وابسته (پاسخ) بر اساس کمیت مستقل (پیش‌بینی کننده) استفاده می‌شود. وجود داده‌های پرت دقت پیش‌بینی نتایج شما را کاهش می‌دهند. خوشبختانه، هنگام استفاده از SPSS برای اجرای رگرسیون خطی، می‌توانید به راحتی معیارهایی را برای کمک به تشخیص موارد پرت در نظر بگیرید. با استفاده از تشخیص موردی casewise diagnostics که یک فرآیند ساده هنگام استفاده از SPSS است، می‌توانید نقاط پرت را تشخیص دهید. علاقمند بودید در این لینک (آزمون دوربین واتسن Durbin-Watson و تشخیص موردی Casewise diagnostics) می‌توانید آموزش آن را ببینید.

همچنین با استفاده از رسم نمودارهای جعبه‌ای که آموزش آن را می‌توانید در این لینک ببینید (رسم Box Plot با استفاده از نرم‌افزار SPSS) می‌توانیم به شناسایی و یافتن داده‌های پرت، اقدام کنیم. در این زمینه می‌توانید این آموزش را هم ببینید. (تشخیص داده پرت با استفاده از Grubbs’ Test در Minitab)

پیش فرض 5

مشاهدات باید از یکدیگر مستقل باشند. این کار را به سادگی می‌توانید با استفاده از آزمون دوربین-واتسن Durbin-Watson بررسی کنید. در این زمینه لینک (آزمون دوربین واتسن Durbin-Watson و تشخیص موردی Casewise diagnostics) را ببینید.

پیش فرض 6

یکی دیگر از پیش‌فرض‌های انجام تحلیل رگرسیون خطی برقرار بودن مفهومی به اسم هم واریانسی و یا Homoscedasticity است. در این زمینه توصیه می‌کنم حتماً مقاله آزمون‌های ناهم‌ واریانسی Heteroscedasticity Tests در نرم افزار SPSS را مطالعه کنید.

هم واریانسی به این معنا است که باید خطای مدل که به آن Residual و باقیمانده هم گفته می‌شود، دارای ثبات در واریانس باشد. مفهوم ثبات در واریانس هم به معنای این است که خطاهای مدل نباید با مقادیر عددی برازش شده برای Dependent Variable یا همان کمیت پاسخ، مرتبط و وابسته باشند.

به نمودارهای پراکندگی زیر که سه مثال ساده ارایه می‌دهند نگاه کنید. دو مورد از داده‌هایی که این فرض را نقض می‌کنند (به نام ناهم واریانسی Heteroscedasticity) و یک مورد از داده‌هایی که این فرض را برآورده می‌کند (به نام هم واریانسی Homoscedasticity).

پیش فرض 7

باقیمانده‌ها یا همان Residuals باید به طور تقریبی نرمال باشند (Approximately Normally). در اینجا یک نکته بسیار مهم وجود دارد. آنالیز رگرسیون خطی نسبت به نقض فرض نرمال بودن باقیمانده‌ها اصطلاحا استوار Robust است. به این معنی که این فرض می‌تواند تا حدی نقض شود و همچنان نتایج معتبری ارایه دهد. ما با استفاده از نمودار احتمال نرمال می‌توانیم به بررسی این فرض بپردازیم. علاقمند بودید لینک (نمودار احتمال نرمال Normal Probability Plot در مدل های رگرسیونی) را ببینید. همچنین در این زمینه لینک بررسی نرمال بودن داده‌ها را مشاهده کنید (آزمون نرمال بودن داده‌ها Normality Test در نرم‌افزار SPSS).

محدودیت‌ها و مزایای OLS

What are the advantages and limitations of OLS?

قبل از اینکه بخواهم درباره‌ی امتیازات و ویژگی‌های رگرسیون OLS صحبت کنم، خوب است بدانید محدودیت‌های رگرسیون OLS از محدودیت وارونگی ماتریس X’X ناشی می شود: به خاطر داشته باشید ما در براورد ماتریس ضرایب همبستگی از وارون ماتریس X’X استفاده می‌کنیم. لازم است که رتبه ماتریس X’X برابر با p+1 باشد و اگر این‌گونه نباشد برخی مشکلات عددی در براورد مانریس β ایجاد می‌شود.

از مزایای رگرسیون OLS مفهومی به نام انتخاب کمیت‌ها Selection Variables است. من در لینک (Selection Variable در مدل های رگرسیونی) در این موضوع توضیح داده‌ام. انتخاب خودکار کمیت‌ها در صورتی انجام می‌شود که کاربر تعداد بالایی از Variable ها را در مقایسه با تعداد مشاهدات انتخاب کند. از نظر تئوری تعداد Variableها می‌تواند تا n-1 باشد، زیرا با مقادیر بیشتر، ماتریس X’X غیرقابل تبدیل می‌شود.

حذف برخی از کمیت‌ها ممکن است بهینه نباشد. در برخی موارد ممکن است لازم باشد کمیتی را به مدل اضافه نکنیم زیرا با برخی از Variableهای دیگر هم خطی داشته باشد. در این زمینه علاقمند بودید لینک (تشخیص هم خطی Collinearity Diagnostics در مدل های رگرسیونی) را ببینید.

به همین دلیل و همچنین بررسی مواردی که Variableهای توضیحی یعنی کمیت‌های مستقل زیادی در مدل رگرسیونی وجود دارد، روش‌های دیگری مانند رگرسیون حداقل مربعات جزئی Partial Least Squares regression (PLS) توسعه یافته و به وجود آمده است.

در این مقاله به مفهوم و تعریف رگرسیون حداقل مربعات معمولی Ordinary Least Squares regression (OLS) اشاره کردیم. فرمول‌ها و براورد پارامترها، پیش‌فرض‌های رگرسیون OLS، محدودیت‌ها و مزایای این روش صحبت کردیم.

چگونه به این مقاله رفرنس دهیم

GraphPad Statistics (2022). Ordinary Least Squares regression. Statistical tutorials and software guides. Retrieved Month, Day, Year, from https://graphpad.ir/ordinary-least-squares-regression/.php

For example, if you viewed this guide on 12^th January 2022, you would use the following reference

GraphPad Statistics (2022). Ordinary Least Squares regression. Statistical tutorials and software guides. Retrieved January, 12, 2022, from https://graphpad.ir/ordinary-least-squares-regression/.php

ارایه خدمات تحلیل و مشاوره آماری

گراف پد برای شما خدمات مشاوره و انجام انواع تحلیل‌های آماری را ارایه می‌دهد. جهت دریافت نکات بیشتر بهتر است با ما تماس بگیرید.

سبد خرید