هم خطی

تشخیص هم خطی Collinearity Diagnostics در مدل های رگرسیونی

زمان مطالعه: 15 دقیقه 

 

توضیحات مدل رگرسیون خطی برگرفته شده از کتاب روش های پیشرفته آماری و کاربردهای آن

 

 
 

 

merci

دریافت مجموعه آموزش رگرسیون خطی با SPSS

شامل دو ساعت ویدئو، فایل‌های مثال، دیتا و نتایج SPSS

 

 

 

 

 

 

هم خطی چیست؟

 Collinearity 

به هنگام بیان مدل رگرسیون خطی (رگرسیون خطی Linear Regression در نرم‌افزار SPSS) به مطلبی به نام هم خطی اشاره کردم. هم خطی (Collinearity) از مباحث مربوط به درهم تنیدگی Intertwined کمیت‌های مستقل Xها در یکدیگر و احتمالاً زاید بودن Redundant آن‌ها، می‌باشد. یک توضیح کوتاه این‌که هم‌خطی به معنای وجود ارتباط قوی و همبستگی بالا در بین Xهای مدل است. هر چند هم‌خطی در همه مدل‌های رگرسیونی وجود دارد اما شدت آن، یک نقیصه به حساب می‌آید. زیرا وقتی دو یا چند X با یکدیگر هم‌خطی بالایی دارند، دیگر لزومی به آمدن همه آن‌ها در مدل رگرسیونی نیست و زاید هستند.

من در این مقاله به دنبال آن هستم که به بیان نحوه به دست آوردن هم خطی در یک مدل رگرسیونی و با استفاده از نرم افزار SPSS بپردازم. ما به این فرایند تشخیص هم خطی Collinearity Diagnostics می‌گوییم.

تشخیص هم خطی با استفاده از دو ابزار و آماره در نرم‌افزار SPSS انجام می‌شود. آن‌ها عبارتند از Tolerance و فاکتور تورم واریانس Variance Inflation Factor (VIF). در ادامه درباره‌ی آن‌ها بیشتر صحبت می‌کنیم.

 

مثال هم خطی در مدل رگرسیونی

 Example 

به داده‌های این مثال که مربوط به متوسط آلودگی هوا در فصل پاییز برحسب واحد PSI در 21 شهر کشور است، توجه کنید. فایل دیتا این مقاله را می‌توانید از اینجا Collinearity Diagnostics دریافت کنید.

در این بررسی چند عامل موثر در آلودگی هوای این شهرها مورد مطالعه قرار گرفته است. عواملی که مورد بررسی قرار گرفته‌اند عبارتند از تعداد کارخانه‌های بزرگ (بیشتر از 25 کارگر)، کارخانه‌های کوچک (کمتر از 25 کارگر)، تعداد وسایل نقلیه و وضعیت سیستم حمل و نقل عمومی در این 21 شهر. به طور حتم عوامل تاثیرگذار دیگری نیز بر روی آلودگی هوا، وجود دارند. با این‌حال ما بررسی خود را بر روی این چند عامل انجام داده‌ایم.

ما مدل رگرسیون خطی زیر را به داده‌ها برازش داده‌ایم. در این زمینه می‌توانید لینک (رگرسیون خطی Linear Regression در نرم‌افزار SPSS) را ببینید.

y=42.91 +12.77x_{1}+8.03x_{2}+4.59x_{3}-6.18x_{4}

 

همان‌طور که بیان کردم، هدف من در این مقاله تشخیص وجود هم خطی در بین X های این مدل رگرسیونی است.

برای انجام این کار در نرم‌افزار SPSS از مسیر زیر استفاده می‌کنیم.

Analyze → Regression → Linear 

 
مسیر انجام رگرسیون خطی در نرم‌افزار SPSS

 

تنظیمات نرم‌افزار

 Setting 

هنگامی که به مسیر بالا در نرم‌افزار SPSS می‌رویم، پنجره زیر با نام Linear Regression برای ما باز می‌شود.

پنجره Linear Regression

 

از آن‌جا که به دنبال پیش‌بینی میزان آلودگی هوا هستیم، آلودگی بر حسب PSI به عنوان کمیت وابسته Dependent و کمیت‌های تعداد وسایل نقلیه، کارخانه‌های بزرگ، کارخانه‌های کوچک و وضعیت سیستم حمل و نقل عمومی، به عنوان کمیت‌های مستقل Independent تعریف می‌شوند.

در پنجره Linear Regression تب‌ها و گزینه‌های مختلفی وجود دارد، گزینه هم خطی در تب Statistics قرار دارد.

 

 Statistics 

در تب  می‌توانیم آماره‌ها و یافته‌های مختلفی جهت بررسی مناسب بودن مدل رگرسیونی برازش شده و پارامترهای براورد شده، به دست بیاوریم. در تصویر زیر می‌توانید آن‌ها را ببینید.

گزینه Collinearity Diagnostics در تب Statistics

 

گزینه تشخیص هم خطی (Collinearity diagnostics) در این تب قرار دارد. من آن را در تصویر بالا مشخص کرده‌ام. خب، حال Continue و سپس OK کنید. در ادامه نتایج نرم‌افزار به دست آمده است.

 

نتایج هم خطی

 Output & Results 

نرم‌افزار SPSS نتایج و خروجی‌های زیادی در یک تحلیل رگرسیونی در اختیار ما قرار می‌دهد. با این حال من در این مقاله صرفاً می‌خواهم درباره هم خطی و آماره‌های آن که با استفاده از SPSS به دست می‌آید، صحبت کنم.

می‌توان بیان کرد که مهمترین یافته در تحلیل رگرسیون خطی، نتایج جدول Coefficients است. تصویر آن را در ادامه می‌بینید.

جدول Coefficients در تحلیل رگرسیون خطی

 

در جدول بالا من بخش Collinearity Statistics را مشخص کرده‌ام. همان‌گونه که مشاهده می‌کنید ابن بخش با استفاده از آماره‌ها (ستون‌ها) با نام Tolerance و VIF بیان شده است. من هر یک را توضیح می‌دهم.

 

  •  Variance Inflation Factor (VIF) 

هم خطی با آماره‌ای به نام فاکتور تورم واریانس Variance Inflation Factor (VIF) سنجیده می‌شود. اندازه VIFها نشان می‌دهد با همبسته بودن کمیت‌ها به یکدیگر، واریانس ضریب رگرسیونی براورد شده به چه میزان افزایش می‌یابد.

اگر VIF نزدیک به یک باشد، همخطی بین آن X با کمیت‌های دیگر وجود ندارد، اما اگر VIFها از یک بزرگتر باشند، همخطی بین آن X با کمیت‌های دیگر وجود دارد. وقتی VIF > 5 باشد، ضریب رگرسیونی به دست آمده برای آن جمله، مناسب نیست و معمولاً آن X را حذف می‌کنیم.

در جدول بالا کمیت‌های Lfactory و Sfactory به همراه Vehicles دارای مقدار VIF بالایی هستند. به معنای این‌که همخطی شدیدی بین این Variableها با سایر Xها وجود دارد.

 

  •  Tolerance 

در جدول بالا ستون دیگری با نام Tolerance دیده می‌شود. اعداد به دست آمده برای هر کمیت نشان می‌دهد که اگر آن X نقش Y را در یک مدل رگرسیونی داشته باشد و سپس بین آن X که دیگر Y شده است و سایر X ها یک مدل رگرسیونی برقرار کنیم، در آن صورت، ضریب تعیین R Square این مدل رگرسیونی چقدر خواهد بود.

در این زمینه رابطه زیر برقرار است.

Tolerance = 1 - R^{2}

 

به عنوان مثال عدد 0.223 برای Transport بیان می‌کند که اگر یک مدل رگرسیونی بین Transport از یک طرف و سه Variable دیگر، برقرار کنیم، ضریب تعیین یا همان R2 این مدل رگرسیونی جدید 0.777 خواهد بود.

همان‌گونه که می‌دانیم R2 عددی بین صفر و یک است و هر چقدر به یک نزدیکتر باشد، نشان‌دهنده‌ی وجود ارتباط قوی‌تر بین کمیت پاسخ Y با سایر کمیت‌های مستقل Xها می‌باشد.

در مدل‌های رگرسیونی مطلوب آن است که بین Xها همخطی وجود نداشته باشد و اندازه‌های VIF آن نزدیک به یک و Tolerance در اطراف صفر باشد.

در ادامه نتایج نرم‌افزار SPSS، جدول دیگری با نام Collinearity Diagnostics به دست آمده است. در تصویر زیر آن را ببینید.

جدول Collinearity Diagnostics

 

در نتایج این جدول به تعداد ضرایب رگرسیونی موجود در مدل، بُعد Dimension ساخته می‌شود. این کار تقریباً شبیه به تحلیل عاملی Principle Component Analysis (PCA) است.

معمولاً بیان می‌شود در سطرهایی که دارای مقادیر ویژه Eigenvalue نزدیک به صفر هستند، هم خطی وجود دارد. از آنجایی که عبارت “نزدیک به صفر” تا حدودی نامشخص است، بهتر است از ستون بعدی با نام شاخص وضعیت Condition Index برای تشخیص هم خطی استفاده شود.

صرفنظر از نحوه به دست آوردن اعداد و نتایج این ستون که می‌توانید در این لینک ببینید، مقادیر بالای 15 می‌تواند مشکلات هم خطی را نشان دهد، مقادیر بالای 30 نشانه بسیار قوی برای مشکلات هم خطی هستند. برای تمام سطرهایی که در آنها مقادیر بالایی برای Condition Index وجود دارد، بهتر است ستون‌های بعدی با نام نسبت‌های واریانس Variance Proportions در نظر بگیرید.

همان‌گونه که مشاهده می‌کنید نتایج مربوط به ستون‌های Variance Proportions به تفکیک هر X در مدل رگرسیونی به دست آمده است. برای هر ردیف با Index Condition بالا، مقادیر بالای 0.90 را در Variance Proportions جستجو کنید. اگر دو یا چند مقدار بالاتر از 0.90 در یک سطر پیدا کردید، می‌توانید فرض کنید که یک مشکل هم خطی بین آن وجود دارد. اگر فقط یک پیش بینی در یک خط دارای مقدار بالاتر از 0.90 باشد، این نشانه ای برای چند خطی بودن نیست.

اگر در مطالعه خود هم خطی بین X ها مشاهده کردید، سعی کنید مشکلات همخطی را با اجرای مجدد رگرسیون با استفاده از امتیاز z یا Z-Scores از کمیت‌های مستقل برطرف کنید. این کار با استفاده از روش تحلیل عاملی انجام می‌شود. علاقمند بودید این لینک را ببیند (انجام یک تحلیل رگرسیونی بر روی نمرات z)

 

در این مقاله به موضوع هم خطی (Collinearity) و تشخیص آن با استفاده از آماره‌هایی مانند Tolerance و فاکتور تورم واریانس Variance Inflation Factor (VIF) پرداختیم. این کار را با استفاده از نرم‌افزار SPSS و مدل‌های رگرسیون خطی انجام دادیم. 

 

چگونه به این مقاله رفرنس دهیم

GraphPad Statistics (2022). Collinearity Diagnostics in regression models. Statistical tutorials and software guides. Retrieved Month, Day, Yearfrom https://graphpad.ir/collinearity-diagnostics-spss.php

For example, if you viewed this guide on 12th January 2022, you would use the following reference

GraphPad Statistics (2022). Collinearity Diagnostics in regression models. Statistical tutorials and software guides. Retrieved January, 12, 2022, from https://graphpad.ir/collinearity-diagnostics-spss.php

 

ارایه خدمات تحلیل و مشاوره آماری

گراف پد برای شما خدمات مشاوره و انجام انواع تحلیل‌های آماری را ارایه می‌دهد. جهت دریافت نکات بیشتر بهتر است با ما تماس بگیرید.

گراف پد جمعی از رتبه‌های برتر آزمون دکترا آمار دانشگاه‌های ایران | برجسته در موسسه بین‌المللی تحقیقات | دارای نماد اعتماد الکترونیک از مرکز توسعه تجارت الکترونیکی ایران و مجوز رسمی ثبت به شماره ۴۱۸۸۱ و شناسه ملی ۱۴۰۰۶۸۳۲۳۱۹