انتخاب روشهای ورود کمیتهای مستقل به مدل رگرسیونی
به هنگام بیان مدل رگرسیون خطی (رگرسیون خطی Linear Regression در نرمافزار SPSS) به مطلبی به نام روشهای ورود کمیتهای مستقل (یعنی همان Xها) به مدل رگرسیونی اشاره کردم.
این روشها را میتوانید در پنجره Linear Regression و بخش Method مشاهده و انتخاب کنید.
من در این مقاله میخواهم به توضیح انواع گزینههای مختلف این بخش و نحوه ورود X ها به مدل رگرسیون خطی، بپردازم.
در ابتدا به دادههای این مقاله که مربوط به متوسط آلودگی هوا در فصل پاییز برحسب واحد PSI در 21 شهر کشور است، توجه کنید. فایل دیتا این مقاله را میتوانید از اینجا Method دریافت کنید.
در این بررسی چند عامل موثر در آلودگی هوای این شهرها مورد مطالعه قرار گرفته است. عواملی که مورد بررسی قرار گرفتهاند عبارتند از تعداد کارخانههای بزرگ (بیشتر از 25 کارگر)، کارخانههای کوچک (کمتر از 25 کارگر)، تعداد وسایل نقلیه و وضعیت سیستم حمل و نقل عمومی در این 21 شهر. به طور حتم عوامل تاثیرگذار دیگری نیز بر روی آلودگی هوا، وجود دارند. با اینحال ما بررسی خود را بر روی این چند عامل انجام دادهایم.
برای انجام این کار در نرمافزار SPSS از مسیر زیر استفاده میکنیم.
Analyze → Regression → Linear
هنگامی که به مسیر بالا در نرمافزار SPSS میرویم، پنجره زیر با نام Linear Regression برای ما باز میشود.
از آنجا که به دنبال پیشبینی میزان آلودگی هوا هستیم، آلودگی بر حسب PSI به عنوان کمیت وابسته Dependent و کمیتهای تعداد وسایل نقلیه، کارخانههای بزرگ، کارخانههای کوچک و وضعیت سیستم حمل و نقل عمومی، به عنوان کمیتهای مستقل Independent تعریف میشوند.
در ادامه به توضیح روشهای مختلف بخش Method میپردازیم.
Enter
متداولترین روش انتخاب ورود Xها به مدل رگرسیونی، همین گزینه Enter است. با انتخاب این گزینه که پیشفرض نرمافزار SPSS نیز هست، همه کمیتهای مستقل به صورت همزمان و با هم وارد مدل رگرسیونی میشوند. در این زمینه میتوانید لینک (رگرسیون خطی Linear Regression در نرمافزار SPSS) را ببینید.
در جدول ضرایب زیر، مدل رگرسیون خطی با استفاده از روش Enter به دست آمده است. آن را ببینید.
به این ترتیب مدل رگرسیون خطی زیر را به دادهها برازش دادهایم.
$ \displaystyle y=42.91+12.77{{x}_{1}}+8.03{{x}_{2}}+4.59{{x}_{3}}-6.18{{x}_{4}}$
حال در ادامه بیایید بقیه روشهای ورود کمیتهای مستقل به مدل رگرسیونی را بررسی کنیم.
Stepwise
در کادر Method، گزینه Stepwise را انتخاب کنید. با بقیه تنظیمات نرمافزار کاری نداریم و آنها را به همان حالت روش قبل یعنی Enter قرار میدهیم. در ادامه نتایج به دست آمده را مشاهده میکنید. من بخشهای مهم آن را بیان میکنم.
در ابتدا جدول Variables Entered/Removed را مشاهده میکنید. این جدول در فهم روش Stepwise به ما کمک میکند.
در نتایج این جدول، همانگونه که مشاهده میکنید، مدل رگرسیونی در سه مرحله اجرا شده است. در هر مرحله یک کمیت مستقل وارد مدل شده است. ابتدا Vehicles، سپس Lfactory و در مرحله بعد Transport. کمیت Sfactory نیز که اثری از آن نیست و در هیچ مرحلهای وارد مدل رگرسیونی نشده است.
در توضیح چرایی این مطلب، لازم است یکبار دیگر جدول ضرایب رگرسیونی در روش Enter را مشاهده کنید. من آن را آوردهام.
در جدول بالا به ستون Standardized Coefficients (Beta) نگاه کنید. در لینک (رگرسیون خطی Linear Regression در نرمافزار SPSS) درباره این ستون و نتایج آن توضیح دادهام. بزرگترین عدد (ضریب رگرسیونی استاندارد شده) مربوط به کدام X است؟ پاسخ Vehicles است. به همین دلیل در روش Stepwise، ابتدا این کمیت وارد مدل رگرسیونی شده است.
پس از آن Lfactory قرار دارد که ضریب رگرسیونی استاندارد شده آن 0.240 شده است. بنابراین در گام بعد از روش Stepwise، کمیت Lfactory مارد مدل شده است.
Transport نیز ضریب بتا استاندارد شده برابر با 0.136- دارد. بنابراین در گام سوم، وارد مدل خطی شده است.
حال شاید سوال این باشد که چرا Sfactory در روش Stepwise وارد مدل رگرسیونی نشده است؟ پاسخ ساده است. به ستون Sig در جدول بالا نگاه کنید. کمیت Sfactory اصلاً معنادار نیست که بخواهد وارد مدل رگرسیونی شود (P-value = 0.126).
بنابراین در نهایت به دست میآوریم که در روش Stepwise کمیتها به ترتیب اهمیت بالاتر (ضریب رگرسیونی استاندارد بزرگتر) وارد مدل رگرسیونی میشوند. این کار تا آنجایی که همه Xهای معنادار وارد مدل میشوند، ادامه پیدا میکند.
در ادامه سایر نتایج مدل رگرسیونی با استفاده از روش Stepwise به دست آمده است.
در جدول Model Summary بالا، ضریب تعیین R Square به ازای هر کدام از گامهای مدل Stepwise به دست آمده است. روند افزایشی R Square در هر گام طبیعی است. به دلیل اینکه در هر گام یک کمیت به مدل رگرسیونی اضافه شده است.
در جدول Coefficients، ورود هر کدام از کمیتهای مستقل در گامهای روش Stepwise، بیان شده است.
همانگونه که در جدول Coefficients مشاهده میکنید در هر گام، کمیتی با بزرگترین ضریب رگرسیونی استاندارد شده وارد مدل میشود. در گام بعدی، کمیت وارد شده در مرحله قبل، در مدل باقی میماند و X معنادار جدیدی وارد مدل رگرسیونی میشود.
Remove
در کادر Method، گزینه Remove را انتخاب کنید. همانند گزینه Stepwise که در بخش قبل آن را توضیح دادیم، در این بخش به بیان گزینه دیگر Method یعنی Remove میپردازیم.
همانگونه که از نام این روش برمیآید، با استفاده از آن میتوانید یک یا چند کمیت مستقل یعنی X را از مدل رگرسیونی حذف کرده و کنار بگزاریم. جهت استفاده از این روش، لازم است ابتدا یک مدل از نوع Enter تشکیل دهیم. در مرحله بعد، X هایی که فکر میکنیم، اثر کمتری بر Y دارد و یا به هر دلیلی دیگر نمیخواهیم در مدل رگرسیونی ما باشد را با استفاده از متد Remove حذف میکنیم.
برای انجام این کار در همان پنجره Linear Regression ابتدا روش Enter را انتخاب میکنیم.
سپس با استفاده از دکمه Next وارد بلوک دیگر مدل رگرسیونی میشویم. تصویر زیر را ببینید.
در این بلوک، روش Remove را انتخاب میکنیم. همچنین کمیتی که نمیخواهیم در مدل رگرسیونی قرار گیرد را در کادر Block قرار میدهیم. به عنوان مثال من نمیخواهم Sfactory دیگر در مدل رگرسیونی وجود داشته باشد. پس آن را در کادر Block میگذارم.
با انجام این کار دو مدل رگرسیونی برازش داده میشود. یک مدل بر مبنای روش Enter و قرار گرفتن همه Xها در مدل و دیگری بر مبنای روش Remove و حذف یک یا چند Variable از مدل رگرسیونی.
حال بیایید نتایج به دست آمده در خروجیهای نرمافزار را ببینیم. در ابتدا جدول Variables Entered/Removed را مشاهده میکنید.
در نتایج این جدول، همانگونه که مشاهده میکنید، مدل رگرسیونی در دو مرحله اجرا شده است. در مرحله یک، همهی کمیتهای مستقل وارد مدل شده است. در مرحله بعد نیز همه در مدل باقی ماندهاند و Sfactory حذف شده است.
در ادامه سایر نتایج مدل رگرسیونی با استفاده از روش Remove به دست آمده است.
در جدول Model Summary، ضریب تعیین R Square به ازای هر کدام از گامهای مدل Remove به دست آمده است. در مدل 1، ضریب تعیین برابر با 98.8 درصد به دست آمده است. در مدل بعدی که با حذف Sfactory برازش شده است، ضریب تعیین برابر با 98.6 درصد است. اختلاف بسیار کم ضریب تعیین در این دو مدل، بیانگر نقش و اهمیت کم Sfactory در این مثال و دیتا است.
در جدول Coefficients، ورود هر کدام از کمیتهای مستقل در گامهای روش Remove، بیان شده است.
همانگونه که در جدول Coefficients مشاهده میکنید در مدل 1، همه کمیتها وارد شدهاند و در مدل 2، کمیت Sfactory حذف شده است.
Backward
روش Backward گزینه مناسبی است، هنگامی که میخواهیم در نهایت یک مدل رگرسیونی فقط با X های معنادار داشته باشیم. Backward حالت پیشرفتهتر روش Remove است که ما فرایند حذف کمیتها را به خود نرمافزار میسپاریم. نرمافزار نیز در هر مرحله، X های غیرمعنادار را ار مدل رگرسیونی کنار میگذارد.
برای انجام این کار در پنجره Linear Regression روش Backward را انتخاب میکنیم.
با انجام این کار دو مدل رگرسیونی برازش داده میشود. یک مدل بر مبنای روش Enter و قرار گرفتن همه Xها در مدل و دیگری بر مبنای روش Backward و حذف Variable های غیرمعنادار از مدل رگرسیونی.
حال بیایید نتایج به دست آمده در خروجیهای نرمافزار را ببینیم. در ابتدا جدول Variables Entered/Removed را مشاهده میکنید.
در نتایج این جدول، همانگونه که مشاهده میکنید، مدل رگرسیونی در دو مرحله اجرا شده است. در مرحله یک، همهی کمیتهای مستقل وارد مدل شده است. در مرحله بعد نیز همه در مدل باقی ماندهاند و Sfactory حذف شده است. دلیل حذف این کمیت به دلیل عدم معناداری آن در مدل رگرسیونی مرحله 1 (روش Enter) بوده است.
در ادامه سایر نتایج مدل رگرسیونی با استفاده از روش Backward به دست آمده است.
در جدول Model Summary، ضریب تعیین R Square به ازای هر کدام از گامهای مدل Remove به دست آمده است. در مدل 1، ضریب تعیین برابر با 98.8 درصد به دست آمده است. در مدل بعدی که با حذف Sfactory برازش شده است، ضریب تعیین برابر با 98.6 درصد است. اختلاف بسیار کم ضریب تعیین در این دو مدل، بیانگر نقش و اهمیت کم Sfactory در این مثال و دیتا است.
در جدول Coefficients، ورود هر کدام از کمیتهای مستقل در گامهای روش Backward، بیان شده است.
همانگونه که در جدول Coefficients مشاهده میکنید در مدل 1، همه کمیتها وارد شدهاند و در مدل 2، کمیت Sfactory حذف شده است.
Forward
روش Forward تا حد ریادی مشابه متد Stepwise عمل میکند. به این ترتیب که اثرگزارترین Variable ها، در هر مرحله وارد مدل رگرسیونی میشوند. منظور ما از اثرگزارترین نیز، بزرگتر بودن ضریب رگرسیونی استاندارد شده است.
تفاوت روش Forward با Stepwise در این است که ما در Stepwise معیار ورود و خروج به مدل رگرسیونی داریم. به عنوان مثال در جدول Variables Entered/Removed که مربوط به روش Stepwise است، میتوانید این معیارها را ببینید.
بر مبنای این معیارها، مقادیر احتمال P-value کمتر از 0.05 وارد مدل رگرسیونی میشود و P-value بزرگتر از 0.1 از مدل رگرسیونی حذف میشود. خوب است بدانید که این مقادیر را میتوانیم در تنظیمات نرمافزار و با استفاده از تب Options به دلخواه خودمان قرار دهیم. پنجره زیر را ببینید.
با این حال در روش Forward فقط معیار ورود به مدل رگرسیونی داریم و معیار خروج نداریم. جدول Variables Entered/Removed روش Forward را ببینید.
در نتایج این جدول، همانگونه که مشاهده میکنید، مدل رگرسیونی در سه مرحله اجرا شده است. در هر مرحله یک کمیت مستقل وارد مدل شده است. ابتدا Vehicles، سپس Lfactory و در مرحله بعد Transport. کمیت Sfactory نیز که اثری از آن نیست و در هیچ مرحلهای وارد مدل رگرسیونی نشده است.
دلیل این است که در روش Forward فقط کمیتهای دارای معیار ورود (مقدار احتمال کمتر از 0.05) آن هم به ترتیب کمترین مقدار احتمال، وارد مدل رگرسیونی میشوند.
در ادامه میتوانید نتایج مدل رگرسیونی که با استفاده از روش Forward به دست آمده است را مشاهده کنید.
در جدول Model Summary بالا، ضریب تعیین R Square به ازای هر کدام از گامهای مدل Forward به دست آمده است. همانگونه که قبلاً نیز گفتیم روند افزایشی R Square در هر گام طبیعی است. به دلیل اینکه در هر گام یک کمیت به مدل رگرسیونی اضافه شده است.
در جدول Coefficients، ورود هر کدام از کمیتهای مستقل در گامهای روش Forward، بیان شده است.
همانگونه که در جدول Coefficients مشاهده میکنید در هر گام، کمیتی با بزرگترین ضریب رگرسیونی استاندارد شده (کمترین مقدار احتمال) وارد مدل میشود. در گام بعدی، کمیت وارد شده در مرحله قبل، در مدل باقی میماند و X معنادار جدیدی وارد مدل رگرسیونی میشود.
چگونه به این مقاله رفرنس دهیم
GraphPad Statistics (2022). Choosing the methods of entering independent variables into the regression model. Statistical tutorials and software guides. Retrieved Month, Day, Year, from https://graphpad.ir/method-linear-regression.php
For example, if you viewed this guide on 12th January 2022, you would use the following reference
GraphPad Statistics (2022). Choosing the methods of entering independent variables into the regression model. Statistical tutorials and software guides. Retrieved January, 12, 2022, from https://graphpad.ir/method-linear-regression.php
ارایه خدمات تحلیل و مشاوره آماری
گراف پد برای شما خدمات مشاوره و انجام انواع تحلیلهای آماری را ارایه میدهد. جهت دریافت نکات بیشتر بهتر است با ما تماس بگیرید.