نمودار احتمال نرمال Normal Probability Plot در مدل های رگرسیونی
توضیحات برگرفته شده از کتاب روش های پیشرفته آماری و کاربردهای آن – انتشارات جامعهنگر
به هنگام بیان مدل رگرسیون خطی (رگرسیون خطی Linear Regression در نرمافزار SPSS) به مطلبی به نام نمودار احتمال نرمال اشاره کردم. یک توضیح کوتاه اینکه یکی از مهمترین تئوریهای مناسب بودن مدل رگرسیون خطی، نرمال بودن باقیماندههای آن است. ما از طریق رسم Normal Probability Plot میتوانیم به صورت شهودی درکی از نرمال بودن مقادیر باقیمانده داشته باشیم. در این نمودار، هر باقیمانده در مقابل ارزش مورد انتظارش هنگامی که توزیع دادههای باقیمانده نرمال است، رسم میشود.
یعنی اگر باقیماندهها $ \displaystyle {{e}_{i}}={{y}_{i}}-{{{\hat{y}}}_{i}}$ را به صورت صعودی مرتب کرده (محور افقی) و آنها را در مقابل احتمال تجمعی $ \displaystyle {{p}_{i}}=\frac{{i-\left( {1/2} \right)}}{n}$ (محور عمودی) رسم کنیم، نقاط باید روی یک خط راست قرار گیرند. در آمار پیشرفتهتر نشان داده میشود که برای محاسبه آمارههای T (ضرایب رگرسیونی) و F (آنالیز واریانس رگرسیون)، از فرض نرمال بودن خطاها استفاده میکنیم. به همین دلیل انحرافهای زیاد خطاها از توزیع نرمال میتواند بر روی صحت و اعتبار نتایج اثرگزار باشد.
هر چه نقاط نمودار به خط نیمساز نزدیکتر باشند، تبعیت باقیماندهها از توزیع نرمال بیشتر است. اگر نمودار از خط نیمساز انحراف جدی داشته باشد، نتیجه میشود که توزیع باقیماندهها نرمال نیست.
مثال رسم نمودار احتمال نرمال
Example
به دادههای این مثال که مربوط به متوسط آلودگی هوا در فصل پاییز برحسب واحد PSI در 21 شهر کشور است، توجه کنید. فایل دیتا این مقاله را میتوانید از اینجا Normal Probability Plot دریافت کنید.
در این بررسی چند عامل موثر در آلودگی هوای این شهرها مورد مطالعه قرار گرفته است. عواملی که مورد بررسی قرار گرفتهاند عبارتند از تعداد کارخانههای بزرگ (بیشتر از 25 کارگر)، کارخانههای کوچک (کمتر از 25 کارگر)، تعداد وسایل نقلیه و وضعیت سیستم حمل و نقل عمومی در این 21 شهر. به طور حتم عوامل تاثیرگذار دیگری نیز بر روی آلودگی هوا، وجود دارند. با اینحال ما بررسی خود را بر روی این چند عامل انجام دادهایم.
ما مدل رگرسیون خطی زیر را به دادهها برازش دادهایم. در این زمینه میتوانید لینک (رگرسیون خطی Linear Regression در نرمافزار SPSS) را ببینید.
$ \displaystyle y=42.91+12.77{{x}_{1}}+8.03{{x}_{2}}+4.59{{x}_{3}}-6.18{{x}_{4}}$
همانطور که بیان کردم، هدف من در این مقاله رسم نمودار احتمال نرمال در این مدل رگرسیونی است.
برای انجام این کار در نرمافزار SPSS از مسیر زیر استفاده میکنیم.
Analyze → Regression → Linear
تنظیمات نرمافزار
Setting
هنگامی که به مسیر بالا در نرمافزار SPSS میرویم، پنجره زیر با نام Linear Regression برای ما باز میشود.
از آنجا که به دنبال پیشبینی میزان آلودگی هوا هستیم، آلودگی بر حسب PSI به عنوان کمیت وابسته Dependent و کمیتهای تعداد وسایل نقلیه، کارخانههای بزرگ، کارخانههای کوچک و وضعیت سیستم حمل و نقل عمومی، به عنوان کمیتهای مستقل Independent تعریف میشوند.
در پنجره Linear Regression تبها و گزینههای مختلفی وجود دارد، رسم نمودار احتمال نرمال، در تب Plots قرار دارد.
Plots
ما از شاخصها و اندازههای عددی به منظور سنجش مناسبت مدل رگرسیونی استفاده میکنیم. همچنین میتوانیم از نمودارهای آماری برای انجام این کار، استفاده کنیم. در این بخش نمودارهایی که از طریق آنها میتوان خوب بودن مدل را بررسی کرد. وجود دارد.
برای رسم اینگونه نمودارها از تب Plot استفاده میکنیم. Normal Probability Plot یکی از گرافهای بررسی مناسب بودن مدل رگرسیونی است. در تصویر زیر آن را ببینید.
گزینه رسم نمودار احتمال نرمال (Normal Probability Plot) در این تب قرار دارد. من آن را در تصویر بالا مشخص کردهام.
Save
تب دیگر در پنجره Linear Regression با نام قرار دارد. ما با استفاده از گزینههای این تب میتوانیم، خروجیهای بیشتری از نتایج خود داشته باشیم. اغلب این خروجیها در پنجره دیتا نرمافزار SPSS قرار میگیرند. در تصویر زیر آن را ببینید.
من در این پنجره از نرمافزار خواستهام مقادیر باقیماندههای Residuals مدل رگرسیونی را برای ما نشان دهد. البته من حالت غیراستاندارد شده Unstandardized را انتخاب کردهام. به سادگی میتوانستیم گزینه استاندارد شده Standardized را نیز انتخاب کنیم.
هدف من از انجام این کار این است که باقیماندههای مدل رگرسیونی را به دست آورده و سپس آزمال نرمالیتی را بر روی آنها انجام دهم. به این نکته توجه کنید که یکی از پیشفرضهای انجام تحلیل رگرسیون خطی، نرمال بودن توزیع باقیماندهها است.
نتایج نرم افزار
Output & Results
نرمافزار SPSS نتایج و خروجیهای زیادی در یک تحلیل رگرسیونی در اختیار ما قرار میدهد. با این حال من در این مقاله صرفاً میخواهم درباره رسم نمودار احتمال نرمال و مشاهده باقیماندهةای مدل رگرسیونی که با استفاده از SPSS به دست میآید، صحبت کنم.
نمودار احتمال نرمال (Normal Probability plot) در نتایج نرمافزار به دست آمده است. آن را ببینید.
دربارهی این نمودار قبلاً توضیح دادیم. نمودار احتمال نرمال باقیماندهها در این مثال بیانگر توزیع مناسب باقیماندهها و نرمال بودن آنها است. (نقاط تقریباً در نزدیکی خط نیمساز قرار دارند.)
چنانچه به یاد داشته باشید ما در تب Save تنظیمات نرمافزار، گزینه مشاهده باقیماندهها را انتخاب کردیم. در فایل دیتا، این نتایج به دست آمده است.
به سادگی میتوانیم آزمون نرمال بودن این دادهها (باقیماندهها) را با استفاده از نرمافزار SPSS انجام دهیم. علاقمند بودید این لینک را ببینید (آزمون نرمال بودن داده ها Normality Test در نرم افزار SPSS).
چگونه به این مقاله رفرنس دهیم
GraphPad Statistics (2022). Normal Probability Plot in regression models. Statistical tutorials and software guides. Retrieved Month, Day, Year, from https://graphpad.ir/normal-probability-plot.php
For example, if you viewed this guide on 12th January 2022, you would use the following reference
GraphPad Statistics (2022). Normal Probability Plot in regression models. Statistical tutorials and software guides. Retrieved January, 12, 2022, from https://graphpad.ir/normal-probability-plot.php
ارایه خدمات تحلیل و مشاوره آماری
گراف پد برای شما خدمات مشاوره و انجام انواع تحلیلهای آماری را ارایه میدهد. جهت دریافت نکات بیشتر بهتر است با ما تماس بگیرید.