آزمون دوربین واتسن Durbin-Watson و تشخیص موردی Casewise diagnostics
توضیحات آزمون دوربین واتسن برگرفته شده از کتاب روش های پیشرفته آماری و کاربردهای آن
Durbin-Watson Test
یکی از فرضهای مهم در آزمون فرضیه رگرسیون، مستقل بودن مشاهدات به ویژه دادههای کمیت وابسته از یکدیگر میباشد. به معنای آنکه مقدار یک مشاهده با مقدار مشاهدهی دیگر ارتباطی نداشته باشد و ورود یک مورد به دادهها نباید ورود مورد دیگری را تحت تاثیر قرار دهد. در یک مدل رگرسیون معمولاً هنگامی که رفتار کمیت وابسته در یک بازه زمانی مورد مطالعه قرار میگیرد ممکن است با مشکل مستقل نبودن باقیماندهها مواجه شویم.
در اینحالت گفته میشود دادهها دارای خودهمبستگی Autocorrelation با یکدیگر هستند. در اینصورت استفاده از مدل رگرسیون خطی با اشکال همراه خواهد بود.
با استفاده از رسم نمودار باقیماندهها در برابر ترتیب مشاهدات، میتوانیم به فهم و درکی از وجود همبستگی بین باقیماندهها دست یابیم. با اینحال میتوانیم به منظور بررسی وجود پدیدهی خودهمبستگی در مشاهدات، از آزمون دوربین- واتسن Durbin-Watson استفاده کنیم. اندازهی آمارهی این آزمون بین صفر تا 4 قرار دارد. محدوده قابل قبول برای اندازه آماره دوربین واتسن عددی بین 1.5 تا 2.5 است.
اگر همبستگی بین باقیماندههای متوالی مدل رگرسیون وجود نداشته باشد، مقدار آمارهی دوربین- واتسن باید نزدیک به 2 باشد. چنانچه مقدار این آماره به صفر نزدیک باشد نشاندهندهی وجود همبستگی مثبت بین باقیماندههای متوالی است در حالیکه اگر مقدار این آماره نزدیک عدد 4 باشد، بیانگر وجود همبستگی منفی قوی بین باقیماندههای متوالی خواهد بود.
بیایید این بحث را با استفاده از نرمافزار SPSS توضیح دهیم. فایل دیتای این مثال را میتوانید از اینجا دریافت کنید.
در تصویر زیر میتوانید بخشی از دادهها را مشاهده کنید.
ما در این مثال میخواهیم یک مدل رگرسیونی بین وزن افراد به عنوان کمیت وابسته و شاخصهای قلبی و عروقی شامل crp ,chol و sbp به عنوان کمیتهای مستقل، برقرار کنیم. البته هدف ما در این مثال بیان آموزش رگرسیون خطی چندگانه نیست. بلکه به دنبال این هستیم که درباره آماره دوربین واتسن توضیح دهیم. به این حال از آنجا که دوربین واتسن یافتهای در مدل رگرسیون خطی چندگانه است، Multiple Linear Regression را نیز در این مثال بیان میکنیم.
جهت انجام تحلیل رگرسیون خطی چندگانه و البته بعد از آن انجام آزمون دوربین واتسن، از مسیر زیر در نرمافزار SPSS استفاده میکنیم.
Analyze → Regression → Linear
با رفتن به این مسیر، پنجره زیر با نام Linear Regression برای ما باز میشود.
همانگونه که بیان کردیم میخواهیم یک مدل رگرسیونی بین وزن افراد به عنوان کمیت وابسته و شاخصهای قلبی و عروقی شامل crp ,chol و sbp به عنوان کمیتهای مستقل، برقرار کنیم. برای انجام این کار، body weight را در کادر Dependent و crp ,chol و sbp را در بخش Independent(s) قرار میدهیم. تصویر زیر را ببینید.
همانگونه که بیان کردیم، هدف ما در این متن به دست آوردن آماره آزمون دوربین واتسن در نتایج رگرسیون خطی چندگانه است. جهت انجام این کار در پنجره Linear Regression بر روی گزینه Statistics میزنیم و وارد پنجره Linear Regression Statistics میشویم.
در این پنجره کادری با نام Residuals دیده میشود. این کادر شامل گزینههای Durbin-Watson و Casewise diagnostics است. هر یک را در ادامه شرح میدهیم.
-
Durbin-Watson
در بخش Residuals گزینه Durbin-Watson را مشاهده میکنید. اندازهی عددی آمارهی دوربین- واتسن با استفاده از رابطهی زیر به دست میآید.
$ \displaystyle D-W=\frac{{\sum\limits_{{i=1}}^{n}{{{{{\left( {{{e}_{i}}-{{e}_{{i-1}}}} \right)}}^{2}}}}}}{{\sum\limits_{{i=1}}^{n}{{{{{\left( {{{e}_{i}}} \right)}}^{2}}}}}}$
به منظور آزمودن این فرضیه که آیا آمارهی دوربین- واتسن مشاهده شده با عدد 2 دارای اختلاف معنادار است، جداول خاصی وجود دارد که در کتابهای مربوط به آنالیز سریهای زمانی، دربارهی آنها بحث شده است. در لینک زیر میتوانید جدول Savin and White table که به بررسی اندازههای مختلف عددی دوربین واتسن به ازای تعداد نمونههای مختلف یعنی N و تعداد Xها یا همان کمیتهای مستقل در مدل رگرسیونی میپردازد، مشاهده کنید.
معمولاً میتوان نتیجه گرفت که اندازههای بین 1.5 تا 2.5 برای آماره دوربین- واتسن، بیانگر عدم اختلاف معنادار از عدد 2 و در واقع همان عدم همبستگی بین باقیماندههای متوالی مدل رگرسیون، میباشد.
-
Casewise diagnostics
گزینه Casewise diagnostics ابزار مفیدی است که با استفاده از آن میتوانیم به شناسایی دادههای پرت مطالعه (البته نسبت به مدل رگرسیونی برازش شده) اقدام کنیم. با استفاده از این گزینه، اعداد باقیمانده که در واقع همان اختلاف بین مقدار واقعی و مقدار برازش شده مدل رگرسیونی است، به دست میآید.
در اینجا انتخاب All cases سبب میشود که برای همه مشاهدات، باقیمانده نشان داده شود. با این حال انتخاب Outliers outside باعث میشود صرفاً باقیماندههای بزرگتر از یک عدد دلخواه (نسبت به انحراف معیار باقیماندهها) نمایش داده شوند. مثلا من اگر در اینجا عدد 1.5 را انتخاب کنم، تنها مشاهداتی در خروجی نمایش آورده میشود که باقیمانده آنها به اندازه 1.5 برابر ار انحراف معیار باقیماندهها دور باشد.
نتایج و خروجیهای نرمافزار
Output
خب، حال در پنجره Linear Regression Statistics دکمه Continue را بزنید و سپس OK کنید. در پنجره و محیط Output نرمافزار SPSS نتایج و جدولهای زیر به دست میآید. از آنجا که هدف ما در این متن به دست آوردن آماره دوربین واتسن بود، بر روی نتایج این بخش تمرکز میکنیم.
آماره Durbin-Watson در انتهای جدول Model Summary به دست آمده است. همانگونه که مشاهده میکنید عدد آن برابر با 1.579 شده است. این عدد در محدوده قابل قبول برای آماره دوربین واتسن که بالاتر گفتیم عددی بین 1.5 تا 2.5 است، قرار دارد و بیانگر استقلال نسبی Residual ها از یکدیگر و عدم وجود خودهمبستگی یا همان Autocorrelation بین باقیماندهها است.
انتخاب گزینه Casewise diagnostics باعث میشود در خروجیهای نرمافزار، جدول دیگری با نام Casewise diagnostics به دست بیاید. در تصویر زیر بخشی از این جدول را مشاهده میکنید.
به عنوان مثال به کادر زرد رنگ سطر پنجم نگاه کنید. عدد body weight برای این فرد 65.44 بوده است. مدل رگرسیونی برازش شده، عدد 69.62 را براورد کرده است. این عدد در ستون Predicted Value آمده است. بنابراین باقیمانده و خطای براورد برابر با 4.18- خواهد بود. این عدد در ستون Residual آمده است. یک عدد نیز در ستون Std. Residual نوشته شده است. برای سطر پنجم این عدد 0.896- است. به معنای اینکه باقیمانده این سطر به اندازه 0.896 برابر از انحراف معیار همه باقیماندهها فاصله دارد.
ستون Std. Residual میتواند به عنوان معیاری برای شناسایی دادههای پرت مدل رگرسیونی، در نظر گرفته شود. هر چقدر عدد این ستون بزرگتر باشد، نشان میدهد مدل رگرسیونی برازش شده برای این سطر، به خوبی عمل نکرده و خطا و باقیمانده آن در مقایسه با سایر باقیماندهها بزرگ است.
به عنوان مثال اگر در تنظیمات نرمافزار، عدد 2 را برای گزینه Outliers outside قرار دهیم، تنها سطرها و افرادی در جدول Casewise diagnostics میآیند که عدد ستون Std. Residual آنها بزرگتر از 2 باشد (مثبت یا منفی فرقی ندارد.) من این نتیجه را در جدول زیر آوردهام.
این افراد آنهایی هستند که خطای براورد مدل رگرسیونی برای آنها بیشتر از 2 برابر انحراف معیار سایر خطاهای رگرسیونی است. بنابراین بهتر است آنها را از مطالعه کنار بگذاریم و از فایل دیتا خود حذف کنیم. به معنای اینکه بار دیگر یک مدل رگرسیونی بهینه با حذف این دادهها به دست بیاوریم.
چگونه به این مقاله رفرنس دهیم
GraphPad Statistics (2022). Durbin-Watson test and Casewise diagnostics using spss software. Statistical tutorials and software guides. Retrieved Month, Day, Year, from https://graphpad.ir/durbin-watson/.php
For example, if you viewed this guide on 12th January 2022, you would use the following reference
GraphPad Statistics (2022). Durbin-Watson test and Casewise diagnostics using spss software. Statistical tutorials and software guides. Retrieved January, 12, 2022, from https://graphpad.ir/durbin-watson/.php
ارایه خدمات تحلیل و مشاوره آماری
گراف پد برای شما خدمات مشاوره و انجام انواع تحلیلهای آماری را ارایه میدهد. جهت دریافت نکات بیشتر بهتر است با ما تماس بگیرید.