قبلی
داده های موثر

یافتن نقاط تاثیرگذار یا داده‌های موثر Influence Statistics در تحلیل رگرسیونی

توضیحات داده‌های موثر Influence Data برگرفته شده از کتاب روش های پیشرفته آماری و کاربردهای آن

 Influence Data 

گاهی ممکن است یک یا چند نمونه تاثیرات زیادی روی مدل رگرسیون بگذارند و خط رگرسیونی را به سمت خود متمایل کنند، به ویژه اگر تعداد نمونه‌ها کم باشد. این مشاهدات که از آن‌ها تحت عنوان داده‌های موثر نام ‌برده می‌شوند مفهومی متفاوت از داده‌های پرت و یا داده‌های گمشده دارند.

 

 

داده‌های موثر هنگامی که در یک مدل رگرسیونی وارد می‌شوند تاثیری شدید بر روی ضرایب رگرسیونی خواهند داشت به نحوی‌که اگر آن‌ها را از معادله رگرسیونی کنار بگذاریم نتایج حاصل از برازش ضرایب رگرسیونی متحول خواهد شد. این وضعیت، در فرایند برازش مدل بر داده‌ها مطلوب نیست زیرا ما به دنبال یافتن مدلی هستیم که به اندازه‌ی عددی تعداد کمی از مشاهدات حساس نباشد و تمام نقاط کم و بیش به طور یکسان بر روی مدل اثرگذار باشند.

به عنوان مثال به داده‌های فایل Influence Statistics توجه کنید. فایل دیتای این مثال را می‌توانید از اینجا دریافت کنید. داده‌های این فایل مربوط به متوسط سن زنان در زمان ازدواج و میانگین تعداد فرزندان آن‌ها در 15 استان کشور می‌باشد. در شکل زیر نمودار پراکنش میان این دو کمیت رسم شده است. این کار با استفاده از نرم‌افزار SPSS انجام شده است.

نمودار پراکنش میانگین سن ازدواج و تعداد فرزندان در 15 استان کشور

 

در دو استان، مشاهدات به دست آمده متفاوت از سایر استان‌ها می‌باشد. نتایج آن‌ها در بالا سمت راست دیده می‌شود. ما در این مثال به دنبال یافتن یک معادله رگرسیونی و ارتباط این دو کمیت با یکدیگر هستیم. سوال ما در این پژوهش این است که آیا هر چه میانگین سن ازدواج افزایش یافته، تعداد فرزندان کمتر شده است؟ در شکل زیر خط رگرسیون بدون وجود این دو استان و با در نظر گرفتن این دو استان به دست آمده است. این کار با استفاده از نرم‌افزار Minitab انجام شده است.

مدل‌های رگرسیونی با و بدون درنظر گرفتن داده‌های موثر

همان‌گونه که مشاهده می‌شود وجود این دو استان توانسته است خط رگرسیونی آبی رنگ را به سمت خود متمایل کند. به وضوح وجود دو مشاهده به عنوان داده‌های موثر، خط رگرسیونی را به سمت بالا متمایل کرده‌ است.

خط رگرسیونی قرمز رنگ که بدون در نظر گرفتن این دو استان به سایر داده‌ها برازش داده شده است، به خوبی توانسته است از بین نقاط بگذرد.

استفاده از تحلیل رگرسیون خطی نشان می‌دهد که اندازه ضریب زاویه و یا همان شیب خط و ضریب $ \displaystyle {{b}_{1}}$ برای خط شامل دو استان موثر، برابر با 0.347- و برای خط بدون این دو استان برابر با 4.699- به دست می‌آید که کاملاً با یکدیگر اختلاف دارند. در واقع معادلات رگرسیونی به صورت زیر خواهند بود.

$ \displaystyle \begin{array}{l}With\begin{array}{*{20}{c}} : & {} \end{array}\hat{y}=23.98-0.347x\\Without\begin{array}{*{20}{c}} : & {} \end{array}\hat{y}=35.67-4.699x\end{array}$

که در آن $ \displaystyle {\hat{y}}$ مقدار برازش شده برای متوسط سن زنان در زمان ازدواج و x میانگین تعداد فرزندان آن‌ها می‌باشد.

موضوعی که در این متن به آن می‌پردازیم این است که ما می‌توانیم یک یافته‌ی مهم دیگر نیز که به ما در درک و شناخت داده‌های موثر، مفید است به دست بیاوریم. با استفاده از نرم‌افزار می‌توانیم اندازه‌ی عوض شدن عرض از مبداء $ \displaystyle {{b}_{0}}$ و ضریب زاویه خط رگرسیون $ \displaystyle {{b}_{1}}$، به ازای حذف هر یک از مشاهدات را بیابیم. به معنای آن‌که دریابیم با حذف هر کدام از مشاهدات، اندازه‌ی عرض از مبداء و ضریب زاویه چقدر عوض می‌شود. با استفاده از این روش می‌توانیم داده‌های موثر Influence Data مدل رگرسیونی را به دست بیاوریم.

جهت انجام تحلیل رگرسیون خطی و البته بعد از آن به دست آوردن آماره‌های موثر Influence Statistics، از مسیر زیر در نرم‌افزار SPSS استفاده می‌کنیم.

Analyze → Regression → Linear

مسیر طراحی مدل رگرسیون خطی در نرم افزار SPSS

 

با رفتن به این مسیر، پنجره زیر با نام Linear Regression برای ما باز می‌شود. ما Age را در بخش Dependent و Children را در بخش Block یا Independent قرار می‌دهیم.

پنجره Linear Regression در نرم‌افزار SPSS

 

با استفاده از تب Save در این پنجره، می‌توانیم به یافتن اطلاعات و یافته‌هایی درباره‌ی آماره‌های موثر مطالعه دست پیدا کنیم.

همان‌گونه که بیان کردیم، هدف ما در این متن به دست آوردن اطلاعات و یافته‌هایی درباره‌ی آماره‌های موثر مطالعه است. جهت انجام این کار در پنجره Linear Regression بر روی گزینه Save می‌زنیم و وارد پنجره Linear Regression Save می‌شویم.

کادر Influence Statistics و انتخاب گزینه DfBetas

 

در این پنجره کادری با نام Influence Statistics دیده می‌شود. گزینه DfBetas را انتخاب می‌کنیم.

با انتخاب این گزینه و انجام تحلیل رگرسیونی در فایل داده‌ها دو ستون داده به نام‌های DFB0_1 و DFB1_1 ایجاد می‌شود. داده‌های ستون DFB0_1 برای هر استان اندازه دگرگونی در عرض از مبداء به ازای حذف آن استان از مدل رگرسیونی و DFB1_1 اندازه دگرگونی در ضریب زاویه خط رگرسیونی به ازای حذف آن استان از مدل رگرسیونی را نشان می‌دهد.

بنابراین با استفاده از این روش قادر خواهیم بود که دریابیم، حذف هر کدام از استان‌ها، تا چه اندازه می‌تواند ضرایب مدل رگرسیونی یعنی $ \displaystyle {{b}_{0}}$ و $ \displaystyle {{b}_{1}}$، را کم یا زیاد کند.

هنگامی که در این پنجره Continue و سپس OK می‌کنیم، در فایل دیتا می‌توانیم ستون‌های جدید DFB0_1 و DFB1_1 را مشاهده کنیم. تصویر زیر را ببینید.

ستون‌های DFB0_1 و DFB1_1

 

همان‌گونه که در تصویر بالا مشاهده می‌کنید، دو ستون جدید به نام‌های DFB0_1 و DFB1_1 به دیتا اضافه شده است. به عنوان مثال به سطر نهم نگاه کنید. DFB0_1 برای این سطر 4.2- و DFB1_1 برای این سطر 1.56 شده است. این یافته نشان می‌دهد که اگر سطر نهم را از این داده‌ها حذف کنیم و سپس با داده‌های باقیمانده یک مدل رگرسیونی جدید بر داده‌ها برازش دهیم، $ \displaystyle {{b}_{0}}$ و $ \displaystyle {{b}_{1}}$، این مدل جدید به ترتیب 4.2- و 1.56 واحد کاهش خواهد یافت.

در معادلات زیر می‌توانید، مدل رگرسیونی با بودن سطر نهم و بدون سطر نهم را مشاهده کنید.

$ \displaystyle \begin{array}{l}With\begin{array}{*{20}{c}} {} & {\left( {Row9} \right)} \end{array}\begin{array}{*{20}{c}} : & {} \end{array}\hat{y}=23.98-0.347x\\Without\begin{array}{*{20}{c}} {} & {\left( {Row9} \right)} \end{array}\begin{array}{*{20}{c}} : & {} \end{array}\hat{y}=28.179-1.903x\end{array}$

همان‌گونه که در معادلات بالا می‌بینید، ضریب ثابت مدل وقتی سطر نهم در مدل وجود دارد، برابر با 23.98 است. اما وقتی این سطر از دیتا حذف شود، ضریب ثابت برابر با 28.179 خواهد بود. بنابراین اختلاف آن‌ها برابر با 4.2- = 28.18 – 23.98 است.

به همین ترتیب ضریب رگرسیونی مدل وقتی سطر نهم در مدل وجود دارد، برابر با 0.347- است. اما وقتی این سطر از دیتا حذف شود، ضریب ثابت برابر با 1.903- خواهد بود. بنابراین اختلاف آن‌ها برابر با 1.56 = (1.903-) – 0.347- است.

یافتن نقاطی که تاثیر زیادی بر روی مدل رگرسیونی دارند توجه به این مقادیر و استاندارد شده‌ی آن‌ها است. به منظور یافتن اندازه‌های استاندارد شده‌ی این مقادیر در کادر Influence Statistics گزینه‌ی Standardized DfBetas را انتخاب کنید.

انتخاب گزینه Standardized DfBetas

 

با انتخاب گزینه Standardized DfBetas، دو ستون جدید دیگر با نام‌های SDB0_1 و SDB1_1 در فایل دیتا ایجاد می‌شود. تصویر زیر را ببینید.

ستون‌های جدید SDB0_1 و SDB1_1

 

در استان‌هایی که اندازه دگرگونی‌های استاندارد شده‌ی آن بزرگ است، نتیجه می‌شود که حذف آن استان از مدل رگرسیونی اختلاف زیادی در ضرایب  $ \displaystyle {{b}_{0}}$ و $ \displaystyle {{b}_{1}}$، ایجاد می‌کند، لذا آن استان به عنوان یک داده‌ی موثر شناخته می‌شود. معمولاً مشاهداتی که اختلاف SDB0_1 و SDB1_1 آن‌ها بزرگتر از $ \displaystyle \frac{2}{{\sqrt{n}}}$ است (در این مثال $ \displaystyle \frac{2}{{\sqrt{{15}}}}=0.5164$)، داده‌ی موثر نامیده می‌شوند.

همان‌گونه که مشاهده می‌کنید در استان‌های شماره 9 و 14 اختلاف مقادیر $ \displaystyle {{b}_{0}}$ و $ \displaystyle {{b}_{1}}$ آن‌ها در اثر حذف هر یک از این دو استان در مدل رگرسیون از عدد 0.516 بزرگتر هستند و لذا این دو استان به عنوان داده‌های موثر در مطالعه شناخته می‌شوند.

سوال   سوال مهمی که در این مطرح می‌شود این است که اگر مشاهداتی را که بر روی نتایج تاثیر زیادی دارند و اصطلاحاً به آن‌ها داده‌ی موثر می‌گویند، یافتیم چه باید کنیم؟ پاسخ این است است که در ابتدا مطمئن شوید که این داده‌ها ناشی از خطاهای جمع‌آوری داده‌ها و ورود داده‌ها به نرم‌افزار نمی‌باشد. اگر چنین خطایی وجود دارد آن را اصلاح کنید. چنانچه مقدار مشاهدات صحیح بود، بررسی کنید آیا غیر معمول بودن نمونه مورد نظر تاثیری بر روی خط رگرسیون دارد. به عنوان مثال هنگامی که رابطه بین سن ازدواج و تعداد فرزندان را بررسی می‌کنید، ممکن است مواردی را بیابید که اندازه‌های عددی هر دو کمیت در آن‌ها بزرگ است. در این حالت یک توضیح ممکن است این باشد که با وجود این‌که دختران این استان دیر ازدواج می‌کنند اما ویژگی‌های باروری زنان این استان و یا رسومات اجتماعی خانوار‌های این استان تعداد فرزندان زیاد را می‌طلبد.

در این حالت می‌توانید مدل‌های رگرسیون جداگانه‌ای برای استان‌هایی که دارای این ویژگی و آن‌هایی که فاقد این ویژگی هستند، تشکیل دهید. یک راه‌حل دیگر آن است که نتایج آماری خود را در دو بخش یعنی با در نظر گرفتن داده‌های موثر و بدون در نظر گرفتن آن‌ها، ارایه دهید. کاری که نباید انجام دهید آن است که به طور اختیاری و بدون هیچ‌گونه توجیه علمی و منطقی این نقاط را به هر طریقی از مدل و مطالعه خود خارج کنید. به این نکته توجه کنید که داده‌های موثر بخشی از فرایند تحقیق شما و از جمله داده‌های واقعی تحقیق می‌باشد که به هیچ‌وجه نباید آن‌ها را حذف کرد.

 

چگونه به این مقاله رفرنس دهیم

GraphPad Statistics (2022). Effective Influence Statistics data in regression analysis. Statistical tutorials and software guides. Retrieved Month, Day, Yearfrom https://graphpad.ir/influence-statistics/.php

For example, if you viewed this guide on 12th January 2022, you would use the following reference

GraphPad Statistics (2022). Effective Influence Statistics data in regression analysis. Statistical tutorials and software guides. Retrieved January, 12, 2022, from https://graphpad.ir/influence-statistics/.php

ارایه خدمات تحلیل و مشاوره آماری

گراف پد برای شما خدمات مشاوره و انجام انواع تحلیل‌های آماری را ارایه می‌دهد. جهت دریافت نکات بیشتر بهتر است با ما تماس بگیرید.

    گراف پد جمعی از رتبه‌های برتر آزمون دکترا آمار دانشگاه‌های ایران | برجسته در موسسه بین‌المللی تحقیقات | دارای نماد اعتماد الکترونیک از مرکز توسعه تجارت الکترونیکی ایران و مجوز رسمی ثبت به شماره ۴۱۸۸۱ و شناسه ملی ۱۴۰۰۶۸۳۲۳۱۹