رگرسیون چندگانه

رگرسیون چندگانه Multiple Regression با گراف پد

زمان مطالعه: 75 دقیقه 

 

 

یکی از بخش‌هایی که گراف پد در ورژن شماره 8 آن اضافه کرده است، توانایی انجام رگرسیون چندگانه و یا اصطلاحاً Multiple Regression  است.

با استفاده از تحلیل‌های رگرسیون چندگانه می‌توانیم به صورت توام و هم‌زمان اثرات چندین عامل و Variable را بر روی فاکتور پاسخ اندازه‌گیری کنیم.

ما در آموزش قبلی با نام طراحی مدل رگرسیون خطی Linear Regression با گراف پد پریسم که لینک آن را می‌توانید از اینجا دریافت کنید، به انجام رگرسیون خطی ساده پرداختیم.

نکته این‌که رگرسیون خطی ساده به مدلی گفته می‌شود که تنها یک کمیت مستقل X در مدل وجود داشته باشد و بخواهیم ارتباط بین این X با کمیت پاسخ Y را به دست بیاوریم. مدلی که دارای چندین X باشد به مدل رگرسیون خطی چندگانه شناخته می‌شود. ما در این نوشتار قصد داریم درباره این مدل و آموزش نحوه انجام آن در نرم افزار گراف پد صحبت کنیم.

مدل آماری رگرسیون خطی چندگانه به صورت زیر نوشته می‌شود.

y = ß0 + ß1x1  +  ß2x2 + … +  ßkxk + ε

در این مدل می‌خواهیم بین x1 , x,…, xk که کمیت‌های رگرسیونی هستند با کمیت پاسخ y ارتباط برقرار کنیم. ε نیز به عنوان خطا و اشتباه در پیش‌بینی، استفاده می‌شود.

در نرم افزار پریسم 8 مکان انجام این نوع از آنالیز را در شکل زیر مشخص کرده‌ام. 

این مثال با نام Multiple regression در دسته تحلیل‌های Multiple variables و در بخش Start with sample data to follow a tutorial قرار دارد. فایل مثال را می‌توانید از اینجا دانلود کنید.

با Create کردن، داده‌ها و صفحه زیر برای ما باز خواهد شد. در مثال زیر تاثیر 9 عامل بر روی % Glycosylated hemoglobin بر اساس یک مدل رگرسیون چندبعدی سنجیده شده است.

در هر سطر نتایج مربوط به یک فرد خاص آمده است. در هر ستون نیز نتایج کمیت اندازه‌گیری شده برای آن فرد بیان شده است. هدف از این مطالعه آن است که بتوانیم با استفاده از مدل رگرسیون خطی چندبعدی، مقدار عددی glycosylated hemoglobin را از روی سایر کمیت‌ها، پیش‌بینی کنیم.

در داده‌های مثال ما، ده ستون دیده می‌شود. ستون اول با نام % Glycosylated hemoglobin همان Variable وابسته و Y مدل رگرسیونی است که قرار است مورد پیش‌بینی قرار بگیرد. ۹ ستون دیگر با اسامی

Hip in inches, Waist in inches, Weight in pounds, Height in inches, Male?, Age in years, HDL, Glucose, Total cholesterol

به عنوان Variableهای مستقل و Xهای مدل رگرسیونی، شناخته می‌شوند. ما می‌خواهیم با استفاده از این کمیت‌های مستقل به برازش یک مدل رگرسیون خطی چندگانه و پیش‌بینی درصد Glycosylated hemoglobin با استفاده از آن‌ها بپردازیم.

جهت انجام رگرسیون خطی چندگانه، در شیت داده‌ها، بر روی منوی Analyze کلیک کنید.

با انجام این کار، پنجره Analyze Data به صورت زیر برای ما باز شود.

در آن‌جا و از کادر Multiple variable analyses گزینه Multiple linear regression را انتخاب می‌کنیم. پنجره Parameters Multiple Linear Regression به صورت زیر برای ما باز می‌شود.

از تب Model و کادر Regression type گزینه Least squares, Assume Gaussian distribution of residuals را انتخاب می‌کنیم. بر مبنای این انتخاب یک مدل رگرسیون خطی که پارامترهای آن براساس روش کمترین مربعات، برازش می‌شود، به دست می‌آید. باقیمانده‌های این مدل، دارای توزیع نرمال فرض می‌شود.

البته می‌توانستیم در همان شیت داده‌ها به صورت مستقیم وارد پنجره Parameters Multiple Linear Regression نیز شویم. برای این‌کار در بالای منوی Analyze بر روی ابزارک Multiple Linear regression کلیک می‌کنیم.

در ادامه به توضیح بخش‌ها و گزینه‌های مختلف پنجره Parameters Multiple Linear Regression که جهت انجام تحلیل رگرسیون خطی چندگانه، استفاده می‌شود، می‌پردازیم.

  • Model

در این تب  و در کادر choose dependent (or outcome) variable Y مشخص می‌کنیم که کمیت پاسخ، کدام است. به سادگی و بر مبنای شیت داده‌ها می‌دانیم که نام آن % Glycosylated hemoglobin می‌باشد. به صورت پیش‌فرض نیز همین ستون قرار گرفته است.

در کادر Define model می‌توانیم نوع مدل رگرسیون خطی چندگانه خود را انتخاب کنیم. می‌دانیم که هر مدل رگرسیونی می‌تواند علاوه بر داشتن ضریب ثابت یا همان Intercept و اثرات اصلی Main effects ، شامل اثرات متقابل چند طرفه Interactions نیز باشد. چنانچه تمایل داشته باشیم می‌توانیم این اثرات متقابل را نیز به مدل رگرسیونی خود اضافه کنیم.

بر مبنای مدل انتخاب شده در بخش Define model، در کادر زردرنگ پایین می‌توانید معادله مدل رگرسیون را مشاهده کنیم.

  • Compare

این تب از آن موارد به درد بخور و خاص نرم‌افزار گراف پد است. با استفاده از آن می‌توانیم به مقایسه بین چند منحنی رگرسیونی بپردازیم و پارامترهای به دست آمده از هر مدل را با هم مقایسه کنیم.

از آن‌جا که در این مثال تنها یک منحنی رگرسیونی داریم، پس همان گزینه پیش‌فرض No comparison را می‌پذیریم. اگر به دنبال مقایسه بین دو منحنی رگرسیونی بودیم گزینه which of two models fits best را انتخاب می‌کنیم.

  • Weighting

در این تب می‌توانیم به وزن‌دهی کمیت پاسخ Y بپردازیم. بر این اساس Y می‌تواند به معادلات دیگری تبدیل شود و سپس مدل رگرسیونی بر آن Y جدید تبدیل شده انجام گیرد. در این مثال قصد نداریم بر روی Y و یا همان % Glycosylated hemoglobin تبدیلی انجام دهیم، بنابراین گزینه No weighting را انتخاب می‌کنیم.

  • Diagnostics

در این تب انواع آماره‌ها و معیارهای مناسبت مدل و نیکویی برازش وجود دارد. بخش‌های مختلف آن را مشاهده می‌کنیم.

در ابتدا بخشی با نام More information on each parameter قرار دارد. در این بخش می‌توانیم سه آماره‌ی SE خطای استاندارد، CI فواصل اطمینان و مقدار احتمال P value به ازای هر کدام از Xهای مدل را به دست آوریم. کادر Output Format نحوه نمایش اعداد را برای ما نشان می‌دهد.

در ادامه بخشی با نام Are the variables intertwined or redundant مشاهده می‌شود. 

در این بخش درباره‌ی درهم تنیدگی Intertwined کمیت‌های مستقل Xها در یکدیگر و احتمالاً زاید بودن Redundant آن‌ها، صحبت می‌شود. با استفاده از بررسی هم‌خطی چندگانه Multicollinearity و ماتریس همبستگی Correlation Matrix این موارد ارزیابی میشود.

یک توضیح کوتاه این‌که هم‌خطی به معنای وجود ارتباط قوی و همبستگی بالا در بین Xهای مدل است. هر چند هم‌خطی در همه مدل‌های رگرسیونی وجود دارد اما شدت آن، یک نقیصه به حساب می‌آید. زیرا وقتی دو یا چند X با یکدیگر هم‌خطی بالایی دارند، دیگر لزومی به آمدن همه آن‌ها در مدل رگرسیونی نیست و زاید هستند.

به هرحال ما در این مثال هم در پی محاسبه‌ی هم خطی و هم ماتریس همبستگی هستیم.

در بخش با نام How to quantify goodness-of-fit انواع آماره‌ها جهت سنجش میزان مناسب بودن مدل رگرسیون خطی چند بعدی آمده است. به صورت پیش‌فرض نرم‌افزار R square را انتخاب کرده است.

 

 

در بخش Normality tests. Are the residuals Gaussian به بررسی نرمال بودن باقیمانده‌های مدل رگرسیون خطی چند بعدی می‌پردازیم. این کار با استفاده از آزمون‌های آماری با نام‌های Kolmogorov-Smirnov, Shapiro-Wilk, D’Agostino-Pearson, Anderson-Darling انجام می‌شود. به دلخواه می‌توانیم یک یا چند آزمون را حذف کنیم.

 

در بخش calculations به سادگی می‌توانیم ضریب اطمینان فاصله اطمینان را مشخص کنیم. به صورت پیشفرض بر روی 95 درصد قرار دارد.

در بخش Output نیز می‌توانیم تعداد رقم‌های اعشار برای مقدار احتمال P value و قالب نمایش آن را انتخاب کنیم.

  • Residuals

انواع گراف‌های قابل رسم در تحلیل رگرسیون پواسن در تب Residuals دیده می‌شود. نرم‌افزار به صورت پیش‌فرض نمودار Residual plot که گرافی جهت بررسی باقیمانده‌ها در برابر مقادیر Y پیش‌بینی شده است را رسم می‌کند. با استفاده از این گراف می‌توانیم میزان درستی پیش‌بینی مدل رگرسیون خطی براورد شده را به دست بیاوریم. خوب است بقیه گراف‌ها را نیز انتخاب کنیم. گراف‌های رسم شده را در فولدر Graphs بعداَ می‌توانیم مشاهده کنیم.

در پایان با OK کردن می‌توانیم تمام نتایج و نمودارهای رسم شده در تحلیل رگرسیون خطی را مشاهده کنیم.

ابتدا به بررسی شیت نتایج که با نام Multiple lin. reg در فولدر Results پنجره راهبری سمت چپ نرم‌افزار قرار دارد، می‌پردازیم.

در این شیت می‌توانیم بر مبنای تنظیماتی که در نرم‌افزار قرار دادیم، تمام تحلیل‌های انجام شده رگرسیون خطی چندگانه را مشاهده کنیم. خطوط اولیه نوشته شده در نتایج بیان می‌کند که کمیت وابسته Dependent variable همان % Glycosylated hemoglobin است. نوع رگرسیون استفاده شده نیز Least squares است، دیده می‌شود.

ما در ادامه بخش‌های مختلف صفحه نتایج را بیان می‌کنیم.

  • Model

این بخش مهم‌ترین نتایج تحلیل رگرسیون خطی چندگانه را شامل می‌شود. براورد پارامترهای β0 یعنی ضریب ثابت و β1 تا βکه به کمیت‌های اثرگزار بر % Glycosylated hemoglobin در مدل رگرسیونی مربوط می‌شوند، در این بخش آمده است.

این براوردها را می‌توانیم در ستون با نام Estimate ببینیم. اگر عدد مثبت باشد به معنای تاثیرگزاری مستقیم و هم‌جهت آن Variable با % Glycosylated hemoglobin است و اگر عدد براورد منفی باشد به معنای اثرگزاری وارون بین آن Variable با % Glycosylated hemoglobin است. به عنوان مثال براورد βکه به معنای Age in years است، عددی مثبت و برابر با ۰.۰۱۳۶۵ به دست آمده است. بنابراین افزایش سن با افزایش % Glycosylated hemoglobin همراه خواهد بود. اندازه عددی ۰.۰۱۳۶۵ نیز بیانگر آن است که به شرط ثابت ماندن بقیه Variableها، افزایش یکسال سن، به اندازه ۰.۰۱۳۶۵ درصد سبب افزایش % Glycosylated hemoglobin می‌شود.

به عنوان مثال دیگر براورد βکه به معنای ?Male است، عددی منفی و برابر با ۰.۲۷۶۸- به دست آمده است. بنابراین مرد بودن سبب کاهش % Glycosylated hemoglobin خواهد بود. اندازه عددی ۰.۲۷۶۸- نیز نشان می‌دهد به شرط ثابت ماندن سایر کمیت‌ها، مرد بودن به اندازه ۰.۲۷۶۸ واحد % Glycosylated hemoglobin را کاهش می‌دهد.

به همین ترتیب درباره سایر Variableها می‌توانیم اظهارنظر کنیم. درباره معنادار بودن و یا فاقد اثرگزاری معنادار در هر Variable بعداَ صحبت خواهیم کرد.

علاوه بر براورد پارامترها، خطای استاندارد و فواصل اطمینان 95 درصد به ازای هر پارامتر نیز در جدول بالا آمده است. خوبی فواصل اطمینان این است که با استفاده از آن‌ها و حتی بدون داشتن مقادیر احتمال P value، می‌توانیم تاثیر معناداری یا عدم معنادار آن پارامتر بر پاسخ (در اینجا % Glycosylated hemoglobin) را به دست آوریم.

در این زمینه توضیح اینکه اگر فواصل اطمینان شامل عدد صفر باشند، نتیجه می‌گیریم آن پارامتر تاثیر معنادار بر Y یا همان پاسخ ندارد. به عنوان مثال در اینجا فاصله اطمینان پارامتر درمان HDL عدد صفر را در بر دارد. بنابراین نتیجه می‌گیریم HDL بر % Glycosylated hemoglobin اثر معنادار ندارد. ?Male نیز همین‌گونه است.

اگر هر دو کران فاصله اطمینان از عدد صفر کمتر و منفی باشند، بیانگر وجود ارتباط معنادار آن هم از نوع وارون بین آن X با Y است. در این مثال فاصله اطمینان با هر دو کران منفی، دیده نمی‌شود.

اگر هر دو کران فاصله اطمینان از عدد صفر بیشتر و مثبت باشند، بیانگر وجود ارتباط معنادار از نوع مستقیم بین آن X با Y است. به عنوان مثال در این‌جا Total cholesterol دارای فواصل اطمینان مثبت هستند و بنابراین بر % Glycosylated hemoglobin تاثیر مستقیم افزایشی و معنادار دارد.

به این ترتیب با استفاده از اعداد به دست آمده برای پارامترها می‌توانیم % Glycosylated hemoglobin برای هر فرد را محاسبه کنیم. مدل رگرسیون خطی چندگانه در مثال ما به صورت زیر خواهد بود.

y = -1.381 + 0.0068 x+ 0.0276 x2  – 0.0085 x+ 0.0136 x4 – 0.2768 x5 + 0.0305 x–  0.0027 x7 + 0.0323 x8 – 0.0060 x9

با استفاده از این مدل می‌توانیم با قرار دادن Xهای دلخواه به ازای هر فرد حتی خارج از این مطالعه، درصد Glycosylated hemoglobin او را محاسبه کنیم.

  • Sig. diff. than zero

آماره‌ی t به همراه مقدار احتمال P value آزمون، به ازای هر کدام از Xهای مدل، در این بخش بیان شده است.

 

آنجه که به وضوح دیده می‌شود و در بخش بالا و بیان فواصل اطمینان نیز به آن اشاره شد، این است که Variableهای مستقل Total cholesterol با (P value = 0.0002) و Glucose با (P value < 0.0001) و Age in years با (P value = 0.0096) بر درصد Glycosylated hemoglobin دارای تاثیر معنادار هستند. در ستون P value summary این کمیت‌ها با ستاره مشخص شده‌اند. می‌دانیم که تعداد ستاره بیشتر به معنای معناداری قوی‌تر است. سایر کمیت‌ها بر درصد Glycosylated hemoglobin تاثیر معنادار ندارند.

  • Goodness of Fit

همان‌گونه که می‌دانیم R square که در فارسی به آن ضریب تعیین می‌گوییم عددی بین صفر تا یک است و نشان‌دهنده‌ی آن است که مدل رگرسیونی به دست آمده تا چه اندازه می‌تواند پراکندگی داده‌های واقعی را تحت پوشش خود قرار دهد. در واقع ضریب تعیین می‌تواند ابزاری جهت سنجش قدرت پیش‌بینی‌کنندگی و خوب بودن مدل باشد. هر چه عدد R square به مقادیر یک نزدیک‌تر باشد، بیانگر بهتر بودن مدل رگرسیون به دست آمده است.

همان‌گونه که در جدول بالا مشاهده می‌کنید اندازه عددی R square برابر با 0.5897 به دست آمده است. این عدد تقریباَ متوسط است و نشان می‌دهد مدل رگرسیون خطی به دست آمده می‌تواند ۵۸.۹۷ درصد پراکندگی داده‌ها را تحت پوشش خود قرار دهد.

  • Analysis of Variance

پاسخ به این سوال که مدل رگرسیونی به دست آمده معنادار و قابل قبول است در بخش Analysis of Variance و یا همان آنالیز واریانس آمده است.

مقدار احتمال به دست آمده (P value < 0.0001) به سادگی بیانگر آن است که مدل رگرسیون خطی چندگانه که در این مثال به دست آوردیم، قابل قبول و معنادار است. به عبارت دیگر با استفاده از Variableهای ۹گانه بالا، می‌توان با درصد خوبی کمیت پاسخ % Glycosylated hemoglobin را پیش‌بینی کرد.

  • Multicollinearity

ما در پنجره Parameters Multiple Linear Regression و در تب Diagnostics در بخش Are the variables intertwined or redundant به هنگام تنظیمات مدل، گزینه‌های Multicollinearity و Correlation Matrix را جهت به دست آوردن نتایج هم‌خطی و ماتریس همبستگی، فعال کردیم. در جدول زیر می‌توانید نتایج هم خطی بین Variableها را مشاهده کنید.

هم خطی با آماره‌ای به نام فاکتور تورم واریانس Variance Inflation Factor (VIF) سنجیده می‌شود. اندازه VIFها نشان می‌دهد با همبسته بودن کمیت‌ها به یکدیگر، واریانس ضریب رگرسیونی براورد شده به چه میزان افزایش می‌یابد.

اگر VIF نزدیک به یک باشد، همخطی بین آن X با کمیت‌های دیگر وجود ندارد، اما اگر VIFها از یک بزرگتر باشند، همخطی بین آن X با کمیت‌های دیگر وجود دارد. وقتی VIF > 5 باشد، ضریب رگرسیونی به دست آمده برای آن جمله، مناسب نیست و معمولاً آن X را حذف می‌کنیم.

در جدول بالا کمیت‌های Weight in pounds و Waist in inches به همراه Hip in inches دارای مقدار VIF بالایی هستند. به معنای این‌که همخطی شدیدی بین این Variableها با سایر Xها وجود دارد. بنابراین بهتر است به منظور به دست آوردن یک مدل رگرسیونی بهتر، آن‌ها را حذف کنیم. بررسی P value این سه Variable نیز بیانگر عدم تاثیرگزاری معنادار آن‌ها بر کمیت پاسخ است.

در جدول بالا ستون دیگری با نام R2 with other variables دیده می‌شود. اعداد به دست آمده برای هر کمیت نشان می‌دهد که اگر آن X نقش Y را در یک مدل رگرسیونی داشته باشد و سپس بین آن X که دیگر Y شده است و سایر X ها یک مدل رگرسیونی برقرار کنیم، در آن صورت، ضریب تعیین این مدل رگرسیونی چقدر خواهد بود.

به عنوان مثال عدد 0.1363 برای Total cholesterol بیان می‌کند که اگر یک مدل رگرسیونی بین Total cholesterol از یک طرف و هشت Variable دیگر، برقرار کنیم، ضریب تعیین یا همان R2 این مدل رگرسیونی جدید حدود 13.63 درصد خواهد بود.

همان‌گونه که می‌دانیم R2 عددی بین صفر و یک است و هرچقدر به یک نزدیکتر باشد، نشان‌دهنده‌ی وجود ارتباط قوی‌تر بین کمیت پاسخ Y با سایر کمیت‌های مستقل Xها می‌باشد.

در مدل‌های رگرسیونی مطلوب آن است که بین Xها همخطی وجود نداشته باشد و اندازه‌های VIF آن نزدیک به یک و R2 with other variables در اطراف صفر باشد.

  • Correlation matrix

در ادامه مباحث هم خطی که در بالا به آن اشاره کردیم، نرم‌افزار گراف پد ماتریس همبستگی بین کمیت‌های مستقل را نیز رسم کرده است. این ماتریس که آرایه‌های آن عدد ضریب همبستگی بین هر X با X دیگر می‌باشد، نشان می‌دهد ارتباط جفتی بین کمیت‌های مستقل با یکدیگر چگونه است.

به عنوان مثال عدد 0.1288- نشان می‌دهد ارتباط بین Total cholesterol و Glucose منفی و حدود 13 درصد می‌باشد. برای بقیه Xها نیز عدد ضریب همبستگی به دست آمده است.

  • Normality of Residuals

یادتان باشد در پنجره Parameters Multiple Linear Regression و در تب Diagnostics در بخش ?Normality tests. Are the residuals Gaussian به هنگام تنظیمات مدل، گزینه‌های مربوط به بررسی نرمال بودن باقیمانده‌های مدل رگرسیونی را فعال کردیم. در جدول زیر می‌توانید نتایج این بررسی را مشاهده کنید.

بر مبنای هر چهار آزمون مورد بررسی، باقیمانده‌های مدل، فاقد توزیع نرمال هستند و آزمون نرمال بودن باقیمانده‌ها، رد می‌شود.

  • Data summary

در این بخش خلاصه‌ای از داده‌های مثال رگرسیون خطی چند بعدی را مشاهده می‌کنید. جدول زیر بیان می‌کند که ۴۰۳ سطر (فرد) مورد بررسی قرار گرفته است. تعداد ۲۲ سطر که تحت عنوان داده گمشده Missing data و شامل افراد دارای عدم پاسخ است، در این مثال دیده می‌شود. این افراد از مطالعه کنار گذاشته شده‌اند. بنابراین ۳۸۱ نفر در این مطالعه آنالیز شده‌اند.

تعداد ۱۰ پارامتر یعنی همان پارامترهای β، β2 ، β1 ، β0 تا β9 براورد شده‌اند. نسبت تعداد افراد به پارامترها یعنی 381/10 برابر با 38.1 به دست آمده است.

آن‌چه در این مثال همچنان باقی مانده است، مشاهده و رسم گراف‌های متناظر با تحلیل رگرسیون خطی می‌باشد. در فولدر Graphs پنجره سمت چپ می‌توان عناوین پنج شیت از نمودارهای رسم شده در این مثال را مشاهده کرد.

در ادامه به بررسی این گراف‌ها می‌پردازیم. در ابتدا از گراف Actual vs Predicted plot: Multiple lin. reg شروع می‌کنیم. شکل آن را در زیر می‌توانید ببینید.

در این گراف محور عمودی مقادیر Y پیش‌بینی شده با استفاده از مدل رگرسیون خطی است. به این معنا که بر مبنای Xهای هر فرد به دست آورده‌ایم درصد Glycosylated hemoglobin او چقدر می‌تواند باشد. هر دایره نیز بیانگر یک فرد می‌باشد.

در محور افقی نیز عدد واقعی % Glycosylated hemoglobin آمده است. دقت کنید که خط نیمساز نقاطی را نشان می‌دهد که اندازه‌های واقعی و پیش‌بینی شده با یکدیگر برابرند. این بهترین حالت برای مدل است که بیانگر خطای صفر پیش‌بینی می‌باشد. با این حال همان‌گونه که مشاهده می‌کنید، برخی از نقاط از خط نیمساز دور هستند، به معنای اینکه مدل به دست آمده چندان مناسب نیست. در مواردی نیز که نقاط بر روی خط نیمساز و یا اطراف آن هستند، به معنای آن است که مدل رگرسیونی به دست آمده مناسب است و خطای مدل اندک است.

چنانچه علاقمند باشیم اعداد پیش‌بینی شده Y برای درصد Glycosylated hemoglobin را به ازای هر فرد مشاهده کنیم، می‌توانیم در گراف بالا، بر روی یک دایره دلخواه برویم. اطلاعاتی درباره همان نقطه در صفحه گراف برای ما مشخص خواهد شد. به عنوان مثال می‌توانیم ببینیم آن نقطه سطر چندم داده‌ها است، اندازه X آن (در اینجا مقدار واقعی درصد Glycosylated hemoglobin) چقدر است و اندازه Y یعنی پیش‌بینی درصد Glycosylated hemoglobin برای آن نقطه چقدر خواهد بود.

به عنوان مثال در نقطه انتخابی ما که مربوط به سطر ۳۹۹ است، محور X که همان عدد واقعی درصد Glycosylated hemoglobin است برابر با ۱۶.۱۱ بوده است. برای همین نقطه محور Y که عدد پیش‌بینی شده برای درصد Glycosylated hemoglobin است برابر با ۱۳.۳۸ شده است. در این نقطه تا حدی خطای پیش‌بینی دیده می‌شود.

به همین ترتیب خط آبی‌رنگ با نام Multiple lin. reg. of Data: Actual vs Predicted plot در کادر بالا دیده می‌شود. اگر بر روی آن کلیک کنیم به صورت مستقیم به نتایج و شیت Results می‌رویم. در آن‌جا یک تب جدید با نام Actual vs Predicted plot ساخته شده است. در زیر می‌توانید ببینید.

در این شیت از نتایج، چند ستون دیده می‌شود. در ستون X با نام Actual Y عدد واقعی درصد Glycosylated hemoglobin به ازای هر فرد دیده می‌شود. در ستون دیگر با نام Predicted Y به ازای همان فرد، تعداد دفعات پیش‌بینی شده درصد Glycosylated hemoglobin توسط مدل رگرسیون خطی چند بعدی، مشاهده می‌شود. فاصله و اختلاف بین این ستون‌ها همان خطا و باقیمانده مدل رگرسیونی نامیده می‌شود.

حال به بررسی گراف دیگر با نام Residual plot: Multiple lin. reg. of Data بپردازیم. 

در این نمودار می‌توانیم باقیمانده‌ها و یا همان خطاهای مدل رگرسیونی به ازای هر فرد را مشاهده کنیم. توضیح این‌که باقیمانده به اختلاف بین مقدار واقعی درصد Glycosylated hemoglobin و مقدار پیش‌بینی شده برای آن گفته می‌شود. مدل رگرسیونی خوب است که در گراف بالا نقاط به صورت تصادفی در اطراف خط صفر قرار گرفته باشند. در این مثال تقریباَ چنین چیزی به خوبی دیده می‌شود.

همانند گراف بالا با قرار دادن موس بر روی هر دایره، می‌توانیم مختصات X یعنی عدد پیش‌بینی شده برای درصد Glycosylated hemoglobin و Y یعنی اندازه خطای مدل را مشاهده کنیم.

به عنوان مثال در نقطه انتخابی ما که مربوط به سطر ۳۳ است، محور X که همان عدد پیش‌بینی شده درصد Glycosylated hemoglobin است برابر با ۱۲.۵۳ شده است. برای همین نقطه محور Y که مقدار خطای مدل رگرسیونی را نشان می‌دهد برابر با ۲.۹۹ شده است.

با کلیک کردن بر روی عبارت آبی رنگ Multiple lin. reg. of Data: residual plot می‌توانیم در شیت نتایج تب دیگری با نام Residual plot به دست می‌آید. در تصویر زیر می‌توانید آن را ببینید.

همان‌گونه که مشاهده می‌شود به ازای هر فرد می‌توان مقدار عدد پیش‌بینی شده برای درصد Glycosylated hemoglobin و خطای پیش‌بینی را مشاهده کرد.

گراف دیگر با نام Homoscedasticity plot: Multiple lin. reg. of MR همان گراف بالا است با این تفاوت که قدر مطلق باقیمانده‌ها در محور عمودی قرار گرفته است. این نکته لازم به ذکر است که باقیمانده‌ها از آن‌جا که به صورت اختلاف بین مقدار مشاهده شده و عدد پیش‌بینی شده هستند، می‌توانند به صورت مثبت و یا منفی باشند. یعنی در مواردی عدد واقعی بزگتر باشد و باقیمانده مثبت شود و در مواردی عدد پیش‌بینی شده بزرگتر باشد و باقیمانده منفی شود.

در شکل زیر می‌توانید گراف را مشاهده کنید.

گراف دیگر با نام QQ plot: Multiple lin. reg. of MR دیده می‌شود. این گراف به بررسی نرمال بودن توزیع باقیمانده‌های مدل می‌پردازد. محور افقی گراف بیانگر باقیمانده‌های واقعی و محور عمودی نشان‌دهنده‌ی باقیمانده‌های پیش‌بینی شده براساس مدل رگرسیونی است. چنانچه داده‌ها بر روی خط نیمساز قرار بگیرند، نتیجه می‌گیریم که توزیع باقیمانده‌ها نرمال است.

در شکل زیر می‌توانید QQ Plot این مثال را مشاهده کنید. به نظر می‌رسد انحراف از خط نیمساز زیاد است و توزیع باقیمانده‌های مدل، نرمال نیست. یادتان باشد در نتایج به دست آمده نیز به این نکته رسیدیم که بر مبنای هر چهار روش Kolmogorov-Smirnov, Shapiro-Wilk, D’Agostino-Pearson, Anderson-Darling توزیع باقیمانده‌ها نرمال نبود. گراف به دست آمده در شکل زیر تاییدی بر این نتیجه است.

آخرین گراف با نام Residual vs order plot: Multiple lin. reg. of MR به دست آمده است. ابتدا شکل آن را ببینید.

در این تصویر باقیمانده‌ها (محور Y) در برابر ترتیب و ردیف افراد (محور X) قرار گرفته‌اند. به معنای اینکه از نفر ابتدا تا نفر انتها (نفر ۴۰۳ام) به ترتیب باقیمانده و خطای مدل رگرسیون خطی به ازای هر کدام از آن‌ها آمده است. همانند گراف‌های بالا می‌توانیم با قرار دادن موس بر یک نقطه، تب نتایج را مشاهده کنیم.

 
در مطالب بالا به بیان انجام تحلیل رگرسیون خطی چندگانه با استفاده از نرم‌افزار گراف پد پریسم پرداختیم. حتماَ خودتان هم تمرین کنید تا چیزهای بیشتری بیاموزید.

ارایه خدمات تحلیل آماری با GraphPad Prism

گراف پد ارایه خدمات تحلیل‌های آماری با نرم‌افزار GraphPad در تحقیقات و مطالعات را انجام می‌دهد. جهت دریافت نکات بیشتر و نحوه کار می‌توانید مختصری از کار خود را ارسال نمایید. به سرعت تقاضای شما را بررسی و نتایج تحلیل داده‌ها را به صورت اختصاصی و کامل ارسال خواهیم کرد.

 

گراف پد جمعی از رتبه‌های برتر آزمون دکترا آمار دانشگاه‌های ایران | برجسته در موسسه بین‌المللی تحقیقات | دارای نماد اعتماد الکترونیک از مرکز توسعه تجارت الکترونیکی ایران و مجوز رسمی ثبت به شماره ۴۱۸۸۱ و شناسه ملی ۱۴۰۰۶۸۳۲۳۱۹