رگرسیون لجستیک ترتیبی Ordinal Logistic Regression در نرمافزار Minitab
کاربرد رگرسیون ترتیبی
Ordinal Logistic Regression
میدانیم که رگرسیون در حالت کلی به صورت رابطه Y = f(X) تعریف میشود. در این رابطه میخواهیم با استفاده از تابع f بین Xها به عنوان Independent Variable و Y به عنوان Dependent Variable یک ارتباط و مدل به دست بیاوریم. در این مدل ما قصد داریم با استفاده از DV ها به پیشبینی مقادیر عددی برای IV بپردازیم.
رگرسیون ترتیبی که نام کاملتر آن رگرسیون لجستیک ترتیبی است، هنگامی به کار میرود که کمیت پاسخ یا همان Y دارای اندازههای عددی ترتیبی Ordinal مانند کم، متوسط، زیاد، باشد.
به عنوان مثال در نظر بگیرید یک زیستشناس، مدت زمان زنده ماندن حیوانی را مطالعه میکند. او میخواهد تعیین کند آیا بقا به نوع منطقه و میزان سمیت آب مربوط است یا خیر. این زیستشناس زمان بقا را به سه دسته تقسیم میکند. کمتر از 10 روز، 11 تا 30 روز و بیش از 30 روز.
در این مطالعه، بقا به عنوان کمیت پاسخ یا همان Y مطرح است. نوع منطقه و سمیت آب نیز به صورت کمیتهای مستقل یا همان Xها وارد مطالعه میشوند. از آنجا که پاسخ (بقا) یک کمیت ترتیبی است، زیستشناس از رگرسیون لجستیک ترتیبی در این مطالعه استفاده میکند.
تحلیلهای جایگزین
Binary Logistic Regression
اگر کمیت پاسخ تنها دارای دو گروه باشد، مثلا شکست یا پیروزی، سالم یا بیمار. در این صورت مدل رگرسیونی ما لجستیک باینری Binary Logistic Regression خواهد بود. در این زمینه علاقمند بودید میتوانید لینک (رگرسیون لجستیک باینری Binary Logistic Regression در نرمافزار SPSS) را ببینید.
Ordinal Logistic Regression
اگر کمیت پاسخ تنها دارای بیشتر از دو گروه رتبهای Ordinal باشد، به عنوان مثال ردههای کم، متوسط، زیاد. در این صورت مدل رگرسیونی ما لجستیک ترتیبی Ordinal Logistic Regression خواهد بود. در این زمینه میتوانید لینک (رگرسیون لجستیک ترتیبی Ordinal Logistic Regression در نرمافزار Minitab) را مشاهده کنید.
Poisson Regression
اگر کمیت پاسخ قابل شمارش و تعداد رخداد یک پیشامد باشد، به عنوان مثال تعداد نقصها در یک سیستم یا تعداد تصادفات. در این صورت مدل رگرسیونی ما پواسن Poisson Regression خواهد بود. علاقمند بودید لینک (تحلیل مدل رگرسیون پواسن Poisson Regression با نرمافزار گراف پد) را ببینید.
اگر کمیت پاسخ قابل شمارش و تعداد رخداد یک پیشامد باشد، به عنوان مثال تعداد نقصها در یک سیستم یا تعداد تصادفات. در این صورت مدل رگرسیونی ما پواسن Poisson Regression خواهد بود.
مسیر انجام تحلیل
Minitab
مسیر انجام آنالیز رگرسیون لجستیک ترتیبی در نرمافزار Minitab به صورت زیر است.
Stat→ Regression → Ordinal Logistic Regression
مثال رگرسیون لجستیک ترتیبی Ordinal Logistic Regression
فرض کنید مدیر یک بیمارستان میخواهد بداند چه عواملی بر رضایت بیماران اثرگزار است. او از بیماران سوال می پرسد که آنها به چه اندازه علاقمند هستند جهت ادامه درمان به این بیمارستان مراجعه کنند. پاسخها به صورت طیفی از بعید است، تاحدی محتمل است و بسیار احتمال دارد، قرار دارند. پیشبینیی کنندههایی مانند سن، وضعیت اشتغال و نزدیکی به بیمارستان نیز از بیماران پرسیده شده است.
مدیر بیمارستان از احتمال بازگشت بیمار به عنوان کمیت پاسخ (Y) استفاده میکند. دستهبندیهای کمیت پاسخ دارای ترتیبی از بعید به احتمال زیاد هستند، بنابراین کمیت پاسخ رتبهای یا همان Ordinal است و برای مدلسازی رابطه بین پیشبینی کنندهها (Xها) و پاسخ (Y) از رگرسیون لجستیک ترتیبی استفاده میشود.
فایل دیتای این مثال و نتایج به دست آمده با استفاده از نرمافزار Minitab را میتوانید از اینجا دریافت کنید.
در تصویر زیر میتوانید بخشی از دادهها را مشاهده کنید.
جهت شروع تحلیل، لازم است به نرمافزار Minitab، رتبهها تعریف شود. به معنای اینکه نرمافزار بداند عبارات نوشته شده در ستون Return Appointment که همان کمیت پاسخ و احتمال بازگشت به بیمارستان جهت اداره درمان است، رتبه و اندازههای ترتیبی هستند.
برای این منظور به یک خانه دلخواه از ستون Return Appointment بروید و روی آن راست کلیک کنید.
در کادر باز شده، گزینه Column Properties و از آنجا گزینه Value Order را انتخاب کنید.
با انجام این کار، پنجره زیر با نام Value Order for C1 (Return Appointment) برای ما باز میشود.
در این پنجره، گزینه User-specified order را انتخاب میکنیم. در کادر Define an order ترتیب گزینههای ستون Return Appointment (همان کمیت پاسخ احتمال بازگشت) را به صورت زیر قرار میدهیم و سپس OK میکنیم.
- Very Likely
- Somewhat Likely
- Unlikely
با انجام این کار، نرمافزار متوجه میشود که عبارتهای مختلف ستون Return Appointment در واقع کدهای ترتیبی از احتمال بازگشت بالا تا عدم احتمال بازگشت، هستند.
حال در ادامه با استفاده از مسیر زیر، به انجام آنالیز Ordinal Logistic Regression در نرمافزار Minitab میپردازیم.
Stat→ Regression → Ordinal Logistic Regression
پس از رفتن به این مسیر، پنجره Ordinal Logistic Regression برای ما باز میشود.
در این پنجره، ستون Return Appointment را به عنوان Response و ستونهای Age و Distance را در کادر مدل قرار میدهیم. در این مرحله کاری به بقیه تنظیمات نرمافزار نداریم و OK میکنیم. با انجام این کار نتایج و خروجیهای نرمافزار برای ما به دست میآید. در ادامه به بیان آنها میپردازیم.
در ابتدا به این نکته توجه کنید که چنانچه علاقمند به دانستن توضیحات بیشتری درباره رگرسیون لجستیک ترتیبی و بیان همه نتایج و خروجیهای نرمافزار Minitab در این زمینه هستید، میتوانید لینک زیر را مشاهده کنید.
نتایج تحلیل رگرسیون ترتیبی
Minitab Output
در ابتدا جدول زیر با نام Response Information مشاهده میشود. در این جدول به ازای هر کدام از سطوح مختلف کمیت پاسخ یعنی Return Appointment فراوانی آنها آمده است.
نتایج جدول بالا نشان میدهد 19 نفر بازگشت به بیمارستان برای ادامه فرایند درمان را با احتمال زباد، 43 نفر تاحدی محتمل و 11 نفر بعید دانستهاند. رویهم رفته 73 نفر نیز در این مطالعه مورد ارزیابی قرار گرفتهاند.
-
جدول Logistic Regression Table
جدول مهم دیگر در آنالیز رگرسیون لجستیک ترتیبی با نام Logistic Regression Table شناخته میشود. در ادامه میتوانید آن را ببینید.
حال در ادامه بیایید به توضیح و بیان یافتههای جدول بالا بپردازیم. یادتان باشد ما در این مثال رگرسیون ترتیبی، از دو کمیت مستقل یعنی Distance و Age جهت براورد و مدلبندی یک کمیت رتبهای یعنی احتمال بازگشت به بیمارستان (در سه رده بعید است، تاحدی محتمل است و بسیار احتمال دارد) استفاده کردیم.
Distance
نتایج جدول بالا در سطر Distance را نگاه کنید. عدد ضریب رگرسیونی یا همان Coef برابر با 0.3907- شده است. منفی بودن آن بیانگر ارتباط وارون بین فاصله از بیمارستان و احتمال بازگشت به مرکز درمانی است.
برای فهم بهتر آن بار دیگر به تنظیمات پنجره Value Order for C1 (Return Appointment) مراجعه کنید. یادتان باشد ما در این پنجره ترتیب ردهها را به صورت
- Very Likely
- Somewhat Likely
- Unlikely
نوشتیم. بنابراین اولبن رخداد (همان کد 1) Very likely، کد 2 عبارت somewhat likely و کد 3 یا همان آخرین رویداد Unlikely تعریف میشود.
بنابراین وقتی ضریب همبستگی Distance منفی می شود به معنای آن است که با افزایش فاصله، کدهای Response کاهش مییابد.
به عبارت ساده هر چقدر منزل و محل سکونت بیمار از بیمارستان دورتر باشد، احتمال بازگشت او به مرکز درمان نیز کمتر است و هر چقدر او به بیمارستان نزدیکتر باشد، احتمال بازگشت او نیز بیشتر است. طبیعی است که این مطلب یک نتیجه منطقی است.
عدد P value به دست آمده نیز به صورت 0.001> شده است. این عدد بیانگر تاثیر معنادار Distance بر روی کمیت پاسخ یعنی Return Appointment است.
حال بیایید به توضیح نسبت بخت یا همان Odds Ratio بپردازیم. عدد آن برای Distance برابر با 0.68 به دست آمده است. اگر دقت کنید این عدد به سادگی از رابطه Exp{-0.390759} = 0.6765 به دست میآید. تعبیر آن به معنای این است که یک واحد افزایش در Distance شانس رخداد مورد نظر یعنی احتمال بازگشت به بیمارستان را به اندازه وارون 0.68 یعنی 1/0.68 = 1.478 برابر کاهش میدهد.
بیایید یکبار دیگر مرور کنیم. اگر فاصله از بیمارستان یک واحد افزایش پیدا کند، احتمال بازگشت به بیمارستان جهت ادامه درمان 1.478 برابر کمتر می شود. کران 95 درصد پایین و بالا نیز برای OR کمیت Distance در جدول بالا برابر با 0.55 و 0.83 به دست آمده است.
Age
حال بیایید همه این نتایج را بار دیگر برای کمیت مستقل دیگر مطالعه یعنی Age بررسی کنیم. اندازه عددی ضریب رگرسیونی آن مثبت و برابر با 0.01326 شده است. این عدد هر چند تاثیر اندک Age بر Return Appointment را نشان میدهد اما به هر حال بیانگر رابطه مستقیم سن و احتمال بازگشت است.
به نظر میرسد افراد دارای سنین بالاتر تمایل بیشتری برای بازگشت به بیمارستان جهت ادامه درمان را دارند. شاید روحیه محافظهکار افراد در سنین بالاتر این نتیجه را توجیه میکند. البته به این نکته مهم توجه کنید که این رابطه غیرمعنادار به دست آمده است (P value = 0.408).
اندازه عددی OR برای Age نیز اطراف یک به دست آمده، دقیقاً برابر با 1.01 شده است. این عدد نیز به بیانی دیگر تاثیر غیرمعنادار سن را نشان میدهد.
یک اندازه عددی با نام Log-Likelihood = -60.410 نیز در پایین جدول دیده می شود. معمولاً بیان میشود که هرچقدر این عدد از صفر دورتر باشد، بیانگر برازش بهتر مدل بر دادهها است.
Const
در جدول Logistic Regression Table علاوه بر نتایج مربوط به کمیتهای Distance و Age دو سطر دیگر نیز مشاهده می شود. نرمافزار Minitab نام آنها را به صورت Const(1) و Const(2) آورده است.
یک سوال. چرا ما در این مثال دو ضریب رگرسیونی با نام Const داریم؟ پاسخ ساده است. به دلیل اینکه سه رتبه برای کمیت پاسخ احتمال بازگشت تعریف شده است. در واقع در هر تحلیل رگرسیون ترتیبی با نرمافزار Minitab به تعداد یکی کمتر از رتبههای Response ما ضریب رگرسیونی با نام const خواهیم داشت.
شاید سوال دیگر این باشد حالا چرا یکی کمتر؟ پاسخ این است که آنها به فاصله و اختلاف بین هر دو رتبه در Response اشاره می کنند. یعنی Const(1) به فاصله بین احتمال خیلی بعید و تاحدی محتمل است و Const(2) به فاصله بین تاحدی محتمل است و احتمال خیلی زیاد، اشاره میکنند.
یک تعبیر جالب توجه این است که میتوان const ها را Cutoff یا نقطه برش دانست. بیایید Const(1) را توضیح دهیم. عدد آن برابر با 2.22 شده است. این عدد نشان میدهد که اگر برای یک فرد فرضی، اندازه عددی Response در مدل رگرسیونی کمتر از 2.22 شود، آن فرد در رده افراد با احتمال بازگشت بعید به بیمارستان، قرار میگیرد.
به همین ترتیب اگر عدد Response در مدل رگرسیونی بین اعداد Const(1) تا Const(2) یعنی 5.612 باشد، آن فرد در رتبه افراد تاحدی محتمل قرار میگیرد.
برای افراد دارای Response بزرگتر از 5.612 نیز آن فرد در رده افراد دارای احتمال خیلی زیاد در بازگشت به بیمارستان قرار خواهد گرفت.
-
جدول Test of All Slopes Equal to Zero
در ادامه نتایج رگرسیون لجستیک ترتیبی با نرمافزار Minitab جدول دیگری با نام Test of All Slopes Equal to Zero دیده میشود.
ابتدا بیان میکنیم که این جدول و نتایج مربوط به آن، یک آزمون کلی است که همه ضرایب پیشبینی کنندههای مدل را در نظر میگیرد.
از این آزمون برای تعیین اینکه آیا حداقل یکی از پیشبینی کنندههای مدل، رابطه آماری معنیداری با رویدادهای پاسخ دارد استفاده میشود. DF برابر تعداد ضرایب پیش بینیکننده در مدل است. از آنجا که ما در این مثال کمیتهای پیشبینی کننده Distance و Age را داشتیم، بنابراین DF = 2 به دست آمده است. آماره G نیز در اینجا آماره آزمون بررسی فرضیه صفر بودن همه ضرایب رگرسیونی است.
فرض صفر در این آزمون، برابر با صفر بودن تمام ضرایب رگرسیونی است. پذیرفته شدن این فرض به معنای عدم وجود حتی یک کمیت اثرگزار معنادار بر پاسخ و یا همان Response است. فرض مقابل نیز وجود حداقل یک X معنادار در مدل رگرسیون لجستیک ترتیبی است.
نتیجه به دست آمده از جدول بالا یعنی P-Value < 0.001 بیانگر رد فرض صفر و پذیرش فرض مقابل است. این مطلب به معنای آن است که در مثال ما حداقل یک X معنادار دیده میشود. خاطرتان باشد در جدول Logistic Regression Table بالا به این نتیجه رسیدیم که Distance یک کمیت اثرگزار معنادار بر احتمال بازگشت به بیمارستان است.
-
جدول Goodness-of-Fit Tests
در ادامه نتایج رگرسیون لجستیک ترتیبی با نرمافزار Minitab جدول دیگری با نام Goodness-of-Fit Tests دیده میشود.
بر مبنای این جدول، روشها و آزمونهای نیکویی برازش Pearson و Deviance مورد بررسی قرار گرفته است. بیایید در ادامه به توضیح آنها بپردازیم.
آزمون پیرسون و همچنین Deviance تناقض و تفاوت بین مدل فعلی برازش شده بر دادهها و مدل کامل را ارزیابی میکند. فرض صفر در این آزمونها، نیکو بودن و مناسب بودن مدل برازش شده است. نتیجه به دست آمده بر مبنای آزمون نیکویی برازش پیرسن و مقدار احتمال به دست آمده، بیانگر تایید فرض صفر است و نشان میدهد، مدل به دست آمده مناسب است (P-Value = 0.344).
این نتیجه برای آزمون Deviance نیز برقرار است. بر مبنای مقدار احتمال به دست آمده برای این آزمون نیز نتیجه میگیریم مدل به دست آمده مناسب است (P-Value = 0.901).
-
جدول Measures of Association
در ادامه نتایج رگرسیون لجستیک ترتیبی با نرمافزار Minitab جدول دیگری با نام Measures of Association دیده میشود.
در ادامه بیایید به توضیح آمارههای مختلف این جدول بپردازیم. جدول Measures of Association در حالت کلی به بررسی ارتباط بین دادههای کمیت پاسخ با اندازهها و احتمالهای پیشبینی شده بر مبنای مدل رگرسیون لجستیک ترتیبی میپردازد.
جدول Measures of Association به دو بخش Pairs و Summary Measures تفکیک میشود.
Pairs
به رتبه واقعی و مشاهده شده کمیت پاسخ و عدد پیشبینی شده برای آن یک جفت Pair گفته می شود. این بخش شامل سه سطر Discordant، Concordant و Ties است.
جفتهای هماهنگ Concordant و ناسازگار Discordant نشان میدهند که مدل شما چقدر پیشبینی دادهها را درست انجام میدهد. هر چه جفتهای هماهنگ بیشتری داشته باشید، توانایی پیشبینی مدل شما بهتر است.
نرمافزار Minitab برای تعیین اینکه آیا جفتها هماهنگ هستند یا ناسازگار، احتمالات پیشبینی شده تجمعی هر مشاهده را محاسبه کرده و این مقادیر را برای هر جفت مشاهدات مقایسه میکند.
در این مثال تعداد جفتهای هماهنگ برابر با 1131 (75.5 درصد) و تعداد جفتهای ناسازگار برابر با 360 (24 درصد) است. این نتیجه نیز بیانگر مناسب بودن مدل برازش شده بر دادهها است.
سطر دیگری نیز در این بخش با نام Ties دیده میشود. این سطر به تعداد جفتهایی اشاره میکند که مشاهدات واقعی آنها دارای احتمال تجمعی برابر هستند.
Summary Measures
در بخش دیگر جدول Measures of Association قسمت Summary Measures قرار دارد. این بخش شامل آمارههایی جهت بیان اندازه ارتباط بین رتبهها و مقادیر پیشبینی شده برای آنها است. آمارههایی مانند Somers’ D و Goodman-Kruskal Gamma و همچنین Kendall’s Tau-a در این جدول به دست آمدهاند.
اندازه Somers’ D که برابر با 0.51 به دست آمده است به بیان اختلاف بین جفتهای هماهنگ با جفتهای ناسازگار نسبت به همه جفتها می پردازد. هر چه عدد آن بالاتر باشد به معنای عملکرد بهتر مدل در پیشبینی نتایج است.
اندازه Goodman-Kruskal Gamma در این مثال برابر با 0.52 به دست آمده است. این اندازه به بیان نسبت بین اختلاف جفتهای هماهنگ و جفتهای ناسازگار با مجموع جفتهای هماهنگ و ناسازگار، میپردازد.
اندازه عددی Kendall’s Tau-a نیز در این مثال برابر با 0.29 به دست آمده است. این اندازه به بیان نسبت بین اختلاف جفتهای هماهنگ و جفتهای ناسازگار با همه جفتهای ممکن میپردازد.
در تصویر زیر فرمول و نحوه محاسبه هر کدام از اندازههای بالا را میتوانید مشاهده کنید.
به این ترتیب در پایان بیان میکنیم که به سادگی میتوانید با استفاده از نرمافزار Minitab به ارایه و انجام تحلیل رگرسیون لجستیک ترتیبی بپردازیم.
چگونه به این مقاله رفرنس دهیم
GraphPad Statistics (2021). Ordinal Logistic Regression in Minitab software. Statistical tutorials and software guides. Retrieved Month, Day, Year, from https://graphpad.ir/ordinal-logistic-regression-minitab/.php
For example, if you viewed this guide on 12th January 2022, you would use the following reference
GraphPad Statistics (2021). Ordinal Logistic Regression in Minitab software. Statistical tutorials and software guides. Retrieved January, 12, 2022, from https://graphpad.ir/ordinal-logistic-regression-minitab/.php
ارایه خدمات تحلیل و مشاوره آماری
گراف پد برای شما خدمات مشاوره و انجام انواع تحلیلهای آماری را ارایه میدهد. جهت دریافت نکات بیشتر بهتر است با ما تماس بگیرید.