رگرسیون ترتیبی

رگرسیون لجستیک ترتیبی Ordinal Logistic Regression در نرم‌افزار Minitab

زمان مطالعه: 35 دقیقه 

 

 
 

 

کاربرد رگرسیون ترتیبی

 Ordinal Logistic Regression 

می‌دانیم که رگرسیون در حالت کلی به صورت رابطه Y = f(X) تعریف می‌شود. در این رابطه می‌خواهیم با استفاده از تابع f بین Xها به عنوان Independent Variable و Y به عنوان Dependent Variable یک ارتباط و مدل به دست بیاوریم. در این مدل ما قصد داریم با استفاده از DV ها به پیش‌بینی مقادیر عددی برای IV بپردازیم.

رگرسیون ترتیبی که نام کامل‌تر آن رگرسیون لجستیک ترتیبی است، هنگامی به کار می‌رود که کمیت پاسخ یا همان Y دارای اندازه‌های عددی ترتیبی Ordinal مانند کم، متوسط، زیاد، باشد.

به عنوان مثال در نظر بگیرید یک زیست‌شناس، مدت زمان زنده ماندن حیوانی را مطالعه می‌کند. او می‌خواهد تعیین کند آیا بقا به نوع منطقه و میزان سمیت آب مربوط است یا خیر. این زیست‌شناس زمان بقا را به سه دسته تقسیم می‌کند. کمتر از 10 روز، 11 تا 30 روز و بیش از 30 روز.

در این مطالعه، بقا به عنوان کمیت پاسخ یا همان Y مطرح است. نوع منطقه و سمیت آب نیز به صورت کمیت‌های مستقل یا همان Xها وارد مطالعه می‌شوند. از آنجا که پاسخ (بقا) یک کمیت ترتیبی است، زیست‌شناس از رگرسیون لجستیک ترتیبی در این مطالعه استفاده می‌کند.

 

تحلیل‌های جایگزین

Binary Logistic Regression

اگر کمیت پاسخ تنها دارای دو گروه باشد، مثلا شکست یا پیروزی، سالم یا بیمار. در این صورت مدل رگرسیونی ما لجستیک باینری Binary Logistic Regression خواهد بود.

Nominal Logistic Regression

اگر کمیت پاسخ تنها دارای بیشتر از دو گروه اسمی Nominal باشد، به عنوان مثال گروه‌های شغلی یا رشته‌های تحصیلی. در این صورت مدل رگرسیونی ما لجستیک اسمی Nominal Logistic Regression خواهد بود.

Poisson Regression

اگر کمیت پاسخ قابل شمارش و تعداد رخداد یک پیشامد باشد، به عنوان مثال تعداد نقص‌ها در یک سیستم یا تعداد تصادفات. در این صورت مدل رگرسیونی ما پواسن Poisson Regression خواهد بود.

 

مسیر انجام تحلیل

 Minitab 

مسیر انجام آنالیز رگرسیون لجستیک ترتیبی در نرم‌افزار Minitab به صورت زیر است.

Stat→ Regression → Ordinal Logistic Regression

 

مسیر انجام آنالیز رگرسیون لجستیک ترتیبی در نرم‌افزار Minitab

 

مثال رگرسیون لجستیک ترتیبی Ordinal Logistic Regression

 

فرض کنید مدیر یک بیمارستان می‌خواهد بداند چه عواملی بر رضایت بیماران اثرگزار است. او از بیماران سوال می پرسد که آن‌ها به چه اندازه علاقمند هستند جهت ادامه درمان به این بیمارستان مراجعه کنند. پاسخ‌ها به صورت طیفی از بعید است، تاحدی محتمل است و بسیار احتمال دارد، قرار دارند. پیش‌بینیی کننده‌هایی مانند سن، وضعیت اشتغال و نزدیکی به بیمارستان نیز از بیماران پرسیده شده است.

مدیر بیمارستان از احتمال بازگشت بیمار به عنوان کمیت پاسخ (Y) استفاده می‌کند. دسته‌بندی‌های کمیت پاسخ دارای ترتیبی از بعید به احتمال زیاد هستند، بنابراین کمیت پاسخ رتبه‌ای یا همان Ordinal است و برای مدل‌سازی رابطه بین پیش‌بینی کننده‌ها (Xها) و پاسخ (Y) از رگرسیون لجستیک ترتیبی استفاده می‌شود.

فایل دیتای این مثال و نتایج به دست آمده با استفاده از نرم‌افزار Minitab را می‌توانید از اینجا دریافت کنید.

در تصویر زیر می‌توانید بخشی از داده‌ها را مشاهده کنید.

داده‌های مثال رگرسیون لجستیک ترتیبی Ordinal Logistic Regression

 

جهت شروع تحلیل، لازم است به نرم‌افزار Minitab، رتبه‌ها تعریف شود. به معنای اینکه نرم‌افزار بداند عبارات نوشته شده در ستون Return Appointment که همان کمیت پاسخ و احتمال بازگشت به بیمارستان جهت اداره درمان است، رتبه و اندازه‌های ترتیبی هستند.

برای این منظور به یک خانه دلخواه از ستون Return Appointment بروید و روی آن راست کلیک کنید.

 

انتخاب گزینه Column Properties و Value Order

 

در کادر باز شده، گزینه Column Properties و از آن‌جا گزینه Value Order را انتخاب کنید.

با انجام این کار، پنجره زیر با نام Value Order for C1 (Return Appointment) برای ما باز می‌شود.

پنجره Value Order for C1 (Return Appointment)

 

در این پنجره، گزینه User-specified order را انتخاب می‌کنیم. در کادر Define an order ترتیب گزینه‌های ستون Return Appointment (همان کمیت پاسخ احتمال بازگشت) را به صورت زیر قرار می‌دهیم و سپس OK می‌کنیم.

  • Very Likely
  • Somewhat Likely
  • Unlikely
تنظیمات پنجره Value Order for C1 (Return Appointment)

 

با انجام این کار، نرم‌افزار متوجه می‌شود که عبارت‌های مختلف ستون Return Appointment در واقع کدهای ترتیبی از احتمال بازگشت بالا تا عدم احتمال بازگشت، هستند.

حال در ادامه با استفاده از مسیر زیر، به انجام آنالیز Ordinal Logistic Regression در نرم‌افزار Minitab می‌پردازیم.

Stat→ Regression → Ordinal Logistic Regression

 

پس از رفتن به این مسیر، پنجره Ordinal Logistic Regression برای ما باز می‌شود.

پنجره Ordinal Logistic Regression
 

در این پنجره، ستون Return Appointment را به عنوان Response و ستون‌های Age و Distance را در کادر مدل قرار می‌دهیم. در این مرحله کاری به بقیه تنظیمات نرم‌افزار نداریم و OK می‌کنیم. با انجام این کار نتایج و خروجی‌های نرم‌افزار برای ما به دست می‌آید. در ادامه به بیان آن‌ها می‌پردازیم.

در ابتدا به این نکته توجه کنید که چنانچه علاقمند به دانستن توضیحات بیشتری درباره رگرسیون لجستیک ترتیبی و بیان همه نتایج و خروجی‌های نرم‌افزار Minitab در این زمینه هستید، می‌توانید لینک زیر را مشاهده کنید.

https://support.minitab.com/en-us/minitab/18/help-and-how-to/modeling-statistics/regression/how-to/ordinal-logistic-regression/methods-and-formulas/methods-and-formulas/

 

نتایج تحلیل رگرسیون ترتیبی

 Minitab Output 

در ابتدا جدول زیر با نام Response Information مشاهده می‌شود. در این جدول به ازای هر کدام از سطوح مختلف کمیت پاسخ یعنی Return Appointment فراوانی آن‌ها آمده است.

جدول Response Information در رگرسیون لجستیک ترتیبی

 

نتایج جدول بالا نشان می‌دهد 19 نفر بازگشت به بیمارستان برای ادامه فرایند درمان را با احتمال زباد، 43 نفر تاحدی محتمل و 11 نفر بعید دانسته‌اند. رویهم رفته 73 نفر نیز در این مطالعه مورد ارزیابی قرار گرفته‌اند.

  • جدول Logistic Regression Table

 

جدول مهم دیگر در آنالیز رگرسیون لجستیک ترتیبی با نام Logistic Regression Table شناخته می‌شود. در ادامه می‌توانید آن را ببینید.

جدول Logistic Regression Table

 

حال در ادامه بیایید به توضیح و بیان یافته‌های جدول بالا بپردازیم. یادتان باشد ما در این مثال رگرسیون ترتیبی، از دو کمیت مستقل یعنی Distance و Age جهت براورد و مدل‌بندی یک کمیت رتبه‌ای یعنی احتمال بازگشت به بیمارستان (در سه رده بعید است، تاحدی محتمل است و بسیار احتمال دارد) استفاده کردیم.

 Distance 

نتایج جدول بالا در سطر Distance را نگاه کنید. عدد ضریب رگرسیونی یا همان Coef برابر با 0.3907- شده است. منفی بودن آن بیانگر ارتباط وارون بین فاصله از بیمارستان و احتمال بازگشت به مرکز درمانی است.

برای فهم بهتر آن بار دیگر به تنظیمات پنجره Value Order for C1 (Return Appointment) مراجعه کنید. یادتان باشد ما در این پنجره ترتیب رده‌ها را به صورت 

  • Very Likely
  • Somewhat Likely
  • Unlikely

نوشتیم. بنابراین اولبن رخداد (همان کد 1) Very likely، کد 2 عبارت somewhat likely و کد 3 یا همان آخرین رویداد Unlikely تعریف می‌شود.

بنابراین وقتی ضریب همبستگی Distance منفی می شود به معنای آن است که با افزایش فاصله، کدهای Response کاهش می‌یابد.

به عبارت ساده هر چقدر منزل و محل سکونت بیمار از بیمارستان دورتر باشد، احتمال بازگشت او به مرکز درمان نیز کمتر است و هر چقدر او به بیمارستان نزدیک‌تر باشد، احتمال بازگشت او نیز بیشتر است. طبیعی است که این مطلب یک نتیجه منطقی است.

عدد P value به دست آمده نیز به صورت 0.001> شده است. این عدد بیانگر تاثیر معنادار Distance بر روی کمیت پاسخ یعنی Return Appointment است.

حال بیایید به توضیح نسبت بخت یا همان Odds Ratio بپردازیم. عدد آن برای Distance برابر با 0.68 به دست آمده است. اگر دقت کنید این عدد به سادگی از رابطه Exp{-0.390759} = 0.6765 به دست می‌آید. تعبیر آن به معنای این است که یک واحد افزایش در Distance شانس رخداد مورد نظر یعنی احتمال بازگشت به بیمارستان را به اندازه وارون 0.68 یعنی 1/0.68 = 1.478 برابر کاهش می‌دهد.

بیایید یکبار دیگر مرور کنیم. اگر فاصله از بیمارستان یک واحد افزایش پیدا کند، احتمال بازگشت به بیمارستان جهت ادامه درمان 1.478 برابر کمتر می شود. کران 95 درصد پایین و بالا نیز برای OR کمیت Distance در جدول بالا برابر با 0.55 و 0.83 به دست آمده است.

 Age 

حال بیایید همه این نتایج را بار دیگر برای کمیت مستقل دیگر مطالعه یعنی Age بررسی کنیم. اندازه عددی ضریب رگرسیونی آن مثبت و برابر با 0.01326 شده است. این عدد هر چند تاثیر اندک Age بر Return Appointment را نشان می‌دهد اما به هر حال بیانگر رابطه مستقیم سن و احتمال بازگشت است.

به نظر می‌رسد افراد دارای سنین بالاتر تمایل بیشتری برای بازگشت به بیمارستان جهت ادامه درمان را دارند. شاید روحیه محافظه‌کار افراد در سنین بالاتر این نتیجه را توجیه می‌کند. البته به این نکته مهم توجه کنید که این رابطه غیرمعنادار به دست آمده است (P value = 0.408).

اندازه عددی OR برای Age نیز اطراف یک به دست آمده، دقیقاً برابر با 1.01 شده است. این عدد نیز به بیانی دیگر تاثیر غیرمعنادار سن را نشان می‌دهد.

یک اندازه عددی با نام Log-Likelihood = -60.410 نیز در پایین جدول دیده می شود. معمولاً بیان می‌شود که هرچقدر این عدد از صفر دورتر باشد، بیانگر برازش بهتر مدل بر داده‌ها است.

 Const 

در جدول Logistic Regression Table علاوه بر نتایج مربوط به کمیت‌های Distance و Age دو سطر دیگر نیز مشاهده می شود. نرم‌افزار Minitab نام آن‌ها را به صورت Const(1) و Const(2) آورده است.

یک سوال. چرا ما در این مثال دو ضریب رگرسیونی با نام Const داریم؟ پاسخ ساده است. به دلیل اینکه سه رتبه برای کمیت پاسخ احتمال بازگشت تعریف شده است. در واقع در هر تحلیل رگرسیون ترتیبی با نرم‌افزار Minitab به تعداد یکی کمتر از رتبه‌های Response ما ضریب رگرسیونی با نام const خواهیم داشت.

شاید سوال دیگر این باشد حالا چرا یکی کمتر؟ پاسخ این است که آن‌ها به فاصله و اختلاف بین هر دو رتبه در Response اشاره می کنند. یعنی Const(1) به فاصله بین احتمال خیلی بعید و تاحدی محتمل است و Const(2) به فاصله بین تاحدی محتمل است و احتمال خیلی زیاد، اشاره می‌کنند. 

یک تعبیر جالب توجه این است که می‌توان const ها را Cutoff یا نقطه برش دانست. بیایید Const(1) را توضیح دهیم. عدد آن برابر با 2.22 شده است. این عدد نشان می‌دهد که اگر برای یک فرد فرضی، اندازه عددی Response در مدل رگرسیونی کمتر از 2.22 شود، آن فرد در رده افراد با احتمال بازگشت بعید به بیمارستان، قرار می‌گیرد.

به همین ترتیب اگر عدد Response در مدل رگرسیونی بین اعداد Const(1) تا Const(2) یعنی 5.612 باشد، آن فرد در رتبه افراد تاحدی محتمل قرار می‌گیرد.

برای افراد دارای Response بزرگتر از 5.612 نیز آن فرد در رده افراد دارای احتمال خیلی زیاد در بازگشت به بیمارستان قرار خواهد گرفت.

  • جدول Test of All Slopes Equal to Zero

 

در ادامه نتایج رگرسیون لجستیک ترتیبی با نرم‌افزار Minitab جدول دیگری با نام Test of All Slopes Equal to Zero دیده می‌شود.

جدول Test of All Slopes Equal to Zero

 

ابتدا بیان می‌کنیم که این جدول و نتایج مربوط به آن، یک آزمون کلی است که همه ضرایب پیش‌بینی کننده‌های مدل را در نظر می‌گیرد.

از این آزمون برای تعیین اینکه آیا حداقل یکی از پیش‌بینی کننده‌های مدل، رابطه آماری معنی‌داری با رویدادهای پاسخ دارد استفاده می‌شود. DF برابر تعداد ضرایب پیش بینی‌کننده در مدل است. از آن‌جا که ما در این مثال کمیت‌های پیش‌بینی کننده Distance و Age را داشتیم، بنابراین DF = 2 به دست آمده است. آماره G نیز در اینجا آماره آزمون بررسی فرضیه صفر بودن همه ضرایب رگرسیونی است.

فرض صفر در این آزمون، برابر با صفر بودن تمام ضرایب رگرسیونی است. پذیرفته شدن این فرض به معنای عدم وجود حتی یک کمیت اثرگزار معنادار بر پاسخ و یا همان Response است. فرض مقابل نیز وجود حداقل یک X معنادار در مدل رگرسیون لجستیک ترتیبی است.

نتیجه به دست آمده از جدول بالا یعنی P-Value < 0.001 بیانگر رد فرض صفر و پذیرش فرض مقابل است. این مطلب به معنای آن است که در مثال ما حداقل یک X معنادار دیده می‌شود. خاطرتان باشد در جدول Logistic Regression Table بالا به این نتیجه رسیدیم که Distance یک کمیت اثرگزار معنادار بر احتمال بازگشت به بیمارستان است.

  • جدول Goodness-of-Fit Tests

 

در ادامه نتایج رگرسیون لجستیک ترتیبی با نرم‌افزار Minitab جدول دیگری با نام Goodness-of-Fit Tests دیده می‌شود.

جدول Goodness-of-Fit Tests

 

بر مبنای این جدول، روش‌ها و آزمون‌های نیکویی برازش Pearson و Deviance مورد بررسی قرار گرفته است. بیایید در ادامه به توضیح آن‌ها بپردازیم.

آزمون پیرسون و همچنین Deviance تناقض و تفاوت بین مدل فعلی برازش شده بر داده‌ها و مدل کامل را ارزیابی می‌کند. فرض صفر در این آزمون‌ها، نیکو بودن و مناسب بودن مدل برازش شده است. نتیجه به دست آمده بر مبنای آزمون نیکویی برازش پیرسن و مقدار احتمال به دست آمده، بیانگر تایید فرض صفر است و نشان می‌دهد، مدل به دست آمده مناسب است (P-Value = 0.344).

این نتیجه برای آزمون Deviance نیز برقرار است. بر مبنای مقدار احتمال به دست آمده برای این آزمون نیز نتیجه می‌گیریم مدل به دست آمده مناسب است (P-Value = 0.901).

  • جدول Measures of Association

 

در ادامه نتایج رگرسیون لجستیک ترتیبی با نرم‌افزار Minitab جدول دیگری با نام Measures of Association دیده می‌شود.

جدول Measures of Association

 

در ادامه بیایید به توضیح آماره‌های مختلف این جدول بپردازیم. جدول Measures of Association در حالت کلی به بررسی ارتباط بین داده‌های کمیت پاسخ با اندازه‌ها و احتمال‌های پیش‌بینی شده بر مبنای مدل رگرسیون لجستیک ترتیبی می‌پردازد.

جدول Measures of Association به دو بخش Pairs و Summary Measures تفکیک می‌شود.

 Pairs 

به رتبه واقعی و مشاهده شده کمیت پاسخ و عدد پیش‌بینی شده برای آن یک جفت Pair گفته می شود. این بخش شامل سه سطر Discordant، Concordant و Ties است. 

جفت‌های هماهنگ Concordant و ناسازگار Discordant نشان می‌دهند که مدل شما چقدر پیش‌بینی داده‌ها را درست انجام می‌دهد. هر چه جفت‌های هماهنگ بیشتری داشته باشید، توانایی پیش‌بینی مدل شما بهتر است.

نرم‌افزار Minitab برای تعیین اینکه آیا جفت‌ها هماهنگ هستند یا ناسازگار، احتمالات پیش‌بینی شده تجمعی هر مشاهده را محاسبه کرده و این مقادیر را برای هر جفت مشاهدات مقایسه می‌کند.

در این مثال تعداد جفت‌های هماهنگ برابر با 1131 (75.5 درصد) و تعداد جفت‌های ناسازگار برابر با 360 (24 درصد) است. این نتیجه نیز بیانگر مناسب بودن مدل برازش شده بر داده‌ها است.

سطر دیگری نیز در این بخش با نام Ties دیده می‌شود. این سطر به تعداد جفت‌هایی اشاره می‌کند که مشاهدات واقعی آن‌ها دارای احتمال تجمعی برابر هستند.

 Summary Measures 

در بخش دیگر جدول Measures of Association قسمت Summary Measures قرار دارد. این بخش شامل آماره‌هایی جهت بیان اندازه ارتباط بین رتبه‌ها و مقادیر پیش‌بینی شده برای آن‌ها است. آماره‌هایی مانند Somers’ D و Goodman-Kruskal Gamma و همچنین Kendall’s Tau-a در این جدول به دست آمده‌اند.

اندازه Somers’ D که برابر با 0.51 به دست آمده است به بیان اختلاف بین جفت‌های هماهنگ با جفت‌های ناسازگار نسبت به همه جفت‌ها می پردازد. هر چه عدد آن بالاتر باشد به معنای عملکرد بهتر مدل در پیش‌بینی نتایج است.

اندازه Goodman-Kruskal Gamma در این مثال برابر با 0.52 به دست آمده است. این اندازه به بیان نسبت بین اختلاف جفت‌های هماهنگ و جفت‌های ناسازگار با مجموع جفت‌های هماهنگ و ناسازگار، می‌پردازد.

اندازه عددی Kendall’s Tau-a نیز در این مثال برابر با 0.29 به دست آمده است. این اندازه به بیان نسبت بین اختلاف جفت‌های هماهنگ و جفت‌های ناسازگار با همه جفت‌های ممکن می‌پردازد.

در تصویر زیر فرمول و نحوه محاسبه هر کدام از اندازه‌های بالا را می‌توانید مشاهده کنید.

فرمول‌ها و نحوه محاسبه اندازه‌های جدول Measures of Association

 

به این ترتیب در پایان بیان می‌کنیم که به سادگی می‌توانید با استفاده از نرم‌افزار Minitab به ارایه و انجام تحلیل رگرسیون لجستیک ترتیبی بپردازیم.

 

چگونه به این مقاله رفرنس دهیم

GraphPad Statistics (2021). Ordinal Logistic Regression in Minitab software. Statistical tutorials and software guides. Retrieved Month, Day, Yearfrom https://graphpad.ir/ordinal-logistic-regression-minitab/.php

For example, if you viewed this guide on 12th January 2022, you would use the following reference

GraphPad Statistics (2021). Ordinal Logistic Regression in Minitab software. Statistical tutorials and software guides. Retrieved January, 12, 2022, from https://graphpad.ir/ordinal-logistic-regression-minitab/.php

 

ارایه خدمات تحلیل و مشاوره آماری

گراف پد برای شما خدمات مشاوره و انجام انواع تحلیل‌های آماری را ارایه می‌دهد. جهت دریافت نکات بیشتر بهتر است با ما تماس بگیرید.

گراف پد جمعی از رتبه‌های برتر آزمون دکترا آمار دانشگاه‌های ایران | برجسته در موسسه بین‌المللی تحقیقات | دارای نماد اعتماد الکترونیک از مرکز توسعه تجارت الکترونیکی ایران و مجوز رسمی ثبت به شماره ۴۱۸۸۱ و شناسه ملی ۱۴۰۰۶۸۳۲۳۱۹