رگرسیون اسمی

رگرسیون لجستیک اسمی Nominal Logistic Regression در نرم‌افزار Minitab

زمان مطالعه: 25 دقیقه 

 

 

کاربرد رگرسیون اسمی

 Nominal Logistic Regression 

می‌دانیم که رگرسیون در حالت کلی به صورت رابطه Y = f(X) تعریف می‌شود. در این رابطه می‌خواهیم با استفاده از تابع f بین Xها به عنوان Independent Variable و Y به عنوان Dependent Variable یک ارتباط و مدل به دست بیاوریم. در این مدل ما قصد داریم با استفاده از DV ها به پیش‌بینی مقادیر عددی برای IV بپردازیم.

رگرسیون اسمی که نام کامل‌تر آن رگرسیون لجستیک اسمی است، هنگامی به کار می‌رود که کمیت پاسخ یا همان Y دارای اندازه‌های اسمی Nominal مانند رشته‌های تحصیلی، گروه‌های خونی و یا اسامی سلولی باشد.

به عنوان مثال در نظر بگیرید مدیر یک مدرسه می‌خواهد بررسی کند چه عواملی بر علاقه دانش‌آموزان برای اینکه کلاس‌های فوق برنامه (مانند ورزش، نقاشی، موسیقی و ….) را انتخاب کنند، اثرگزار است. او می‌خواهد بداند آیا سن دانش‌آموز و پایه تحصیلی آن‌ها بر انتخاب کلاس فوق برنامه تاثیر دارد یا خیر.

در این مطالعه، کلاس فوق برنامه به عنوان کمیت پاسخ یا همان Y مطرح است. سن و پایه تحصیلی دانش‌آموزان نیز به صورت کمیت‌های مستقل یا همان Xها وارد مطالعه می‌شوند. از آنجا که پاسخ (نوع کلاس) یک کمیت اسمی است، مدیر مدرسه از رگرسیون لجستیک اسمی یا همان Nominal Logistic Regression در این مطالعه استفاده می‌کند.

 

تحلیل‌های جایگزین

Binary Logistic Regression

اگر کمیت پاسخ تنها دارای دو گروه باشد، مثلا شکست یا پیروزی، سالم یا بیمار. در این صورت مدل رگرسیونی ما لجستیک باینری Binary Logistic Regression خواهد بود.

Ordinal Logistic Regression

اگر کمیت پاسخ تنها دارای بیشتر از دو گروه رتبه‌ای Ordinal باشد، به عنوان مثال رده‌های کم، متوسط، زیاد. در این صورت مدل رگرسیونی ما لجستیک ترتیبی Ordinal Logistic Regression خواهد بود.

Poisson Regression

اگر کمیت پاسخ قابل شمارش و تعداد رخداد یک پیشامد باشد، به عنوان مثال تعداد نقص‌ها در یک سیستم یا تعداد تصادفات. در این صورت مدل رگرسیونی ما پواسن Poisson Regression خواهد بود.

 

مسیر انجام تحلیل

 Minitab 

مسیر انجام آنالیز رگرسیون لجستیک اسمی در نرم‌افزار Minitab به صورت زیر است.

Stat→ Regression → Nominal Logistic Regression

 

مسیر انجام آنالیز رگرسیون لجستیک اسمی در نرم‌افزار Minitab

 

مثال رگرسیون لجستیک اسمی Nominal Logistic Regression

 

مدیر یک مدرسه می‌خواهد روش‌های مختلف تدریس را ارزیابی کند. او داده‌های 30 دانش‌آموز را با پرسیدن موضوع مورد علاقه آن‌ها و همچنین روش تدریس در کلاس درس، جمع‌آوری می‌کند.

از آنجا که کمیت پاسخ یعنی موضوع مورد علاقه دانش‌آموزان، گروه‌بندی شده است و ترتیب خاصی ندارند، مدیر مدرسه از رگرسیون لجستیک اسمی استفاده می‌کند. او می‌خواهد بداند چگونه سن (10-13 سال) و روش تدریس (نشان دادن یا توضیح دادن) با علاقه دانش آموزان در درس (ریاضی، علوم و هنر) در ارتباط است.

مدیر مدرسه از موضوع مورد علاقه به عنوان کمیت پاسخ (Y) استفاده می‌کند. گروه‌بندی‌های کمیت پاسخ به صورت اسمی یعنی ریاضی، علوم و هنر هستند، بنابراین کمیت پاسخ اسمی یا همان Nominal است. کمیت‌های مستقل و پیش‌بینی کننده نیز سن و روش تدریس خواهند بود.

برای مدل‌سازی رابطه بین پیش‌بینی کننده‌ها (Xها) و پاسخ (Y) از رگرسیون لجستیک اسمی Nominal Logistic Regression استفاده می‌شود.

فایل دیتای این مثال و نتایج به دست آمده با استفاده از نرم‌افزار Minitab را می‌توانید از اینجا دریافت کنید.

در تصویر زیر می‌توانید بخشی از داده‌ها را مشاهده کنید.

داده‌های مثال رگرسیون لجستیک اسمی Nominal Logistic Regression

 

همان‌گونه که بالاتر گفتیم با استفاده از مسیر زیر، به انجام آنالیز Ordinal Logistic Regression در نرم‌افزار Minitab می‌پردازیم.

Stat→ Regression → Nominal Logistic Regression

 

پس از رفتن به این مسیر، پنجره Nominal Logistic Regression برای ما باز می‌شود.

پنجره Nominal Logistic Regression
 

در این پنجره، ستون Subject که همان موضوعات مورد علاقه دانش‌آموز است، را به عنوان Response و ستون‌های Age و Teaching Method را در کادر مدل قرار می‌دهیم. به همین ترتیب در کادر Categorical predictors (optional) ستون Teaching Method که بیانگر روش تدریس دانش‌آموزان است، قرار می‌گیرد.

سپس OK می‌کنیم. با انجام این کار نتایج و خروجی‌های نرم‌افزار برای ما به دست می‌آید. در ادامه به بیان آن‌ها می‌پردازیم.

در ابتدا به این نکته توجه کنید که چنانچه علاقمند به دانستن توضیحات بیشتری درباره رگرسیون لجستیک اسمی و بیان همه نتایج و خروجی‌های نرم‌افزار Minitab در این زمینه هستید، می‌توانید لینک زیر را مشاهده کنید.

https://support.minitab.com/en-us/minitab/18/help-and-how-to/modeling-statistics/regression/how-to/nominal-logistic-regression/before-you-start/overview/

 

نتایج تحلیل رگرسیون لجستیک اسمی

 Minitab Output 

در ابتدا جدول زیر با نام Response Information مشاهده می‌شود. در این جدول به ازای هر کدام از سطوح مختلف کمیت پاسخ یعنی Return Appointment فراوانی آن‌ها آمده است.

جدول Response Information در رگرسیون لجستیک اسمی

 

نتایج جدول بالا نشان می‌دهد از مجموع 30 دانش‌آموز، 10 نفر به علوم و 11 نفر به ریاضیات علاقمند هستند. همچنین 9 نفر نیز به هنر علاقمند است. ما در این مطالعه، علاقمندی به علوم را به عنوان رفرنس در نظر گرفته‌ایم و بقیه را نسبت به آن ارزیابی می‌کنیم.  به سادگی در تنظیمات نرم‌افزار می‌توانیم یک موضوع دیگر را به عنوان رفرنس قرار دهیم.

  • جدول Logistic Regression Table

 

جدول مهم دیگر در آنالیز رگرسیون لجستیک اسمی با نام Logistic Regression Table شناخته می‌شود. در ادامه می‌توانید آن را ببینید.

جدول Logistic Regression Table

 

من جدول بالا را به دو بخش تقسیم کرده‌ام. یک بخش مربوط به Logit 1 (Math/Science) که در آن نسبت ریاضی به علوم بررسی می‌شود و بخش دیگر مربوط به Logit 2 (Arts/Science) که در آن نسبت هنر به علوم بررسی می‌شود. در واقع ما همواره در حل هر مثال رگرسیون لجستیک اسمی، به تعداد یکی کمتر از تعداد گروه‌های تشکیل دهنده کمیت اسمی پاسخ، Logit در خروجی نتایج نرم‌افزار خواهیم داشت.

همان‌گونه که در بالا نیز اشاره کردیم و در جدول Response Information آمده، علوم به عنوان رفرنس در نظر گرفته می‌شود که بقیه موضوعات نسبت به آن سنجیده می‌شوند.

در ادامه بیایید به توضیح و بیان یافته‌های جدول بالا بپردازیم. یادتان باشد ما در این مثال رگرسیون اسمی، از دو کمیت مستقل یعنی Teaching Method و Age جهت براورد و مدل‌بندی یک کمیت اسمی یعنی علافه دانش‌آموز به موضوعات مختلف (در سه گروه علوم، ریاضی و هنر) استفاده کردیم.

به ترتیب از Logit 1 و سپس Logit 2 شروع می‌کنیم.

 Logit 1 

نتایج این بخش به بررسی علاقمندی به ریاضی نسبت به علوم می‌پردازد.

نتایج جدول بالا در سطر Teaching Method را نگاه کنید. فقط برای Explain آمده است (به دلیل این‌که نتایج Explain نسبت به Demonstrate است). عدد ضریب رگرسیونی یا همان Coef برابر با 0.5631- شده است. معمولا ما در مدل‌های رگرسیون لجستیک (رگرسیون اسمی یا ترتیبی یکی از آن‌ها است) به جای تمرکز بر Coef بر روی Odds Ratio که همان نمایی شده Coef است، کار می‌کنیم. عدد Odds Ratio برای Explain برابر با 0.57 شده است. از آن‌جا که کمتر از یک است برای فهم بهتر، آن را وارون می‌کنیم. یعنی (1/0.57) =  1.75.

خب، حال این چه چیزی را نشان می‌دهد؟

این عدد نشان می‌دهد روش تدریس توضیح دادن Explain در مقایسه با روش اشاره کردن Demonstrate به اندازه 1.75 برابر علاقمندی به ریاضی (نسبت به علوم) را کاهش می‌دهد. بنابراین اگر به عنوان مثال به دنبال علاقمند کردن دانش‌آموزان به ریاضیات هستیم، بهتر است از روش تدریس اشاره کردن استفاده کنیم.

البته اگر به مقدار احتمال این سطر نگاه کنید، برابر با P-value = 0.548 شده است. به معنای اینکه روش تدریس، عامل اثرگزار معناداری بر علاقه‌مندی دانش‌آموز به ریاضی (نسبت به علوم) نیست. فاصله اطمینان 95 درصد آن نیز عدد یک را در بردارد. کران پایین آن 0.09 و کران بالای آن 3.58 شده است.

کمیت مستقل دیگری که مورد بررسی قرار دادیم، سن بود. بیایید نتایج آن را نیز ببینیم.

ضریب رگرسیونی آن مثبت و OR آن برابر با 1.13 به دست آمده است. این عدد نشان می‌دهد افزایش یک واحد سن (سال) می‌تواند علاقه دانش‌آموز به ریاضی را به اندازه 1.13 برابر افزایش دهد. البته که این یافته نیز معنادار نیست (P-value = 0.756).

 Logit 2 

حال بیایید همه این نتایج را بار دیگر برای بخش دیگر جدول، یعنی Logit 2 (Arts/Science) مرور کنیم. این بخش به بررسی علاقمندی دانش‌آموزان به هنر نسبت به علوم اشاره می‌کند.

نتایج جدول بالا در سطر Teaching Method برای Explain آمده است. عدد ضریب رگرسیونی برابر با 2.7699 شده است. عدد Odds Ratio برای Explain نیز برابر با 15.96 به دست آمده است.

این عدد نشان می‌دهد روش تدریس توضیح دادن در مقایسه با روش اشاره کردن، 15.96 برابر علاقمندی به هنر (نسبت به علوم) را افزایش می‌دهد. بنابراین اگر به دنبال علاقمند کردن دانش‌آموزان به هنر هستیم، بهتر است از روش تدریس توضیح دادن استفاده کنیم.

امقدار احتمال آن برابر با P-value = 0.044 شده است. به معنای اینکه روش تدریس، عامل اثرگزار معناداری بر علاقه‌مندی دانش‌آموز به هنر (نسبت به علوم) است. فاصله اطمینان 95 درصد آن نیز بزرگتر از یک است. کران پایین آن 1.08 و کران بالای آن 234.90 شده است.

در ادامه نتایج کمیت مستقل سن آمده است. ضریب رگرسیونی سن، مثبت و OR آن برابر با 2.76 شده است. این عدد نشان می‌دهد افزایش یک واحد سن (سال) می‌تواند علاقه دانش‌آموز به هنر را به اندازه 2.76 برابر افزایش دهد. این یافته در سطح پنج درصد معنادار نیست (P-value = 0.083).

  • جدول Test of All Slopes Equal to Zero

 

در ادامه نتایج رگرسیون لجستیک اسمی با نرم‌افزار Minitab، جدول دیگری با نام Test of All Slopes Equal to Zero دیده می‌شود.

جدول Test of All Slopes Equal to Zero

 

ابتدا بیان می‌کنیم که این جدول و نتایج مربوط به آن، یک آزمون کلی است که همه ضرایب پیش‌بینی کننده‌های مدل را در نظر می‌گیرد.

از این آزمون برای تعیین اینکه آیا حداقل یکی از پیش‌بینی کننده‌های مدل، رابطه آماری معنی‌داری با رویدادهای پاسخ دارد استفاده می‌شود. DF برابر تعداد ضرایب پیش بینی‌کننده در مدل ضربدر تعداد Logitهای مدل است. از آن‌جا که ما در این مثال کمیت‌های پیش‌بینی کننده Distance و Age به همراه دو Logit داشتیم، بنابراین DF = 4 به دست آمده است. آماره G نیز در اینجا آماره آزمون بررسی فرضیه صفر بودن همه ضرایب رگرسیونی است.

فرض صفر در این آزمون، برابر با صفر بودن تمام ضرایب رگرسیونی است. پذیرفته شدن این فرض به معنای عدم وجود حتی یک کمیت اثرگزار معنادار بر پاسخ و یا همان Response است. فرض مقابل نیز وجود حداقل یک X معنادار در مدل رگرسیون لجستیک اسمی است.

نتیجه به دست آمده از جدول بالا یعنی P-Value = 0.012 بیانگر رد فرض صفر و پذیرش فرض مقابل است. این مطلب به معنای آن است که در مثال ما حداقل یک X معنادار دیده می‌شود. خاطرتان باشد در جدول Logistic Regression Table بالا به این نتیجه رسیدیم که Teaching Method در Logit 2 یک کمیت اثرگزار معنادار بر علاقمندی دانش‌آموز به هنر در مقایسه با علوم است.

  • جدول Goodness-of-Fit Tests

 

در ادامه نتایج رگرسیون لجستیک اسمی، جدول دیگری با نام Goodness-of-Fit Tests دیده می‌شود.

جدول Goodness-of-Fit Tests

 

بر مبنای این جدول، روش‌ها و آزمون‌های نیکویی برازش Pearson و Deviance مورد بررسی قرار گرفته است. بیایید در ادامه به توضیح آن‌ها بپردازیم.

آزمون پیرسون و همچنین Deviance تناقض و تفاوت بین مدل فعلی برازش شده بر داده‌ها و مدل کامل را ارزیابی می‌کند. فرض صفر در این آزمون‌ها، نیکو بودن و مناسب بودن مدل برازش شده است. نتیجه به دست آمده بر مبنای آزمون نیکویی برازش پیرسن و مقدار احتمال به دست آمده، بیانگر تایید فرض صفر است و نشان می‌دهد، مدل به دست آمده مناسب است (P-Value = 0.730).

این نتیجه برای آزمون Deviance نیز برقرار است. بر مبنای مقدار احتمال به دست آمده برای این آزمون نیز نتیجه می‌گیریم مدل به دست آمده مناسب است (P-Value = 0.640).

به این ترتیب در پایان بیان می‌کنیم که به سادگی می‌توانید با استفاده از نرم‌افزار Minitab به ارایه و انجام تحلیل رگرسیون لجستیک اسمی و یا همان Nominal Logistic Regression بپردازیم.

 

 ارایه خدمات تحلیل آماری

ما در گراف پد به ارایه و انجام انواع تحلیل‌های آماری اقدام می‌کنیم. جهت دریافت نکات بیشتر و نحوه کار می‌توانید مختصری از کار خود را ارسال نمایید. به سرعت تقاضای شما را بررسی و نتایج را ارسال خواهیم کرد. جهت سفارش کار می‌توانید با ما تماس بگیرید.

گراف پد جمعی از رتبه‌های برتر آزمون دکترا آمار دانشگاه‌های ایران | برجسته در موسسه بین‌المللی تحقیقات | دارای نماد اعتماد الکترونیک از مرکز توسعه تجارت الکترونیکی ایران و مجوز رسمی ثبت به شماره ۴۱۸۸۱ و شناسه ملی ۱۴۰۰۶۸۳۲۳۱۹