آنالیز تشخیصی (Discriminate Analysis) در نرم‌افزار SPSS

آنالیز تشخیصی که آن را تحلیل ممیزی نیز می‌گویند، همانند رگرسیون خطی چندگانه است، با این تفاوت که کمیت وابسته نه تنها توزیع نرمال ندارد، بلکه یک کمیت رتبه‌ای و یا اسمی با تعداد گروه‌های محدود است.

همان‌گونه که می‌دانیم در حالت خاصی که کمیت پاسخ دو مقداری باشد، از رگرسیون لجستیک استفاده می‌کنیم. اما اگر کمیت وابسته بیش از دو مقدار رسته‌ای را بگیرد، باید از تحلیل تشخیصی استفاده کنیم. در این آموزش به چگونگی انجام آنالیز تشخیصی با استفاده از نرم‌افزار SPSS می‌پردازیم.

معادله آماری آنالیز تشخیصی

اگر X₂ ،X₁، … و X_p کمیت‌های پیشگو و مستقل و Y کمیت وابسته و از نوع رسته‌ای باشند، هدف از آنالیز تشخیصی، یافتن تابع خطی مانند

Y= β₀+ β₁X₁+ β₂X₂+…+ β_pX_p

است، به طوری که احتمال

P (Y=y | (X₁,X₂,…,X_p) = (x₁,x₂,…,x_p))

ماکزیمم شود. در حالتی که کمیت وابسته دارای g تا مقدار مختلف باشد، یعنی تعداد g رده را به خود بگیرد، هدف آن است که مشاهدات جدید مربوط به کمیت‌های X₂ ،X₁، … و X_pرا براساس یک تابع تشخیصی، به یکی از g گروه نسبت دهیم.

برای فهم بهتر مطلب به مثال زیر توجه کنید.

مثال آموزشی آنالیز تشخیصی در داده‌ها

در یک بررسی تعداد 1315 دانش‌آموز انتخاب شده و مطالعه‌ای بر روی علائق آن‌ها انجام گرفت. به هر دانش‌آموز، پرسشنامه‌ای داده شد تا به سوالات آن پاسخ دهند. هر سوال درباره میزان علاقه دانش‌آموز به یکی از فعالیت‌های غیردرسی است.

کمیت‌ها عبارتند از جنسیت (X₁)، ساختن کیت (X₂)، مدل‌سازی کیت (X₃)، طراحی (X₄)، نقاشی (X₅)، کار بیرون از منزل (X₆)، محاسبه (X₇)، توانایی در به تصویر کشیدن مدل (X₈) و کیفیت مدرسه (X₉).

رشته تحصیلی دانش‌آموزان (y) پس از قبولی آن‌ها در دانشگاه مورد سوال قرار گرفت. رشته‌ها عبارت بودند از هنر (1)، روانشناسی (2) و مهندسی (3).

فایل داده این مثال آموزشی را می‌توانید از اینجا Discriminate Analysis SPSS دریافت کنید.

تنظیمات و گزینه‌های آنالیز تشخیصی

می‌خواهیم با استفاده از مشاهدات به دست آمده، آنالیز تشخیصی را انجام داده و تعیین کنیم هر دانش‌آموز، با توجه به علاقمندی که دارد، در آینده در چه رشته‌ای تحصیل خواهد کرد. رشته تحصیلی دانش‌آموز کمیت وابسته است و علاقمندی به هر یک از فعالیت‌های غیردرسی، یک کمیت پیشگو است.

ابتدا از مسیر زیر در نرم‌افزار SPSS استفاده می‌کنیم.

Analyze → Classify → Discriminant

در پنجره باز شده کمیت y را انتخاب و در کادر لیست Grouping Variables قرار دهید.

روی دکمه Define Range کلیک کنید. در کادر Minimum عدد 1 و در کادر Maximum عدد 3 را وارد کنید. به خاطر دارید که کمیت (y) وابسته یعنی رشته تحصیلی دانش‌آموز در آینده را در سه گروه هنر، روانشناسی و مهندسی تعریف کردیم. سپس دکمه Continue را بزنید.

حال کمیت‌های مستقل X₂ ،X₁، … و X₉را به کادر لیست Independents منتقل کنید.

دکمه Method در تنظیمات آنالیز تشخیصی

وارد کردن کمیت‌های مستقل به معادله آنالیز تشخیصی، به دو صورت انجام می‌شود.

انتخاب گزینه Enter independents together سبب می‌شود که تمام Variableهای مستقل وارد مدل شوند.

انتخاب گزینه Use stepwise methods سبب می‌شود که کمیت‌های مستقل رگرسیونی برحسب درجه اهمیتی که در تعیین مقدار کمیت وابسته y دارند، گام به گام وارد معادله شوند. در هر مرحله اگر حضور یکی از کمیت‌ها در معادله ضروری نباشد، آن کمیت از معادله خارج می‌شود. با انتخاب این گزینه، دکمه Method فعال می‌شود. با کلیک روی این دکمه، پنجره زیر باز می‌شود.

در بخش Method، روش‌های مختلف انجام آنالیز تشخیصی، آمده است. به طور پیش‌فرض نرم‌افزار SPSS از روش Wilks’lambda استفاده می‌کند.

در بخش Criteria دو گزینه وجود دارد. گزینه Use F value وقتی استفاده می‌شود که بخواهیم ورود کمیت‌ها به معادله یا خروج از معادله بر مبنای مقدار توزیع F باشد. گزینه Use probability of F نیز زمانی انتخاب می‌شود که ورود و خروج کمیت‌ها بر مبنای احتمال توزیع F باشد.

دکمه Save در تنظیمات آنالیز تشخیصی

روی دکمه Save کلیک کنید تا پنجره زیر باز شود. هر سه کادر علامت این پنجره را فعال کنید.

با انجام این کار، شش کمیت جدید با اسامی dis2_2 ،dis1_2 ،dis2_1 ،dis1_1 ،dis_1 و dis3_2 در فایل داده ساخته می‌شود.

کمیت dis_1 شماره یکی از سه گروه را نشان می‌دهد که هر سطر به آن گروه تعلق خواهد گرفت.

کمیت‌های dis1_1 و dis2_1 امتیاز هر یک از افراد را براساس توابع تشخیصی نشان می‌دهند.

کمیت‌های dis2_2 ،dis1_2 و dis3_2 به ترتیب، احتمال اختصاص هر فرد به یکی از سه گروه را نشان می‌دهد. توجه کنید که اگر مقدار dis1_2 بیشتر از dis2_2 و dis3_2 باشد، آن‌گاه این فرد به گروه 1 نسبت داده می‌شود و مقدار dis_1 آن برابر با 1 می‌شود.

دکمه Classify در تنظیمات آنالیز تشخیصی

روی دکمه Classify کلیک کنید و در پنجره باز شده، در کادر Display گزینه summary table را فعال کنید.

انجام این کار سبب می‌شود جدولی با عنوان Classification Results در خروجی نتایج دیده شود.

دکمه Statistics در تنظیمات آنالیز تشخیصی

روی دکمه Statistics کلیک کنید. پنجره زیر باز می‌شود.

در کادر Descriptive انتخاب گزینه Means سبب می‌شود میانگین و انحراف معیار هر یک از کمیت‌های مستقل، به تفکیک گروه‌های مختلف کمیت وابسته دیده شود.

فعال کردن گزینه Univariate ANOVAs آزمون برابری میانگین را برای هر یک از کمیت‌های مستقل در گروه‌های Variable وابسته، انجام می‌دهد.

انتخاب گزینه Box’s M نیز آزمون برابری ماتریس‌های کوواریانس را انجام می‌دهد.

در این پنجره کادر دیگری نیز با عنوان Matrices وجود دارد.

انتخاب گزینه‌ها سبب می‌شود، ماتریس‌های همبستگی و کواریانس بین کمیت‌های مستقل ایجاد شود.

حال روی دکمه OK کلیک کنید و نتایج آنالیز تشخیصی را ببینید. در ادامه به توضیح آن‌ها پرداخته‌ایم.

تحلیل نتایج به دست آمده از آنالیز تشخیصی

اولین جدولی که در خروجی نرم‌افزار دیده می‌شود جدول Analysis Case Processing Summary خواهد بود.

در این جدول تعداد داده‌های Valid و Missing دیده می‌شود. نتایج نشان می‌دهد در 30 نفر از دانش‌آموزان (2.3 درصد از کل دانش‌آموزان مورد مطالعه) حداقل در یکی از کمیت‌های نُه‌گانه مستقل داده گمشده وجود داشته است.

جدول بعدی Group Statistics حاصل انتخاب گزینه Means در کادر Descriptive از دکمه Statistics تنظیمات است.

همان‌گونه که مشاهده می‌شود، آماره‌های میانگین، انحراف معیار و تعداد کمیت‌ها براساس گروه‌های کمیت وابسته y آمده است.

در جدول Tests of Equality of Group Means نتایج آزمون هم‌زمان برابری میانگین هر کمیت بین گروه‌های y دیده می‌شود.

بر مبنای نتایج که با آماره‌ی Wilks’ Lambda انجام شده است، کمیت‌های مدل‌سازی کیت (X₃)، طراحی (X₄)، کار بیرون از منزل (X₆)، محاسبه (X₇) و کیفیت مدرسه (X₉)، دارای مقادیر معنادار بین سه گروه رشته‌های تحصیلی هنر، روانشناسی و مهندسی هستند.

به عبارت دیگر و به عنوان مثال مقادیر طراحی (X₄) در گروه‌های تحصیلی از یکدیگر متفاوت است.

در جدول Pooled Within-Groups Matrices ماتریس کوواریانس و همبستگی بین کمیت‌های مستقل مشاهده می‌شود.

در این ماتریس به خوبی نحوه و چگونگی ارتباط بین کمیت‌های نُه‌تایی با یکدیگر دیده می‌شود.

جدول بعدی نتایج با نام Covariance Matrices همان ماتریس کوواریانس است که این‌بار به تفکیک گروه‌های سه‌گانه رشته‌های تحصیلی، بیان شده است.

آزمون همگنی ماتریس کوواریانس در آنالیز تشخیصی

در ادامه نتایج آزمون برابری ماتریس کوواریانس سه گروه تحصیلی دیده می‌شود.

از آن‌جا که مقدار sig برابر با 0.067 به دست آمده است، فرض صفر یعنی همگنی ماتریس‌های کوواریانس را می‌پذیریم.

توابع کانونی در آنالیز تشخیصی

در ادامه نتایج به دست آمده از آنالیز تشخیصی را در بخش Summary of Canonical Discriminant Functions بررسی می‌کنیم.

اولین جدول با نام Eigenvalues دیده می‌شود.

بر مبنای نتایج این جدول، دو تابع خطی آنالیز تشخیصی به دست آمده است، که به آن‌ها توابع کانونی نیز گفته می‌شود. در این رابطه باید گفت که تعداد توابع برابر با تعداد کمیت‌های مستقل است، اگر تعداد گروه‌های کمیت وابسته بیشتر از تعداد کمیت‌های مستقل باشد. در غیر این صورت، تعداد توابع کانونی یکی کمتر از تعداد گروه‌های تشکیل‌دهنده کمیت y خواهد بود.

در این مثال 9 کمیت مستقل و 3 گروه تحصیلی در y داریم. بنابراین تعداد توابع کانونی 2=1-3 است.

مهمترین یافته در این جدول % of Variance است که نشان می‌دهد، هر تابع کانونی چه میزان از کمیت‌های مستقل را تحت پیش‌بینی خود قرار داده‌اند.

بر مبنای این یافته، مدل کانونی 1 توانایی تشخیص 74 و مدل کانونی 2 توانایی تشخیص 26 درصد را دارد.

در ستون Canonical Correlation نیز همبستگی کانونی در هر تابع کانونی بین کمیت‌های مستقل با کمیت رشته تحصیلی آمده است.

در توضیح همبستگی کانونی باید عنوان کرد زمانی به کار میرود که بخواهیم ارتباط بین دو کمیت که خود دارای مولفه‌های مختلف هستند را به دست آوریم. در اینجا ما از یک طرف با Variableهای نُه‌گانه مستقل به عنوان یک مجموعه به هم پیوسته به نام discriminating variables روبه رو هستیم که دارای نُه مولفه است و از طرف دیگر با Variable گروه تحصیلی با سه گروه، مواجه هستیم.

ضریب همبستگی کانونی در این‌جا ارتباط بین این دو کمیت (discriminating variables و y) را در هر تابع کانونی به دست می‌دهد.

جدول Wilks’ Lambda در آنالیز تشخیصی

جدول بعدی با عنوان Wilks’ Lambda دیده می‌شود.

در این جدول نتایج برای هر دو تابع کانونی و یا فقط تابع کانونی شماره 2 آمده است.

آماره Wilks’ Lambda یک آماره چندگانه محاسبه شده توسط SPSS است و به صورت (canonical 1-correlation²) محاسبه می‌شود.

مقدار احتمال به دست آمده نیز آزمون معناداری ضریب همبستگی کانونی را انجام می‌دهد.

بر مبنای نتایج ضریب همبستگی کانونی برای هر دو تابع کانونی، معنادار است.

طراحی مدل در آنالیز تشخیصی

حال به بررسی مدل‌ها و توابع به دست آمده در تحلیل تشخیصی می‌پردازیم.

در جدول Standardized Canonical Discriminant Function Coefficients ضرایب استاندارد شده رگرسیونی برای هر کمیت در هر تابع کانونی آمده است.

بر مبنای نتایج به دست آمده مدل آنالیز تشخیصی به صورت زیر خواهد بود.

y (Function 1) = – 0.055 ZX₂+ 0.373 ZX₃+ 0.259 ZX₄ – 0.060 ZX₅ – 0.055 ZX₆ + 0.454 ZX₇ – 0.046 ZX₈ + 0.487 ZX₉

y (Function 2) = – 0.128 ZX₁ + 0.232 ZX₂+ 0.406 ZX₃– 0.316 ZX₄ – 0.474 ZX₅ + 0.691 ZX₆ – 0.485 ZX₇ + 0.462 ZX₈ – 0.065 ZX₉

در تابع 1 بیشترین مولفه تاثیرگذار X₉ (کیفیت مدرسه) و در تابع 2 مولفه X₆ (کار بیرون منزل) است.

جدول بعدی به نام Structure Matrix نحوه قرار گرفتن هر کمیت در تابع کانونی را بیان می‌کند.

هر کمیتی که دارای بیشترین قدرمطلق عددی باشد در همان تابع قرار می‌گیرد. بر مبنای این نتایج X₃ ،X₉ ، X₇ X₅ ،X₂ ،X₄ به ترتیب اهمیت و بیشترین تاثیرگذاری مربوط به تابع کانونی شماره 1 و X₁ ،X₈ ،X₆به تابع کانونی شماره 2 تعلق دارند.

جدول بعدی با نام Functions at Group Centroids معرفی می‌شود.

میانگین مقادیر کمیت وابسته y به ازای هر گروه تحصیلی و در هر تابع کانونی به دست آمده است.

اندازه‌های به دست آمده در این جدول از روی روابط رگرسیونی جدول Standardized Canonical Discriminant Function Coefficients به دست می‌آید.

طبقه‌بندی نتایج در آنالیز تشخیصی (Classification Statistics)

در جدول Classification Processing Summary تعداد سطرهای مورد تحلیل و نادیده گرفته شده، مشخص می‌شود.

در این مثال از مجموع 1315 فرد، 1285 نفر مورد تحلیل تشخیصی قرار گرفته‌اند. در 30 سطر نیز حداقل یک کمیت تشخیصی گمشده وجود داشته است که از تحلیل‌ها کنار گذاشته شده‌اند.

آنالیز تشخیصی از یک احتمال پیشین به عنوان نقطه شروع آنالیز استفاده می‌کند. مقدار این احتمال به نسبت گروه‌های کمیت وابسته y یکسان است. از آن‌جا که سه گروه y داریم، پس احتمال پیشین برابر با 0.333=1/3 می‌شود.

در جدول Prior Probabilities for Groups همچنین تعداد سطرهای مورد آنالیز به ازای هر گروه y مشخص شده است.

آخرین جدول آنالیز تشخیصی با نام Classification Results نامیده می‌شود.

این جدول در آنالیز تشخیصی بسیار مهم است و نشان می‌دهد، تحلیل به چه میزان درست کار کرده است. در ستون این جدول با نام Predicted Group Membership فراوانی و درصد قرار گرفته در هر رشته تحصیلی براساس مدل پیش‌بینی آنالیز تشخیصی قرار گرفته است.

در سطرهای جدول با نام Original فراوانی و درصد واقعی و مشاهده شده قرار دارد.

به عنوان مثال عدد198 نشان می‌دهد از مجموع 439 نفری که دارای رشته هنر بوده‌اند، مدل آنالیز تشخیصی ما 198 نفر را به درستی در این رشته پیش‌بینی کرده است. این میزان برابر با 45.1 درصد کل افراد دارای رشته تحصیلی هنر است. به همین ترتیب سایر اعداد جدول تفسیر می‌شود.

در نهایت مدل آنالیز تشخیصی توانسته است، رشته تحصیلی 39.3 درصد افراد را به درستی تشخیص دهد.

چگونه به این مقاله رفرنس دهیم

GraphPad Statistics (2020). Discriminate Analysis with SPSS Software. Statistical tutorials and software guides. Retrieved Month, Day, Year, from https://graphpad.ir/discriminate-analysis-with-spss/.php

For example, if you viewed this guide on 12^th January 2022, you would use the following reference

GraphPad Statistics (2020). Discriminate Analysis with SPSS Software. Statistical tutorials and software guides. Retrieved January, 12, 2022, from https://graphpad.ir/discriminate-analysis-with-spss/.php

ارایه خدمات تحلیل و مشاوره آماری

گراف پد برای شما خدمات مشاوره و انجام انواع تحلیل‌های آماری را ارایه می‌دهد. جهت دریافت نکات بیشتر بهتر است با ما تماس بگیرید.

سبد خرید

تحلیل ممیزی، آنالیز تشخیصی (Discriminate Analysis) در نرم‌افزار SPSS