خوشه بندی داده‌ها Clustering در نرم‌افزار SPSS | تحلیل آماری پرسشنامه پایان نامه

هدف از خوشه بندی داده‌ها آن است که مشاهدات را در گروه‌های متجانس تقسیم کنیم، به گونه‌ای که مشاهدات هر گروه، بیشترین شباهت و مشاهدات گروه‌های مختلف، کمترین شباهت را با هم داشته باشند.

در این آموزش به چگونگی انجام تحلیل خوشه بندی با استفاده از نرم‌افزار SPSS می‌پردازیم.

در یک بررسی به منظور سنجش میزان درآمد کارکنان یک شرکت، می‌خواهیم کمیت حقوق آن‌ها را در چند گروه خوشه بندی کنیم. فایل داده این آموزش را می‌توانید از اینجا Employee data دریافت کنید.

ابتدا از مسیر زیر در نرم‌افزار SPSS استفاده می‌کنیم.

Analyze → Classify → K-Means Cluster

در پنجره باز شده کمیت salary را انتخاب و در کادر Variables قرار دهید.

چنانچه می‌خواهید کمیت‌های دیگری را نیز خوشه بندی کنید، می‌توانید بیش از یک کمیت را در این کادر قرار دهید.

در کادر Number of Cluster تعداد گروه‌های خوشه‌بندی خود را وارد کنید. مثلاً ما می‌خواهیم سه گروه از کمیت salary داشته باشیم. پس عدد 3 را وارد می‌کنیم.

در کادر Method نیز گزینه Iterate and classify را انتخاب کنید.

تنظیمات و گزینه‌های خوشه بندی داده‌ها

با کلیک بر دکمه Options پنجره زیر باز می‌شود.

فعال کردن گزینه Initial cluster centers سبب می‌شود که جدول مقادیر اولیه مرکز هر خوشه تشکیل و نتایج در خروجی نرم‌افزار دیده شود.

انتخاب گزینه ANOVA table جدول تجزیه واریانس و آزمون آنالیز واریانس را به دست می‌دهد. در این آنالیز گروه‌های خوشه بندی با یکدیگر آزمون می‌شوند.

انتخاب گزینه Cluster information for each case سبب می‌شود که برای هر یک از سطرها، شماره خوشه‌ای که به آن تعلق دارد و نیز فاصله آن تا مرکز خوشه به دست بیاید.

تنظیمات گزینه Save در آنالیز خوشه‌بندی

با کلیک بر دکمه Save کادر زیر باز خواهد شد.

انتخاب گزینه Cluster membership کمیت جدیدی با نام qcl_1 به فایل داده اضافه می‌کند که در آن شماره خوشه متعلق به هر سطر نشان داده می‌شود. خوبی این کمیت این است که به سادگی و با یک sort کردن داده‌ها معلوم می‌شود چه تعداد و کدام موارد و سطرها در هر خوشه قرار گرفته‌اند.

انتخاب گزینه Distance from cluster center کمیت جدیدی با نام qcl_2 به فایل داده اضافه می‌کند که در آن فاصله هر مورد با مرکز خوشه‌ای که به آن تعلق دارد، مشخص می‌شود.

فرایند خوشه بندی داده‌ها با انجام عملیات تکرار انجام می‌شود. در دکمه Iterate تنظیمات می‌توانید تعداد تکرارها تا رسیدن به خوشه مناسب را انتخاب کنید.

در پنجره Iterate گزینه Maximum Iteration ماکزیمم تعداد دفعات الگوریتم تکرار برای محاسبه مرکز خوشه‌ها را تعیین می‌کند. به طور پیش‌فرض بر روی عدد 10 است به معنای آن‌که الگوریتم تکرار حداکثر ده بار اجرا می‌شود.

گزینه Convergence Criterion نیز معیار همگرایی تکرارها برای رسیدن به خوشه مناسب را تعیین می‌کند. به عنوان مثال اگر عدد 0.01 را در این کادر وارد کنیم، آن‌گاه الگوریتم محاسبه مرکز خوشه‌ها تا زمانی که اندازه فاصله مرکز بیش از 0.01 باشد، تکرار خواهد شد.

حالا OK کنید. خروجی نتایج به صورت زیر دیده می‌شود.

تحلیل نتایج خوشه‌بندی داده‌ها (Clustering)

با انجام تنظیمات بالا، نتایج زیر به دست می‌آید.

همان‌گونه که مشاهده می‌شود برای کمیت salary سه خوشه تشکیل شده است. در جدول Initial Cluster Centers مرکز اولیه هر سه خوشه قابل مشاهده است.

جدول بعدی با نام Iteration History اندازه Change در مرکز خوشه‌ها را در 8 مرحله از الگوریتم تکرار تا رسیدن به معیار همگرایی انتخاب شده در دکمه Iterate تنظیمات، یعنی 0 نشان می‌دهد.

همان‌گونه که در نتایج این جدول دیده می‌شود، نرم‌افزار با 8 بار تکرار الگوریتم توانسته است به خوشه‌هایی دست یابد که معیار همگرایی صفر را پذیرفته‌اند. اعداد جدول نشان می‌دهد به ازای هر بار تکرار اندازه مرکز هر سه خوشه چقدر Change شده است.

در جدول بعدی شماره خوشه هر سطر و فاصله آن با مرکز خوشه به دست آمده است.

البته همان‌گونه که در دکمه Save تنظیمات خوشه بندی عنوان کردیم، در فایل داده دو ستون جدید که شماره خوشه و فاصله تا مرکز را نشان می‌دهند، با نام‌های qcl_1 و qcl_2 ایجاد شده است.

نتایج پس از الگوریتم تکرار خوشه‌بندی

در جدول Final Cluster Centers مرکز خوشه‌ها در آخرین تکرار نمایش داده شده است.

می‌توانید این جدول را با جدول Initial Cluster Centers مقایسه کنید. می‌بینید که پس از طی شدن الگوریتم تکرار، مرکز خوشه‌ها به یکدیگر نزدیکتر شده است.

جدول بعدی با نام Distances between Final Cluster Centers فاصله مرکز هر خوشه پس از آخرین مرحله الگوریتم تکرار، با خوشه دیگر را نشان می‌دهد.

از آن‌جا که می‌توان اعضای هر خوشه را نمونه‌ای از یک جمعیت در نظر گرفت، بنابراین با استفاده از آزمون انالیز واریانس به سادگی می‌توان وجود اختلاف معنادار بین خوشه‌ها را بررسی کرد.

نتایج در جدول ANOVA آمده است.

مقدار Sig سطح معناداری آزمون را نشان می‌دهد. از آن‌جایی که این مقدار بسیار کوچک است (P-value<0.001) بنابراین فرض همانند بودن خوشه‌ها را رد می‌کنیم. به معنای دیگر اینکه ما با سه خوشه متفاوت از یکدیگر روبه‌رو هستیم.

جدول بعدی با نام Number of Cases in each Cluster تعداد موردهای هر خوشه را پس از آخرین مرحله الگوریتم تکرار نشان می‌دهد.

چگونه به این مقاله رفرنس دهیم

GraphPad Statistics (2020). Clustering data in SPSS software. Statistical tutorials and software guides. Retrieved Month, Day, Year, from https://graphpad.ir/clustering-analysis-with-spss/.php

For example, if you viewed this guide on 12^th January 2022, you would use the following reference

GraphPad Statistics (2020). Clustering data in SPSS software. Statistical tutorials and software guides. Retrieved January, 12, 2022, from https://graphpad.ir/clustering-analysis-with-spss/.php

ارایه خدمات تحلیل و مشاوره آماری

گراف پد برای شما خدمات مشاوره و انجام انواع تحلیل‌های آماری را ارایه می‌دهد. جهت دریافت نکات بیشتر بهتر است با ما تماس بگیرید.

سبد خرید