خوشه بندی

خوشه بندی داده‌ها (Clustering) در نرم‌افزار SPSS

زمان مطالعه: 12 دقیقه 

 

*** توضیحات خوشه بندی داده‌ها (Clustering) برگرفته شده از کتاب روش های پیشرفته آماری و کاربردهای آن- انتشارات جامعه‌نگر***

هدف از خوشه‌بندی داده‌ها

هدف از خوشه بندی داده‌ها آن است که مشاهدات را در گروه‌های متجانس تقسیم کنیم، به گونه‌ای که مشاهدات هر گروه، بیشترین شباهت و مشاهدات گروه‌های مختلف، کمترین شباهت را با هم داشته باشند.

در این آموزش به چگونگی انجام تحلیل خوشه بندی با استفاده از نرم‌افزار SPSS می‌پردازیم.

merci

دریافت آموزش کامل خوشه‌بندی Clustring داده‌ها

شامل ۴۰ دقیقه ویدئو، ۱۴ اسلاید آموزشی، فایل دیتا و نتایج SPSS

 

مثال خوشه بندی داده‌ها

در یک بررسی به منظور سنجش میزان درآمد کارکنان یک شرکت، می‌خواهیم کمیت حقوق آن‌ها را در چند گروه خوشه بندی کنیم. فایل داده این آموزش را می‌توانید از اینجا Employee data دریافت کنید.

ابتدا از مسیر زیر در نرم‌افزار SPSS استفاده می‌کنیم.

Analyze → Classify → K-Means Cluster

k-means cluster with spss 1 spss-analysis.ir

در پنجره باز شده کمیت salary را انتخاب و در کادر Variables قرار دهید.

چنانچه می‌خواهید کمیت‌های دیگری را نیز خوشه بندی کنید، می‌توانید بیش از یک کمیت را در این کادر قرار دهید.

در کادر Number of Cluster تعداد گروه‌های خوشه‌بندی خود را وارد کنید. مثلاً ما می‌خواهیم سه گروه از کمیت salary داشته باشیم. پس عدد 3 را وارد می‌کنیم.

در کادر Method نیز گزینه Iterate and classify را انتخاب کنید.

 k-means cluster with spss 2 spss-analysis.ir

تنظیمات و گزینه‌های خوشه بندی داده‌ها

با کلیک بر دکمه Options پنجره زیر باز می‌شود.

 k-means cluster with spss 3 spss-analysis.ir

فعال کردن گزینه Initial cluster centers سبب می‌شود که جدول مقادیر اولیه مرکز هر خوشه تشکیل و نتایج در خروجی نرم‌افزار دیده شود.

انتخاب گزینه ANOVA table جدول تجزیه واریانس و آزمون آنالیز واریانس را به دست می‌دهد. در این آنالیز گروه‌های خوشه بندی با یکدیگر آزمون می‌شوند.

انتخاب گزینه Cluster information for each case سبب می‌شود که برای هر یک از سطرها، شماره خوشه‌ای که به آن تعلق دارد و نیز فاصله آن تا مرکز خوشه به دست بیاید.

 k-means cluster with spss 4 spss-analysis.ir

تنظیمات گزینه Save در آنالیز خوشه‌بندی

با کلیک بر دکمه Save کادر زیر باز خواهد شد.

 k-means cluster with spss 5 spss-analysis.ir

انتخاب گزینه Cluster membership کمیت جدیدی با نام qcl_1 به فایل داده اضافه می‌کند که در آن شماره خوشه متعلق به هر سطر نشان داده می‌شود. خوبی این کمیت این است که به سادگی و با یک sort کردن داده‌ها معلوم می‌شود چه تعداد و کدام موارد و سطرها در هر خوشه قرار گرفته‌اند.

انتخاب گزینه Distance from cluster center کمیت جدیدی با نام qcl_2 به فایل داده اضافه می‌کند که در آن فاصله هر مورد با مرکز خوشه‌ای که به آن تعلق دارد، مشخص می‌شود.

 فرایند خوشه بندی داده‌ها با انجام عملیات تکرار انجام می‌شود. در دکمه Iterate تنظیمات می‌توانید تعداد تکرارها تا رسیدن به خوشه مناسب را انتخاب کنید.

 k-means cluster with spss 9 spss-analysis.ir

در پنجره Iterate گزینه Maximum Iteration ماکزیمم تعداد دفعات الگوریتم تکرار برای محاسبه مرکز خوشه‌ها را تعیین می‌کند. به طور پیش‌فرض بر روی عدد 10 است به معنای آن‌که الگوریتم تکرار حداکثر ده بار اجرا می‌شود.

گزینه Convergence Criterion نیز معیار همگرایی تکرارها برای رسیدن به خوشه مناسب را تعیین می‌کند. به عنوان مثال اگر عدد 0.01 را در این کادر وارد کنیم، آن‌گاه الگوریتم محاسبه مرکز خوشه‌ها تا زمانی که اندازه فاصله مرکز بیش از 0.01 باشد، تکرار خواهد شد.

حالا OK کنید. خروجی نتایج به صورت زیر دیده می‌شود.

تحلیل نتایج خوشه‌بندی داده‌ها (Clustering)

با انجام تنظیمات بالا، نتایج زیر به دست می‌آید.

 k-means cluster with spss 6 spss-analysis.ir

همان‌گونه که مشاهده می‌شود برای کمیت salary سه خوشه تشکیل شده است. در جدول Initial Cluster Centers مرکز اولیه هر سه خوشه قابل مشاهده است.

جدول بعدی با نام Iteration History اندازه Change در مرکز خوشه‌ها را در 8 مرحله از الگوریتم تکرار تا رسیدن به معیار همگرایی انتخاب شده در دکمه Iterate تنظیمات، یعنی 0 نشان می‌دهد.

 k-means cluster with spss 10 spss-analysis.ir

همان‌گونه که در نتایج این جدول دیده می‌شود، نرم‌افزار با 8 بار تکرار الگوریتم توانسته است به خوشه‌هایی دست یابد که معیار همگرایی صفر را پذیرفته‌اند. اعداد جدول نشان می‌دهد به ازای هر بار تکرار اندازه مرکز هر سه خوشه چقدر Change شده است.

در جدول بعدی شماره خوشه هر سطر و فاصله آن با مرکز خوشه به دست آمده است.

 k-means cluster with spss 7 spss-analysis.ir

البته همان‌گونه که در دکمه Save تنظیمات خوشه بندی عنوان کردیم، در فایل داده دو ستون جدید که شماره خوشه و فاصله تا مرکز را نشان می‌دهند، با نام‌های qcl_1 و qcl_2 ایجاد شده است.

 k-means cluster with spss 8 spss-analysis.ir

نتایج پس از الگوریتم تکرار خوشه‌بندی

در جدول Final Cluster Centers مرکز خوشه‌ها در آخرین تکرار نمایش داده شده است.

 k-means cluster with spss 11 spss-analysis.ir

می‌توانید این جدول را با جدول Initial Cluster Centers مقایسه کنید. می‌بینید که پس از طی شدن الگوریتم تکرار، مرکز خوشه‌ها به یکدیگر نزدیکتر شده است.

جدول بعدی با نام Distances between Final Cluster Centers فاصله مرکز هر خوشه پس از آخرین مرحله الگوریتم تکرار، با خوشه دیگر را نشان می‌دهد.

 k-means cluster with spss 12 spss-analysis.ir

از آن‌جا که می‌توان اعضای هر خوشه را نمونه‌ای از یک جمعیت در نظر گرفت، بنابراین با استفاده از آزمون انالیز واریانس به سادگی می‌توان وجود اختلاف معنادار بین خوشه‌ها را بررسی کرد.

نتایج در جدول ANOVA آمده است.

 k-means cluster with spss 13 spss-analysis.ir

مقدار Sig سطح معناداری آزمون را نشان می‌دهد. از آن‌جایی که این مقدار بسیار کوچک است (P-value<0.001) بنابراین فرض همانند بودن خوشه‌ها را رد می‌کنیم. به معنای دیگر اینکه ما با سه خوشه متفاوت از یکدیگر روبه‌رو هستیم.

جدول بعدی با نام Number of Cases in each Cluster تعداد موردهای هر خوشه را پس از آخرین مرحله الگوریتم تکرار نشان می‌دهد.

k-means cluster with spss 14 spss-analysis.ir

 

ارایه خدمات تحلیل آماری با SPSS

گراف پد ارایه خدمات تحلیل‌های آماری با نرم‌افزار SPSS در تحقیقات و مطالعات را انجام می‌دهد. جهت دریافت نکات بیشتر و نحوه کار می‌توانید مختصری از کار خود را ارسال نمایید. به سرعت تقاضای شما را بررسی و نتایج تحلیل داده‌ها را به صورت اختصاصی و کامل ارسال خواهیم کرد.

گراف پد جمعی از رتبه‌های برتر آزمون دکترا آمار دانشگاه‌های ایران | برجسته در موسسه بین‌المللی تحقیقات | دارای نماد اعتماد الکترونیک از مرکز توسعه تجارت الکترونیکی ایران و مجوز رسمی ثبت به شماره ۴۱۸۸۱ و شناسه ملی ۱۴۰۰۶۸۳۲۳۱۹