ضریب همبستگی

ارتباط و ضریب همبستگی Correlation در گراف پد

زمان مطالعه: 30 دقیقه 

به دست آوردن اندازه ارتباط و همبستگی بین Variableها از موضوعات مهم در تحلیل‌های آماری به حساب می‌آید. با استفاده از ضریب همبستگی که عددی بین 1- تا 1+ قرار دارد، می‌توان به اندازه اثرگذاری بین کمیت‌ها پرداخت.

 

 
 

 

در نرم‌افزار گراف پد مثالی با نام Correlation در دسته تحلیل‌های XY و در بخش Correlation & regression linear and nonlinear صفحه ورودی نرم‌افزار گراف پد قرار دارد. فایل مثال را می‌توانید از اینجا دانلود کنید.

وقتی مثال را Create می‌کنیم با داده‌های زیر روبه‌رو می‌شویم. نحوه نوشتن داده‌ها در تحلیل‌های XY همان‌گونه که از نام این تحلیل‌ها برمی‌آید به صورت یک یا چند ستون تحت نام X و Y که قرار است ارتباط بین آن‌ها را به دست آوریم، بیان می‌شود.

در این مثال همان‌گونه که مشاهده می‌کنید، داده‌ها در 153 سطر و چهار ستون آمده‌اند. هر سطر بیانگر یک روز می‌باشد. ستون X نشان‌دهنده‌ی سطح اوزون Ozone level و ستون‌های Y به صورت تابش خورشیدی solar radiation، باد wind و دما temperature آمده‌اند.

هدف ما در این مثال به دست آوردن اندازه ارتباط و اثرگذاری سه شرایط آب و هوایی (تابش، باد و دما) بر روی سطح اوزون است.

به این منظور و جهت مشاهده نتایج به دست آمده در همان شیت داده‌ها، بر روی دکمه Analyze کلیک می‌کنیم. در پنجره Analyze data باز شده، تحلیل Correlation را انتخاب می‌کنیم.

پنجره تنظیمات با نام Parameters: Correlation برای ما به صورت زیر باز می‌شود.

  • Compute correlations between which paires of columns

در این بخش با سه گزینه روبه‌رو هستیم. Compute r for every pair of Y data sets Correlation matrix برای ما ماتریس همبستگی بین Y ها را به دست می‌دهد. یعنی ضریب همبستگی بین هر Y با Y دیگر به دست می‌آید. با انتخاب این گزینه X در ماتریس همبستگی قرار ندارد و ارتباط بین هر Y با X به دست نمی‌آید.

گزینه Compute r for X vs.every Y data set ضریب همبستگی بین X با هر کدام از Yها را به دست می‌آورد.

گزینه Compute r between two selected data sets این امکان را در اختیار ما قرار می‌دهد تا تنها همبستگی بین یک ستون دلخواه با ستون دلخواه دیگری به دست بیاید.

  • Assume data are sampled from Gaussian distribution

نرم‌افزار گراف پد در اینجا سوال مهمی از ما می‌پرسد. آیا توزیع داده‌ها نرمال (گوسین) هستند یا خیر؟ پاسخ مثبت یا منفی به این سوال، نوع ضریب همبستگی ما را متفاوت خواهد کرد. در واقع اگر توزیع داده‌های مورد بررسی نرمال باشند از ضریب همبستگی پیرسن و اگر داده‌ها نرمال نباشند از ضریب همبستگی ناپارامتری اسپیرمن، استفاده خواهیم کرد.

  • Options

انتخاب یک دامنه‌ای بودن و یا Two-tailed بودن آزمون همبستگی در این بخش انجام می‌شود. توضیح این‌که آزمون همبستگی یک دامنه، بزرگ‌تر از صفر بودن ضریب همبستگی (همبستگی مثبت) و یا کوچکتر از صفر بودن ضریب همبستگی (همبستگی منفی) را بررسی می‌کند. در حالی که آزمون همبستگی Two دامنه، هم بزرگ‌تر از صفر بودن ضریب همبستگی (همبستگی مثبت) و هم کوچکتر از صفر بودن ضریب همبستگی (همبستگی منفی) را بررسی می‌کند.

همچنین در همین بخش و از کادر Confidence interval می‌توان ضریب اطمینان فاصله اطمینان، برای ضریب همبستگی به دست آمده را تعیین کرد.

  • Output

تعداد رقم‌های اعشار مقدار احتمال P value به دست آمده، در این بخش تعیین می‌شود. همچنین می‌توان درباره نحوه نمایش P value تصمیم‌گیری کرد.

  • Graphing

چنانچه در بخش Compute correlations between which paires of columns گزینه Compute r for every pair of Y data sets Correlation matrix را انتخاب کرده باشیم، با انتخاب این گزینه می‌توان Heatmap یا همان نمودار حرارتی ماتریس همبستگی را مشاهده کرد.

بنابراین در ابتدا باید مشخص کنیم که توزیع داده‌های ما در این مثال، نرمال است یا خیر. نحوه بررسی نرمال بودن داده‌ها را می‌نوانید از این لینک مشاهده کنید. در این مثال، بار دیگر نحوه آزمون نرمالیتی را تکرار نمی‌کنیم. تنها نتایج نرم‌افزار را آورده‌ایم. در خروجی زیر از نرم‌افزار گراف پد می‌توانید، نتیجه آزمون نرمالیتی بر داده‌های مثال Correlation را مشاهده کنید.

آن‌چه از جدول بالا به دست می‌آید، بیانگر عدم نرمال بودن داده‌های تابش، باد و دما می‌باشد. بنابراین در این مثال می‌بایست از ضریب همبستگی ناپارامتری اسپیرمن استفاده کنیم.

بنابراین پنجره تنظیمات Parameters: Correlation را به صورت زیر قرار می‌دهیم.

با OK کردن، شیت نتایج با نام Correlation of Ozone correlations در فولدر Results پنجره راهبری سمت چپ نرم‌افزار، ساخته می‌شود.

در این شیت می‌توانید اندازه ضریب همبستگی اسپیرمن بین Ozone با هر کدام از Yها را در سطر با نام r مشاهده کنید. فاصله اطمینان 95 درصد برای ضریب همبستگی اسپیرمن نیز آمده است.

در بخش P value سطح معناداری و مقدار احتمال به دست آمده در هر آزمون همبستگی (بین X و هر Y) آمده است. نتیجه به دست آمده نشان می‌دهد، ارتباط معنادار بین سطح اوزون با هر کدام از شرایط تابش، باد و دما تایید می‌شود.

در سطر Number of XY Paires تعداد روزهای مورد بررسی آمده است. تفاوت در تعداد روزها به دلیل آن بوده است که ما در برخی از روزها فاقد اطلاعات بوده‌ایم و به عبارتی عددی برای ان روز ثبت نشده است.

آنچه در پایان از این شیت به دست می‌آید این است که ارتباط بین اوزون با دما و در مرتبه بعدی با تابش معنادار و مثبت است، به همین ترتیب ارتباط بین اوزون با باد معنادار اما منفی و وارون است.

خوب است به فولدر Graphs نیز برویم و نمودار پراکنش بین Variableها را مشاهده کنیم. در فولدر Graphs شیت با نام Ozone correlation دیده می‌شود. هنگامی که بر روی این شیت کلیک می‌کنیم، پنجره Change Graph Type برای ما باز می‌شود.

از آن‌جا که مثال Correlation در دسته تحلیل‌های XY نرم‌افزار گراف پد قرار دارد، بنابراین به صورت پیش‌فرض Graph family بر روی XY باز می‌شود. انواع نمودارهای متناظر با XY را می‌توانیم در این پنجره مشاهده کنیم. با OK کردن گراف پراکنش زیر برای ما ساخته می‌شود.

این گراف به صورت توام، برهم‌کنش بین اوزون با Solar R، Wind و Temp را شامل می‌شود. با توجه به مقیاس‌ها و اعداد متفاوت اندازه‌گیری Yها، نمودار فوق نیاز به اصلاح و ویرایش دارد. در واقع به منظور مشاهده دقیق نحوه اثر‌گذاری اوزون بر هر Y، باید نمودار جداگانه پراکنش، رسم شود. برای انجام این کار ابتدا بیایید از همین نمودار موجود، چند کپی دیگر بسازیم. برای این کار روی شیت گراف رفته و راست کلیک کنید.

در آن‌جا گزینه Duplicate Current Sheet را انتخاب کنید. این کار را یکبار دیگر نیز تکرار کنید. یعنی در نهایت به تعداد ستون‌های Y که سه تا است، سه شیت گراف شبیه به هم (البته فعلاً تا اینجا) داشته باشید.

هدف ما این است که سه شیت گراف داشته باشیم تا هر کدام از آن‌ها را برای ساختن نمودار پراکنش بین اوزون با هر کدام از Yها (تابش، دما، باد) استفاده کنیم.

در مرحله بعد بر روی نمودار دبل کلیک کنید تا پنجره تنظیمات Format Graph زیر باز شود.

از آنجا بر روی تب Data Sets on Graph بزنید. محیط زیر را مشاهده خواهید کرد.

در کادر Data sets plotted front to back می‌توانید اسامی ستون‌های Y یعنی Wind، Solar R و Temp را مشاهده کنید. از آن‌جا که می‌خواهیم در این مرحله، نمودار پراکنش ما تنها شامل Ozone و مثلاً Solar R باشد، بنابراین بر روی دو سطر Ozone correlation:B:Wind و Ozone correlation:B:temp رفته و دکمه Remove سمت راست را می‌زنیم.

در پایان تب Data Sets on Graph از پنجره Format Graph به شکل زیر خواهد بود.

بنابراین از نرم‌افزار، در این مرحله می‌خواهیم فقط نمودار پراکنش بین اوزون و تابش را رسم کند. با OK کردن، گراف زیر را خواهیم داشت.

برای عنوان محور Y، عبارت Solar R را نوشته‌ایم. همان‌گونه که در خروجی نتایج و ضریب همبستگی اسپیرمن نیز نشان دادیم، ارتباط بین اوزون و تابش مستقیم و معنادار به دست آمده بود. گراف پراکنش بالا نیز ارتباط مثبت را بیان می‌کند. خوب است نام این گراف را به صورت Ozone & Solar R correlations قرار دهیم. برای این کار بر روی شیت Ozone correlations راست کلیک کرده و گزینه Rename Sheet را انتخاب کنید. با این‌کار هر نام دلخواهی که دوست دارید، می‌توانید قرار دهید.

همین فرایند بالا را این‌بار بر روی شیت کپی شده با نام Copy of Ozone correlations انجام داده و این‌بار Yهای Solar R و Temp را حذف کنید تا بتوانید نمودار پراکنش جداگانه بین اوزون و Wind را به دست بیاورید.

این‌بار با OK کردن نمودار پراکنش زیر را خواهیم داشت.

عنوان نمودار و محور Y را خودمان نوشته‌ایم. نام شیت را هم با همان فرایند Rename کردن شیت می‌توانید به صورت Ozone & Wind correlations قرار دهید. گراف بالا بیانگر وجود ارتباط منفی و وارون بین اوزون و Wind است. قبلاً در Results نیز با استفاده از ضریب همبستگی اسپیرمن، معنادار بودن این ارتباط را مشاهده کرده‌ایم.

در پایان تنها رسم نمودار پراکنش بین Ozone و Temp باقی می‌ماند. این کار را نیز با دبل کلیک کردن بر شیت باقیمانده Copy of Ozone correlations انجام می‌دهیم. ویرایش نمودار طبق توضیحات بالا و حذف Yهای Solar R و Wind، گراف زیر را برای ما خواهد ساخت.

در گراف پراکنش بالا، ارتباط مستقیم و مثبت بین اوزون و دما، تایید می‌شود.

اجازه دهید در پایان به یک نکته دیگر نیز اشاره کنیم. در پنجره Parameters: Correlation و گزینه Compute r for every pair of Y data sets Correlation matrix به این موضوع اشاره کردیم که می‌توان صرفنظر از X ارتباط درونی بین Y ها را به صورت یک ماتریس همبستگی و همچنین پلات حرارتی Heatmap، به دست آورد.

بنابراین خوب است یک‌بار دیگر به شیت داده‌ها رفته و از آن‌جا با استفاده از دکمه Analyze به پنجره Parameters: Correlation برویم. تنظیمات را مانند شکل زیر قرار می‌دهیم.

به این ترتیب در فولدر Results شیت جدید دیگری با نام Correlation of Ozone correlations ساخته می‌شود. جالب است این شیت دارای چهار زبانه است.

  • Spearman r

ماتریس ضریب همبستگی اسپیرمن بین Solar R، Wind و Temp با یکدیگر، مشاهده می‌شود. به عنوان مثال عدد 0.447- نشان می‌دهد، ارتباط بین Wind و Temp وارون و به اندازه 0.447 منفی است.

  • P value

مقدار احتمال ضریب همبستگی‌ها در این تب بیان شده است. به عنوان مثال همان ارتباط بین Wind و Temp به دلیل کوچک بودن مقدار احتمال آن، معنادار گزارش می‌شود.

  • Sample size

در این تب می‌توان به دست آورد که در هر همبستگی، چه تعداد نمونه (هر نمونه بیانگر یک روز بود) وجود داشته است. مثلاً در بررسی ارتباط بین دما و باد، 153 روز مورد بررسی قرار گرفته است. کاهش در تعداد روزها و در همبستگی‌های دیگر به دلیل این است که اطلاعات مربوط به آن روز برای دما یا باد در دسترس نبوده است. 

  • Confidence interval of rs

در این تب می‌توانید فاصله اطمینان ضریب همبستگی، به ازای هر کدام از خانه‌های ماتریس همبستگی را مشاهده کنید. به عنوان مثال فاصله اطمینان 95 درصد ضریب همبستگی اسپیرمن برای ارتباط بین Wind و Temp به صورت (0.3055- , 0.5684-) به دست آمده است. منفی بودن هر دو کران بالا و پایین فاصله اطمینان، بیانگر ارتباط معنادار وارون بین دما و باد می‌باشد.

ما در پنجره Parameters: Correlation و بخش Graphing گزینه Create a heatmap of the correlation matrix را نیز انتخاب کرده بودیم. نتیجه این انتخاب را می‌توانید در فولدر Graphs پنجره Navigator نرم‌افزار، مشاهده کنید.

یک شیت جدید با نام Spearman r: Correlation of Ozone correlations در فولدر Graphs ساخته شده است. گراف به دست آمده را می‌توانید در شکل زیر ببینید.

به این نوع نمودارها که با استفاده از شدت رنگ، اندازه‌ها و آماره‌های مختلف را نشان می‌دهند، پلات حرارتی یا Heat Map گفته می‌شود. در Heat Mapها همواره خط کش مدرج‌بندی طیف رنگ، وجود دارد. به عنوان مثال در پلات بالا، رنگ سفید، عدم ارتباط را نشان می‌دهد (بین Solar R و Wind). آبی‌ها از کم‌رنگ تا پررنگ، بیانگر ارتباط قوی مثبت و قرمزها از کم‌رنگ به پررنگ نیز ارتباط قوی منفی را نشان می‌دهند.

 

 

چگونه به این مقاله رفرنس دهیم

GraphPad Statistics (2020). Correlation coefficient in GraphPad Prism Software. Statistical tutorials and software guides. Retrieved Month, Day, Yearfrom https://graphpad.ir/correlation-prism/.php

For example, if you viewed this guide on 12th January 2022, you would use the following reference

GraphPad Statistics (2020). Correlation coefficient in GraphPad Prism Software. Statistical tutorials and software guides. Retrieved January, 12, 2022, from https://graphpad.ir/correlation-prism/.php

 

ارایه خدمات تحلیل و مشاوره آماری

گراف پد برای شما خدمات مشاوره و انجام انواع تحلیل‌های آماری را ارایه می‌دهد. جهت دریافت نکات بیشتر بهتر است با ما تماس بگیرید.

گراف پد جمعی از رتبه‌های برتر آزمون دکترا آمار دانشگاه‌های ایران | برجسته در موسسه بین‌المللی تحقیقات | دارای نماد اعتماد الکترونیک از مرکز توسعه تجارت الکترونیکی ایران و مجوز رسمی ثبت به شماره ۴۱۸۸۱ و شناسه ملی ۱۴۰۰۶۸۳۲۳۱۹