ارتباط و ضریب همبستگی Correlation در گراف پد
به دست آوردن اندازه ارتباط و همبستگی بین Variableها از موضوعات مهم در تحلیلهای آماری به حساب میآید.
با استفاده از ضریب همبستگی که عددی بین 1- تا 1+ قرار دارد، میتوان به اندازه اثرگذاری بین کمیتها پرداخت.
در نرمافزار گراف پد مثالی با نام Correlation در دسته تحلیلهای XY و در بخش Correlation & regression linear and nonlinear صفحه ورودی نرمافزار گراف پد قرار دارد. فایل مثال را میتوانید از اینجا دانلود کنید.
وقتی مثال را Create میکنیم با دادههای زیر روبهرو میشویم. نحوه نوشتن دادهها در تحلیلهای XY همانگونه که از نام این تحلیلها برمیآید به صورت یک یا چند ستون تحت نام X و Y که قرار است ارتباط بین آنها را به دست آوریم، بیان میشود.
در این مثال همانگونه که مشاهده میکنید، دادهها در 153 سطر و چهار ستون آمدهاند. هر سطر بیانگر یک روز میباشد. ستون X نشاندهندهی سطح اوزون Ozone level و ستونهای Y به صورت تابش خورشیدی solar radiation، باد wind و دما temperature آمدهاند.
هدف ما در این مثال به دست آوردن اندازه ارتباط و اثرگذاری سه شرایط آب و هوایی (تابش، باد و دما) بر روی سطح اوزون است.
به این منظور و جهت مشاهده نتایج به دست آمده در همان شیت دادهها، بر روی دکمه Analyze کلیک میکنیم. در پنجره Analyze data باز شده، تحلیل Correlation را انتخاب میکنیم.
پنجره تنظیمات با نام Parameters: Correlation برای ما به صورت زیر باز میشود.
- Compute correlations between which paires of columns
در این بخش با سه گزینه روبهرو هستیم. Compute r for every pair of Y data sets Correlation matrix برای ما ماتریس همبستگی بین Y ها را به دست میدهد. یعنی ضریب همبستگی بین هر Y با Y دیگر به دست میآید. با انتخاب این گزینه X در ماتریس همبستگی قرار ندارد و ارتباط بین هر Y با X به دست نمیآید.
گزینه Compute r for X vs.every Y data set ضریب همبستگی بین X با هر کدام از Yها را به دست میآورد.
گزینه Compute r between two selected data sets این امکان را در اختیار ما قرار میدهد تا تنها همبستگی بین یک ستون دلخواه با ستون دلخواه دیگری به دست بیاید.
- Assume data are sampled from Gaussian distribution
نرمافزار گراف پد در اینجا سوال مهمی از ما میپرسد. آیا توزیع دادهها نرمال (گوسین) هستند یا خیر؟ پاسخ مثبت یا منفی به این سوال، نوع ضریب همبستگی ما را متفاوت خواهد کرد. در واقع اگر توزیع دادههای مورد بررسی نرمال باشند از ضریب همبستگی پیرسن و اگر دادهها نرمال نباشند از ضریب همبستگی ناپارامتری اسپیرمن، استفاده خواهیم کرد.
- Options
انتخاب یک دامنهای بودن و یا Two-tailed بودن آزمون همبستگی در این بخش انجام میشود. توضیح اینکه آزمون همبستگی یک دامنه، بزرگتر از صفر بودن ضریب همبستگی (همبستگی مثبت) و یا کوچکتر از صفر بودن ضریب همبستگی (همبستگی منفی) را بررسی میکند. در حالی که آزمون همبستگی Two دامنه، هم بزرگتر از صفر بودن ضریب همبستگی (همبستگی مثبت) و هم کوچکتر از صفر بودن ضریب همبستگی (همبستگی منفی) را بررسی میکند.
همچنین در همین بخش و از کادر Confidence interval میتوان ضریب اطمینان فاصله اطمینان، برای ضریب همبستگی به دست آمده را تعیین کرد.
- Output
تعداد رقمهای اعشار مقدار احتمال P value به دست آمده، در این بخش تعیین میشود. همچنین میتوان درباره نحوه نمایش P value تصمیمگیری کرد.
- Graphing
چنانچه در بخش Compute correlations between which paires of columns گزینه Compute r for every pair of Y data sets Correlation matrix را انتخاب کرده باشیم، با انتخاب این گزینه میتوان Heatmap یا همان نمودار حرارتی ماتریس همبستگی را مشاهده کرد.
بنابراین در ابتدا باید مشخص کنیم که توزیع دادههای ما در این مثال، نرمال است یا خیر. نحوه بررسی نرمال بودن دادهها را مینوانید از این لینک مشاهده کنید. در این مثال، بار دیگر نحوه آزمون نرمالیتی را تکرار نمیکنیم. تنها نتایج نرمافزار را آوردهایم. در خروجی زیر از نرمافزار گراف پد میتوانید، نتیجه آزمون نرمالیتی بر دادههای مثال Correlation را مشاهده کنید.
آنچه از جدول بالا به دست میآید، بیانگر عدم نرمال بودن دادههای تابش، باد و دما میباشد. بنابراین در این مثال میبایست از ضریب همبستگی ناپارامتری اسپیرمن استفاده کنیم.
بنابراین پنجره تنظیمات Parameters: Correlation را به صورت زیر قرار میدهیم.
با OK کردن، شیت نتایج با نام Correlation of Ozone correlations در فولدر Results پنجره راهبری سمت چپ نرمافزار، ساخته میشود.
در این شیت میتوانید اندازه ضریب همبستگی اسپیرمن بین Ozone با هر کدام از Yها را در سطر با نام r مشاهده کنید. فاصله اطمینان 95 درصد برای ضریب همبستگی اسپیرمن نیز آمده است.
در بخش P value سطح معناداری و مقدار احتمال به دست آمده در هر آزمون همبستگی (بین X و هر Y) آمده است. نتیجه به دست آمده نشان میدهد، ارتباط معنادار بین سطح اوزون با هر کدام از شرایط تابش، باد و دما تایید میشود.
در سطر Number of XY Paires تعداد روزهای مورد بررسی آمده است. تفاوت در تعداد روزها به دلیل آن بوده است که ما در برخی از روزها فاقد اطلاعات بودهایم و به عبارتی عددی برای ان روز ثبت نشده است.
آنچه در پایان از این شیت به دست میآید این است که ارتباط بین اوزون با دما و در مرتبه بعدی با تابش معنادار و مثبت است، به همین ترتیب ارتباط بین اوزون با باد معنادار اما منفی و وارون است.
خوب است به فولدر Graphs نیز برویم و نمودار پراکنش بین Variableها را مشاهده کنیم. در فولدر Graphs شیت با نام Ozone correlation دیده میشود. هنگامی که بر روی این شیت کلیک میکنیم، پنجره Change Graph Type برای ما باز میشود.
از آنجا که مثال Correlation در دسته تحلیلهای XY نرمافزار گراف پد قرار دارد، بنابراین به صورت پیشفرض Graph family بر روی XY باز میشود. انواع نمودارهای متناظر با XY را میتوانیم در این پنجره مشاهده کنیم. با OK کردن گراف پراکنش زیر برای ما ساخته میشود.
این گراف به صورت توام، برهمکنش بین اوزون با Solar R، Wind و Temp را شامل میشود. با توجه به مقیاسها و اعداد متفاوت اندازهگیری Yها، نمودار فوق نیاز به اصلاح و ویرایش دارد. در واقع به منظور مشاهده دقیق نحوه اثرگذاری اوزون بر هر Y، باید نمودار جداگانه پراکنش، رسم شود. برای انجام این کار ابتدا بیایید از همین نمودار موجود، چند کپی دیگر بسازیم. برای این کار روی شیت گراف رفته و راست کلیک کنید.
در آنجا گزینه Duplicate Current Sheet را انتخاب کنید. این کار را یکبار دیگر نیز تکرار کنید. یعنی در نهایت به تعداد ستونهای Y که سه تا است، سه شیت گراف شبیه به هم (البته فعلاً تا اینجا) داشته باشید.
هدف ما این است که سه شیت گراف داشته باشیم تا هر کدام از آنها را برای ساختن نمودار پراکنش بین اوزون با هر کدام از Yها (تابش، دما، باد) استفاده کنیم.
در مرحله بعد بر روی نمودار دبل کلیک کنید تا پنجره تنظیمات Format Graph زیر باز شود.
از آنجا بر روی تب Data Sets on Graph بزنید. محیط زیر را مشاهده خواهید کرد.
در کادر Data sets plotted front to back میتوانید اسامی ستونهای Y یعنی Wind، Solar R و Temp را مشاهده کنید. از آنجا که میخواهیم در این مرحله، نمودار پراکنش ما تنها شامل Ozone و مثلاً Solar R باشد، بنابراین بر روی دو سطر Ozone correlation:B:Wind و Ozone correlation:B:temp رفته و دکمه Remove سمت راست را میزنیم.
در پایان تب Data Sets on Graph از پنجره Format Graph به شکل زیر خواهد بود.
بنابراین از نرمافزار، در این مرحله میخواهیم فقط نمودار پراکنش بین اوزون و تابش را رسم کند. با OK کردن، گراف زیر را خواهیم داشت.
برای عنوان محور Y، عبارت Solar R را نوشتهایم. همانگونه که در خروجی نتایج و ضریب همبستگی اسپیرمن نیز نشان دادیم، ارتباط بین اوزون و تابش مستقیم و معنادار به دست آمده بود. گراف پراکنش بالا نیز ارتباط مثبت را بیان میکند. خوب است نام این گراف را به صورت Ozone & Solar R correlations قرار دهیم. برای این کار بر روی شیت Ozone correlations راست کلیک کرده و گزینه Rename Sheet را انتخاب کنید. با اینکار هر نام دلخواهی که دوست دارید، میتوانید قرار دهید.
همین فرایند بالا را اینبار بر روی شیت کپی شده با نام Copy of Ozone correlations انجام داده و اینبار Yهای Solar R و Temp را حذف کنید تا بتوانید نمودار پراکنش جداگانه بین اوزون و Wind را به دست بیاورید.
اینبار با OK کردن نمودار پراکنش زیر را خواهیم داشت.
عنوان نمودار و محور Y را خودمان نوشتهایم. نام شیت را هم با همان فرایند Rename کردن شیت میتوانید به صورت Ozone & Wind correlations قرار دهید. گراف بالا بیانگر وجود ارتباط منفی و وارون بین اوزون و Wind است. قبلاً در Results نیز با استفاده از ضریب همبستگی اسپیرمن، معنادار بودن این ارتباط را مشاهده کردهایم.
در پایان تنها رسم نمودار پراکنش بین Ozone و Temp باقی میماند. این کار را نیز با دبل کلیک کردن بر شیت باقیمانده Copy of Ozone correlations انجام میدهیم. ویرایش نمودار طبق توضیحات بالا و حذف Yهای Solar R و Wind، گراف زیر را برای ما خواهد ساخت.
در گراف پراکنش بالا، ارتباط مستقیم و مثبت بین اوزون و دما، تایید میشود.
اجازه دهید در پایان به یک نکته دیگر نیز اشاره کنیم. در پنجره Parameters: Correlation و گزینه Compute r for every pair of Y data sets Correlation matrix به این موضوع اشاره کردیم که میتوان صرفنظر از X ارتباط درونی بین Y ها را به صورت یک ماتریس همبستگی و همچنین پلات حرارتی Heatmap، به دست آورد.
بنابراین خوب است یکبار دیگر به شیت دادهها رفته و از آنجا با استفاده از دکمه Analyze به پنجره Parameters: Correlation برویم. تنظیمات را مانند شکل زیر قرار میدهیم.
به این ترتیب در فولدر Results شیت جدید دیگری با نام Correlation of Ozone correlations ساخته میشود. جالب است این شیت دارای چهار زبانه است.
- Spearman r
ماتریس ضریب همبستگی اسپیرمن بین Solar R، Wind و Temp با یکدیگر، مشاهده میشود. به عنوان مثال عدد 0.447- نشان میدهد، ارتباط بین Wind و Temp وارون و به اندازه 0.447 منفی است.
- P value
مقدار احتمال ضریب همبستگیها در این تب بیان شده است. به عنوان مثال همان ارتباط بین Wind و Temp به دلیل کوچک بودن مقدار احتمال آن، معنادار گزارش میشود.
- Sample size
در این تب میتوان به دست آورد که در هر همبستگی، چه تعداد نمونه (هر نمونه بیانگر یک روز بود) وجود داشته است. مثلاً در بررسی ارتباط بین دما و باد، 153 روز مورد بررسی قرار گرفته است. کاهش در تعداد روزها و در همبستگیهای دیگر به دلیل این است که اطلاعات مربوط به آن روز برای دما یا باد در دسترس نبوده است.
- Confidence interval of rs
در این تب میتوانید فاصله اطمینان ضریب همبستگی، به ازای هر کدام از خانههای ماتریس همبستگی را مشاهده کنید. به عنوان مثال فاصله اطمینان 95 درصد ضریب همبستگی اسپیرمن برای ارتباط بین Wind و Temp به صورت (0.3055- , 0.5684-) به دست آمده است. منفی بودن هر دو کران بالا و پایین فاصله اطمینان، بیانگر ارتباط معنادار وارون بین دما و باد میباشد.
ما در پنجره Parameters: Correlation و بخش Graphing گزینه Create a heatmap of the correlation matrix را نیز انتخاب کرده بودیم. نتیجه این انتخاب را میتوانید در فولدر Graphs پنجره Navigator نرمافزار، مشاهده کنید.
یک شیت جدید با نام Spearman r: Correlation of Ozone correlations در فولدر Graphs ساخته شده است. گراف به دست آمده را میتوانید در شکل زیر ببینید.
به این نوع نمودارها که با استفاده از شدت رنگ، اندازهها و آمارههای مختلف را نشان میدهند، پلات حرارتی یا Heat Map گفته میشود. در Heat Mapها همواره خط کش مدرجبندی طیف رنگ، وجود دارد. به عنوان مثال در پلات بالا، رنگ سفید، عدم ارتباط را نشان میدهد (بین Solar R و Wind). آبیها از کمرنگ تا پررنگ، بیانگر ارتباط قوی مثبت و قرمزها از کمرنگ به پررنگ نیز ارتباط قوی منفی را نشان میدهند.
چگونه به این مقاله رفرنس دهیم
GraphPad Statistics (2020). Correlation coefficient in GraphPad Prism Software. Statistical tutorials and software guides. Retrieved Month, Day, Year, from https://graphpad.ir/correlation-prism/.php
For example, if you viewed this guide on 12th January 2022, you would use the following reference
GraphPad Statistics (2020). Correlation coefficient in GraphPad Prism Software. Statistical tutorials and software guides. Retrieved January, 12, 2022, from https://graphpad.ir/correlation-prism/.php
ارایه خدمات تحلیل و مشاوره آماری
گراف پد برای شما خدمات مشاوره و انجام انواع تحلیلهای آماری را ارایه میدهد. جهت دریافت نکات بیشتر بهتر است با ما تماس بگیرید.