قبلی
رگرسیون

طراحی مدل رگرسیون خطی Linear Regression با گراف پد پریسم

چه پیش خواهد آمد؟ سوالی است که بشر از ابتدای خلقت به دنبال پاسخ به آن بوده است. پیش‌بینی و درک پدیده‌های آینده از مهمترین مفاهیم مورد بررسی انسان‌ها بوده است و خواهد بود.

جالب است که بدانیم علم با طراحی مدل‌های آینده‌نگر و پیش‌بین، البته که نه به صورت قطعی بلکه به صورت احتمالی و با درصدی از درستی، به این سوال پاسخ داده است. رگرسیون در انواع مدل‌های آن، تلاشی است برای پاسخ به سوال در آینده چه می‌شود و ساختن یک معادله آماری جهت درک و پیش‌بینی آینده.

 

گراف پد

دریافت آموزش کامل تحلیل‌های همبستگی و رگرسیون

شامل 250 دقیقه ویدئو، فایل دیتا و نتایج نرم‌افزار Prism

 

ما در این آموزش به دنبال آن هستیم که فرایند طراحی و ایجاد یک مدل رگرسیون خطی با استفاده از نرم‌افزار GraphPad Prism را مورد بررسی قرار دهیم. گراف پد نرم‌افزاری بسیار کارآمد و پرکاربرد جهت انجام طیف متنوعی از تحلیل‌های آماری می‌باشد.

 

شروع کار: نرم‌افزار گراف پد خود را باز کنید.

ما در این آموزش از جدیدترین نسخه گراف پد پریسم یعنی شماره 7 استفاده می‌کنیم. کار با ورژن‌های پایین‌تر مشابه است. هنگامی که نرم‌افزار را باز می‌کنید از قسمت سمت چپ با عنوان New Table & Graph تحلیل XY را انتخاب کنید. اگر می‌خواهید روی داده‌های اصلی خود کار کنید در کادر Enter/import data در بخش X: بسته به اینکه داده‌های کمیت مستقل شما چه اندازه‌هایی هستند (اعداد حسابی، تاریخ، زمان) یک گزینه را انتخاب کنید. در بخش Y: نیز با توجه به اینکه داده‌های کمیت وابسته چگونه جمع‌آوری شده و دارای تکرار هستند یا خیر، یک گزینه را انتخاب کنید.

به صورت پیش‌فرض نرم‌افزار گراف پد، داده‌های X و یا کمیت مستقل را اعداد و داده‌های Y و یا کمیت وابسته را یک‌بار تکرار، در نظر می‌گیرد.

 

چنانچه تمایل دارید بر روی داده‌های آموزشی نرم‌افزار گراف پد طراحی مدل رگرسیون خطی را انجام دهید، در کادر Use tutorial data گزینه Linear Regression – Compare slopes را انتخاب کنید.

 

ما کار ارایه تحلیل رگرسیون خطی، را بر داده‌های آموزشی نرم‌افزار انجام می‌دهیم. در داده‌های آموزش رگرسیون نرم‌افزار، چگونگی مقایسه شیب مدل‌های رگرسیونی نیز بررسی می‌شود. دکمه Create را بزنید. جدول داده زیر باز خواهد شد.

به کارتان می‌آید: کارگاه آموزشی نحوه کار با نرم‌افزار گراف پد پریسم

 

داده‌های خود را مشاهده کنید.

داده‌ها در یک برگه با نام Linear regression از فولدر Data Tables قرار گرفته‌اند. همان‌گونه که از توضیحات نوشته شده در کادر زرد رنگ Note برمی‌آید، داده‌ها در دو ستون اصلی آمده‌اند. یکی ستون X با نام Minutes که بیانگر زمان و به عنوان کمیت مستقل و دیگری ستون Y با دو زیرگروه Control و Treated هر کدام با سه بار تکرار، به عنوان کمیت وابسته مجموعه داده‌های غلظت هستند.

هدف مطالعه آن است که به هر کدام از زیرگروه‌های Control و Treated یک مدل رگرسیون خطی برازش دهیم و بتوانیم شیب مدل‌ها را با یکدیگر مقایسه کنیم. مقایسه شیب‌ها به ما این امکان را می‌دهد تا بتوانیم دریابیم در کدام‌یک از گروه‌های کنترل و درمان، ارتباط قوی‌تری بین زمان و غلظت وجود دارد. رسم نمودارهای رگرسیونی نیز در مراحل انجام کار خواهد بود.

مدل رگرسیون خطی طراحی کنید.

جهت انجام تحلیل رگرسیون به سادگی به منوی بالای صفحه به نام Analyze بروید.

 

پنجره Analyze Data باز خواهد شد. در کادر XY analyses تحلیل Linear regression را انتخاب کنید. دکمه OK را بزنید.

 

پنجره Parameters: Linear Regression باز می‌شود. گزینه Interpolate مواردی به کار می‌آید که برای چند سطر X اندازه‌ای به دست نیاورده باشیم، اما مقادیر Y آن‌ها مشخص است. انتخاب این گزینه سبب می‌شود با استفاده از داده‌های موجود برای این مقادیر نامعلوم نیز برازش مدل رگرسیون انجام شود. در این مثال با داده‌های خالی در ستون X مواجه نیستیم و تمام سطرها پُر و اندازه‌گیری شده است. بنابراین آن را علامت نمی‌زنیم.

 

گزینه‌های طراحی مدل رگرسیون خطی

در گزینه Compare آزمون مقایسه شیب مدل‌های رگرسیونی قرار دارد. انتخاب این گزینه سبب می‌شود، نرم‌افزار بررسی کند که آیا ضرایب رگرسیونی در مدل Control و Treated با یکدیگر اختلاف معناداری دارند یا خیر؟ این گزینه را انتخاب می‌کنیم.

در گزینه Graphing options رسم دو نمودار دیده شده است. یکی گراف با فاصله اطمینان مشخص برای منحنی برازش و دیگری نمودار باقیمانده‌ها. درباره نمودار باقیمانده‌ها این نکته را از تئوری‌های تحلیل رگرسیون می‌دانیم که مدلی مناسب است که باقیمانده‌های آن اطراف خط صفر بدون هیچ‌گونه نظم خاصی و به تصادف پراکنده شده باشند. هر دو گزینه را انتخاب می‌کنیم.

گزینه Constrain مدل رگرسیون خطی را مجبور می‌کند که از یک نقطه تعیین شده عبور کند. به عنوان مثال با فعال کردن این گزینه به صورت پیش‌فرض، نرم‌افزار نقطه X=0 و Y=0 را محل شروع خط رگرسیونی در نظر می‌گیرد. این کار چندان توصیه نمی‌شود، باید اجازه داد تا منحنی رگرسیون بهترین برازش خود را انتخاب کند. انتخاب این گزینه تنها در موارد خاص که به دنبال محدود کردن خط برازش رگرسیونی هستیم، توجیه‌پذیر است.

گزینه Replicates در مواردی که در کمیت وابسته یعنی Y به ازای هر مقدار X تکرار داریم، بسیار به کار می‌آید. دکمه Consider each replicate Y value as an individual point به معنای آن است که نرم‌افزار، هر تکرار را به عنوان یک نقطه مجزا در معادله وارد خواهد کرد و با در نظر گرفتن تمام تکرارها مدل رگرسیون را برازش می‌دهد.

دکمه Only consider the mean Y value of each point میانگین تکرارها را در هر سطر وارد معادله رگرسیونی می‌کند و براساس این میانگین به دست آمده به ازای هر سطر، مدل رگرسیونی را برازش می‌دهد. به نظر من انتخاب تکرارها، کار را با دقت بیشتری همراه خواهد کرد. گراف پد پریسم به صورت پیش‌فرض با گزینه میانگین تکرارها کار می‌کند.

 

تنظیمات بیشتر در طراحی مدل رگرسیون خطی

گزینه Also calculate تنظیمات بیشتری برای مشاهده نتایج مدل رگرسیونی دارد. دکمه Test departure from linearity with replicates test مسئولیت انجام آزمون فاصله داده‌ها از خط مستقیم رگرسیون را بر عهده دارد. این کار با استفاده از آزمون تکرار انجام می‌شود. انتخاب دکمه‌ی Consider each replicate Y value as an individual point در Replicates سبب می‌شود که در اینجا Replicates test انجام شود. اگر در بالا دکمه‌ی Only consider the mean Y value of each point را انتخاب می‌کردیم در اینجا آزمون Run test انجام می‌شده است. توجه به این نکته مهم است که نه فقط در پریسم بلکه در هر نرم‌افزار آماری دیگری نیز، چنانچه داده‌هایی به نرم‌افزار داده شود، به هر حال محاسبه مدل رگرسیونی انجام خواهد شد و یک مدل آماری به دست خواهد آمد. اما موضوع مهم درست بودن مدل به دست آمده است. استفاده از یک آزمون replicates در اینجا به ما کمک خواهد کرد، بدانیم آیا خط مستقیم رگرسیونی به دست آمده صحیح است؟

دو گزینه پایینی نیز به ترتیب مقادیر فاصله اطمینان 95% برای Y و X به ازای اندازه‌های تعیین‌شده، به دست می‌دهند.

گزینه Range برای شروع و پایان مدل رگرسیونی، تصمیم می‌گیرد. پیش‌فرض نرم‌افزار انتخاب Auto خواهد بود. با این‌حال اگر در نظر داشته باشیم، می‌توانیم به جای کار با تمام اندازه‌های کمیت مستقل X، مدل را از یک مقدار خاص X شروع و با مقدار تعیین شده دیگری، پایان دهیم. به این نکته توجه کنید که تمام این تنظیمات و گزینه‌ها از نقاط قوت نرم‌افزار گراف پد پریسم به حساب می‌آید. کمتر نرم‌افزار آماری را می‌توان یافت که چنین به جزئیات توجه کند.

در گزینه Output کادری به نام Show table of XY coordinate قرار دارد. انتخاب این دکمه سبب می‌شود، برگه‌ای با نام Line در فولدر Results نرم‌افزار ایجاد شود. در این برگه پیش‌بینی مقادیر Y در دو گروه Control و Treated به ازای مقادیر X آمده است. نحوه ساختن برگه Line به این صورت است که مدل رگرسیون خطی ابتدا طراحی می‌شود (برگه Tabular results) و سپس مقادیر پیش‌بینی به دست می‌آید.

در شکل زیر می‌توانید بخشی از برگه Line را ببینید.

در گزینه Output چگونگی نمایش مقدار احتمال P-value و تعداد اعشار آن نیز قابل تنظیم است.

به کارتان می‌آید: کارگاه آموزشی نحوه کار با منوها و برگه‌های گراف پد

 

مشاهده نتایج مدل رگرسیون خطی

به این ترتیب پنجره تنظیمات مدل رگرسیون خطی با نرم‌افزار گراف پد پریسم به پایان می‌رسد. OK کنید. نتایج در فولدر Results پنجره Navigator Panel قابل مشاهده است. همچنین می‌توانید در فولدر Graphs نمودارهای مرتبط با تحلیل رگرسیون را ببینید.

تحلیل نتایج برگه‌ی Tabular results

جهت تحلیل نتایج از برگه‌ی Tabular results شروع می‌کنیم. نتایج این برگه به صورت کامل به ارایه تحلیل رگرسیون خطی و نتایج به دست آمده از داده‌ها می‌پردازد. برگه Tabular results دارای چند بخش است. ما به صورت جداگانه هر یک را توضیح می‌دهیم. از بخش Best-fit values ± SE شروع می‌کنیم.

در این بخش براورد پارامترهای مدل رگرسیونی به همراه انحراف معیار هر پارامتر به ازای گروه‌های Control و Treated آمده است. Slope همان ضریب رگرسیونی مدل یعنی β1 است. Y-intercept عرض از مبدا مدل یعنی β0 را نشان می‌دهد. به وضوح 1/Slope نیز وارون شیب و ضریب رگرسیونی را نشان می‌دهد که در برخی از مطالعات به جای خود شیب کاربرد دارد. اما X-intercept چیست؟ پاسخ بسیار ساده است. Y-intercept و یا همان β0 بیانگر مقدار Y است وقتی X صفر باشد. پس X-intercept نشان‌دهنده مقدار X است وقتی Y برابر صفر باشد.

 

توجه به مقادیر ضریب رگرسیونی نشان می‌دهد که تاثیر زمان بر روی غلظت در گروه درمان بیشتر بوده است. ضریب رگرسیونی آن برابر با 17.96 به دست آمده است. این ضریب در گروه کنترل 12.42 براورد شده است.

در بخش 95% Confidence Intervals نیز یک فاصله اطمینان 95 درصد به ازای هر کدام از پارامترهای برازش شده به دست آمده است.

 

کادر Goodness of Fit اندازه‌های ارزیابی مدل را در خود قرار داده است. R square نشان می‌دهد چه درصدی از داده‌ها با استفاده از مدل به دست آمده تحت پوشش قرار گرفته‌اند. بدیهی نزدیک به 100 بودن این مقدار نشان‌دهنده بهتر بودن مدل رگرسیون برازش شده است.

 

در بخش ?Is slope significantly non-zero معنادار بودن ضریب رگرسیونی در هر گروه آزمون شده است. سوال این بوده است که آیا شیب اختلاف معناداری با غیر صفر بودن دارد؟ پاسخ مثبت به این سوال به معنای آن است که وجود ضریب رگرسیونی به دست آمده در مدل لازم و معنادار است. نتایج در تصویر زیر دیده می‌شود.

 

نتیجه به دست آمده بیانگر معنادار بودن شیب در مدل است.

در بخش Replicates test for lack of fit نتایج دکمه Test departure from linearity with replicates test در گزینه Also calculate آمده است. به یاد داشته باشید در آن‌جا گفتیم که این آزمون بررسی می‌کند آیا داده‌ها از خط مستقیم رگرسیون فاصله دارند یا خیر. نتیجه به دست آمده نشان می‌دهد پاسخ این سوال منفی است و داده‌ها یک خط رگرسیونی مناسب را می‌سازند.

 

در کادر Equation معادله آماری رگرسیون آمده است. همان‌گونه که می‌بینید در گروه Control معادله به صورت Y = 12.42*X + 17.42 و در گروه Treated به صورت Y = 17.96*X + 28.48 به دست آمده است.

 

در کادر Data نیز اطلاعاتی درباره تعداد داده‌های X، تعداد تکرار در هر سطر Y، تعداد داده‌های موجود و واقعی جهت برازش مدل و تعداد داده‌های بدون مقدار Missing بیان شده است. همان‌گونه که دیده می‌شود در گروه Control دو عدد و در گروه Treated سه عدد گمشده هستند.

تحلیل نتایج برگه‌ی Line

درباره این برگه از نتایج، توضیحاتی در بالا ارایه دادیم. به اختصار بیان می‌کنیم که نتایج به دست امده در برگه Line به پیش‌بینی مدل رگرسیون به دست آمده به ازای مقادیر خاص X می‌پردازد. این پیش‌بینی در هر گروه در سه ستون Mean که مقدار پیش‌بینی را نشان می‌دهد، Error+ که کران بالای خطای پیش‌بینی و Error- که کران پایین خطای پیش‌بینی را نشان می‌دهد، آمده است.

تحلیل نتایج برگه‌ی Residual

باقیمانده‌ها و یا همان Residual به اختلاف بین مقدار واقعی و مقدار پیش‌بینی شده توسط مدل، گفته می‌شوند. به عناون مثال همان‌گونه که در برگه جدول داده‌ها با نام Linear regression دیده می‌شود، در همان سطر اول به ازای X=1، مقدار Y در اولین تکرار برابر با 34 می‌باشد. مقدار پیش‌بینی شده که در برگه Line دیده می‌شود به ازای X=1 برابر با 29.841 برازش شده است. بنابراین اختلاف آنها 4.159 می‌شود که در اولین خانه برگه Residual دیده می‌شود. بقیه داده‌ها و نتایج در برگه باقیمانده‌ها نیز به همین صورت به دست آمده‌اند.

تحلیل نتایج برگه‌ی ?Are lines different

همان‌گونه که از نام این برگه برمی‌آید، نتایج به سوال ابتدایی ما که در گزینه Compare تنظیمات مدل رگرسیون مطرح کردیم، می‌پردازد. سوال ما این بود که آیا شیب‌ها در هر دو گروه کنترل و درمان همانند هستند و یا این‌که اختلاف معناداری با یکدیگر دارند.

نتایج به دست آمده نشان می‌دهد مقدار احتمال آزمون برابری ضرایب رگرسیونی برابر با 0.0001>P است. این مقدار به وضوح بیانگر رد فرض صفر برابری شیب‌ها است. بنابراین می‌پذیریم که ضریب رگرسیونی در هر گروه متفاوت از یکدیگر می‌باشد و هر یک به مدل رگرسیونی گروه خود اشاره دارد. معنای دیگر این حرف ان است که خط رگرسیونی در گروه‌های Control و Treated با یکدیگر موازی نیستند. ساده‌تر این‌که تاثیر زمان بر غلظت در دو گروه از یکدیگر متفاوت است.

 

رسم گراف مدل رگرسیون خطی

در فولدر Graphs دو برگه با نام‌های Linear regression و Residuals: Linear reg. of Linear regression دیده می‌شود.

هنگامی که روی برگه Linear regression کلیک می‌کنیم، پنجره زیر با نام Change Graph Type باز می‌شود.

 

در این محیط می‌توانید ویرایش‌های دلخواه و مورد نیاز بر روی نحوه نمایش خط رگرسیون هر دو گروه را انجام دهید. اگر OK کنیم شکل زیر رسم خواهد شد.

 

در گراف به دست آمده Error Bar به ازای هر نقطه، خط رگرسیونی و فاصله اطمینان 95 درصد برای خط رگرسیونی که با نقطه چین قابل مشاهده است، رسم شده است. با کلیک کردن بر روی گراف رسم شده و یا مراجعه به منوی Change در بالای صفحه می‌توان، گراف را ویرایش کرد. به عنوان مثال ما در شکل زیر خط رگرسیونی بدون Error Bar را رسم کرده‌ایم. کمی هم رنگ‌ها را ویرایش کرده‌ایم.

 

برگه Residuals: Linear reg. of Linear regression به رسم نمودار از باقیمانده‌ها در برابر X می‌پردازد. این برگه از آن‌جا ساخته شد که گزینه Graphing options را در تنظیمات طراحی نرم‌افزار، علامت زدیم. همان‌گونه که می‌دانید مدل رگرسیونی مناسب است که باقیمانده‌های آن در اطراف خط صفر به تصادف پراکنده شده باشند. در مثال ما گراف به دست آمده بیانگر این ویژگی است. بنابراین مدل‌های رگرسیونی به دست آمده را مناسب می‌دانیم.

 

مانند گراف قبلی با کلیک کردن روی گراف و استفاده از منوی Change می‌توان نحوه نمایش نمودار را ویرایش کرد.

به کارتان می‌آید: کارگاه آموزشی نحوه کار با منوها و برگه‌های گراف پد

در این آموزش آموختیم چگونه می‌توان یک مدل رگرسیون خطی طراحی کرد، پارامترها را براورد و شیب‌ها را با یکدیگر مقایسه کرد. مدل‌ها را از ارزیابی و اندازه درستی آن‌ها را به دست آورد. مقادیر پیش‌بینی را یافت و گراف‌های مناسب را رسم نمود.

 

چگونه به این مقاله رفرنس دهیم

GraphPad Statistics (2019). Design of Linear Regression model with GraphPad Prism. Statistical tutorials and software guides. Retrieved Month, Day, Yearfrom https://graphpad.ir/regression-graphpad-prism/.php

For example, if you viewed this guide on 12th January 2022, you would use the following reference

GraphPad Statistics (2019). Design of Linear Regression model with GraphPad Prism. Statistical tutorials and software guides. Retrieved January, 12, 2022, from https://graphpad.ir/regression-graphpad-prism/.php

ارایه خدمات تحلیل و مشاوره آماری

گراف پد برای شما خدمات مشاوره و انجام انواع تحلیل‌های آماری را ارایه می‌دهد. جهت دریافت نکات بیشتر بهتر است با ما تماس بگیرید.

    گراف پد جمعی از رتبه‌های برتر آزمون دکترا آمار دانشگاه‌های ایران | برجسته در موسسه بین‌المللی تحقیقات | دارای نماد اعتماد الکترونیک از مرکز توسعه تجارت الکترونیکی ایران و مجوز رسمی ثبت به شماره ۴۱۸۸۱ و شناسه ملی ۱۴۰۰۶۸۳۲۳۱۹