قبلی
رگرسیون مولفه های اصلی PCR

رگرسیون مولفه‌های اصلی Principal Component Regression (PCR) در نرم‌افزار Prism

رگرسیون مولفه های اصلی، یک تکنیک پیش‌بینی‌کننده است که جایگزینی برای رگرسیون حداقل مربعات معمولی (OLS)، و رگرسیون حداقل مربعات جزئی (PLS) می‌باشد و زمانی مفید است که کمیت‌های پیش‌بینی‌کننده (X) همبستگی بالایی با یکدیگر دارند یا زمانی که تعداد پیش‌بینی‌کننده‌ها از تعداد موارد (n) بیشتر باشد.

رگرسیون مولفه های اصلی PCR یک روش رگرسیون سریع، کارآمد و بهینه بر اساس کوواریانس است و معمولاً هنگامی استفاده می‌شود که Variableهای توضیحی زیادی که احتمالاً با یکدیگر همبسته هستند، در مطالعه وجود دارند. در زمینه همبسته بودن کمیت‌ها می‌توانید لینک (تشخیص هم خطی Collinearity Diagnostics در مدل های رگرسیونی) را مشاهده کنید.

 

گراف پد

دریافت مجموعه آموزش رگرسیون مولفه‌های اصلی PCR

شامل 65 دقیقه ویدئو، فایل‌های مثال، دیتا و نتایج نرم‌افزار Prism

 

تحلیل PCR روشی است که Variableهای مورد استفاده برای پیش‌بینی را به مجموعه کوچکتری از پیش‌بینی کننده‌ها کاهش می‌دهد. سپس از این مجموعه کوچک شده، برای انجام یک رگرسیون استفاده می‌کند. به این مجموعه‌های کوچک شده که از روی Independent Variableها ساخته می‌شود، اصطلاحاً مولفه Component گفته می‌شود.

PCR ویژگی‌های تحلیل مولفه‌های اصلی Principal Component Analysis (PCA) و رگرسیون چندگانه Multiple Regression را ترکیب می‌کند. ابتدا مجموعه‌ای از عوامل یا همان Component ها را به دست می‌آورد که تا حد امکان بیشترین کوواریانس بین کمیت‌های مستقل را توضیح دهد. این بخش همان کاری است که PCA انجام می‌دهد. در مرحله‌ی بعد، مدل رگرسیون چندگانه را بین مقادیر کمیت وابسته و Component ها ایجاد می‌کند.

تفاوت‌ها و شباهت‌ها

تحلیل‌هایی مانند PLS، OLS، PCA و PCR را می‌توان در یک رده قرار داد. آن‌ها به صورت ترکیبی از تحلیل‌های رگرسیونی و طراحی مولفه‌ها Component کار می‌کنند. با این‌حال با یکدیگر تفاوت‌هایی نیز دارند. در واقع هر کدام از آن‌ها در یک ساختار متفاوت از مطالعه مورد استفاده قرار می‌گیرند.

در ادامه سعی کرده‌ام به بیان تفاوت‌ها و شباهت‌های آن‌ها با یکدیگر می‌پردازم. آموزش هر کدام از آن‌ها را نیز می‌توانید در سایت گراف پد مشاهده کنید.

  •  PCR با OLS 

همان‌گونه که از نام آن‌ها برمی‌آید، Principal Component Regression (PCR) و Ordinary Least Squares Regression (OLS) از نوع تحلیل‌های رگرسیونی هستند. به این معنا که آن‌ها دارای Dependent Variable (DV) و Independent Variable (IV) هستند و ما می‌خواهیم تاثیر IV ها را بر روی DV به دست بیاوریم. PCR رگرسیون مولفه‌های اصلی و OLS رگرسیون حداقل مربعات معمولی است. هم PCR و هم OLS به منظور براورد پارامترها از روش حداقل مربعات و مینیمم کردن مجموع مربع خطاها یعنی $ \displaystyle \sum\limits_{{i=1}}^{n}{{e_{i}^{2}}}$ استفاده می‌کنند.

با این حال تفاوت آن‌ها در این است که PCR تحلیل رگرسیونی را بر روی مولفه‌های (Component) ساخته شده از روی Independent Variable ها انجام می‌دهند و OLS تحلیل رگرسیونی را بر روی خود Independent Variable ها انجام می‌دهد.

البته انجام تحلیل OLS نیاز به برقراری پیش‌فرض‌هایی دارد که در لینک (پیش فرض های تحلیل رگرسیون خطی Linear Regression) می‌توانید مشاهده کنید. از PCR هنگامی که این پیش‌فرض‌ها برقرار نباشد و به ویژه وجود هم خطی در بین کمیت‌های مستقل دیده شود، استفاده می‌کنیم. آموزش رگرسیون OLS را هم می‌توانید در لینک (رگرسیون حداقل مربعات معمولی Ordinary Least Squares regression (OLS)) ببینید.

  •  PCR با PCA 

PCA با نام کامل Principal Component Analysis نامیده می‌شود. بنابراین به معنای این است که PCA فاقد آنالیز رگرسیونی است. دلیل مطلب نیز این است که ما در این تحلیل فاقد کمیت یا کمیت‌هایی با نام Dependent Variable هستیم و هر چه که داریم Independent Variable است. در واقع در PCA نمی‌خواهیم تاثیر IVها را بر روی DV به دست بیاوریم، بلکه می‌خواهیم از روی IVها به ساختن مولفه‌های اصلی یا همان Principal Component (PC) بپردازیم. در لینک (تحلیل مولفه‌های اصلی Principal Component Analysis (PCA)) می‌توانید آموزش PCA را مشاهده کنید.

PCR نیز تا آن‌جا که به موضوع طراحی PC ها مربوط می‌شود با PCA همگام است و مشابه با آن کار می‌کند، اما به دلیل اینکه PCR دارای Dependent Variable است، یک گام از PCA جلوتر است و تحلیل رگرسیونی را بر روی PCهای ساخته شده از روی Independent Variable ها انجام می‌دهد.

  •  PCR با PLS 

نام کامل PCR به صورت رگرسیون مولفه‌های اصلی Principal Component Regression بیان می‌شود. بنابراین PLS و PCR همانند OLS از نوع تحلیل‌های رگرسیونی هستند. به این معنا که آن‌ها دارای Dependent Variable (DV) و Independent Variable (IV) هستند و ما می‌خواهیم تاثیر IV ها را بر روی DV به دست بیاوریم.

هم PLS و هم PCR تحلیل رگرسیونی را بر روی مولفه‌های اصلی PC ها انجام می‌دهند. با این حال تفاوت آن‌ها در نحوه طراحی و ساختن PC ها است. در PLS مولفه‌ها (Component) از روی Independent Variable و Dependent Variable ها ساخته می‌شوند ولی در PCR مولفه‌های اصلی فقط از روی Independent Variable ها طراحی می‌شوند. علاقمند بودید از لینک (رگرسیون حداقل مربعات جزئی Partial Least Squares Regression (PLS)) می‌توانید آموزش PLS را مشاهده کنید.

در این مقاله من به دنبال تعریف و کاربرد رگرسیون مولفه های اصلی PCR با استفاده از نرم‌افزار Prism هستم. در ادامه، مثال این مقاله را مشاهده می‌کنید. فایل دیتا را می‌توانید از اینجا Principal Component Regression دریافت کنید.

مثال Principal Component Regression

 Example 

یک تولیدکننده نوشیدنی می‌خواهد بداند ترکیب شیمیایی نوشیدنی چگونه با ارزیابی‌های حسی مرتبط است. او 37 نمونه دارد که هر کدام با 17 غلظت از عناصر (Cd, Mo, Mn, Ni, Cu, Al, Ba, Cr, Sr, Pb, B, Mg, Si, Na, Ca, P, K) به دست آمده است. او می‌خواهد امتیاز رایحه نوشیدنی را بر مبنای 17 عنصر پیش‌بینی کند.

بنابراین او در مطالعه خود هم دارای Dependent Variable (امتیاز رایحه) و هم تعداد زیادی Independent Variable (17 عنصر مختلف) است. تعداد مشاهدات در مقایسه با تعداد IV ها کم بوده (37 مشاهده) است. در واقع از آنجایی که نسبت نمونه‌ها به پیش‌بینی کننده‌ها کم است، تولیدکننده تصمیم می‌گیرد از رگرسیون مولفه های اصلی PCR استفاده کند.

داده‌ها و این مثال را می‌توانید از لینک (I.E. Frank and B.R. Kowalski (1984). “Prediction of Wine Quality and Geographic Origin from Chemical Measurements by Partial Least-Squares Regression Modeling,” Analytica Chimica Acta, 162, 241 − 251) دریافت کنید.

در تصویر زیر بخشی از داده‌های این مثال آمده است.

مثال Principal Component Regression (PCR) با نرم‌افزار Prism

 

امتیاز رایحه که همان Dependent Variable است در ستون Aroma آمده است. در بقیه ستون‌ها نیز غلظت عناصر مختلف که همان Independent Variable هستند، قرار گرفته است. هدف از این مطالعه این است که بتوانیم با استفاده از تحلیل (PCR) تعداد Variableها مورد نیاز برای توصیف مناسب داده‌ها را کاهش دهیم و سپس بر مبنای مجموعه کوچکی از اجزای اصلی ایجاد شده (مثلاً 3-2 مولفه)، به پیش‌بینی امتیاز رایحه نوشیدنی بپردازیم.

نکتهدر ادامه مراحل انجام Principal Component Regression در نرم‌افزار گراف پد را آورده‌ام. سعی می‌کنم هر یک را با جزئیات بیان کنم. در ابتدا به این نکته توجه کنید که در نرم‌افزار Prism تحلیل PCR در بخش تحلیل‌های PCA قرار گرفته است. در واقع این نرم‌افزار، رگرسیون مولفه‌های اصلی را بخشی از تحلیل‌های مولفه های اصلی می‌داند. بنابراین لازم است به هنگام کار با گراف پد، وارد بخش PCA شویم.

در شیت دیتا و در منوی Analysis بر روی گزینه Analyze می‌زنیم. البته می‌توانیم به صورت مستقیم نیز ابزارک Principal Component Analysis انتخاب کنیم.

انتخاب گزینه PCA

در این صورت وارد پنجره زیر با نام Analyze Data می‌شویم.

پنجره Analyze Data و انتخاب گزینه Principal Component Analysis (PCA)

 

از آن‌جا که PCA یک تحلیل از نوع Multiple است، بنابراین در گزینه‌های Multiple variable analyses قرار دارد. آن را انتخاب می‌کنیم. در سمت راست پنجره بالا نیز اسامی Variable های موجود در مطالعه آمده است. چنانچه احیاناً خواستیم یک یا چند کمیت در مطالعه قرار نگیرد، تیک آن‌ها را بر می‌داریم. با OK کردن وارد پنجره زیر می‌شویم.

پنجره Parameters Principal Component Analysis (PCA)

 

در پنجره Parameters Principal Component Analysis (PCA) به انتخاب تنظیمات نرم‌افزار جهت رگرسیون مولفه‌های اصلی، می‌پردازیم. به منظور فعال شدن PCR ابتدا لازم است در کادر بالا تیک کمیت Aroma را برداریم. این کار به دلیل این است که Aroma باید به عنوان کمیت وابسته Dependent Variable قرار گیرد و هنگامی که تحلیل از نوع PCR را انجام می‌دهیم، نباید کمیت وابسته در تشکیل Component ها مشارکت داشته باشد. (در متن‌های قبلی به تفاوت بین PLS و PCR دقت کنید.)

من در لینک (تحلیل مولفه‌های اصلی Principal Component Analysis (PCA) در نرم‌افزار Prism) به صورت کامل به بیان گزینه‌ها، تب‌ها، تنظیمات و گراف‌های موجود در این پنجره پرداختم. در این مقاله هدف من این است که صرفاً به بیان Principal Component Analysis (PCA) بپردازم. بنابراین از ذکر سایر گزینه‌ها خودداری می‌کنم و خواننده علاقمند را به لینک بالا جهت مشاهده توضیحات بیشتر تحلیل مولفه های اصلی، ارجاع می‌دهم.

نرم‌افزار Prism، گراف‌ها و نمودارهای مختلفی به هنگام اجرا کردن PCR به دست می‌دهد. در ادامه و به هنگام مشاهده نمودارهای به دست آمده، درباره‌ی آن‌ها صحبت می‌کنیم. حال OK می‌کنیم. با انجام این کار در شیت‌های Results و Graphs نتایج و نمودارهای PCR به دست می‌آید. در ادامه مقاله به توضیح و بیان آن‌ها می‌پردازیم.

نتایج رگرسیون مولفه‌های اصلی

 Results 

پس از اجرای رگرسیون مولفه‌های اصلی، در شیت Results نرم‌افزار Prism، صفحه زیر را مشاهده می‌کنید.

شیت Results پس از انجام PCR

 

در صفحه نتایج، تب‌های مختلفی مشاهده می‌کنید. من در تصویر بالا آن‌ها را مشخص کرده‌ام. هر کدام از این تب‌ها به بیان جدول و نتایج مختلفی از تحلیل PCR اشاره می‌کند. در ادامه هر یک را توضیح می‌دهیم.

Tabular results

اولین تبی که در شیت Results دیده می شود با نام Tabular results است. من در تصویر بالا نمای کلی از آن آورده‌ام.

در این تب اطلاعاتی درباره‌ی مولفه‌های اصلی یا همان PCهای تشکیل شده، مقادیر ویژه، نسبت واریانس توضیح داده شده (همراه با نسبت تجمعی آن)، و تعداد PCهای انتخاب شده، آمده است.

به این نکته مهم توجه کنید که PCR قبل از این‌که یک تحلیل رگرسیونی باشد یک PCA است. بنابراین ابتدا به تشکیل و طراحی مولفه‌های اصلی می‌پردازد و سپس با استفاده از Principal Component های به دست آمده به ارایه و انجام رگرسیون PC می‌پردازد. من در تصویر زیر این نتایج را نشان داده‌ام.

نتایج PCها در جدول Tabular results

 

در یک تحلیل PCR، به تعداد Variableها، مولفه اصلی یا همان PC خواهیم داشت. بنابراین ما در اینجا با 17 مولفه اصلی روبه‌رو هستیم. با این حال همه آن‌ها به عنوان انتخاب شده Selected، در تحلیل ما قرار نمی‌گیرند. در این مثال چهار مولفه (از PC1 تا PC4) به اندازه 65.11 درصد پراکندگی و واریانس داده‌ها را بیان می‌کنند. این نتیجه از یافته‌های سطر Cumulative proportion of variance به دست می‌آید. PC1 به تنهایی 24.42% و PC2 به تنهایی 15.72% واریانس داده‌ها را بیان می‌کنند.

بنابراین نتیجه می‌شود که 17 کمیت به 4 مولفه اصلی یا PC تبدیل می شوند. این هدف ابتدایی تحلیل PCR است. یعنی تبدیل تعداد زیاد Variableها به تعداد کمتر PCها، در عین حفظ حداکثری اطلاعات (حدود 65 درصد در این مثال). اما همچنان کار ما تمام نشده است و ما به دنبال ایجاد یک مدل رگرسیونی هستیم.

در بخش دیگر تب Tabular results، اطلاعاتی درباره تعداد کمیت‌ها، مشاهدات، روش انتخاب مولفه‌ها و موارد دیگر آمده است. در تصویر زیر آن‌ها را ببینید.

اطلاعات بیشتر Data summary در تب Tabular results

 

نتایج این بخش نشان می‌دهد ما تعداد 17 کمیت و مولفه داشته‌ایم. نرم‌افزار از روش تحلیل موازی Parallel analysis جهت انتخاب مولفه‌ها استفاده کرده است. در روش تحلیل موازی، 1000 مجموعه دیتا شبیه‌سازی شده و از بین 17 مولفه، 4 مولفه انتخاب شده است. به توضیحات بیشتر درباره‌ی تحلیل موازی علاقمند بودید لینک (تحلیل مولفه‌های اصلی Principal Component Analysis (PCA) در نرم‌افزار Prism) را ببینید.

تعداد مشاهدات جهت آنالیز نیز 37 مورد بوده است. داده گمشده و Missing data هم نداشته‌ایم. این خلاصه موضوعاتی است که در تحلیل PCR مثال ما و در بخش با نام Data summary آمده است.

PCR results

آنچه ما به دنبال آن بودیم یعنی انجام رگرسیون بر روی Componentها در تب PCR results آمده است. در تصویر زیر می‌توانید نتایج آن را مشاهده کنید.

نتایج تب PCR results

 

در این تب، نتایج یک رگرسیون واقعی آمده است و همان چیزی است که ما به دنبال آن بودیم. روش رگرسیون انجام شده نیز حداقل مربعات Least Squares می‌باشد. مانند همه رگرسیون‌ها، در شیت PCR results ابتدا نتایج آنالیز واریانس آمده است. در تصویر زیر آن را ببینید.

نتایج آنالیز واریانس در شیت PCR results

 

نتیجه به دست آمده در جدول آنالیز واریانس بالا، نشان‌دهنده وجود رابطه معنادار بین Dependent Variable امتیاز رایحه نوشیدنی با Independent Variable ها می‌باشد (P value<0.001).

یک چیزی در این نتایج می‌تواند توجه ما را به خود جلب کند. عدد DF درجه آزادی مدل رگرسیونی برابر با 4 به دست آمده است. در حالی که اگر قرار بود ما با یک مدل رگرسیونی خطی Multiple Regression رو‌به رو باشیم باید عدد DF برابر با تعداد کمیت‌های مستقل موجود در مدل و برابر با 17 بود. پس چرا درجه آزادی در اینجا 4 است؟

پاسخ این است که ما در اینجا با یک مدل رگرسیون خطی چندگانه Multiple Linear Regression (MLR) روبه‌رو نیستیم، بلکه ما یک مدل رگرسیون مولفه‌های اصلی PCR انجام می‌دهیم. در بالاتر نیز گفتیم این مدل رگرسیونی بر روی Independent Variable ها انجام نمی‌شود، بلکه بر روی Component های تشکیل شده از روی کمیت‌های مستقل انجام می‌شود. از آن‌جا که ما 4 مولفه اصلی در این مثال شناسایی کردیم، بنابراین تعداد درجات آزادی مدل رگرسیونی ما نیز به تعداد مولفه‌های اصلی یعنی چهار خواهد بود و نه به تعداد کمیت‌های مستقل یعنی 17.

 شاید مهم‌ترین هدفی که ما از تحلیل Principal Component Regression (PCR) داشتیم، رسیدن به نتایج جدول ضرایب و براورد پارامترهای رگرسونی، یعنی یافتن میزان و اندازه تاثیر هر کمیت مستقل بر روی کمیت وابسته بوده است. درست است که مدل PCR بر روی Component ها اجرا می‌شود، اما هدف نهایی ما از اجرای مدل، درک اثرگزاری هر Independent بر روی Dependent (البته به واسطه‌ی اجرا کردن یک مدل رگرسیون مولفه‌های اصلی) بوده است. این نتیجه‌ای است که در جدول زیر به دست آمده است. آن را ببینید.

نتایج براورد ضرایب رگرسیونی و مقادیر احتمال آن‌ها در مدل رگرسیونی مولفه‌های اصلی

 

در واقع یکی از خوبی‌های نرم‌افزار Prism این است که پس از اجرای مدل رگرسیون مولفه های اصلی PCR بین کمیت وابسته و Principal Component ها، ضرایب رگرسیونی را به خود کمیت‌های مستقل تبدیل می‌کند. این کار و فهم ما را ساده‌تر می‌کند. در واقع Prism یک گام جلوتر حرکت می‌کند و به جای ارایه گزارش و بیان نتایج ضرایب رگرسیونی بر روی Component ها، که خب شاید فهم آن‌ها برای ما سخت باشد، کار را ساده‌تر می‌کند و نتایج PCR به دست آمده را روی Independent Variable های مطالعه، تبدیل می‌کند.

ضرایب مثبت در این جدول، نشان‌دهنده تاثیر مثبت افزایش غلظت آن عنصر بر امتیاز رایحه و ضرایب منفی بیانگر تاثیر منفی افزایش غلظت آن عنصر بر روی امتیاز رایحه است. در مواردی هم که نزدیک به صفر هستند، نشان‌دهنده تاثیر ضعیف و اندک عنصر بر امتیاز رایحه نوشیدنی است. از نتایج ستون P value می‌توانیم معنادار بودن یا نبودن تاثیر عنصر بر امتیاز رایحه نوشیدنی را به دست بیاوریم.

به عنوان مثال این جدول نشان می‌دهد عنصر کادمیوم Cd تاثیر مثبت (Estimate = 3.398) بر رایحه نوشیدنی دارد. با این حال عنصر Ba تاثیر منفی (Estimate = -1.909) بر رایحه نوشیدنی دارد. بقیه موارد را نیز می‌توانید در جدول بالا مشاهده کنید.

Eigenvalue

در این تب مقادیر ویژه Eigenvalue مربوط به هر PC آمده است. هم مقادیر ویژه مربوط به داده‌های مورد تحلیل قرار گرفته (استاندارد شده) و هم مقادیر ویژه به دست آمده از روش شبیه‌سازی و تحلیل موازی. در تصویر زیر آن‌ها را ببینید.

نتایج تب Eigenvalue در تحلیل PCR

 

در تب بالا و در بخش مربوط به Eigenvalue (from data)، مقادیر ویژه هر PC آمده است. این نتایج از تحلیل عاملی بر روی داده‌های استاندارد شده حاصل می‌شود. در بخش Eigenvalue (from Parallel Analysis)، مقادیر ویژه به دست آمده از تحلیل‌های عاملی بر روی داده‌های شبیه‌سازی شده (1000 مجموعه دیتا توسط نرم‌افزار ساخته شده است.) مشاهده می شود.

به ازای هر PC، میانگین، Upper Limit که همان صدک 95 ام، 1000 مقدار ویژه به دست آمده از شبیه‌سازی است، همراه با Lower Limit که صدک 5 ام، مقادیر ویژه است، دیده می‌شود. به یاد داشته باشید در لینک (تحلیل مولفه‌های اصلی Principal Component Analysis (PCA)) برای روش تحلیل موازی بیان کردیم که مولفه‌هایی انتخاب می‌شوند که مقادیر ویژه آنها از صدک 95‌ام بزرگتر باشد.

همان‌گونه که در نتایج جدول بالا مشاهده می‌کنید، فقط برای PC1 تا PC4 است که مقادیر ویژه به دست آمده از روی داده‌های استاندارد شده آن‌ها بزرگتر از مقادیر ویژه صدک 95 ام است، به همین دلیل آن‌ها جهت اجرای مدل PCR انتخاب شده‌اند و بقیه PC ها در مدل قرار نگرفته‌اند.

Loadings

تب بعدی در شیت نتایج نرم‌افزار Prism، با نام Loadings معرفی می‌شود. فهم نتایج این شیت ساده است. ابتدا در تصویر زیر آن را ببینید.

نتایج تب Loadings

 

خوب است ابتدا بدانید اعداد نوشته شده، همبستگی Correlation هستند. بنابراین در بازه 1+ تا 1- قرار دارند. هر عدد نشان‌دهنده ارتباط بین Variable با PC انتخاب شده است. به عنوان مثال عدد 0.854- بیانگر وجود ارتباط قوی و وارون بین Mo و PC2 است.

کاربرد نتایج تب Loadings در این جهت است که ما می‌توانیم تشخیص دهیم، هر Variable در کدام PC بهتر است قرار گیرد. به عنوان مثال برای Ni عدد جدول Loadings برای PC4 بزرگتر از بقیه و برابر با 0.433 به دست آمده است. این عدد نشان می‌دهند Ni بیشتر تمایل دارد به PC4 تعلق گیرد، زیرا دارای همبستگی قوی‌تری با آن به نسبت سایر PC ها است.

به همین ترتیب برای سایر Variableها، در هر PC که عدد آن بزرگتر بود (به صورت قدرمطلق و صرفنظر از مثبت یا منفی بودن آن)، به همان PC تعلق می‌گیرد. من در جدول بالا با استفاده از رنگ، مشخص کردم که هر Variable متعلق به کدام PC است.

تب بعدی نتایج با نام PC scores شناخته می‌شود. به منظور درک آن‌ها به نظرم بهتر است ابتدا درباره نتایجی با نام بردارهای ویژه Eigenvectors صحبت کنیم. البته ما فعلاً این تب را در نتایج PCR خود نمی‌بینیم. در ادامه درباره‌ی آن‌ها صحبت می‌کنیم.

Eigenvectors

بردارهای ویژه Eigenvectors که به آن‌ها بردارهای مولفه اصلی Principal Component Vectors نیز می‌گویند، بیانگر ضرایب مدل خطی بین PCها با Variableها هستند. جهت به دست آوردن آن‌ها لازم است بار دیگر به تنظیمات پنجره Parameters Principal Component Analysis (PCA) بازگردیم. در آنجا از تب Output گزینه Eigenvectors را انتخاب می‌کنیم. تصویر زیر را ببینید.

تب Output و انتخاب گزینه Eigenvectors

 

با OK کردن همان نتایج PCR تکرار می‌باشد، منتهی این‌بار یک شیت جدید به نام Eigenvectors به نتایج نرم‌افزار اضافه شده است. در تصویر زیر من جدول بردارهای ویژه برای مولفه‌های اصلی انتخاب شده را آورده‌ام.

نتایج تب Eigenvectors در تحلیل PCR

 

بیان کردیم که بردارهای ویژه Eigenvectors بیانگر ضرایب مدل خطی بین PCها با Variableها هستند. به عنوان مثال مدل‌های زیر را ببینید.

$\displaystyle \begin{array}{l}PC1\begin{array}{*{20}{c}} {} \end{array}is\begin{array}{*{20}{c}} {} \end{array}defined\begin{array}{*{20}{c}} {} \end{array}as=\left( {0.044\times Cd} \right)-\left( {0.163\times Mo} \right)+\left( {0.032\times Mn} \right)\begin{array}{*{20}{c}} {} \end{array}and\begin{array}{*{20}{c}} {} \end{array}so\begin{array}{*{20}{c}} {} \end{array}on\\PC2\begin{array}{*{20}{c}} {} \end{array}is\begin{array}{*{20}{c}} {} \end{array}defined\begin{array}{*{20}{c}} {} \end{array}as=-\left( {0.360\times Cd} \right)-\left( {0.522\times Mo} \right)-\left( {0.124\times Mn} \right)\begin{array}{*{20}{c}} {} \end{array}and\begin{array}{*{20}{c}} {} \end{array}so\begin{array}{*{20}{c}} {} \end{array}on\end{array}$

در این مدل‌ها رابطه خطی بین عناصر به عنوان Independent Variables با هر کدام از PC ها نوشته شده است. از آن‌جا که می‌توان بردارهای ویژه را به عنوان ضرایب رگرسیونی در نظر گرفت، بنابراین عدد بزرگتر مقدار ویژه به معنای تاثیر بیشتر آن Variable بر PC است. به این نکته دقت کنید که نتیجه‌ای که تب Loadings در تعلق Variable به PC به دست می‌دهد همانند نتایج تب Eigenvectors است.

PC scores

به منظور درک نتایج این تب، بهتر است یکبار دیگر نتایج تب Eigenvector را ببینید. من در آن‌جا از یک مدل خطی رگرسیونی صحبت کردیم که در آن PCها، کمیت وابسته Dependent Variable (DV) و Eigenvectorها ضرایب مدل رگرسیونی بودند.

آنچه در این تب و در تصویر زیر مشاهده می‌کنید، در واقع همان DVهای برازش شده برای هر فرد، در مدل رگرسیونی است که ما به آن PC Score می‌گوییم. آن‌ها را ببینید.

نتایج تب PC Scores

 

اعداد نوشته شده در ستون‌های PC1 تا PC4، مقدار برازش شده به ازای هر مشاهده (37 مورد داشتیم) برای مدل رگرسیون خطی است که در آن Variableها همان Independent Variable (IV) هستند.

چنانچه علاقمند باشیم از نتایج این شیت می‌توانیم در یک تحلیل رگرسیون چندگانه که در آن Aroma به عنوان کمیت وابسته و PCها به عنوان کمیت‌های مستقل Independent Variable مطرح هستند، استفاده کرد.

به این ترتیب ما تا اینجا توانستیم به بیان و توضیح جداول و نتایج به دست آمده از رگرسیون مولفه‌های اصلی در شیت Results بپردازیم. همچنان به شما توصیه می‌کنم که جهت مشاهده توضیحات و جداول بیشتر به لینک (تحلیل مولفه‌های اصلی Principal Component Analysis (PCA)) مراجعه کنید. در آن‌جا می‌توانید چیزهای بیشتری درباره تحلیل مولفه‌های اصلی ببینید و به دست بیاورید.

در ادامه کار به توضیح و مشاهده نمودارها و گراف‌های نتیجه شده از PCR خواهیم پرداخت.

گراف‌های رگرسیون مولفه‌های اصلی

 Graphs 

در یک تحلیل رگرسیون مولفه های اصلی Principal Component Regression با استفاده از نرم‌افزار Prism، گراف‌ها و نمودارهای متنوعی به دست می‌آید. نرم‌افزار Prism در رگرسیون مولفه های اصلی PCR، چهار نمودار و گراف به نام‌های زیر برای ما رسم می‌کند.

  • Loadings
  • PC scores
  • Biplot
  • Proportion of variance

در ادامه درباره‌ی هر یک توضیح می‌دهیم. از گراف Loadings شروع می‌کنیم. به عنوان مثال در گراف زیر PC1 و PC2 آمده است. در تصویر زیر آن را ببینید.

گراف Loadings بین PC1 و PC2

 

چنانچه علاقمند باشیم که گراف Loadings را بر روی PC های دیگری نیز به دست بیاوریم، کافی است از منوی Change در بالای گراف، گزینه‌ی Choose a different type of graph را انتخاب کنیم. با این کار وارد پنجره Change Graph Type می‌شویم. در آن‌جا می‌توانیم به دلخواه PC های خود را جهت رسم در نمودار Loadings قرار دهیم. تصویر زیر را ببینید.

پنجره Change Graph Type

 

برای فهم گراف‌های Loadings بهتر است به شیت Results و تب Loadings بروید. در آن‌جا بیان کردیم که همبستگی بین هر کدام از Variableها با PCها به دست آمده است. در نمودارهای Loadings همبستگی هر Variable به صورت آرایه (x,y) که در آن x همبستگی کمیت با PC قرار گرفته در محور افقی و y همبستگی با PC قرار گرفته در محور عمودی است، گزارش می‌شود.

به عنوان مثال در گراف بالا برای عنصر Al آرایه (0.424 ,0.050) به دست آمده است. این آرایه نشان می‌دهد، Al با PC1، همبستگی به اندازه 0.050 و با PC2 همبستگی 0.424 واحد دارد.

در گراف Loadings می‌توانید آرایه‌های همبستگی به ازای هر Variable را ببینید. دایره‌ها همان نقاط عددی همبستگی برای PC1 و PC2 هستند. خطوط نیز از مبدا مختصات و از نقطه (0 ,0) رسم شده‌اند. قبلاً نیز بیان کردیم همبستگی کمیت با هر کدام از PCها که بیشتر باشد، به آن PC اختصاص داده می‌شود.

کاربرد دیگر گراف Loadings در این است که می‌توانیم به رابطه بین Variableها با یکدیگر نیز پی ببریم. همانطور که در نمودار بالا نشان داده شده است، عناصر Ba، Sr و K به صورت خوشه‌ای نزدیک به هم هستند که نشان می‌دهد آن‌ها دارای همبستگی مثبت با یکدیگر هستند. در مقایسه، بردارهای Al و Si یا یکدیگر زاویه تقریباً قائم را تشکیل می‌دهند که نشان می‌دهد با یکدیگر همبستگی ندارند. با انتخاب گزینه Correlation matrix در تب Output تنظیمات نرم‌افزار و به دست آوردن ماتریس همبستگس بین عناصر، می‌توانیم تایید کنیم که این فرضیات تا حد زیادی درست هستند.

گراف بعدی نرم‌افزار Prism، با نام PC Scores دیده می‌شود. در تصویر زیر آن را آورده‌ام. در این‌جا نیز گراف به عنوان نمونه بر روی PC1 و PC2 رسم شده است.

گراف PC Scores در تحلیل PCR

 

معمولاً گراف‌ها در نرم‌افزار Prism، بیانگر نتایج به دست آمده و درکی شهودی از آن‌ها هستند. گراف PC Scores نیز نتایج تب PC Scores در شیت نتایج را نشان می‌دهد. به منظور اختصار، می‌توانید به توضیحات بیان شده در تب PC Scores مراجعه کنید.

در این گراف هر دایره یک فرد و ردیف در شیت دیتا را نشان می‌دهد. از گراف PC Score می‌توانیم جهت شناسایی داده‌های پرت یا غیرمعمول Outliers or Unusual، مطالعه نیز استفاده کنیم. در واقع داده‌هایی که دورتر از سایر افراد در گراف PC Score قرار می‌گیرند، به عنوان افرادی که حجم و درصد زیادی از واریانس را در بر می‌گیرند، گزارش می‌شوند. در تصویر بالا یکی از آن‌ها را مشخص کرده‌ام. چنانچه موس را بر روی دایره‌های مشخص شده در بالا ببرید، می‌توانید شماره ردیف آن‌ها را در شیت دیتا مشاهده کنید.

گراف بعدی رگرسیون مولفه‌های اصلی با نام Biplot شناخته می‌شود. در تصویر زیر آن را ببینید.

Biplot برای PC1 و PC2 در تحلیل PCR

 

شاید بتوان گفت Biplot چیز جدیدی نیست و از ترکیب گراف‌های بالا یعنی Loadings و PC scores به دست می‌آید. به هر حال اگر علاقمند بودید، آن‌ها را در یک نمودار و کنار هم ببینید، می‌توانید از Biplotها استفاده کنید.

باز هم به این نکته دقت کنید که با استفاده از منوی Change در بالای گراف و انتخاب گزینه‌ی Choose a different type of graph می‌توانیم به دلخواه PC های خود را جهت رسم در نمودار Biplot قرار دهیم. به عنوان مثال من در ادامه Biplot برای PC های 3 و 4 را رسم کرده‌ام. تصویر زیر را ببینید.

Biplot برای PC3 و PC4 در تحلیل PCR

 

در نهایت هنگام انجام تحلیل رگرسیون مولفه های اصلی PCR با نرم‌افزار Prism، گراف دیگری با نام Proportion of variance آمده است. این نمودار به واریانس توضیح داده شده توسط هر PC اشاره می‌کند. در تصویر زیر آن را می‌بینید.

گراف Proportion of variance در تحلیل PCR

 

نتایج این گراف را می‌توانید در تب Tabular results ببینید. در نمودار Proportion of variance، خط به معنای واریانس بیان شده توسط هر PC است. همواره این خط نزولی است و می‌توان آن را شِمای دیگری از گراف Eigenvalues دانست. با افزایش تعداد PCها، واریانس بیان شده توسط هر کدام، کاهش می‌یابد. به همین دلیل ما معمولاً فقط سه یا چهار PC ابتدایی را انتخاب می‌کنیم.

همچنین در نمودار بالا، ستون‌ها به معنای واریانس تجمعی توضیح داده شده توسط مولفه‌های اصلی هستند. به سادگی می‌دانیم روند آن‌ها صعودی است و در انتها به عدد 100 می‌رسند. این گراف نشان می‌دهد PC1 تا PC4 روی هم، حدود 65 درصد پراکندگی و واریانس داده‌ها را توضیح می‌دهند که عدد مناسبی است.

 

در این مقاله به موضوع رگرسیون مولفه های اصلی (PCR) Principal Component Regression در نرم‌افزار GraphPad Prism پرداختیم. جداول و نمودارهای به دست آمده را بیان کرده و هر یک را توضیح دادیم.

 

چگونه به این مقاله رفرنس دهیم

GraphPad Statistics (2023). Principal Component Regression (PCR) in Prism software. Statistical tutorials and software guides. Retrieved Month, Day, Yearfrom https://graphpad.ir/principal-component-regression-prism/.php

For example, if you viewed this guide on 12th January 2023, you would use the following reference

GraphPad Statistics (2023). Principal Component Regression (PCR) in Prism software. Statistical tutorials and software guides. Retrieved January, 12, 2022, from https://graphpad.ir/principal-component-regression-prism/.php

ارایه خدمات تحلیل و مشاوره آماری

گراف پد برای شما خدمات مشاوره و انجام انواع تحلیل‌های آماری را ارایه می‌دهد. جهت دریافت نکات بیشتر بهتر است با ما تماس بگیرید.

    گراف پد جمعی از رتبه‌های برتر آزمون دکترا آمار دانشگاه‌های ایران | برجسته در موسسه بین‌المللی تحقیقات | دارای نماد اعتماد الکترونیک از مرکز توسعه تجارت الکترونیکی ایران و مجوز رسمی ثبت به شماره ۴۱۸۸۱ و شناسه ملی ۱۴۰۰۶۸۳۲۳۱۹