قبلی
رگرسیون حداقل مربعات جزئی

رگرسیون حداقل مربعات جزئی Partial Least Squares Regression (PLS) با SPSS

روش رگرسیون حداقل مربعات جزئی، که از آن به عنوان طراحی ساختار نهفته Projection to Latent Structure نیز نام برده می‌شود. یک تکنیک پیش‌بینی‌کننده است که جایگزینی برای رگرسیون حداقل مربعات معمولی (OLS)، همبستگی کانونی Canonical Correlation و مدل‌سازی معادلات ساختاری Structural Equation Modeling (SEM) می‌باشد، و به‌ویژه زمانی مفید است که کمیت‌های پیش‌بینی‌کننده (X) همبستگی بالایی دارند یا زمانی که تعداد پیش‌بینی‌کننده‌ها از تعداد موارد (n) بیشتر باشد.

رگرسیون حداقل مربعات جزئی (PLS) یک روش رگرسیون سریع، کارآمد و بهینه بر اساس کوواریانس است و معمولاً هنگامی استفاده می‌شود که Variableهای توضیحی زیادی که احتمالاً با یکدیگر همبسته هستند، در مطالعه وجود دارند. در زمینه همبسته بودن کمیت‌ها می‌توانید لینک (تشخیص هم خطی Collinearity Diagnostics در مدل های رگرسیونی) را مشاهده کنید.

 

گراف پد

دریافت مجموعه آموزش رگرسیون حداقل مربعات جزئی PLS

شامل 75 دقیقه ویدئو، فایل‌های مثال، دیتا و نتایج نرم‌افزار SPSS

 

رگرسیون PLS روشی است که Variableهای مورد استفاده برای پیش‌بینی را به مجموعه کوچکتری از پیش‌بینی کننده‌ها کاهش می‌دهد. سپس از این مجموعه کوچک شده، برای انجام یک رگرسیون استفاده می‌شود. به این مجموعه‌های کوچک شده که از روی Independent Variableها ساخته می‌شود فاکتورهای نهفته Latent Factors گفته می‌شود. به همین دلیل است که نام دیگر Partial Least Squares Regression، طراحی ساختار نهفته Projection to Latent Structure است.

 
رگرسیون حداقل مربعات جزئی

 Partial Least Squares regression (PLS) 

PLS ویژگی‌های تحلیل مولفه‌های اصلی Principal Component Analysis (PCA) و رگرسیون چندگانه Multiple Regression را ترکیب می‌کند. ابتدا مجموعه‌ای از عوامل نهفته Latent Factors را به دست می‌آورد که تا حد امکان بیشترین کوواریانس بین کمیت‌های مستقل و وابسته را توضیح دهد. این بخش همان کاری است که PCA انجام می‌دهد. در مرحله‌ی بعد، مدل رگرسیون چندگانه بین مقادیر کمیت وابسته و Latent Factors را ایجاد می‌کند.

ایده رگرسیون PLS این است که با شروع از جدولی با n مشاهده توصیف شده توسط p کمیت، مجموعه‌ای از h مولفه را با الگوریتم‌هایی با نام PLS 1 و PLS 2 ایجاد کنیم. برخی از نرم‌افزارها PLS 1 را از PLS 2 متمایز می‌کنند. PLS 1 مربوط به حالتی است که تنها یک کمیت وابسته Dependent Variable وجود دارد. همچنین PLS 2 مربوط به حالتی است که چندین کمیت وابسته وجود دارد. واضح است که PLS 1 تنها یک مورد خاص از PLS 2 است.

 

تفاوت‌ها و شباهت‌ها

تحلیل‌هایی مانند PLS، OLS، PCA و PCR را می‌توان در یک رده قرار داد. آن‌ها به صورت ترکیبی از تحلیل‌های رگرسیونی و طراحی مولفه‌ها Component کار می‌کنند. با این‌حال با یکدیگر تفاوت‌هایی نیز دارند. در واقع هر کدام از آن‌ها در یک ساختار متفاوت از مطالعه مورد استفاده قرار می‌گیرند.

من در ادامه سعی کرده‌ام به اختصار به بیان تفاوت‌ها و شباهت‌های آن‌ها با یکدیگر می‌پردازم. آموزش هر کدام از آن‌ها را نیز می‌توانید در سایت گراف پد مشاهده کنید.

  •  PLS با OLS 

همان‌گونه که از نام آن‌ها برمی‌آید، Partial Least Squares Regression (PLS) و Ordinary Least Squares Regression (OLS) از نوع تحلیل‌های رگرسیونی هستند. به این معنا که آن‌ها دارای Dependent Variable (DV) و Independent Variable (IV) هستند و ما می‌خواهیم تاثیر IV ها را بر روی DV به دست بیاوریم. PLS رگرسیون حداقل مربعات جزئی و OLS رگرسیون حداقل مربعات معمولی است. هم PLS و هم OLS به منظور براورد پارامترها از روش حداقل مربعات و مینیمم کردن مجموع مربع خطاها یعنی $ \displaystyle \sum{{e_{i}^{2}}}$ استفاده می‌کنند.

با این حال تفاوت آن‌ها در این است که PLS تحلیل رگرسیونی را بر روی مولفه‌های (Component) ساخته شده از روی Independent Variable و Dependent Variable ها انجام می‌دهند و OLS تحلیل رگرسیونی را بر روی خود Independent Variable ها انجام می‌دهد.

البته انجام تحلیل OLS نیاز به برقراری پیش‌فرض‌هایی دارد که در لینک (پیش فرض های تحلیل رگرسیون خطی Linear Regression) می‌توانید مشاهده کنید. از PLS هنگامی که این پیش‌فرض‌ها برقرار نباشد و به ویژه وجود هم خطی در بین کمیت‌های مستقل دیده شود، استفاده می‌کنیم. آموزش رگرسیون OLS را هم می‌توانید در لینک (رگرسیون حداقل مربعات معمولی Ordinary Least Squares regression (OLS)) ببینید.

  •  PLS با PCA 

PCA با نام کامل Principal Component Analysis نامیده می‌شود. بنابراین به معنای این است که PCA فاقد آنالیز رگرسیونی است. دلیل مطلب نیز این است که ما در این تحلیل فاقد کمیت یا کمیت‌هایی با نام Dependent Variable هستیم و هر چه که داریم Independent Variable است. در واقع در PCA نمی‌خواهیم تاثیر IVها را بر روی DV به دست بیاوریم، بلکه می‌خواهیم از روی IVها به ساختن مولفه‌های اصلی یا همان Principal Component (PC) بپردازیم. در لینک (تحلیل مولفه‌های اصلی Principal Component Analysis (PCA)) می‌توانید آموزش PCA را مشاهده کنید.

PLS نیز تا آن‌جا که به موضوع طراحی PC ها مربوط می‌شود با PCA همگام است و مشابه با آن کار می‌کند، اما به دلیل اینکه PLS دارای Dependent Variable است، یک گام از PCA جلوتر است و تحلیل رگرسیونی را بر روی PCهای ساخته شده از روی Independent Variable و Dependent Variable ها انجام می‌دهد.

  •  PLS با PCR 

نام کامل PCR به صورت رگرسیون مولفه‌های اصلی Principal Component Regression بیان می‌شود. بنابراین PLS و PCR همانند OLS از نوع تحلیل‌های رگرسیونی هستند. به این معنا که آن‌ها دارای Dependent Variable (DV) و Independent Variable (IV) هستند و ما می‌خواهیم تاثیر IV ها را بر روی DV به دست بیاوریم.

هم PLS و هم PCR تحلیل رگرسیونی را بر روی مولفه‌های اصلی PC ها انجام می‌دهند. با این حال تفاوت آن‌ها در نحوه طراحی و ساختن PC ها است. در PLS مولفه‌ها (Component) از روی Independent Variable و Dependent Variable ها ساخته می‌شوند ولی در PCR مولفه‌های اصلی فقط از روی Independent Variable ها طراحی می‌شوند. علاقمند بودید از لینک (رگرسیون مولفه‌های اصلی Principal Component Regression (PCR)) می‌توانید آموزش PCR را مشاهده کنید.

در این مقاله من به دنبال تعریف و کاربرد رگرسیون حداقل مربعات جزئی با استفاده از نرم‌افزار SPSS هستم. در ادامه مثال این مقاله را مشاهده می‌کنید. فایل دیتا را می‌توانید از اینجا Partial Least Squares Regression دریافت کنید.

 

مثال Partial Least Squares Regression

 Example 

یک تولیدکننده نوشیدنی می‌خواهد بداند ترکیب شیمیایی او چگونه با ارزیابی‌های حسی مرتبط است. او 37 نمونه دارد که هر کدام با 17 غلظت از عناصر (Cd, Mo, Mn, Ni, Cu, Al, Ba, Cr, Sr, Pb, B, Mg, Si, Na, Ca, P, K) به دست آمده است. او می‌خواهد امتیاز رایحه نوشیدنی را بر مبنای 17 عنصر پیش‌بینی کند.

بنابراین او در مطالعه خود هم دارای Dependent Variable (امتیاز رایحه) و هم تعداد زیادی Independent Variable (17 عنصر مختلف) است. تعداد مشاهدات در مقایسه با تعداد IV ها کم بوده (37 مشاهده) است. در واقع از آنجایی که نسبت نمونه‌ها به پیش‌بینی کننده‌ها کم است، تولیدکننده تصمیم می‌گیرد از رگرسیون حداقل مربعات جزئی PLS استفاده کند.

داده‌ها و این مثال را می‌توانید از لینک (I.E. Frank and B.R. Kowalski (1984). “Prediction of Wine Quality and Geographic Origin from Chemical Measurements by Partial Least-Squares Regression Modeling,” Analytica Chimica Acta, 162, 241 − 251) دریافت کنید.

در تصویر زیر بخشی از داده‌های این مثال آمده است.

مثال Partial Least Squares Regression (PLS) با نرم‌افزار SPSS

 

امتیاز رایحه که همان Dependent Variable است در ستون Aroma آمده است. در بقیه ستون‌ها نیز غلظت عناصر مختلف که همان Independent Variable هستند، قرار گرفته است. جهت انجام Partial Least Squares Regression از مسیر زیر در نرم‌افزار SPSS استفاده می‌کنیم.

Analyze → Regression → Partial Least Squares

 

مسیر رگرسیون حداقل مربعات جزئی در نرم افزار SPSS

 

با رفتن به مسیر بالا، پنجره زیر با نام Partial Least Squares Regression برای ما باز می‌شود. آن را ببینید.

پنجره Partial Least Squares Regression

 

من بخش‌های مختلف آن را شماره‌گزاری کرده‌ام. در ادامه به توضیح هر یک می‌پردازم.

 1  در کادر Dependent Variables همان کمیت وابسته یعنی امتیاز رایحه نوشیدنی قرار می‌گیرد. نکته جالب توجه این است که ما در یک مطالعه PLS می‌توانیم از Dependent Variable اسمی و یا رتبه‌ای نیز استفاده کنیم. در این حالت یکی از کدها به عنوان Reference Category تعریف می‌شود. این مطلب به معنای آن است که ما حتی می‌توانیم از PLS در تحلیل‌های دارای کمیت وابسته باینری (رخداد، عدم رخداد) نیز استفاده کنیم.

 2  Independent Variables ها یعنی همان 17 عنصر مختلف در این کادر قرار خواهند گرفت. هدف ما طراحی عوامل نهفته Latent Factors بر روی این کمیت‌های مستقل و در مرحله بعد انجام تحلیل رگرسیونی بر روی آن‌ها است.

 3  در کادر Maximum number of latent factors حداکثر تعداد عوامل نهفته که در تحلیل PLS قابل دستیابی هستند، نوشته می‌شود. توصیه من این است که در گام ابتدایی تحلیل تعداد بیشینه قابل دستیابی برای latent factorها را برابر با تعداد Independent Variableهای مطالعه خود قرار دهید. پس از آن و بر مبنای نتایجی که نرم‌افزار با این انتخاب برای ما قرار می‌دهد، تعداد latent factor بهینه را به دست خواهیم آورد. بنابراین من فعلاً در این کادر عدد 17 یعنی تعداد کمیت‌های مستقل (17 عنصر) را نوشته‌ام.

 4  در تب Model می‌توانیم مدل رگرسیونی خود را ببینیم و انتخاب کنیم. پنجره زیر را مشاهده کنید.

تب Model در تحلیل رگرسیون حداقل مربعات جزئی PLS

 

نرم‌افزار SPSS به صورت پیش فرض بر روی گزینه‌ی Main effects قرار دارد. به معنای اینکه در مدل رگرسیونی فقط اثرات اصلی قرار می‌گیرد. چنانچه علاقمند باشیم مدل را خودمان بسازیم، مثلاً اثرات متقابل Interaction برخی از کمیت‌های مستقل با یکدیگر را هم قرار دهیم، از گزینه Custom استفاده می‌کنیم. در این گزینه می‌توانیم علاوه بر اثرات اصلی، اثرات چندگانه k-way را نیز وارد مدل کنیم.

 5  چنانچه علاقمند باشیم یافته‌ها و نتایج بیشتری از تحلیل PLS خود در نرم‌افزار SPSS به دست بیاوریم، وارد تب Options می‌شویم. پنجره زیر را مشاهده کنید.

تب Options پنجره Partial Least Squares Regression

 

در تب Options می‌توانیم براوردهای بیشتری برای هر کدام از مشاهدات Individual Cases، فاکتورهای نهفته Latent Factors و کمیت‌های مستقل Independent Variables به دست بیاوریم. این نتایج شامل موارد زیر است.

 

Save estimates for individual cases. Saves the following casewise model estimates: predicted values, residuals, distance to latent factor model, and latent factor scores. It also plots latent factor scores.

Save estimates for latent factors. Saves latent factor loadings and latent factor weights. It also plots latent factor weights.

Save estimates for independent variables. Saves regression parameter estimates and variable importance to projection (VIP). It also plots VIP by latent factor.

 

نرم‌افزار برای Individual Cases یافته‌هایی مانند مقادیر پیش‌بینی شده، باقیمانده‌ها، فاصله تا مدل فاکتور نهفته، نمرات فاکتور نهفته و گراف‌های مربوط به نمرات فاکتور نهفته را به دست می‌آورد.

همچنین برای فاکتورهای نهفته بارها و وزن‌ها به همراه نمودار وزن‌های فاکتور نهفته، به دست می‌آید.

برای کمیت‌های مستقل نیز براوردهای پارامتر رگرسیونی و اندازه اهمیت هر کمیت برای طرح به دست می‌آید. همچنین می‌توان گراف‌های اندازه اهمیت را مشاهده کرد.

درباره‌ای این نتایج و خروجی‌های به دست آمده از تحلیل رگرسیون حداقل مربعات جزئی با استفاده از نرم‌افزار SPSS، در ادامه بیشتر صحبت خواهیم کرد. نکته مهم در تب Options این است که نرم‌افزار به صورت پیش‌فرض این گزینه‌ها را انتخاب نمی‌کند. بنابراین لازم است ما آن‌ها را انتخاب کرده و از آن‌جا که قرار است هر کدام از نتایج در فایل‌های جدیدی قرار گیرند، برای آن‌ها نام دلخواه قرار دهیم.

 

نتایج و خروجی‌های PLS

 Output & Results 

حال OK کنید. با انجام این کار در Output و خروجی نرم‌افزار، نتایج تحلیل PLS به دست می‌آید.

 

نکته همان‌گونه که قبلاً گفتیم این بخش از تحلیل‌ها گام ابتدایی خواهد بود. به دلیل اینکه ما در کادر Maximum number of latent factors حداکثر تعداد عوامل نهفته را برابر با تعداد Independent Variableها یعنی 17 قرار داده‌ایم. به نظر می‌رسد این کار چندان منطقی نیست. به دلیل اینکه یکی از اهداف رگرسیون حداقل مربعات جزئی، کاهش تعداد کمیت‌های مستقل و دستیابی به فاکتورهای نهفته است. بنابراین اگر قرار باشد تعداد Latent Factorها برابر با Independent Variableها باشد، اصلاً چه نیازی به تحلیل PLS است؟ پاسخ این است که بله ما هم این موضوع را می‌دانیم که لازم است تعداد فاکتورهای نهفته کمتر از کمیت‌های مستقل باشد، با این حال هدف از انجام این کار (برابر قرار دادن Latent Factor با Independent Variable) این است که ما با استفاده از نتایج نرم‌افزار به کشف و یافتن عدد بهینه برای تعداد فاکتورهای نهفته دست یابیم. همان‌گونه هم که نوشتیم، این بخش گام ابتدایی تحلیل است و پس از یافتن تعداد فاکتورهای نهفته، بار دیگر تحلیل PLS را انجام خواهیم داد.

در ادامه نتایج و خروجی‌های رگرسیون حداقل مربعات جزئی بر مبنای همان عدد 17 برای حداکثر تعداد عوامل نهفته به دست می‌آید. آنچه در این مرحله برای ما اهمیت دارد و در نکته بالا نیز بیان شد، جدول نسبت واریانس بیان شده Proportion of Variance Explained توسط هر عامل نهفته است. ما بر مبنای نتایج این جدول تصمیم می‌گیریم که در مرحله بعدی آنالیز از چه تعداد Latent Factor استفاده کنیم.

جدول Proportion of Variance Explained برای 17 عامل نهفته

 

نکته‌ای که در انجام تحلیل PLS اهمیت فراوان دارد این است که تعداد عامل‌های نهفته باید در یک نقطه بهینه قرار گیرد. به این معنا که کمترین تعداد باشد و از سمت دیگر بتنواند بیشترین واریانس مربوط به کمیت پاسخ را توضیح دهد. در جدول بالا و در ستون Cumulative Y Variance (R-square) می‌توانید واریانس تجمعی کمیت پاسخ به ازای اضافه شدن هر فاکتور نهفته را مشاهده کنید.

این جدول نشان می‌دهد اگر فقط یک عامل نهفته در این مطالعه قرار گیرد، آن عامل می‌تواند 59.9% واریانس Y (به آن ضریب تعیین یا R-Square هم گفته می‌شود) را بیان کند. به همین ترتیب اضافه شدن یک عامل دیگر، ضریب تعیین را تا 70.1% افزایش می‌دهد. اضافه شدن یک عامل نهفته دیگر، ضریب تعیین را هشت درصد دیگر افزایش داده و برابر با 78.2% خواهد بود.

به همین ترتیب اضافه شدن چهارمین فاکتور نهفته ضریب تعیین را فقط 1.7% افزایش می‌دهد و R-Square مدل PLS برابر با 79.9% به دست می‌آید. به نظر می‌رسد ما در این مرحله باید متوقف شویم. به دلیل اینکه بیشتر شدن تعداد فاکتورهای نهفته، ضریب تعیین را به مقدار جزئی افزایش خواهند داد. مثلاً اگر پنجمین فاکتور نهفته نیز اضافه شود، R-Square فقط 1% افزایش پیدا می‌کند و عدد 80.9% خواهد شد.

از آن‌جا که هدف ما پیدا کردن تعداد بهینه برای Latent Factor ها است، بنابراین همان سه فاکتور نهفته برای این مطالعه مناسب خواهد بود. بنابراین بار دیگر از مسیر انجام تحلیل رگرسیون حداقل مربعات جزئی به پنجره Partial Least Squares Regression می‌رویم و این‌بار عدد Maximum number of latent factors را برابر با 3 انتخاب می‌کنیم. تصویر زیر را ببینید.

Maximum number of latent factors برابر با سه

 

سایر تنظیمات به ویژه در تب Options نیز به همان حالت قبل، قرار می‌گیرد. حال در ادامه به بیان نتایج، جداول و گراف‌های تحلیل رگرسیون حداقل مربعات جزئی که با استفاده از نرم‌افزار SPSS انجام می‌دهیم، می‌پردازیم. این نتایج شامل همه مواردی است که SPSS در رگرسیون PLS در اختیار ما قرار می‌دهد.

در ابتدا همان جدول Proportion of Variance Explained که در بالاتر از آن نام بردیم دیده می‌شود. این جدول این بار برای سه فاکتور پنهان به دست آمده است.

جدول Proportion of Variance Explained با سه فاکتور نهفته

 

این جدول نشان می‌دهد، چهار فاکتور نهفته به دست آمده، می‌توانند 78.2 درصد پراکندگی و واریانس کمیت پاسخ یعنی امتیاز رایحه را بیان کنند.

جدول بعدی با نام Parameters به محاسبه ضرایب رگرسیونی هر کمیت مستقل Independent Variable بر روی کمیت پاسخ، می‌پردازد. این نتایج از یک مدل رگرسیونی حداقل مربعات جزئی بین امتیاز رایحه (Y) با 17 عنصر مورد بررسی (Xها) به دست می‌آید. به رگرسیون خطی علاقمند بودید، این لینک (رگرسیون خطی Linear Regression در نرم‌افزار SPSS) را ببینید.

جدول Parameters

 

ضرایب مثبت در این جدول، نشان‌دهنده تاثیر مثبت افزایش غلظت آن عنصر بر روی امتیاز رایحه است و ضرایب منفی بیانگر تاثیر منفی افزایش غلظت آن عنصر بر روی امتیاز رایحه است. در مواردی هم که نزدیک به صفر هستند، نشان‌دهنده تاثیر ضعیف و اندک عنصر بر امتیاز رایحه نوشیدنی است.

به عنوان مثال این جدول نشان می‌دهد عنصر کادمیوم Cd تاثیر منفی (B = -7.666) بر رایحه نوشیدنی دارد. با این حال عنصر مولیبدن Mo تاثیر مثبت (B = 2.373) بر رایحه نوشیدنی دارد. بقیه موراد را نیز می‌توانید در جدول بالا مشاهده کنید.

با این حال به این نکته دقت کنید که اگر ما تعداد فاکتورهای نهفته را برابر با عدد 17 یعنی همان تعداد Independent Variable ها قرار می‌دادیم نتایج جدول Parameters همانند نتایج رگرسیون حداقل مربعات معمولی Ordinary Least Squares regression (OLS) به دست می‌آمد.

جدول بعدی در نتایج با نام اندازه اهمیت کمیت در طرح Variable Importance in the Projection معرفی می‌شود. آن را ببینید.

جدول Variable Importance in the Projection

 

این جدول در تحلیل PLS و تشکیل فاکتورهای نهفته بسیار مهم است و به ما کمک می‌کند تا دریابیم هر Independent Variable بهتر است در کدام Latent Factor قرار گیرد. به عبارتی با استفاده از نتایج این جدول می‌توانیم اجزای تشکیل دهنده هر فاکتور نهفته را دریابیم. روش کار و نحوه تشخیص قرار گرفتن هر کمیت مستقل در فاکتور نهفته این است که نگاه می‌کنیم عدد کمیت مستقل برای کدام Latent Factor از همه بیشتر است. در هر کدام که بیشتر بود در همان فاکتور نهفته قرار می‌گیرد.

به عنوان مثال برای کمیت مستقل Cd که همان عنصر کادمیوم بود، این عنصر بهتر است در Latent Factor شماره 3 قرار گیرد. به دلیل اینکه اندازه اهمیت Cd در فاکتور نهفته شماره 3 از همه بیشتر و برابر با 0.779 است. به همین ترتیب ما بر مبنای جدول بالا، می‌توانیم عناصر تشکیل دهنده هر فاکتور نهفته را به صورت زیر به دست بیاوریم.

  • Latent Factor (1). Ni, Ba, Sr, Mg, Si, K
  • Latent Factor (2). Mo, Al, Pb
  • Latent Factor (3). Cd, Mn, Cu, Cr, B, Na, Ca, P

در ادامه نتایج نرم‌افزار، جداول مهم وزن‌ها Weights و بارها Loadings دیده می‌شوند. اجازه دهید ابتدا از جدول بارها شروع کنیم. در تصویر زیر می‌توانید آن را ببینید.

جدول Loadings

 

اعداد این جدول ضرایب رگرسیونی بین هر عنصر با فاکتور نهفته است. به این ترتیب بین به ازای هر Latent Factor یک رابطه خطی ایجاد می‌شود. به عنوان مثال برای Latent Factor (1) رابطه رگرسیونی زیر را خواهیم داشت.

$ \displaystyle 0.117Cd-0.001Mo+0.036Mn-160Ni-0.18Cu-0.084Al……$

بنابراین ضرایب جدول Loadings می‌تواند اندازه تاثیر هر عنصر در هر فاکتور نهفته را نشان دهد. حال سوال مهم این است که این رابطه رگرسیونی چه چیزی را نشان می‌دهد؟ یعنی Y آن یا همان کمیت وابسته آن چیست؟ پاسخ این است که این رابطه، اندازه‌هایی به نام X-Score را بیان می‌کنند. X-Score در کنار Y-Score به عنوان نمرات فاکتور نهفته Latent Factor Scores نامیده می‌شوند. بعداً و بر روی فایل دیتا که از خروجی‌های تحلیل PLS می‌باشد، در این زمینه بیشتر صحبت می‌کنیم.

به هر حال اعداد جدول Loadings که ضرایب رگرسیونی مدل بین عناصر و Latent Factor Scores هستند، اثر مثبت و یا منفی هر عنصر بر روی فاکتور نهفته را نشان می‌دهند. از آن‌جا که مطالعه ما دارای سه فاکتور نهفته است، بنابراین جدول Loadings نیز دارای سه ستون به ازای هر کدام از Latent Factorها می‌باشد.

با فهم جدول Loadings، درک جدول Weights نیز ساده خواهد بود. اعداد جدول وزن‌ها، کوواریانس بین عناصر به عنوان کمیت‌های مستقل با امتیاز رایحه به عنوان کمیت وابسته را نشان می‌دهند. این نتایج به تفکیک به ازای هر فاکتور نهفته به دست آمده است. در تصویر زیر آن را ببینید.

جدول Weights

 

در این جدول سطر مربوط به کمیت وابسته یعنی Aroma که همان امتیاز رایحه را در این مثال نشان می‌داد، کارکردی مانند اعداد جدول Loadings دارد. به معنای این‌که ضریب رگرسیونی بین کمیت وابسته با اعداد Latent Factor Scores و به بیان دقیق‌تر Y-Score را نشان می‌دهد.

نکته‌ای که در این میان وجود دارد این است که معمولاً علامت مثبت و منفی عناصر در جداول Weights و Loadings مشابه با هم است. اگر در مواردی نیز تفاوت مشاهده شود در اعداد نزدیک به صفر است.

 

گراف‌ها و نمودارهای PLS

 Graphs & Plots 

در ادامه نتایج و خروجی‌های نرم‌افزار، نمودارها و گراف‌های تحلیل رگرسیون حداقل مربعات جزئی به دست آمده است. ما در ادامه درباره‌ی این نمودارها توضیح می‌دهیم.

در ابتدا گراف اندازه اهمیت تجمعی Cumulative Variable Importance رسم شده است. این گراف نتیجه همان جدول Variable Importance in the Projection می‌باشد که در تحلیل‌های قبل به آن اشاره شد. در تصویر زیر آن را ببینید.

نمودار Cumulative Variable Importance

 

بر مبنای این گراف و جدول مربوط به آن می‌توانیم اجزای تشکیل دهنده هر Latent Factor را تعیین کنیم. هر Variable در هر Latent Factor که اندازه اهمیت بیشتری داشته باشد، در همان فاکتور نهفته قرار می‌گیرد.

گراف دیگر نتایج با نام Regression Plot: Y-Scores vs. X-Scores قرار دارد که در تصویر زیر آمده است.

گراف Regression Plot: Y-Scores vs. X-Scores

 

همان‌گونه که از نام این نمودار برمی‌آید، این یگ گراف پراکنش Scatter Plot و یا Regression Plot است. در محور عمودی Y-Score ها و در محور افقی نیز X-Score قرار گرفته‌اند. از آن‌جا که ما سه Latent Factor داشتیم، بنابراین در اینجا نیز سه X-Score و Y-Score و در نتیجه 9 Regression Plot داریم.

هر X-Score به ازای Y-Score رسم شده است. نکته مهم این است که بهتر است X-Score به ازای Y-Score متناظر با خود دارای یک روند خطی (صعودی و یا نزولی) باشد و با Y-Score های دیگر فاقد روند قابل مشاهده. به عنوان مثال X-Score 1 که مربوط به فاکتور نهفته 1 است باید با Y-Score 1 رابطه خطی قابل مشاهده داشته باشد و با Y-Score 2 , 3 فاقد رابطه خطی باشد. این مطلب تقریباً در گراف بالا مشاهده می‌شود و بیانگر مناسب بودن مدل رگرسیون حداقل مربعات جزئی PLS برازش شده است.

به یاد داشته باشید ابتدای بحث عنوان کردیم یکی از دلایل استفاده از PLS وجود هم خطی بین Variable ها است. به این معنی که خود کمیت‌های مستقل بر روی یکدیگر اثر می‌گذارند. به همین دلیل PLS کمیت‌های مستقل را به اجزای فاکتورهای نهفته Latent Factor تبدیل می‌کند به گونه‌ای که خود این فاکتورهای نهفته با یکدیگر هم خطی نداشته باشند. گراف زیر که به آن Scores گفته می شود، ابزاری است جهت قضاوت درباره هم خطی بین فاکتورهای نهفته. در تصویر زیر آن را ببینید.

Regression Plot بین X-Score ها

 

در این گراف که Regression Plot بین هر X-Score با X-Score دیگر رسم شده است، نمودار پراکنش بین آن‌ها آمده است. چنانچه از PLS انتظار داریم که Latent Factor های غیرهم بسته برای ما پیدا کند، باید نمودارهای پراکنش بالا فاقد روند صعودی و یا نزولی باشند و تقریباً به صورت تصادفی قرار گرفته باشند. این نتیجه‌ای است که ما می‌توانیم در گراف بالا مشاهده کنیم. در واقع بین هر X-Score با X-Score دیگر، نمی‌توانیم روند خاص صعودی و یا نزولی را مشاهده کنیم. این یافته‌ای خوب است و نشان می‌دهد مدل رگرسیون PLS ما در این مثال به خوبی کار می‌کند.

گراف‌هایی که تا به اینجا مشاهده کردیم مربوط به گزینه Individual Cases در تب Options از تنظیمات نرم‌افزار بود. در ادامه چند گراف مربوط به گزینه Latent Factors به دست آمده است. در گراف زیر مقادیر جدول Weights به صورت بردار، برای فاکتورهای نهفته 1 و 2 به دست آمده است. در تصویر زیر آن را مشاهده می‌کنید.

بردار وزن‌ها برای فاکتورهای نهفته 1 و 2

 

نکته مهم در این گراف‌ها این است که هر خط یا همان بردار نشان‌دهنده یک عنصر است. البته برای کمیت وابسته Aroma نیز بردار رسم شده است. محور X در این نمودار عدد متناظر با هر کمیت در جدول Weights و برای فاکتور نهفته 1 است و محور Y، عدد متناظر با هر کمیت در جدول Weights و برای فاکتور نهفته 2. همه بردارها نیز از نقطه صفر رسم می‌شوند.

عناصری که هم X آن‌ها و هم Y مثبت است، بیانگر رابطه مثبت بین آن عنصر با فاکتور نهفته شماره 1 و 2 است، مثل عنصر B. اگر هم X و هم Y نیز منفی باشد، مانند Sr بیانگر رابطه منفی آن عنصر با فاکتورهای نهفته شماره 1 و 2 است. به همین ترتیب برای بقیه عناصر با استفاده از گراف بالا می‌توان نحوه اثرگزاری مثبت و یا منفی آن عنصر بر Latent Factor 1, 2 را به دست آورد.

نکته دیگر در این گراف‌ها، طول خط بردار است. هر چقدر طول خط بلندتر باشد به معنای اثر بیشتر بر روی آن فاکتور نهفته است. مثلاً اثر عنصر Pb صرفنظر از مثبت یا منفی بودن آن کمتر از عنصر Mo است.

در ادامه سایر گراف‌های Factor Weights رسم شده است. نمودارهای زیر مربوط به جدول وزن‌ها در فاکتورهای نهفته 1 و 3 و همچنین فاکتورهای نهفته 2 و 3 است.

بردار وزن‌ها برای فاکتورهای نهفته 1 و 3

 

بردار وزن‌ها برای فاکتورهای نهفته 2 و 3

 

به عنوان مثال در نمودار بردار وزن‌ها برای Latent Factor 2, 3 نتیجه می‌شود که بیشتر عناصر دارای تاثیر مثبت بر فاکتور نهفته 2 هستند، به دلیل اینکه در سمت راست و بزرگتر از صفر محور X قرار گرفته‌اند.

 

دیتا خروجی  PLS

 Data 

به خاطر داشته باشید در تب Options از پنجره تنظیمات نرم‌افزار، گزینه‌هایی جهت به دست آوردن خروجی‌های مربوط به مشاهدات Individual Cases، فاکتورهای نهفته Latent Factors و کمیت‌های مستقل Independent Variables را انتخاب کردیم و برای هر یک نامی نیز انتخاب کردیم. در بخش‌های قبلی درباره جداول و گراف‌های مربوط به این خروجی‌ها صحبت کردیم، در ادامه درباره‌ی فایل‌های دیتا این نتایج توضیح می‌دهیم.

پس از انجام تحلیل رگرسیون حداقل مربعات جزئی با استفاده از نرم‌افزار SPSS، سه فایل دیتای جدید به اسامی همان نام‌هایی که در تب Options قرار دادیم و نوشتیم، ساخته می‌شود. من در ادامه هر یک را توضیح می‌دهم.

  •  Individual Data 

در تصویر زیر می‌توانید بخشی از فایل دیتا با نام Individual را مشاهده کنید.

فایل دیتا با نام Individual پس از تحلیل رگرسیون PLS

 

در این فایل ستون‌های با نام P1 تا P18 همان اعداد اصلی مطالعه می‌باشند که یکبار دیگر تکرار شده‌اند. P1 همان کمیت وابسته امتیاز رایحه است و P های دیگر، اعداد کمیت‌های مستقل.

پس از آن ستون‌های با نام pred_x_Cd تا pred_x_K و سپس pred_y_Aroma قرار گرفته است. این ستون‌ها پیش‌بینی عددی بر مبنای مدل رگرسیون حداقل مربعات جزئی به ازای هر عنصر و همچنین کمیت وابسته امتیاز رایحه هستند. ستون‌های بعدی با نام resid که مشاهده می‌کنند به معنای باقیمانده‌ها یعنی اختلاف بین ستون‌های اعداد واقعی P و ستون‌های پیش‌بینی شده pred به ازای هر کدام از کمیت‌های مستقل و وابسته هستند.

پس از آن‌ها ستنون‌های با اسامی scores_x_1 تا scores_y_3 قرار گرفته‌اند. اینها اعداد مربوط به نمرات فاکتورهای نهفته به ازای هر کدام از Latent Factor ها هستند. سه تا X و سه تا Y، به دلیل اینکه ما در مطالعه خود سه فاکتور نهفته طراحی کردیم.

در پایان ستون‌های D_Mod_X و D_Mod_Y دیده می‌شود. D_Mod_X که به آن Distance X نیز گفته می‌شود، نشان می‌دهد هر مشاهده با چه اندازه فاصله‌ای (عددی مثبت) از فضای x که به آن x-space گفته می‌شود، قرار گرفته‌اند. این فواصل مشخص می‌کنند که مشاهدات تا چه اندازه با X-Score ها توصیف می‌شوند. هر چقدر این اندازه‌ها کوچک باشند به معنای برازش بهتر مدل رگرسیونی PLS بر آن مشاهده است. بزرگ بودن این اعداد حتی می‌تواند بیانگر داده پرت outlier بودن آن مشاهده نسبت به مدل رگرسیونی حداقل مربعات جزئی تلقی شود.

به همین ترتیب D_Mod_Y نیز به عنوان Distance Y بیان می‌شوند. همان تعبیری که در بالا برای D_Mod_X داشتیم اینجا برای D_Mod_Y و نسبت به y-space و Y-Score برقرار است.

نکته نرم‌افزاری مانند Minitab هنگامی که تحلیل رگرسیون PLS انجام می‌دهد، نتایجی با نام اهرم‌ها Leverages ارایه می‌دهد. البته SPSS چنین خروجی ندارد. اهرم‌ها، مشاهدات با مقادیر x غیر معمول یا پرت را شناسایی می‌کنند. مشاهدات با اعداد Leverages بالا دارای x-score های دور از صفر هستند و می‌توانند تأثیر زیادی بر ضرایب رگرسیونی داشته باشند. البته نقاط با اهرم بالا لزوماً در y-space پرت نیستند. در اینجا بیان می‌شود مشاهدات با مقادیر Leverages بیشتر از 2m / n را بررسی کنید، جایی که m = تعداد فاکتورهای نهفته و n = تعداد مشاهدات است.

  •  Latent Data 

در تصویر زیر می‌توانید فایل دیتا با نام Latent را مشاهده کنید.

فایل دیتا با نام Latent پس از تحلیل رگرسیون PLS

 

خیلی ساده باید بگوییم این فایل از دیتا و نتایج چیز خاصی ندارد و همان اندازه‌های عددی به دست آمده به ازای هر کدام از عناصر و کمیت وابسته در جدول‌های Weights و Loadings است که بار دیگر اینجا و در قالب یک فایل دیتا آمده است.

  •  Independent Data 

در تصویر زیر می‌توانید فایل دیتا با نام Independent را مشاهده کنید.

فایل دیتا با نام Independent پس از تحلیل رگرسیون PLS

 

در این فایل دیتا، ستون با نام B_Aroma همان نتایج جدول Parameters است که در آن به محاسبه ضرایب رگرسیونی هر کمیت مستقل Independent Variable بر روی کمیت پاسخ، می‌پردازیم. ستون‌های با نام VIP نیز هر کدام به بیان اندازه اهمیت هر عنصر بر روی کمیت وابسته و به ازای هر Latent Factor اشاره می‌کند. نتایج این ستون‌ها را قبلاً در جدول Variable Importance in the Projection مشاهده کردیم.

 

 

در این مقاله به مفهوم و تعریف رگرسیون حداقل مربعات جزئی Partial Least Squares regression PLS اشاره کردیم. همچنین به بیان خروجی‌ها و نتایج نرم‌افزار SPSS شامل جداول و گراف‌های تحلیل رگرسیون حداقل مربعات جزئی پرداختیم.

چگونه به این مقاله رفرنس دهیم

GraphPad Statistics (2022). Partial Least Squares regression using SPSS. Statistical tutorials and software guides. Retrieved Month, Day, Yearfrom https://graphpad.ir/partial-least-squares-regression-spss/.php

For example, if you viewed this guide on 12th January 2022, you would use the following reference

GraphPad Statistics (2022). Partial Least Squares regression using SPSS. Statistical tutorials and software guides. Retrieved January, 12, 2022, from https://graphpad.ir/partial-least-squares-regression-spss/.php

ارایه خدمات تحلیل و مشاوره آماری

گراف پد برای شما خدمات مشاوره و انجام انواع تحلیل‌های آماری را ارایه می‌دهد. جهت دریافت نکات بیشتر بهتر است با ما تماس بگیرید.

    گراف پد جمعی از رتبه‌های برتر آزمون دکترا آمار دانشگاه‌های ایران | برجسته در موسسه بین‌المللی تحقیقات | دارای نماد اعتماد الکترونیک از مرکز توسعه تجارت الکترونیکی ایران و مجوز رسمی ثبت به شماره ۴۱۸۸۱ و شناسه ملی ۱۴۰۰۶۸۳۲۳۱۹