قبلی
Impute Missing Data Values

جانهی داده‌های گمشده Impute Missing Data Values

 Impute Missing Data Values – Multiple Imputation  

من در مقاله قبلی به موضوع تحلیل الگوها Analyze Patterns پرداختم. در این مقاله درباره‌ی Impute Missing Data Values در جانهی چندگانه (Multiple Imputation) که در آنالیز داده‌های گمشده Missing Value استفاده می‌شود، صحبت می‌کنم. ابزار کار ما در این مقاله نرم‌افزار SPSS خواهد بود و با استفاده از این نرم‌افزار به بیان مطلب می‌پردازیم. خب، ابتدا بیایید ببینیم Multiple Imputation چیست و چه کاربردی دارد.

 

گراف پد

دریافت مجموعه جانهی و جایگزاری داده‌های گمشده

شامل 100 دقیقه ویدئو، فایل دیتا و نتایج SPSS

 

جانهی چندگانه یا Multiple Imputation روش و ابزاری است که به ما امکان می‌دهد بتوانیم به جای داده‌های گمشده مطالعه خود، بهترین مقادیر ممکن را جایگزاری کنیم. البته به این شرط که بخواهیم داده‌های گمشده خود را با اعداد واقعی جانهی کنیم. اگر هدف ما گزارش حجم و تعداد داده‌های گمشده نیز باشد، خب لازم نیست از این روش و یا هر روش جایگزین دیگری استفاده کنیم.

هدف از جانهی چندگانه، جایگزاری مقادیر ممکن برای داده‌های گمشده Missing Value است. هنگامی که با نرم‌افزار SPSS این کار را انجام می‌دهیم، نرم‌افزار چندین مجموعه “کامل” از داده‌ها را ایجاد می‌کند. در این داده‌های کامل، مقادیر گمشده با روش‌های مناسب جایگزاری شده و یافته‌های توصیفی از آنچه رخ داده است، به ما نمایش داده می‌شود.

خوب است بدانیم تحلیل Multiple Imputation بر روی انواع داده‌ها انجام می‌شود. در این تحلیل، داده‌ها می‌توانند به صورت‌های زیر باشند.

  •  داده‌های اسمی Nominal 

هنگامی می‌توان یک کمیت Variable را از نوع اسمی در نظر گرفت که چهار عمل اصلی ریاضی یعنی جمع، منها، ضرب و تقسیم بر روی آن قابل اعمال نباشد. همچنین داده‌ها دارای ترتیب و کمتر و بیشتر بودن نیز نباشند. مثال‌هایی از این نوع می‌توانند داده‌های جنسیت، واحدهای مختلف بیمارستان، نژاد و تنوع مذهبی باشد.

  •  داده‌های ترتیبی Ordinal 

چنانچه نتوان چهار عمل اصلی ریاضی یعنی جمع، منها، ضرب و تقسیم را بر روی داده‌ها در نظر گرفت، با این حال آن‌ها دارای ترتیب، رتبه و ماهیت کمتر و بیشتر بودن باشند، آن‌ها را از نوع داده‌های ترتیبی می‌دانیم. مثال‌هایی از این نوع می‌توانند داده‌های سطوح مختلف رضایت، انواع طیف‌های لیکرت در پرسشنامه‌ها و رتبه‌های تحصیلی باشد.

  •  داده‌های عددی Scale 

داده‌هایی که چهار عمل اصلی ریاضی بر روی قابل انجام است و در نتیجه دارای ماهیت کمتر و بیشتر بودن نیز هستند، در رده داده‌های از نوع عددی Scale قرار می‌گیرند. این داده‌ها با یک متریک و ابزار سنجش معنادار، قابل اندازه‌گیری هستند. مثال‌هایی از این نوع می‌توانند داده‌های سن، درآمد، بیان ژن، غلظت‌های مختلف یک دارو و میزان پاسخ به آن‌ها باشد.

یک نکته مهم در Multiple Imputation این است که این آنالیز نه فقط بر روی داده‌های عددی Scale بلکه بر روی داده‌های اسمی و ترتیبی نیز قابل انجام است. بنابراین چنانچه داده‌هایی داریم که مثلاً اسمی هستند (به عنوان مثال جنسیت) و یا ترتیبی هستند (به عنوان مثال پاسخ به میزان رضایت از یک واحد شغلی) و برخی از آن‌ها را به هر دلیلی در اختیار نداریم به خوبی می‌توانیم جهت جانهی داده‌ها از این روش و ابزارهای موجود در آن استفاده کنیم.

در تصویر زیر می‌توانید نحوه نمایش انواع مختلف داده‌ها در نرم‌افزار SPSS را مشاهده کنید.

نحوه نمایش انواع داده‌ها در نرم‌افزار SPSS

 

هنگامی که با نرم‌افزار SPSS کار می‌کنیم، تحلیل‌های Multiple Imputation شامل دو ماژول و منو جداگانه است. در تصویر زیر می‌توانید آن‌ها را ببینید.

منوهای Multiple Imputation در نرم‌افزار SPSS

 

یکی از آن‌ها با نام Analyze Patterns و دیگری با نام Impute Missing Data Values. همان‌گونه که بیان کردیم در این مقاله به موضوع Impute Missing Data Values خواهیم پرداخت.

 

مثال جانهی داده‌های گمشده

 Impute Missing Data Values Example 

یک ارایه‌دهنده خدمات مخابراتی می‌خواهد الگوهای استفاده از خدمات را در پایگاه داده مشتریان خود بهتر درک کند. آنها داده‌های کاملی از مشتریان خود دارند، اما اطلاعات جمعیتی جمع‌آوری شده توسط شرکت دارای تعدادی مقادیر گمشده است. در این مثال تحلیل الگوهای Analyze Patterns مقادیر از دست رفته، می‌تواند به تعیین مراحل بعدی جانهی، کمک کند. فایل مثال با نام Impute Missing Data Values را می‌توانید از این لینک دریافت کنید. در تصویر زیر بخشی از فایل دیتا مثال را مشاهده می‌کنید.

مثال جانهی داده‌های گمشده

 

از مسیر زیر در نرم‌افزار SPSS جهت تحلیل جانهی داده‌های گمشده استفاده می‌کنیم.

 Analyze → Multiple Imputation → Impute Missing Data Values  

در این صورت پنجره زیر با نام Impute Missing Data Values برای ما باز می‌شود. این پنجره از تنظیمات نرم‌افزار دارای چندین تب است. از تب با نام Variables شروع می‌کنیم.

پنجره Impute Missing Data Values
  • Variables

من پنجره بالا را شماره‌گزاری کرده‌ام و در ادامه به ترتیب شماره‌ها به توضیح هر بخش می‌پردازم.

 1  در کادر Variables in Model کمیت‌هایی را که می‌خواهید جانهی داده‌های گمشده را برای آن‌ها انجام دهید، قرار دهید. به عنوان مثال من می‌خواهم برای کمیت‌های marital، employ و address جایگزاری داده‌های گمشده را انجام دهم.

 2  چنانچه در فایل دیتا، Variable وزن‌دهی کننده وجود داشته باشد، آن را در کادر Analysis Weight قرار می‌دهیم.

 3  در این بخش تعداد جانهی و جایگزاری‌ها را مشخص کنید. به صورت پیش‌فرض این عدد بر روی 5 قرار دارد. این کار باعث می‌شود، فرایند جایگزاری داده‌های گمشده پنج بار تکرار شود.

 4  هنگامی که با استفاده از SPSS و منوی Impute Missing Data Values کار می‌کنیم، نرم‌افزار یک فایل دیتا جدید شامل نتایج جایگزاری برای داده‌های گمشده، می‌سازد. در این بخش نرم‌افزار از ما می‌خواهد که یک نام دلخواه برای این فایل دیتا جدید بنویسیم.

به عنوان مثال من می‌خواهم یک فایل دیتا جدید با نام Impute شامل داده‌های گمشده و داده‌های جایگزاری شده، ساخته شود.

با این حال چنانچه بخواهیم به جای ساختن یک فایل دیتا جدید، داده‌های جانهی شده بر روی یک فایل از قبل وجود داشته، قرار بگیرند، گزینه‌ی Write to a new data file را انتخاب می‌کنیم. با استفاده از دکمه‌ی Browse می‌توانیم فایل را از روی سیستم خود انتخاب کنیم.

تب بعدی تنظیمات نرم‌افزار با نام Method دیده می‌شود. با این حال به نظرم لازم است در ابتدا درباره‌ی مفهومی به نام الگوی داده‌های گمشده Missing data pattern مطالعه کنید. علاقمند بودید مقاله آموزشی (الگوهای داده‌های گمشده) در سایت گراف پد را مشاهده کنید.

  • Method

با استفاده از تب Method مشخص می‌کنیم که چگونه و با چه روشی داده‌های گمشده، جایگزاری شوند. به صورت پیش‌فرض در این تب، گزینه‌ی Automatic فعال است. من در ادامه سعی کرده‌ام به بیان هر کدام از روش‌ها بپردازم.

تب Method در پنجره Impute Missing Data Values

 

 1  با انتخاب گزینه‌ی Automatic، نرم‌افزار داده‌ها را اسکن می‌کند (به معنای فراخوانی فایل دیتا موجود) و اگر داده‌ها یک الگوی یکنواخت Monotone Pattern از مقادیر گم شده را نشان دهند از روش یکنواخت استفاده می‌کند. در غیر این صورت از روش مشخصات کاملا مشروط Fully Conditional Specification (FCS) استفاده می‌شود. اگر مطمئن هستید که از کدام روش می‌خواهید استفاده کنید، می‌توانید گزینه‌ی Custom را در ادامه انتخاب کنید.

 2  گزینه‌ی Fully conditional specification (MCMC) به معنای مشخصات کاملاً مشروط است. این یک روش تکراری زنجیره مارکوف مونت کارلو Markov chain Monte Carlo (MCMC) است که می‌تواند هنگامی که الگوی داده‌های گمشده دلخواه است (یکنواخت یا غیر یکنواخت) استفاده شود.

به موضوع Fully Conditional Specification (FCS) علاقمند بودید، می‌توانید این لینک را ببینید.

برای هر تکرار و برای هر کمیت، روش مشخصات کاملاً شرطی (FCS) Fully Conditional Specification یک مدل یک بعدی Univariate (به معنای یک کمیت وابسته) را با استفاده از کمیت‌های موجود در مدل به عنوان پیش‌بینی‌کننده (Xها)، برازش می‌دهد. سپس مقادیر گمشده را برای مدل نسبت می‌دهد.

در اینجا یک کادر با نام حداکثر تکرار Maximum iterations که به صورت پیش‌فرض بر روی 10 قرار دارد، دیده می‌شود. این بخش تعداد تکرارها یا «گام‌ها» را مشخص می‌کند که توسط زنجیره مارکوف استفاده شده توسط روش FCS انجام می‌شود. اگر روش FCS به طور خودکار انتخاب شده باشد، از تعداد پیش فرض 10 تکرار استفاده می‌کند. هنگامی که شما FCS را انتخاب می‌کنید، می‌توانید تعداد تکرار دلخواه خود را مشخص کنید. چنانچه زنجیره مارکوف همگرا نشده باشد، ممکن است لازم باشد تعداد تکرارها را افزایش دهید. در تب Output که در ادامه به آن می‌پردازیم، می‌توانید داده‌های تاریخچه تکرار FCS را ذخیره کنید و آن را برای ارزیابی همگرایی ترسیم کنید.

 3  در اینجا گزینه‌ی Monotone دیده می‌شود. این یک روش غیر تکراری است که فقط زمانی می‌توان از آن استفاده کرد که داده‌ها دارای الگوی یکنواخت مقادیر گم شده باشند.

یک الگوی یکنواخت زمانی وجود دارد که بتوانید کمیت‌ها را به گونه‌ای مرتب کنید که اگر کمیتی مقدار گم شده داشته باشد، همه کمیت‌های بعدی نیز دارای مقادیر گم شده باشند. هنگام تعیین این روش به عنوان یک متد سفارشی، مطمئن شوید که Variableهای لیست را به ترتیبی مشخص کنید که یک الگوی یکنواخت را نشان دهد.

 4  در اینجا گزینه‌ی Include two-way interactions دیده می‌شود. هنگامی که روش جانهی خودکار انتخاب می‌شود، مدل جایگزاری برای هر کمیت شامل یک ضریب ثابت و اثرات اصلی برای Variableهای پیش بینی، خواهد بود. هنگام انتخاب این گزینه، از نرم‌افزار می‌خواهیم که همه اثرات متقابل دو طرفه را در بین کمیت‌های پیش‌بینی‌کننده طبقه‌ای categorical قرار دهد.

 5  Model type for scale variables شامل دو گزینه به نام‌های Linear Regression و Predictive Mean Matching (PMM) می‌باشد. این گزینه هنگامی استفاده می‌شود که کمیت‌های دارای داده‌های گمشده از نوع عددی Scale باشد.
انتخاب گزینه‌ی Linear Regression سبب می‌شود هنگامی که روش جایگزاری Automatic انتخاب می‌شود، از رگرسیون خطی به عنوان مدل Univariate برای جانهی داده‌های گمشده استفاده شود.

همچنین می‌توانید گزینه‌ی Predictive Mean Matching (PMM) را که به آن تطبیق میانگین پیش‌بینی کننده گفته می‌شود، به عنوان مدل جانهی برای Variable های عددی انتخاب کنید. PMM گونه‌ای از رگرسیون خطی است که از قابل قبول بودن مقادیر جانهی شده اطمینان می‌دهد. برای PMM، عدد جایگزاری شده بر اساس مقدار تعریف شده از نزدیکترین (k) پیش‌بینی کننده کاملاً تصادفی است که در آن (k) یک عدد صحیح مثبت با مقدار پیش فرض 5 است.

به این نکته توجه کنید که رگرسیون لجستیک همیشه به عنوان مدل Univariate برای جایگزاری داده‌های گمشده طبقه‌ای استفاده می‌شود.

 6  ماتریس‌های منفرد (یا غیر معکوس)Singular   Matrices دارای ستون‌های خطی وابسته هستند که می‌تواند مشکلات جدی برای الگوریتم تخمین ایجاد کند. حتی ماتریس‌های نزدیک به منفرد نیز می‌توانند به نتایج ضعیفی منجر شوند، گزینه‌ی Singularity tolerance که می‌توان نام آن را تحمل تکینگی قرار داد، ماتریسی را که مقدار انتخاب شده برای آن کمتر از تحمل است به عنوان یک تکین در نظر می‌گیرد.

  • Constraints

تب بعدی در تنظیمات پنجره Impute Missing Data Values با نام محدودیت‌ها Constraints دیده می‌شود. با استفاده از این تب می‌‌توانیم داده‌ها را ارزیابی کنیم. نقش یک Variable را هنگام جانهی داده‌های گمشده محدود کنیم. دامنه مقادیر قابل قبول برای یک کمیت عددی را محدود کنیم. همچنین می‌توانیم تحلیل را به Variableهایی با کمتر از حداکثر درصد مقادیر گمشده تعیین شده، محدود کنیم. در ادامه بیایید بخش‌های مختلف این تب را مرور کنیم.

تنظیمات دلخواه در تب Constraints

 

 1  دکمه Scan Data به ما این امکان را می‌دهد که لیست کمیت‌های انتخاب شده تحلیل، درصد داده‌های گمشده شده، کمترین و بیشترین عدد مشاهده شده، به ازای هر کدام از کمیت‌ها را نشان دهد. نتایج می‌توانند بر اساس همه موارد یا محدود به اسکن n مورد اول، همانطور که در کادر متنی Cases مشخص شده است، باشد.

این یافته بسیار مهم و راهگشا است. به عنوان مثال هنگامی که بر روی دکمه Scan Data در این مثال می‌زنیم، متوجه می‌شویم کمیت marital دارای 11.5% داده گمشده است.

 2  کادر با نام Define Constraints دیده می‌شود. در این کادر می‌توانیم به ازای هر کمیت، محدودیت‌های مدنظر خود را اعمال کنیم.

Role. این ستون به شما امکان می‌دهد تعیین کنید Variableهای قرار گرفته در تحلیل، به عنوان جانهی شده (و/یا) پیش‌بینی‌کننده در نظر گرفته شوند. خوب است این نکته را بدانیم که هر کمیت تحلیل، می‌تواند به عنوان یک وابسته (جانهی‌شده) و پیش‌بین در مدل جایگزاری در نظر گرفته شود.

Min and Max. این ستون‌ها به شما امکان را می دهند که کمینه و بیشینه قابل قبول برای کمیت‌های عددی Scale را مشخص کنید. اگر یک مقدار جایگزاری شده خارج از این محدوده قرار گیرد، مدل جانهی، مقدار دیگری را تولید می‌کند تا زمانی که یکی را در محدوده قابل قبول پیدا کند. به این نکته توجه کنید که این ستون‌ها هنگامی در دسترس هستند که متد رگرسیون خطی در تب Method انتخاب شده باشد.

Rounding. برخی از Variableهای تحلیل، ممکن است عددی Scale باشند. ما در این ستون می‌توانیم آن‌ها را به دلخواه خود گرد کنیم. این ستون به شما امکان می‌دهد کوچکترین واحد مورد نظر را مشخص کنید. به عنوان مثال، برای به دست آوردن مقادیر صحیح، باید 1 را در این ستون قرار دهید. برای بدست آوردن مقادیر گرد شده به نزدیکترین صدم، باید 0.01 را مشخص کنید. به طور کلی، مقادیر به نزدیکترین مضرب عدد صحیح تعیین شده برای گرد شدن، تبدیل می‌شوند. به عنوان مثال جدول زیر نشان می‌دهد چگونه مقادیر مختلف گرد کردن بر روی یک مقدار جانهی شده 6.64823 (قبل از گرد کردن) عمل می‌کنند.

یک مثال از کارکرد گرد کردن

 

 3  در اینجا گزینه با نام Exclude variables with large amounts of missing data دیده می‌شود.

با استفاده از این گزینه می‌توانیم کمیت‌هایی را که تعداد زیادی داده گمشده دارند، حذف کنید. به طور معمول، Variableهای تحلیل بدون در نظر گرفتن تعداد مقادیر گمشده آنها به عنوان پیش‌بینی کننده، در نظر گرفته می‌شوند. در اینجا می‌توانید کمیت‌هایی را که دارای درصد بالایی از مقادیر گم شده هستند حذف کنید. به عنوان مثال، اگر شما 50 را به عنوان حداکثر درصد گمشده مشخص کنید، کمیت‌هایی که بیش از 50 درصد داده گمشده دارند، جانهی نشده و از آنها به عنوان پیش بینی کننده در مدل‌های جایگزاری استفاده نمی‌شود.

Maximum case draws. اگر در کادر Define Constraints کمینه یا بیشینه برای مقادیر ورودی کمیت‌های عددی مشخص شده باشد (به Min و Max این کادر مراجعه کنید)، این روش سعی می‌کند به تعداد تعیین شده در این کادر تکرار کند تا مقادیری را برای یک مورد به دست آورد تا زمانی که مجموعه‌ای از مقادیر را در محدوده‌های قابل قبول پیدا کند.

Maximum parameter draws. اگر مجموعه‌ای از مقادیر در تعداد مشخص شده هر مورد به دست نیاید، فرایند جانهی داده‌های گمشده، مجموعه دیگری از پارامترهای مدل را طراحی می‌کند و فرآیند تولید مورد را تکرار می‌کند. در اینجا به نرم‌افزار می‌گویمم حداکثر تا چند بار فرایند طراحی مدل بر مبنای پارامترها را تکرار کند. در نهایت اگر مجموعه‌ای از مقادیر در محدوده‌ها در تعداد مشخص شده موارد و طراحی پارامترها به دست نیاید، خطا رخ می‌دهد و فرایند جانهی انجام نمی‌شود.

به این نکته توجه کنید که افزایش این مقادیر می‌تواند زمان پردازش را در سیستم شما افزایش دهد.

  • Output

 1  کادر با نام Display دیده می‌شود. در این کادر می‌توانیم نحوه نمایش خروجی‌ها در نرم‌افزار SPSS  را کنترل کنیم. خلاصه‌ای از جایگزاری نتایج همیشه نشان داده می‌شود. این نتایج شامل جداول مربوط به مشخصات جایگزاری‌ها، تکرارها (برای روش مشخصات کاملاً شرطی FCS)، کمیت‌های وابسته جانهی، کمیت‌های وابسته حذف شده و دنباله جانهی است. در این زمینه هنگام مشاهده خروجی‌های نرم‌افزار بیشتر می‌توان توضیح داد.

تنظیمات تب Output

 

Imputation model. انتخاب این گزینه سبب می‌شود در خروجی نرم‌افزار، مدل جانهی، Variableهای وابسته و پیش‌بینی کننده، نوع و اثرات مدل و تعداد داده‌های جایگزاری شده، نمایش داده شود.

Descriptive statistics. انتخاب این گزینه آماره‌های توصیفی مربوط به کمیت‌های وابسته که مقادیر برای آنها جانهی شده است را نشان می‌دهد. این خروجی برای کمیت‌های عددی شامل میانگین، تعداد، انحراف معیار، کمینه و بیشینه قبل و بعد از جانهی است. همچنین برای کمیت‌های طبقه‌بندی، شامل تعداد و درصد می‌باشد.

 2  کادر با نام Iteration History که به آن تاریخچه تکرار دیده می‌شود. هنگامی که از روش جایگزاری مشخصات کاملاً شرطی FCS استفاده می‌شود، می توانید مجموعه دیتایی را درخواست کنید که شامل داده‌های تاریخچه تکرار برای روش FCS باشد. این مجموعه داده شامل میانگین و انحرافات استاندارد به وسیله تکرار و جانهی برای هر کمیت وابسته عددی است.

برای این فایل دیتا جدید می‌توانید یک نام انتخاب کنید و یا آن را در یک فایل دیتا از قبل موجود در سیستم خود، فراخوان کنید.

حال بیایید در ادامه به نتایج و خروجی‌های به دست آمده با استفاده از نرم‌افزار SPSS بپردازیم. نکته اینکه من در تب Method گزینه Automatic را انتخاب کردم.

نتایج و خروجی‌های نرم‌افزار

 Results 

هنگامی که OK می‌کنیم خروجی‌ها و نتایج زیر در Output نرم‌افزار به دست می‌آید. در ادامه به ترتیب به توضیح هر کدام از نتایج و جدول‌ها به دست آمده از تحلیل جانهی داده‌های گمشده، می‌پردازیم.

در ابتدا جدول Imputation Specifications دیده می‌شود. در تصویر زیر نتایج این جدول را ببینید.

جدول Imputation Specifications

 

در این جدول درباره ویژگی‌ها و مشخصات فرایند جانهی داده‌های گمشده توضیح داده شده است. این جدول نشان می‌دهد از روش جانهی Automatic استفاده شده است. تعداد مدل‌های جایگزاری 5 بار تکرار شده است و از مدل رگرسیون خطی برای جایگزاری در کمیت‌های عددی استفاده شده است. اثرات متقابل در مدل وجود نداشته است، همه‌ی داده‌های گمشده جایگزاری شده و حداکثر تعداد پارامتر موجود در مدل نیز تعداد 100 پارامتر است.

در جدول Imputation Constraints مشخصات مربوط به محدودیت‌های مدل جانهی، آمده است.

جدول Imputation Constraints

 

این جدول نشان می‌دهد هر سه کمیت Marital، address و employer هم دارای نقش Dependent و هم نقش Predictor هستند. کمینه و بیشینه قابل قبول و همچنین نحوه نمایش عدد صحیح مربوط به هر کمیت، آمده است. همان‌گونه که می‌دانیم این نتایج همان تنظیماتی است که ما در تب Constraints قرار دادیم.

در جدول Imputation Models مدل رگرسیونی شامل اثرات (Predictor)، تعداد داده‌های گمشده و تعداد مقادیر جایگزاری شده، آمده است.

جدول Imputation Models

 

جدول بالا نشان می‌دهد برای کمیت‌های عددی یعنی employer و address از مدل رگرسیون خطی استفاده کرده‌ایم. در این مدل‌ها پیش‌بینی کننده‌ها کمیت‌های دیگر موجود در تحلیل قرار می‌گیرند. به عنوان مثال در کمیت employer هنگامی که از مدل رگرسیون خطی برای جایگزاری داده‌های گمشده آن استفاده می‌کنیم، marital و address پیش بینی کننده هستند.

به همین ترتیب از آنجا که marital یک کمیت باینری است، از مدل رگرسیون لجستیک باینری جهت جایگزاری داده‌های گمشده استفاده شده است. در این مدل غیرخطی، پیش بینی کننده ها employer و address هستند.

در جدول بالا تعداد داده‌های گمشده هر کمیت به همراه تعداد موارد جایگزاری شده آمده است. از آن‌جا که ما فرایند جایگزاری را 5 بار تکرار کرده‌ایم، به همین ترتیب به ازای هر داده گمشده، پنج عدد جایگزاری شده است. بنابراین فراوانی‌ها در ستون Imputed Values پنج برابر فراوانی در ستون Missing Values است.

در ادامه آماره‌های توصیفی به ازای هر کدام از کمیت‌های موجود در تحلیل جانهی، به دست آمده است. برای کمیت‌هایی که Nominal و یا Ordinal هستند، آماره‌های توصیفی به صورت فراوانی و درصد ارایه می‌شود. در کمیت‌هایی هم که Scale هستند، آماره‌های توصیفی در قالب میانگین، انحراف معیار، کمینه و بیشینه به دست می‌آید.

جدول Descriptive Statistics برای کمیت marital

 

نکته مهم در این جداول این است که نتایج یک بار برای داده‌های واقعی، یکبار برای داده‌های جایگزاری شده و بار دیگر برای داده‌های کامل شده، به دست می‌آیند. از آن‌جا که ما از نرم‌افزار خواسته‌ایم فرایند جایگزاری را پنج بار تکرار کند، بنابراین همه‌ی آماره‌های توصیفی پنج بار تکرار می‌شوند.

جدول Descriptive Statistics بالا که برای کمیت marital به دست آمده است نشان می‌دهد در داده‌های واقعی تعداد 456 (51.5 درصد) کد صفر و تعداد 429 مورد (48.5 درصد) کد یک وجود داشته است.

به خاطر داشته باشید این کمیت دارای 113 داده گمشده می‌باشد. نرم‌افزار از آنجا که کار جایگزاری را پنج بار تکرار کرده است، در هر بار تکرار این 113 داده گمشده را به گروه‌های صفر و یک تقسیم کرده است. مثلاً در تکرار بار اول تعداد 71 مورد (62.8 درصد) کد صفر و تعداد 42 مورد (37.2 درصد) کد یک تولید کرده است. به عنوان مثال دیگر در تکرار بار پنجم تعداد 56 مورد (49.6 درصد) کد صفر و تعداد 57 مورد (50.4 درصد) کد یک تولید کرده است.

به همین ترتیب در نهایت نشان داده است با جایگزاری داده‌های گمشده، تعداد کل کدهای صفر و یک در هر مرحله چقدر است. به عنوان مثال ما در می‌یابیم که در تکرار بار پنجم تعداد 512 مورد (51.3 درصد) کد صفر و تعداد 486 مورد (48.7 درصد) کد یک برای کمیت marital وجود دارد.

فرایند جایگزاری داده‌های گمشده و سپس به دست آوردن آماره‌های توصیفی، این بار برای کمیت address انجام شده است.

جدول Descriptive Statistics برای کمیت address

 

در ابتدا جدول بالا، آماره‌های توصیفی برای 850 داده موجود به دست آمده است. این جدول نشان می‌دهد میانگین و انحراف معیار برای کمیت address در 850 مورد موجود به ترتیب برابر با 11.47 و 9.96 بوده است.

در هر تکرار، 148 داده گمشده جایگزاری شده است که آماره‌های توصیفی داده‌های جایگزاری شده مربوط به هر مرحله نیز به دست آمده است. مثلاً در مرحله چهارم که 148 مقدار جایگزاری شده است، میانگین موارد جایگزاری شده برابر با 12.97 بوده است.

در پایان این جدول نیز می‌توانید آماره‌های توصیفی برای همه‌ی داده‌ها (داده‌های موجود قبلی به همراه داده‌های جایگزاری شده جدید) را مشاهده کنید.

مشابه جدول بالا برای کمیت employ نیز به دست آمده است. آن را در ادامه ببینید.

جدول Descriptive Statistics برای کمیت employ

 

در این جدول نیز آماره‌های توصیفی یکبار برای داده‌های موجود (904 مورد)، یکبار برای داده‌های جایگزاری شده (در پنج مرحله تکرار فرایند جانهی) و در نهایت برای داده‌های تکمیل شده (904 مورد قبلی همراه با 94 داده جایگزاری شده) به دست آمده است.

به خاطر داشته باشید ما در تنظیمات و در تب Variables از نرم‌افزار خواستیم که داده‌های جایگزاری شده را در یک فایل دیتا جدید شامل نتایج جایگزاری برای داده‌های گمشده همراه با داده‌های موجود قبلی، برای ما بسازد. نام این فایل را نیز Impute گذاشتیم.

هنگامی که در پنجره تنظیمات OK می‌کنیم، یک فایل دیتا جدید با همین نام برای ما ساخته می‌شود. من در تصویر زیر بخش‌هایی از این فایل را آورده‌ام.

فایل دیتا جدید ساخته شده بعد از جایگزاری داده های گمشده

 

نرم‌افزار خانه‌های جایگزاری شده را با رنگ برای ما مشخص کرده است. داده‌ها در هر مرحله‌ی جایگزاری نیز زیر هم نوشته شده است.

 

 

من در این مقاله به بیان Impute Missing Data Values در جانهی چندگانه (Multiple Imputation) که در آنالیز داده‌های گمشده Missing Value استفاده می‌شود، پرداخته‌ام.

چگونه به این مقاله رفرنس دهیم

GraphPad Statistics (2023). Impute Missing Data Values in Multiple Imputation Studies. Statistical tutorials and software guides. Retrieved Month, Day, Year, from https://graphpad.ir/impute-missing-data-values-spss/.php

For example, if you viewed this guide on 12th January 2023, you would use the following reference

GraphPad Statistics (2023). Impute Missing Data Values in Multiple Imputation Studies. Statistical tutorials and software guides. Retrieved January, 12, 2022, from https://graphpad.ir/impute-missing-data-values-spss/.php

ارایه خدمات تحلیل و مشاوره آماری

گراف پد برای شما خدمات مشاوره و انجام انواع تحلیل‌های آماری را ارایه می‌دهد. جهت دریافت نکات بیشتر بهتر است با ما تماس بگیرید.

    گراف پد جمعی از رتبه‌های برتر آزمون دکترا آمار دانشگاه‌های ایران | برجسته در موسسه بین‌المللی تحقیقات | دارای نماد اعتماد الکترونیک از مرکز توسعه تجارت الکترونیکی ایران و مجوز رسمی ثبت به شماره ۴۱۸۸۱ و شناسه ملی ۱۴۰۰۶۸۳۲۳۱۹