مفاهیم اساسی در آنالیز بقا Survival Analysis
Basic Concepts of Survival Analysis
تحلیل بقا که به آن Survival Analysis گفته میشود، ابزار و روشی است جهت بررسی و درک این مطلب که چگونه احتمال وقوع یک رویداد معین، با گذر زمان کم و یا زیاد میشود. به این ترتیب ما در آنالیز بقا، با سه عنصر و کلمهی اساسی که تشکیل دهندهی این نوع از تحلیلهای آماری هستند، روبهرو هستیم. این سه کلمه عبارتند از احتمال، رویداد و زمان.
شنیدن کلمهی احتمال ما را به یاد انواع مدلهای رگرسیونی مانند رگرسیون لجستیک باینری، رگرسیون پروبیت و یا رگرسیون چند جملهای میاندازد. در آنالیز بقا نیز با مدلهای رگرسیونی مانند رگرسیون خطرات متناسب کاکس Cox Proportional Hazards Regression روبهرو هستیم.
در تحلیلهای بقا، همانگونه که از نام آنها برمیآید، رویداد مورد علاقه و مورد بررسی در مطالعه، اغلب مرگ است، و بنابراین مدت زمانی که طول میکشد تا این رویداد رخ دهد، زمان بقا Survival Time یک فرد نامیده میشود.
کنار هم قرار گرفتن کلمات احتمال، رویداد و زمان سبب میشود که تمرکز ما بر برخی از جنبههای منحصر به فرد این نوع از آنالیزها قرار گیرد و تحلیل بقا را از انواع دیگر تکنیکهای آنالیز آماری متمایز میکند. من در این مقاله به دنبال این هستم که به بیان و توضیح برخی از مهمترین کلمات و مفاهیم اساسی در Survival Analysis بپردازم.
تحلیل بقا فرآیند بررسی مدت زمانی است که طی میشود تا یک رویداد خاص مورد علاقه رخ دهد. در بسیاری از آزمایشها (بهویژه آزمایشهایی که در علوم زیستی هستند)، رویداد مورد علاقه اغلب مرگ یک آزمودنی (موش، سلول و غیره) در مطالعه است. کمیت پاسخ Response Variable برای این آزمایش ها مدت زمان سپری شدهای است که آزمودنی زنده مانده است.
با این حال، تحلیل بقا به همان اندازه، برای انواع دیگر آزمایشهایی که از زمان جهت رویدادی یک پیشامد استفاده میکنند، کاربرد دارد. مانند آزمایشهایی که مدت زمانی را که یک قطعه مکانیکی استفاده میشود تا شکسته یا از کار بیفتد اندازهگیری میکند. یا مدت زمانی که طول میکشد تا دانشجو مدرک خود را کسب کند. در علم اقتصاد، این تحلیلها را میتوان «تحلیل مدتزمان» Duration Analyses یا «مدلسازی مدت زمان» Duration Modeling نامید. در جامعهشناسی، این مطالعات را میتوان «تحلیل تاریخ رویداد» Event History Analyses نامید. با این حال، همه این تحلیلها دارای مفاهیم و اصول یکسان هستند.
یک کلمه کلیدی، منحنی بقا
Key concept, Survival Curves
یکی از نتایج اولیه آنالیز بقا، درک چگونگی بالا و پایین شدن احتمال بقا در طول زمان است. رابطه بین زمان و احتمال را میتوان به صورت گرافیکی در قالب یک منحنی بقا Survival Curve ارایه کرد. این منحنیها برای دادهها و نمونهی مورد مطالعه ما ایجاد میشوند. در این گرافها زمان سپری شده روی محور X و احتمال بقا (به صورت کسری یا درصدی) روی محور Y ترسیم میشوند.
بنابراین، هر نقطه روی منحنی بقا به عنوان اندازه احتمال اینکه یک فرد میتواند برای مدت زمان معین بدون رخدادن رویداد مورد علاقه، ” زنده بماند ” تعریف میشود. منحنی بقای مثال زیر را در نظر بگیرید.
در این نمودار، میتوانیم شیب کلاسیک “پله پله” stair-step منحنی بقا را ببینیم. احتمال بقا به صورت درصدی در این نمودار آورده شده است که از 100% در زمان صفر شروع میشود و در حدود زمان 83 روز به 0% ختم می شود.
شکل پله پله نتیجه روش محاسبه احتمال بقا است. احتمال بقا تنها زمانی کاهش پیدا میکند که یکی از نمونههای مورد مطالعه، رویداد مورد علاقه را تجربه کند (چنانچه رویداد مورد علاقه مرگ تعریف شود، به معنای نقاطی است که یک فرد میمیرد)، بنابراین هر یک از این افتهای عمودی نشان دهنده یک رویداد (مرگ) در جمعیت مورد مطالعه است. سپس میتوان از این نمودارها جهت تعیین اطلاعات مهم در مورد یک جمعیت، مانند میانگین زمان بقا یا مقایسه آماری چند جمعیت با منحنیهای بقای مربوط به خود، استفاده کرد.
خوب است این نکته را بدانید که منحنی بالا با استفاده از روش کاپلان-مایر Kaplan-Meier ایجاد شده است. یکی دیگر از تکنیکهای تحلیل بقا، رگرسیون خطرات متناسب کاکس Cox Proportional Hazards Regression است. این روشهای تحلیلی را میتوان با استفاده از نرمافزارهایی مانند SPSS و Prism انجام داد.
هدف از آنالیز بقا چیست؟
The Objective of Survival Analysis
در تحلیل بقا، هدف اولیه براورد و به دست آوردن رابطه بین کمیت پاسخ (مدت زمان سپری شده) و یک یا چند کمیت پیشبینی کننده است. این کمیتها پیشبینیکننده ممکن است Variable هایی باشند که با شرایط آزمایشی مشخص شدهاند (مانند دریافت یک درمان در مقابل یک درمان متفاوت دیگر، یا یک کنترل)، یا ممکن است کمیتهای مشاهدهای (مانند جنسیت شرکتکننده در مطالعه) باشند. چند مثال ببینید.
به عنوان مثال، آنالیز بقا ممکن است به منظور بررسی اثرات یک درمان جدید سرطان بر مبنای اندازهگیری زمان بقای افرادی که درمان جدید را دریافت میکنند، در مقایسه با افرادی که در گروه کنترل قرار دارند، استفاده شود. با مقایسه زمان بقای افراد در هر گروه، میتوانیم یافتههایی در مورد اثربخشی درمان جدید به دست بیاوریم.
به عنوان مثال دیگری تصور کنید که برای شرکتی کار میکنید که یک دستگاه آزمایشگاهی تولید میکند. شما وظیفه بررسی خرابی یک قطعه خاص در این دستگاه را بر عهده دارید. علاوه بر اندازهگیری مدت زمانی که هر دستگاه سپری میکند تا آن قطعه خاص خراب شود، میتوانید دمای محیط و رطوبت نسبی را در داخل هر آزمایشگاه نیز ثبت کنید. در این مثال آنالیز بقا به شما این امکان را میدهد که رابطه بین دما و رطوبت را با مدت زمان خرابی قطعه، بررسی کنید.
- رگرسیون و آنالیز بقا
هنگامی که روابط بین کمیتهای پیشبینی کننده و زمان بقا به دست آمد، از این یافتهها میتوان به منظور براورد و پیشبینی احتمال بقای افراد دیگر در طول زمان استفاده کرد. به یاد داشته باشید، این مطلب یکی از اهداف همهی مدلهای رگرسیونی است.
اگر با مدلهای رگرسیون خطی چندگانه MLR آشنا هستید، (علاقمند بودید لینک رگرسیون خطی Linear Regression در نرمافزار SPSS) را ببینید.) ممکن است به نظر برسد که تحلیل بقا در تلاش برای رسیدن به همان هدف رگرسیون است. یعنی کشف روابط بین کمیت پاسخ Response Variable اندازهگیری شده و مجموعهای از کمیتهای پیشبینی کننده Predictive Variables. البته که شباهتهایی بین رگرسیون خطی چندگانه و برخی تکنیکهای آنالیز بقا وجود دارد (رگرسیون خطرات متناسب کاکس Cox proportional hazards regression). با این حال، برخی از ویژگیهای مهم در ساختار دادههای بقا وجود دارد که منجر به عدم مناسب بودن رویکردهای رگرسیون خطی چندگانه برای تجزیه و تحلیل این نوع دادهها میشود.
- چولگی در دادههای بقا
دادههای بقا اغلب بسیار چوله Highly Skewed هستند. این مطلب به ساختار آنها برمیگردد. تعداد بیشتر نمونهها دارای زمان بقای کم و تعداد کمتر نمونهها دارای بقای زیاد هستند. همین ویژگی سبب میشود که دادههای بقا چوله باشند و فاقد ویژگی مانند نرمال بودن توزیع دادهها.
همانطور که قبلا ذکر شد، کمیت پاسخ در تحلیل بقا، زمان سپری شده برای هر مشاهده تا رسیدن به نقطه پایانی تعریف شده است. این تعریف چند پیامد مهم برای توزیع مقادیر کمیت پاسخ دارد. الف) از آنجایی که زمان سپری شده را اندازهگیری میکنیم، همه مقادیر مثبت هستند. در تحلیل بقا “زمان منفی” وجود ندارد. ب) هنگام مشاهده یا اندازهگیری زمان بقا، مقادیر بهدستآمده عموماً بسیار چوله هستند. هیستوگرام زیر را در نظر بگیرید که زمان بقا را برای یک گروه 5000 نفره نشان میدهد.
در هیستوگرام بالا، بخش بزرگی از زمانهای بقا بین زمانهای 1 و 3 یافت میشود (تقریباً 70٪ از زمانهای بقای مشاهده شده در این محدوده قرار میگیرند). با این حال، تا زمان 13 مشاهدات متعددی وجود داشت. به این ترتیب دادههای بالا چوله به راست Right-Skewed گفته میشوند. این دادهها شبیهسازی شدهاند، اما ویژگیهای یک توزیع راستگرد را نشان میدهند که اغلب در دادههای بقای واقعی مشاهده میشود. به دلیل همین انحراف است که بسیاری از مفروضات و تکنیکهای مبتنی بر توزیع نرمال (گاوسی) نمیتوانند استفاده شوند.
تمایز عمده دیگر بین تحلیل بقا و تکنیکهای رگرسیون خطی استاندارد، وجود دادههای سانسور شده Censored Data است. در این زمینه علاقمند بودید لینک (دادههای سانسور شده Censored Data چیست؟) را مشاهده کنید.
چگونه به این مقاله رفرنس دهیم
GraphPad Statistics (2023). Basic concepts in Survival Analysis. Statistical tutorials and software guides. Retrieved Month, Day, Year, from https://graphpad.ir/basic-concepts-survival-analysis/.php
For example, if you viewed this guide on 12th January 2023, you would use the following reference
GraphPad Statistics (2023). Basic concepts in Survival Analysis. Statistical tutorials and software guides. Retrieved January, 12, 2022, from https://graphpad.ir/basic-concepts-survival-analysis/.php
ارایه خدمات تحلیل و مشاوره آماری
گراف پد برای شما خدمات مشاوره و انجام انواع تحلیلهای آماری را ارایه میدهد. جهت دریافت نکات بیشتر بهتر است با ما تماس بگیرید.