بازاریابی و تمایل به خرید Propensity to Purchase در SPSS

Propensity to Purchase

روش تمایل به خرید Propensity to Purchase از نتایج یک پست آزمایشی یا کمپین قبلی برای ایجاد نمره یا اصطلاحاً Score استفاده می‌کند. نمرات نشان می‌دهند که کدام فرد بیشترین احتمال پاسخ مثبت و خرید را دارد. فیلد Response نشان می‌دهد که چه کسی به ایمیل آزمایشی یا کمپین قبلی پاسخ داده است.

فیلدهای Propensity ویژگی‌هایی هستند که می‌خواهید از آنها برای پیش‌بینی احتمال پاسخ مثبت در افراد دیگر استفاده کنید. خوب است در همین جا بدانیم که ما در تحلیل Propensity to Purchase با یک مدل رگرسیون لجستیک باینری روبه‌رو هستیم.

این تکنیک از رگرسیون لجستیک باینری برای ساخت یک مدل پیش بینی استفاده می‌کند. فرآیند طراحی و به کارگیری یک مدل پیش بینی دارای مراحل زیر است.

مدل را بسازید و فایل مدل را ذخیره کنید. شما مدل را با استفاده از مجموعه داده‌ای می سازید که نتیجه مورد علاقه (اغلب به عنوان هدف Target شناخته می‌شود) برای آن مشخص است. این نتیجه می‌تواند پاسخ مثبت و خرید باشد. برای مثال، اگر می‌خواهید مدلی بسازید که پیش‌بینی کند چه کسی احتمالاً به یک کمپین ایمیل پاسخ می‌دهد، باید با مجموعه داده‌ای شروع کنید که از قبل شامل اطلاعاتی در مورد اینکه چه کسی پاسخ داده و چه کسی پاسخ نداده، باشد. به بیان ساده ما در این گام باید تحلیل را بر روی افرادی انجام دهیم که پاسخ آن‌ها (خرید یا عدم خرید) را می‌دانیم. به این ترتیب ما مدل را بر روی گروه کوچکی از مشتریان، طراحی می‌کنیم و می‌سازیم.

برای به دست آوردن نتایج پیش‌بینی‌شده، آن مدل را در مجموعه داده‌ای متفاوت که نتیجه مورد علاقه آن یعنی همان پاسخ مثبت یا منفی با کمپین، برای ما مشخص نیست اعمال کنید.

ملاحظات داده‌ها

Data Considerations

هنگامی که می‌خواهیم به آنالیز Propensity to Purchase در مطالعات مربوط به بازاریابی و Marketing بپردازیم، توجه به سطوح اندازه‌گیری و یا همان Measurement Level داده‌ها مهم است. در ادامه به اختصار درباره آن صحبت می‌کنیم.

در واقع تعیین این‌که Variable ما در کدام نوع از سطوح اندازه‌گیری قرار می‌گیرد، اهمیت بسیار دارد و بر روی نتایج به دست آمده تاثیر می‌گذارد.

برای توضیح بیشتر بیان می‌کنیم که داده‌ها در سه سطح اندازه‌گیری به ترتیب زیر قرار می‌گیرند.

اسمی Nominal.

زمانی می‌توان یک Variable را اسمی تلقی کرد که مقادیر آن، دسته‌هایی را بدون رتبه‌بندی نشان دهند (مثلاً بخش شرکتی که یک کارمند در آن کار می‌کند). نمونه‌هایی از کمیت اسمی مانند منطقه، کدپستی و وابستگی مذهبی است.

رتبه‌ای Ordinal.

زمانی می‌توان یک Variable را رتبه‌ای در نظر گرفت که مقادیر آن، دسته‌هایی را با رتبه‌بندی نشان دهند (به عنوان مثال، سطوح رضایت از خدمات از بسیار ناراضی تا بسیار راضی). نمونه‌هایی از کمیت‌های ترتیبی شامل نمرات نگرش است که نشان‌دهنده درجه رضایت یا اعتماد و امتیازات رتبه‌بندی ترجیح است.

پیوسته Continuous.

یک Variable زمانی می‌تواند به عنوان پیوسته (مستمر) در نظر گرفته شود که مقادیر آن اندازه‌هایی مرتب شده را با یک متریک معنی‌دار نشان دهند، به طوری که مقایسه فاصله بین اندازه‌ها مناسب و واقعی باشد. نمونه‌هایی از کمیت‌های پیوسته شامل سن بر حسب سال و درآمد به هزار دلار است.

حال بیایید در ادامه به بیان مثالی در زمینه تحلیل Propensity to Purchase بپردازیم. توضیحات بیشتر را می‌توانید در این مثال مشاهده کنید و در ادامه درباره‌ی آن‌ها حرف بزنیم. همچنین فایل این مثال را می‌توانید از اینجا دریافت کنید.

مثال کار با نرم‌افزار SPSS Propensity to Purchase

Example

فرض کنید، بخش بازاریابی یک شرکت می‌خواهد از نتایج یک پست الکترونیکی آزمایشی برای تخصیص امتیاز تمایل به خرید به بقیه پایگاه داده کاربران خود، با استفاده از ویژگی‌های فردی و دموگرافیک آن‌ها، جهت شناسایی افرادی که به احتمال زیاد پاسخ مثبت می‌دهند و خریدار هستند، استفاده کند.

در تصویر زیر می‌توانید بخشی از داده‌های این مثال را مشاهده کنید.

داده‌های مثال تحلیل Propensity to Purchase

این بررسی بر روی 1917 فرد انجام شده است. همچنین در این فایل ستونی با نام Responded مشاهده می‌شود. در این ستون افرادی که کد 1 دارند به معنای این است که به ایمیل پاسخ داده و خرید کرده‌اند. افراد دارای کد صفر به ایمیل پاسخ نداده‌اند. یک تحلیل فراوانی ساده نشان می‌دهد تعداد 1817 نفر پاسخ منفی و 100 نفر پاسخ مثبت داده‌اند.

ما در این مثال به دنبال آن هستیم که با استفاده از نتایج ستون Responded یک مدل رگرسیون لجستیک بین این ستون به عنوان Dependent Variable و ویژگی‌های فردی و دموگرافیک افراد به عنوان Independent Variable برقرار کنیم.

در مرحله بعد می‌خواهیم مدل لجستیک به دست آمده خود را بر روی داده‌های دیگری که فقط ویژگی‌های دموگرافیک و فردی دارند (یعنی فقط Independent Variable دارند) و فاقد ستون Responded هستند (یعنی Dependent Variable برای آن‌ها وجود ندارد)، برازش دهیم.

با استفاده از مسیر زیر، به انجام آنالیز Propensity to Purchase در نرم‌افزار SPSS می‌پردازیم.

Analyze→ Direct Marketing (Choose Technique) → Select contacts most likely to purchase

پس از رفتن به این مسیر، پنجره Propensity to Purchase برای ما باز می‌شود.

تنظیمات نرم‌افزار

Fields & Settings

در ادامه به تنظیمات پنجره Propensity to Purchase جهت انجام تحلیل در SPSS و انتخاب گزینه‌ها صحبت می‌کنیم. در این پنجره با دو تب به نام‌های Fields و Settings روبه‌رو هستیم، به توضیح آن‌ها می‌پردازیم.

Fields

این تب به چند بخش و کادرهای مختلفی تقسیم می‌شود. آن‌ها را توضیح می‌دهیم.

کادر Fields

در کادر Fields اسامی همه ستون‌ها و Variableهای مطالعه آمده است. در این کادر می‌توانید Measurement هر کدام از کمیت‌ها را مشاهده کنید. در بالاتر توضیح دادیم که سطح اندازه‌گیری یا همان Measure کمیت باید به درستی انتخاب شده باشد.

کادر Response Field

فیلد پاسخ باید اسمی Nominal و یا رتبه‌ای Ordinal باشد. در این فیلد مشخص می‌شود چه افرادی پاسخ مثبت داده و خرید کرده‌اند. معمولاً Response Field با کدهای صفر و یک به ازای هر فرد مشخص می‌شود. افراد دارای پاسخ مثبت کد یک هستند و افراد بدون پاسخ کد صفر در نظر گرفته می‌شوند.

اگر این فیلد دارای چندین کد باشد فقط یکی از آن‌ها به عنوان پاسخ مثبت بیان شده و بقیه پاسخ منفی در نظر گرفته می‌شوند.

همچنین اگر این فیلد شامل عددی است که تعداد یا مقدار خریدها را نشان می‌دهد، باید یک فیلد جدید دیگر ایجاد کنید که در آن با کدهای صفر و یک پاسخ‌های مثبت یا عدم پاسخ‌ها را مشخص کرده باشید.

کادر Positive response value

این کادر کاملاً به کادر قبلی یعنی Response Field وابسته است و کد مثبت (افرادی که به ایمیل پاسخ داده‌اند و خرید کرده‌اند) را تعریف می‌کند. همچنین در کادر بازشو می‌توانید لیستی از تمام مقادیر تعریف شده در Response Field را مشاهده کنید. یکی از آن‌ها را به عنوان پاسخ مثبت در نظر بگیرید.

کادر Predict Propensity with

در این کادر، فیلدها و Variableهایی که می‌خواهیم مدل رگرسیون لجستیک ما بر مبنای آن‌ها ساخته شود، قرار می‌گیرد. این فیلدها می‌تواند اسمی، رتبه‌ای و یا پیوسته باشد.

حال بیایید به مثال خودمان برگردیم.

در کادر Fields تمام Variableهای موجود در مثال آمده است. در کادر Response Field نیز کمیت Responded to test offer قرار داده می‌شود.

در کادر کشویی Positive response value کدهای No و Yes دیده می‌شود. همان‌گونه که قبلاً نیز گفتیم در این کادر باید کد پاسخ مثبت قرار گیرد. بنابراین کد 1 یا همان Yes را انتخاب می‌کنیم.

ما می‌خواهیم پروفایل‌های تشکیل شده بر مبنای کمیت‌های زیر باشد.

Age, Income category, Education, Years at current residence, Gender, Married and Region

بنابراین آن‌ها را از کادر Fields به کادر Predict Propensity with منتقل می‌کنیم.

در پایین پنجره Propensity to Purchase بخش دیگری با نام Save Model دیده می‌شود. با استفاده از این بخش می‌توانیم مدل رگرسیون لجستیک خود را ذخیره کرده و آن را برای مرحله دیگر تحلیل Propensity to Purchase که در بالا به آن اشاره کردیم، فراخوان کنیم. در کادر File name یک نام دلخواه برای آن قرار می‌دهیم و با استفاده از دکمه Browse محل ذخیره این فایل را مشخص می‌کنیم. این فایل در قالب XML خواهد بود. به عنوان مثال من نام آن را Propensity to Purchase می‌گذارم.

در تصویر زیر می‌توانید نحوه ورود Variable ها به نرم‌افزار SPSS در تب Fields را مشاهده کنید.

تنظیمات تب Fields در پنجره Propensity to Purchase

Settings

در پنجره Propensity to Purchase تب دیگری با نام Settings دیده می‌شود. در ادامه درباره‌ی آن صحبت می‌کنیم.

تب Settings در پنجره Propensity to Purchase

برگه تنظیمات به شما این امکان را می‌دهد تا بتوانیم حداقل تعداد نمونه‌ها در هر پروفایل را کنترل کنیم. همچنین کمترین آستانه نرخ پاسخ را در خروجی‌ها قرار دهیم.

در ادامه بیایید بخش‌های متختلف این تب را توضیح دهیم.

Model Validation

این بخش که به آن اعتبارسنجی مدل گفته می‌شود، گروه‌های با نام‌های آموزشی Training و آزمایشی Testing را برای اهداف تشخیصی ایجاد می‌کند. اگر جدول طبقه‌بندی یعنی Classification table را در بخش Diagnostic Output انتخاب کنید، این جدول به منظور مقایسه، به بخش‌های آموزشی (انتخاب شده) و تست (انتخاب نشده) تقسیم می‌شود. نمرات که در واقع همان احتمال پاسخ مثبت در مدل رگرسیون لجستیک است، بر مبنای مدل به دست آمده از نمونه Training (که همیشه دارای رکوردهای کمتری نسبت به تعداد کل رکوردهای موجود است)، می‌باشد. ما در این بخش گزینه Validate the model را انتخاب می‌کنیم.

Training sample partition size (%). با استفاده از این گزینه، درصد رکوردهایی که باید به نمونه Training اختصاص داده شود را مشخص کنید. بقیه رکوردها به نمونه Testing اختصاص داده می‌شوند. مقدار باید بین صفر و 100 باشد. معمولاً به صورت پیش‌فرض این عدد بر روی 50 قرار گرفته است.

Set seed to replicate results. از آنجایی که رکوردها به طور تصادفی به نمونه‌های Training و Testing اختصاص داده می‌شوند، هر بار که این روش را اجرا می‌کنید ممکن است نتایج متفاوتی دریافت کنید، مگر اینکه همیشه از نقطه شروع یکسان که به آن Seed گفته می شود، تولید اعداد تصادفی را انجام دهیم. به صورت پیش‌فرض نرم‌افزار SPSS عدد Seed را برابر با 200000 در نظر می‌گیرد.

Diagnostic Output

در این بخش درباره نتایج و خروجی‌هایی که در پنجره Output نرم‌افزار به دست می‌آید، صحبت می‌کند.

Overall model quality. یک نمودار میله ای از کیفیت کلی مدل نشان می‌دهد که به صورت مقداری بین 0 و 1 بیان می‌شود. یک مدل خوب باید مقداری بیشتر از 0.5 داشته باشد.

Classification table. جدولی را نشان می‌دهد که پاسخ‌های مثبت و منفی پیش‌بینی شده را با پاسخ‌های مثبت و منفی واقعی مقایسه می‌کند. میزان دقت کلی می‌تواند نشان دهد که مدل چقدر خوب کار می‌کند، با این حال ممکن است به درصد پاسخ‌های مثبت پیش‌بینی شده صحیح علاقه بیشتری داشته باشید. درباره این جدول و نتایج آن در ادامه بیشتر صحبت خواهیم کرد.

Minimum probability. رکوردهایی با مقدار Score بیشتر (یادتان باشد گفتیم این Scoreها در واقع همان احتمال پاسخ مثبت در مدل رگرسیون لجستیک است) از مقدار مشخص شده را به دسته پاسخ مثبت پیش‌بینی شده در جدول طبقه‌بندی، اختصاص می‌دهد. به عنوان یک قاعده کلی، شما باید مقداری نزدیک به حداقل نرخ پاسخ هدف خود را که به صورت نسبت بیان می شود، مشخص کنید. به عنوان مثال، اگر به نرخ پاسخ حداقل 5 درصد علاقه دارید، 0.05 را مشخص کنید. مقدار باید بزرگتر از 0 و کمتر از 1 باشد.

Name and Label for Recoded Response Field

این روش به طور خودکار فیلد پاسخ را در یک فیلد جدید که در آن 1 نشان‌دهنده پاسخ‌های مثبت و 0 نشان‌دهنده پاسخ‌های منفی است، بار دیگر کدگزاری می‌کند. تحلیل در فیلد دوباره کدگذاری شده انجام می‌شود. شما می‌توانید نام و برچسب پیش‌فرض را اصلاح کرده و نام دلخواه خود را قرار دهید. به این نکته توجه کنید که نام‌ها باید با قوانین نامگزاری IBM® SPSS® Statistics مطابقت داشته باشند.

Save Scores

یک فیلد جدید شامل نمرات تمایل به خرید، به طور خودکار در مجموعه داده اصلی ایجاد می‌شود. این نمرات نشان‌دهنده احتمال پاسخ مثبت است که به صورت نسبت بیان می شود. به این نکته توجه کنید که نام فیلدها باید با قوانین نامگزاری SPSS مطابقت داشته باشد. همچنین نام فیلد نمی‌تواند نام فیلدی را که از قبل در مجموعه داده وجود دارد کپی کند. اگر این رویه را بیش از یک بار روی مجموعه داده اجرا کنید، باید هر بار نام متفاوتی را قرار دهید.

در تصویر زیر می‌تواند تنظیمات دلخواه تب Setting را مشاهده کنید.

تنظیمات دلخواه تب Fields در پنجره Propensity to Purchase

حال در ادامه با Run کردن تنظیمات و انتخاب Variableها می‌توانیم نتایج به دست آمده توسط نرم‌افزار SPSS را مشاهده کنیم.

نتایج خروجی‌های SPSS تحلیل تمایل به خرید

Output

هنگامی که Run می‌کنیم، نتایج و خروجی‌های نرم‌افزار در پنجره Output به دست می‌آید. همچنین در فایل دیتا، دو ستون جدید ایجاد می‌شود. تصویر زیر را ببینید.

اسامی این ستون‌های جدید یعنی Response_recoded1 و Score1 در همان تنظیمات پنجره Propensity to Purchase قرار داده شده بود. ستون Response_recoded1 در واقع همان یافته‌های فیلد Responded to test offer است که بار دیگر جهت انجام تحلیل کدگزاری شده است. یادتان باشد این ستون به پاسخ مثبت و یا منفی کاربران می‌پرداخت.

ستون Score1 نیز به هر فرد یک نمره داده است. این نمره در واقع همان احتمال پاسخ مثبت توسط فرد است که با استفاده از مدل رگرسیون لجستیک باینری به دست می‌آید. یادتان باشد ما در بخش Minimum probability از تنظیمات نرم‌افزار عدد 0.02 را قرار دادیم. بنابراین در مواردی که Score بالاتر از این عدد است، پاسخ مثبت و در مواردی که کمتر از این عدد است پاسخ منفی در نظر گرفته می‌شود.

اگر خوب دقت کنید مشاهده می‌کنید که در خیلی از موارد بین این یافته و ستون Response_recoded1 تناقض وجود دارد. یعنی عدد Score مثلاً بالاتر از 0.02 به دست آمده است و بنابراین از دیدگاه مدل پاسخ مثبت است، اما در ستون Response_recoded1 پاسخ منفی است. وجود این تناقض ما را به استفاده از جدول زیر که در Output نرم‌افزار به دست می‌آید، راهنمایی می‌کند. در واقع این تناقض چیز عجیبی نیست.

در ابتدای فایل Output جدول زیر با نام Classification Table دیده می‌شود.

جدول طبقه‌بندی مقادیر پیش‌بینی شده فیلد Responded to test offer را با مقادیر واقعی آن مقایسه می‌کند. میزان دقت کلی یا همان Overall Percentage می‌تواند نشانه‌هایی از عملکرد خوب مدل ارائه دهد، اما اگر هدف مطالعه ایجاد مدلی باشد که گروهی از افرادی را که احتمالاً پاسخ مثبتی می‌دهند شناسایی کند، ممکن است بیشتر به درصد پاسخ‌های مثبت پیش‌بینی‌شده صحیح علاقه داشته باشید.

جدول طبقه‌بندی به بخش‌های Training Sample و Testing Sample تقسیم می‌شود. از Training Sample برای ساخت مدل لجستیک استفاده می‌شود. سپس این مدل ساخته شده به Testing Sample اعمال می‌شود تا ببیند مدل چقدر خوب کار می‌کند.

حداقل نرخ پاسخ مشخص شده 0.02 یا 2% بود. جدول طبقه‌بندی بالا نشان می‌دهد که میزان طبقه‌بندی صحیح برای پاسخ‌های مثبت در نمونه آموزشی 4.62 درصد و در نمونه آزمایشی 7.05 درصد است. از آنجایی که نرخ پاسخ نمونه آزمایشی بیشتر از 2% است، این مدل باید قادر باشد افرادی را شناسایی کند که احتمالاً نرخ پاسخگویی بیشتر از 2% را ارائه می‌دهند.

در ادامه بیایید بخش‌های مختلف این جدول و اعداد آن را بیشتر بررسی کنیم. تصویر زیر را ببینید. به ترتیب شماره‌گزاری آن‌ها را توضیح می‌دهیم.

جدول Classification Table و توضیح یافته‌ها

1 عدد 155 به دست آمده در نمونه Training نشان می‌دهد 155 نفر در واقع (Observed) پاسخ منفی داده بودند، نرم‌افزار نیز به درستی آن‌ها را در گروه No پیش‌بینی شده بر مبنای مدل (Predicted) قرار داده است.

2 عدد Percentage Correct برابر با 17.24 به دست آمده است. تعداد کل افرادی که در نمونه Training پاسخ منفی داده بودند (Observed) برابر با 899 = 744 + 155 نفر بوده است. از بین آن‌ها فقط 155 نفر به درستی منفی تشخیص داده شده و پیش‌بینی شده‌اند. بنابراین درصد درستی در اینجا برابر با 155/899 نفر است که همان 17.24 درصد به دست می‌آید.

3 به عدد 36 به دست آمده در نمونه Training نگاه کنید. این عدد نشان می‌دهد 36 نفر که پاسخ مثبت داده بودند (Observed)، مدل نیز به درستی آن‌ها را در گروه Yes پیش‌بینی شده بر مبنای مدل (Predicted) قرار داده است. از آنجا که در نمونه Training رویهم 40 نفر پاسخ مثبت داده بودند (Observed)، بنابراین درصد درستی پیش‌بینی مدل در اینجا 90 درصد است.

4 Overall Percentage در اینجا برابر با 4.62 درصد به دست آمده است. تعداد کل افرادی که در نمونه Training بر مبنای مدل لجستیک، پاسخ مثبت پیش‌بینی شده‌اند (Predicted) برابر با 780 = 36 + 744 نفر بوده است. از بین آن‌ها فقط 36 نفر به درستی مثبت پیش‌بینی شده‌اند. بنابراین درصد درستی در اینجا برابر با 36/780 نفر است که همان 4.62 درصد به دست می‌آید.

5 به اعداد روی قطر یعنی 155 و 36 نگاه کنید. آن‌ها مواردی هستند که مدل به درستی پیش‌بینی کرده است. 155 نفر پاسخ منفی و 36 نفر پاسخ مثبت. بنابراین تعداد موارد پیش‌بینی درست 191 = 36 + 155 است. تعداد کل نمونه آموزشی نیز برابر با 939 = 36 + 4 + 744 + 155 نفر است. بنابراین درصد درستی پیش‌بینی کلی در این نمونه برابر با 191/939 یعنی همان 20.34 درصد است.

6 همه مواردی که برای بخش Training گفتیم برای بخش Testing نیز برقرار است. Overall Percentage در اینجا برابر با 7.05 درصد به دست آمده است. تعداد کل افرادی که در نمونه Testing بر مبنای مدل لجستیک، پاسخ مثبت پیش‌بینی شده‌اند (Predicted) برابر با 808 = 57 + 751 نفر بوده است. از بین آن‌ها فقط 57 نفر به درستی مثبت پیش‌بینی شده‌اند. بنابراین درصد درستی در اینجا برابر با 57/808 نفر است که همان 7.05 درصد به دست می‌آید. به این ترتیب از آنجایی که نرخ پاسخ نمونه آزمایشی بیشتر از 2% است، این مدل باید قادر باشد افرادی را شناسایی کند که احتمالاً نرخ پاسخگویی بیشتر از 2% را ارائه می‌دهند.

به فایل Output و خروجی‌های نرم‌افزار نگاه کنید. در این خروجی‌ها گراف زیر با نام Overall Model Quality دیده می‌شود.

نمودار کیفیت کلی مدل یک نشانه و گراف بصری از کیفیت مدل ارائه می‌دهد. معمولاً بیان می‌شود که کیفیت کلی مدل باید بالای 0.5 باشد. در اینجا ما با یک اندازه عددی 0.56 روبه‌رو هستیم. بنابراین مدل ما مناسب است.

در ابتدای متن بیان کردیم که فرآیند طراحی و به کارگیری یک مدل پیش‌بینی در مطالعات Propensity to Purchase دارای مراحل زیر است. بار دیگر آن‌ها را بیان می‌کنیم.

تا به حال هر آنچه صحبت کردیم مربوط به مرحله 1 یعنی ساختن و ذخیره کردن مدل بود. حال در مرحله‌ی بعد باید این مدل طراحی شده را بر روی دیتای دیگری که Dependent Variable آن مشخص نیست (به دلیل اینکه ما بر روی این داده‌ها ایمیل تبلیغاتی یا کمپینی هنوز ارسال نکرده‌ایم که بدانیم چه افرادی پاسخ مثبت می‌دهند و چه افرادی پاسخ منفی) به کار ببریم و امتحان کنیم. در جدول Classification Table نشان دادیم که Overall Percentage برای نمونه آزمایشی برابر با 7.05 درصد است که از حداقل نرخ پاسخ 2 درصد که در تنظیمات نرم‌افزار آن را در نظر گرفتیم، بالاتر است. بنابراین می‌توانیم انتظار داشته باشیم که مدل قادر است افرادی را شناسایی کند که نرخ پاسخگویی بیشتر از 2% را ارائه می‌دهند.

در ادامه متن به بیان نحوه انجام مرحله بعدی می‌پردازیم.

بکارگیری مدل

Applying the model

فرض کنید ما مدل رگرسیون لجستیک خود را بر روی افرادی که هم Dependent Variable آن‌ها را می‌دانستیم (یعنی پاسخ مثبت یا منفی) و هم Independent Variable های آن‌ها را می‌دانیم، برازش داده‌ایم و به دست آورده‌ایم. یادتان باشد ما این مدل را در تنظیمات نرم‌افزار و در یک فایل با فرمت XLM با نام Propensity to Purchase ذخیره کردیم. در این مرحله می‌خواهیم از یافته‌های این مدل جهت به کار بردن بر روی دیتایی که پاسخ مثبت و منفی آن‌ها را نمی‌دانیم (به دلیل اینکه ایمیل یا کمپینی ارسال نکرده‌ایم) و فقط Independent Variable های آن‌ها برایمان مشخص است، استفاده کنیم.

به تصویر زیر نگاه کنید. این تصویر داده‌هایی را نشان می‌دهد که پاسخ مثبت یا منفی افراد را نمی‌دانیم و صرفاً همانند مرحله قبل ویژگی‌های فردی و دموگرافیک افراد برایمان مشخص است. فایل دیتا را می‌توانید از اینجا دریافت کنید.

همان‌گونه که در تصویر بالا مشاهده می‌کنید، داده‌ها دارای اطلاعات فردی برای هر کاربر هستند اما ستونی درباره‌ی اینکه پاسخ مثبت با منفی به پیشنهاد خرید داده‌اند، وجود ندارد. همان‌گونه که قبل‌تر گفتیم ما می‌خواهیم مدل رگرسیون لجستیک به دست آمده از مرحله‌ی قبل را بر این داده‌ها برازش دهیم.

برای انجام این کار لازم است در ابتدا همان فایل XLM را فراخوان کنیم. این کار با استفاده از مسیر زیر در نرم‌افزار SPSS انجام می‌شود.

Utilities → Scoring Wizard → Select contacts most likely to purchase

در این مسیر پنجره زیر با نام Scoring Wizard برای ما باز می‌شود. در ابتدا و با استفاده از دکمه Browse فایل XLM ذخیره شده از انجام مرحله قبلی را فراخوان می‌کنیم. با انجام این کار در کادر Model Details اطلاعات مربوط به این فایل و مدل اجرا شده بر روی آن، مشخص می‌شود.

سپس Next می‌کنیم تا وارد پنجره بعدی شویم. تصویر زیر را ببینید.

پنجره Scoring Wizard و مشخص کردن فیلدهای مدل

در ابتدای این پنجره نام مدل که همان Propensity to Purchase است، بیان می‌شود. نوع مدل نیز رگرسیون لجستیک باینری Binary Logistic Regression نوشته شده است. هدف ما در این پنجره این است که بین اجزای مدل در فایل XLM و ستون‌های فایل دیتا فعلی که می‌خواهیم تحلیل لجستیک را بر روی آن انجام دهیم (به این فایل دیتا Active Dataset می‌گوییم) تطابق برقرار کنیم.

چنانچه دقت کنید دکمه Next در این پنجره فعال نیست. این مطلب نشان می‌دهد در حال حاضر بین فایل XLM فراخوان شده و فایل Active Dataset تطابق برقرار نیست. در واقع فیلد و ستون‌هایی وجود دارد که همچنان انتخاب شده نیستند. اگر دقت کنید می‌بینید که ستون IncomeCategory در اینجا وجود ندارد و جای آن در بخش Dataset Fields خالی است. پس لازم است آن را نیز انتخاب کنیم. تصویر زیر را ببینید.

با انجام این کار همان‌گونه که مشاهده می‌کنید گزینه Next نیز فعال می‌شود. بر روی آن می‌زنیم تا وارد پنجره بعدی شویم. تصویر آن را در ادامه ببینید.

انتخاب خروجی‌ها و یافته‌ها در Active Dataset

در این پنجره ستون یا ستون‌هایی که می‌تواند در فایل دیتا فعلی ایجاد شود، آمده است. هر کدام را که انتخاب کنید، در انتهای فایل دیتا، ستون مربوط به آن ساخته می‌شود. به این نکته دقت کنید که در این پنجره گزینه Probability of Selected Category را انتخاب کرده و کد 1 که به معنای پاسخ مثبت است، در کادر خالی قرار گرفته باشد. حال بار دیگر بر روی دکمه Next بزنید. وارد پنجره زیر خواهید شد.

انتخاب نحوه قرار گرفتن Score ها به فایل Active Dataset

در این مرحله که پنجره انتهایی است، نمرات Score که همان احتمال مشاهده پاسخ مثبت بر مبنای مدل رگرسیون لجستیک است، در فایل Active Dataset قرار می‌گیرند.

حال بر روی دکمه Finish بزنید. با انجام این کار، در فایل دیتا چهار ستون جدید (هر یک مربوط به یکی از گزینه های پنجره Scoring Wizard) ساخته می‌شود. در تصویر زیر می‌توانید آن‌ها را ببینید.

ستون‌های جدید ایجاد شده در فایل Active Dataset

از آن‌جا که ما در این مثال علاقه‌مند به یافتن احتمال پاسخ مثبت هستیم. بنابراین به داده‌های ستون SelectedProbability توجه می‌کنیم. در این ستون هر عدد بیانگر احتمال پاسخ مثبت و خرید توسط فرد مورد بررسی (سطر) می‌باشد.

خاطرتان باشد ما حداقل احتمال پاسخ مثبت را برابر با 0.02 و یا 2% در نظر گرفتیم. در این‌جا هر کدام از اعداد ستون SelectedProbability بزرگتر از 0.02 باشد، از دیدگاه نرم‌افزار و مدل برازش شده، احتمال پاسخ مثبت است و برای همین در ستون PredictedValue کد 1 را دریافت کرده است. در مواردی هم که اعداد ستون SelectedProbability کوچکتر از 0.02 باشد، از دیدگاه نرم‌افزار و مدل برازش شده، احتمال پاسخ منفی است و برای همین در ستون PredictedValue کد 0 ثبت شده است.

ستون SelectedProbability به شما در شناسایی افرادی که پتانسیل پاسخ مثبت را دارند، کمک خواهد کرد. به عنوان مثال چنانچه شما دارای محدویت ارسال بسته‌های تبلیغاتی خود هستید و فقط می‌خواهید آن‌ها را برای افرادی بفرستید که احتمال پاسخ مثبت آن‌ها از سطح مشخص بالاتر است (مثلاً بالاتر از پانزده درصد)، این کار را می‌توانید به سادگی با Sort کردن در ستون SelectedProbability انجام دهید. به عنوان مثال به تصویر زیر نگاه کنید.

ID هایی با احتمال پاسخ مثبت بیشتر از 15 درصد

همه این ID ها افرادی هستند که احتمال پاسخ مثبت در آن‌ها بیشتر از 15 درصد است. بنابراین با تمرکز بر روی آن‌ها می‌توان صرفاً بسته‌های تبلیغاتی را برای این افراد (کدپستی آن‌ها را نیز در همین فایل داریم) ارسال کرد.

چگونه به این مقاله رفرنس دهیم

GraphPad Statistics (2022). Direct Marketing and Propensity to Purchase in SPSS. Statistical tutorials and software guides. Retrieved Month, Day, Year, from https://graphpad.ir/direct-marketing-spss-propensity-to-purchase/.php

For example, if you viewed this guide on 12^th January 2022, you would use the following reference

GraphPad Statistics (2022). Direct Marketing and Propensity to Purchase in SPSS. Statistical tutorials and software guides. Retrieved January, 12, 2022, from https://graphpad.ir/direct-marketing-spss-propensity-to-purchase/.php

ارایه خدمات تحلیل و مشاوره آماری

گراف پد برای شما خدمات مشاوره و انجام انواع تحلیل‌های آماری را ارایه می‌دهد. جهت دریافت نکات بیشتر بهتر است با ما تماس بگیرید.

سبد خرید