Logistic Regression
رگرسیون لجستیک یک روش آماری پرکاربرد در آمار و یادگیری ماشین است که برای مدلسازی احتمال وقوع یک رویداد باینری (دو حالته) یا طبقهبندی دادهها به دو دسته استفاده میشود. این روش به ویژه در مواردی که متغیر پاسخ (وابسته) یک متغیر دستهای با دو مقدار ممکن است (مانند بله/خیر، 0/1، بیمار/سالم) بسیار مفید است. برخلاف رگرسیون خطی که برای پیشبینی مقادیر پیوسته استفاده میشود، رگرسیون لجستیک برای پیشبینی احتمال تعلق یک نمونه به یک دسته خاص طراحی شده است.
مفاهیم پایه
- متغیر پاسخ دو حالته
در رگرسیون لجستیک، متغیر پاسخ (که اغلب y نامیده میشود) تنها میتواند دو مقدار داشته باشد. به عنوان مثال:
- 0 یا 1: نشاندهنده عدم وقوع یا وقوع یک رویداد
- بله یا خیر: نشاندهنده پاسخ مثبت یا منفی به یک سوال
- بیمار یا سالم: نشاندهنده وضعیت سلامتی یک فرد
- متغیرهای پیشبین (مستقل)
متغیرهای پیشبین (که اغلب x نامیده میشوند) میتوانند پیوسته یا دستهای باشند و برای پیشبینی احتمال وقوع رویداد مورد نظر استفاده میشوند. به عنوان مثال، برای پیشبینی احتمال ابتلا به بیماری قلبی، متغیرهای پیشبین میتوانند شامل سن، فشار خون، کلسترول و سابقه خانوادگی باشند.
- تابع لجستیک
قلب رگرسیون لجستیک، تابع لجستیک (که به آن سیگموئید نیز گفته میشود) است. این تابع یک مقدار پیوسته را به بازه بین 0 و 1 نگاشت میکند که به عنوان احتمال تفسیر میشود. فرمول تابع لجستیک به صورت زیر است:
p = 1 / (1 + e-z)
در این فرمول:
- p احتمال وقوع رویداد است.
- e عدد نپر (تقریباً 2.71828) است.
- z یک ترکیب خطی از متغیرهای پیشبین است: z = β0 + β1x1 + β2x2 + ... + βnxn
* β0 عرض از مبدا است. * β1, β2, ..., βn ضرایب رگرسیون هستند که نشاندهنده تاثیر هر متغیر پیشبین بر احتمال وقوع رویداد هستند. * x1, x2, ..., xn متغیرهای پیشبین هستند.
- تابع لینک
تابع لینک، رابطهای بین امید ریاضی متغیر پاسخ و ترکیب خطی متغیرهای پیشبین ایجاد میکند. در رگرسیون لجستیک، تابع لینک معمولاً تابع لاگیت (Logit) است که به صورت زیر تعریف میشود:
logit(p) = ln(p / (1 - p)) = z
تابع لاگیت، لگاریتم طبیعی نسبت احتمال وقوع رویداد به احتمال عدم وقوع آن است.
مدل رگرسیون لجستیک
مدل رگرسیون لجستیک، رابطه بین متغیرهای پیشبین و احتمال وقوع رویداد را با استفاده از تابع لجستیک مدلسازی میکند. هدف اصلی در رگرسیون لجستیک، یافتن ضرایب (β0, β1, β2, ..., βn) است که بهترین تطابق را با دادههای مشاهده شده ارائه میدهند.
تخمین پارامترها
تخمین ضرایب رگرسیون لجستیک معمولاً با استفاده از روش حداکثر درستنمایی (Maximum Likelihood Estimation - MLE) انجام میشود. MLE روشی است که پارامترهایی را پیدا میکند که احتمال مشاهده دادههای موجود را به حداکثر میرسانند. در رگرسیون لجستیک، تابع درستنمایی به صورت زیر تعریف میشود:
L(β) = ∏ p(yi | xi)yi (1 - p(yi | xi))(1 - yi)
که در آن:
- L(β) تابع درستنمایی است.
- yi مقدار متغیر پاسخ برای نمونه i است.
- xi مقادیر متغیرهای پیشبین برای نمونه i است.
- p(yi | xi) احتمال وقوع رویداد برای نمونه i است که با استفاده از تابع لجستیک محاسبه میشود.
به دلیل پیچیدگی تابع درستنمایی، معمولاً از روشهای تکراری مانند گرادیان کاهشی (Gradient Descent) برای یافتن پارامترهای بهینه استفاده میشود.
ارزیابی مدل
پس از تخمین پارامترها، باید مدل رگرسیون لجستیک را ارزیابی کرد تا اطمینان حاصل شود که عملکرد خوبی دارد. چندین معیار برای ارزیابی مدل رگرسیون لجستیک وجود دارد:
- ماتریس درهمریختگی (Confusion Matrix)
ماتریس درهمریختگی یک جدول است که نتایج پیشبینی مدل را با مقادیر واقعی مقایسه میکند. این ماتریس شامل چهار مقدار است:
- True Positive (TP) : تعداد نمونههایی که به درستی به عنوان مثبت پیشبینی شدهاند.
- True Negative (TN) : تعداد نمونههایی که به درستی به عنوان منفی پیشبینی شدهاند.
- False Positive (FP) : تعداد نمونههایی که به اشتباه به عنوان مثبت پیشبینی شدهاند (خطای نوع اول).
- False Negative (FN) : تعداد نمونههایی که به اشتباه به عنوان منفی پیشبینی شدهاند (خطای نوع دوم).
Predicted Positive | Predicted Negative | |
TP | FN | |
FP | TN | |
- دقت (Accuracy)
دقت، نسبت تعداد پیشبینیهای صحیح به کل تعداد پیشبینیها است:
Accuracy = (TP + TN) / (TP + TN + FP + FN)
- صحت (Precision)
صحت، نسبت تعداد پیشبینیهای مثبت صحیح به کل تعداد پیشبینیهای مثبت است:
Precision = TP / (TP + FP)
- بازیابی (Recall)
بازیابی، نسبت تعداد پیشبینیهای مثبت صحیح به کل تعداد نمونههای مثبت واقعی است:
Recall = TP / (TP + FN)
- امتیاز F1
امتیاز F1 میانگین هارمونیک صحت و بازیابی است:
F1 Score = 2 * (Precision * Recall) / (Precision + Recall)
- منحنی ROC و AUC
منحنی ROC (Receiver Operating Characteristic) نموداری است که نرخ مثبت واقعی (True Positive Rate) را در برابر نرخ مثبت کاذب (False Positive Rate) برای آستانههای مختلف نشان میدهد. منطقه زیر منحنی ROC (Area Under the Curve - AUC) یک معیار واحد است که عملکرد کلی مدل را ارزیابی میکند. مقدار AUC بین 0 و 1 است، که مقدار بالاتر نشاندهنده عملکرد بهتر مدل است.
مفروضات رگرسیون لجستیک
رگرسیون لجستیک، مانند هر مدل آماری دیگری، دارای مفروضاتی است که باید برای اطمینان از اعتبار نتایج رعایت شوند:
- **استقلال مشاهدات:** مشاهدات باید مستقل از یکدیگر باشند.
- **عدم وجود همخطی چندگانه:** متغیرهای پیشبین نباید به شدت با یکدیگر همبستگی داشته باشند.
- **رابطه خطی بین متغیرهای پیشبین و لاگیت احتمال:** رابطه بین متغیرهای پیشبین و لاگیت احتمال باید تقریباً خطی باشد.
- **اندازه نمونه کافی:** برای تخمین دقیق پارامترها، به اندازه نمونه کافی نیاز است.
کاربردهای رگرسیون لجستیک
رگرسیون لجستیک در زمینههای مختلفی کاربرد دارد، از جمله:
- **پزشکی:** پیشبینی احتمال ابتلا به بیماری بر اساس عوامل خطر.
- **بازاریابی:** پیشبینی احتمال خرید یک محصول توسط مشتری.
- **اعتبارسنجی:** پیشبینی احتمال نکول وام.
- **تشخیص تقلب:** پیشبینی احتمال تقلب در تراکنشهای مالی.
- **تحلیل ورزشی:** پیشبینی نتیجه یک مسابقه ورزشی.
مثال عملی
فرض کنید میخواهیم احتمال اینکه یک دانشجو در امتحان قبول شود را بر اساس تعداد ساعات مطالعه او پیشبینی کنیم. دادههای زیر را داریم:
| ساعات مطالعه (x) | قبول شدن (y) | |---|---| | 2 | 0 | | 3 | 0 | | 4 | 1 | | 5 | 1 | | 6 | 1 | | 7 | 1 |
با استفاده از روش MLE، میتوانیم ضرایب رگرسیون لجستیک (β0 و β1) را تخمین بزنیم. فرض کنید ضرایب تخمین زده شده به صورت زیر باشند:
- β0 = -5
- β1 = 1.5
اکنون میتوانیم احتمال قبول شدن یک دانشجو را بر اساس تعداد ساعات مطالعه او محاسبه کنیم. به عنوان مثال، اگر دانشجو 5 ساعت مطالعه کند، احتمال قبول شدن او به صورت زیر محاسبه میشود:
z = -5 + 1.5 * 5 = 2.5
p = 1 / (1 + e-2.5) ≈ 0.924
بنابراین، احتمال قبول شدن دانشجو با 5 ساعت مطالعه تقریباً 92.4 درصد است.
رگرسیون لجستیک چندگانه
رگرسیون لجستیک چندگانه (Multinomial Logistic Regression) تعمیمی از رگرسیون لجستیک برای زمانی است که متغیر پاسخ بیش از دو مقدار ممکن داشته باشد. به عنوان مثال، اگر میخواهیم نوع گل (رز، لاله، یا آفتابگردان) را بر اساس ویژگیهای مختلف آن پیشبینی کنیم، میتوانیم از رگرسیون لجستیک چندگانه استفاده کنیم.
پیوندها به موضوعات مرتبط
- رگرسیون خطی
- یادگیری ماشین
- آمار
- حداکثر درستنمایی
- گرادیان کاهشی
- منحنی ROC
- منطقه زیر منحنی ROC
- آزمون فرضیه
- فاصله اطمینان
- تحلیل واریانس (ANOVA)
- رگرسیون چندمتغیره
- شبکههای عصبی
- درخت تصمیم
- ماشین بردار پشتیبان (SVM)
- خوشهبندی
پیوندها به استراتژیهای مرتبط، تحلیل تکنیکال و تحلیل حجم معاملات
- میانگین متحرک
- شاخص قدرت نسبی (RSI)
- MACD
- باند بولینگر
- فیبوناچی
- الگوهای کندل استیک
- تحلیل حجم معاملات
- اندیکاتورهای مومنتوم
- تحلیل موج الیوت
- استراتژیهای دنبالهروی روند
- استراتژیهای معکوس روند
- مدیریت ریسک
- تنظیم اندازه موقعیت
- تنوعبخشی سبد سهام
- تحلیل بنیادی
- دلیل:** رگرسیون لجستیک یک روش آماری است که به طور گسترده در آمار و یادگیری ماشین استفاده میشود و به عنوان یک ابزار اساسی در تحلیل دادهها و مدلسازی احتمالی در نظر گرفته میشود. این روش به دلیل توانایی آن در پیشبینی احتمالات و طبقهبندی دادهها، نقش مهمی در تحقیقات و کاربردهای مختلف ایفا میکند.
شروع معاملات الآن
ثبتنام در IQ Option (حداقل واریز $10) باز کردن حساب در Pocket Option (حداقل واریز $5)
به جامعه ما بپیوندید
در کانال تلگرام ما عضو شوید @strategybin و دسترسی پیدا کنید به: ✓ سیگنالهای معاملاتی روزانه ✓ تحلیلهای استراتژیک انحصاری ✓ هشدارهای مربوط به روند بازار ✓ مواد آموزشی برای مبتدیان