Logistic Regression

From binaryoption
Jump to navigation Jump to search
Баннер1

رگرسیون لجستیک

رگرسیون لجستیک یک روش آماری پرکاربرد در آمار و یادگیری ماشین است که برای مدل‌سازی احتمال وقوع یک رویداد باینری (دو حالته) یا طبقه‌بندی داده‌ها به دو دسته استفاده می‌شود. این روش به ویژه در مواردی که متغیر پاسخ (وابسته) یک متغیر دسته‌ای با دو مقدار ممکن است (مانند بله/خیر، 0/1، بیمار/سالم) بسیار مفید است. برخلاف رگرسیون خطی که برای پیش‌بینی مقادیر پیوسته استفاده می‌شود، رگرسیون لجستیک برای پیش‌بینی احتمال تعلق یک نمونه به یک دسته خاص طراحی شده است.

مفاهیم پایه

      1. متغیر پاسخ دو حالته

در رگرسیون لجستیک، متغیر پاسخ (که اغلب y نامیده می‌شود) تنها می‌تواند دو مقدار داشته باشد. به عنوان مثال:

  • 0 یا 1: نشان‌دهنده عدم وقوع یا وقوع یک رویداد
  • بله یا خیر: نشان‌دهنده پاسخ مثبت یا منفی به یک سوال
  • بیمار یا سالم: نشان‌دهنده وضعیت سلامتی یک فرد
      1. متغیرهای پیش‌بین (مستقل)

متغیرهای پیش‌بین (که اغلب x نامیده می‌شوند) می‌توانند پیوسته یا دسته‌ای باشند و برای پیش‌بینی احتمال وقوع رویداد مورد نظر استفاده می‌شوند. به عنوان مثال، برای پیش‌بینی احتمال ابتلا به بیماری قلبی، متغیرهای پیش‌بین می‌توانند شامل سن، فشار خون، کلسترول و سابقه خانوادگی باشند.

      1. تابع لجستیک

قلب رگرسیون لجستیک، تابع لجستیک (که به آن سیگموئید نیز گفته می‌شود) است. این تابع یک مقدار پیوسته را به بازه بین 0 و 1 نگاشت می‌کند که به عنوان احتمال تفسیر می‌شود. فرمول تابع لجستیک به صورت زیر است:

p = 1 / (1 + e-z)

در این فرمول:

  • p احتمال وقوع رویداد است.
  • e عدد نپر (تقریباً 2.71828) است.
  • z یک ترکیب خطی از متغیرهای پیش‌بین است: z = β0 + β1x1 + β2x2 + ... + βnxn
   *   β0 عرض از مبدا است.
   *   β1, β2, ..., βn ضرایب رگرسیون هستند که نشان‌دهنده تاثیر هر متغیر پیش‌بین بر احتمال وقوع رویداد هستند.
   *   x1, x2, ..., xn متغیرهای پیش‌بین هستند.
      1. تابع لینک

تابع لینک، رابطه‌ای بین امید ریاضی متغیر پاسخ و ترکیب خطی متغیرهای پیش‌بین ایجاد می‌کند. در رگرسیون لجستیک، تابع لینک معمولاً تابع لاگیت (Logit) است که به صورت زیر تعریف می‌شود:

logit(p) = ln(p / (1 - p)) = z

تابع لاگیت، لگاریتم طبیعی نسبت احتمال وقوع رویداد به احتمال عدم وقوع آن است.

مدل رگرسیون لجستیک

مدل رگرسیون لجستیک، رابطه بین متغیرهای پیش‌بین و احتمال وقوع رویداد را با استفاده از تابع لجستیک مدل‌سازی می‌کند. هدف اصلی در رگرسیون لجستیک، یافتن ضرایب (β0, β1, β2, ..., βn) است که بهترین تطابق را با داده‌های مشاهده شده ارائه می‌دهند.

تخمین پارامترها

تخمین ضرایب رگرسیون لجستیک معمولاً با استفاده از روش حداکثر درست‌نمایی (Maximum Likelihood Estimation - MLE) انجام می‌شود. MLE روشی است که پارامترهایی را پیدا می‌کند که احتمال مشاهده داده‌های موجود را به حداکثر می‌رسانند. در رگرسیون لجستیک، تابع درست‌نمایی به صورت زیر تعریف می‌شود:

L(β) = ∏ p(yi | xi)yi (1 - p(yi | xi))(1 - yi)

که در آن:

  • L(β) تابع درست‌نمایی است.
  • yi مقدار متغیر پاسخ برای نمونه i است.
  • xi مقادیر متغیرهای پیش‌بین برای نمونه i است.
  • p(yi | xi) احتمال وقوع رویداد برای نمونه i است که با استفاده از تابع لجستیک محاسبه می‌شود.

به دلیل پیچیدگی تابع درست‌نمایی، معمولاً از روش‌های تکراری مانند گرادیان کاهشی (Gradient Descent) برای یافتن پارامترهای بهینه استفاده می‌شود.

ارزیابی مدل

پس از تخمین پارامترها، باید مدل رگرسیون لجستیک را ارزیابی کرد تا اطمینان حاصل شود که عملکرد خوبی دارد. چندین معیار برای ارزیابی مدل رگرسیون لجستیک وجود دارد:

      1. ماتریس درهم‌ریختگی (Confusion Matrix)

ماتریس درهم‌ریختگی یک جدول است که نتایج پیش‌بینی مدل را با مقادیر واقعی مقایسه می‌کند. این ماتریس شامل چهار مقدار است:

  • True Positive (TP) : تعداد نمونه‌هایی که به درستی به عنوان مثبت پیش‌بینی شده‌اند.
  • True Negative (TN) : تعداد نمونه‌هایی که به درستی به عنوان منفی پیش‌بینی شده‌اند.
  • False Positive (FP) : تعداد نمونه‌هایی که به اشتباه به عنوان مثبت پیش‌بینی شده‌اند (خطای نوع اول).
  • False Negative (FN) : تعداد نمونه‌هایی که به اشتباه به عنوان منفی پیش‌بینی شده‌اند (خطای نوع دوم).
ماتریس درهم‌ریختگی
Predicted Positive | Predicted Negative |
TP | FN |
FP | TN |
      1. دقت (Accuracy)

دقت، نسبت تعداد پیش‌بینی‌های صحیح به کل تعداد پیش‌بینی‌ها است:

Accuracy = (TP + TN) / (TP + TN + FP + FN)

      1. صحت (Precision)

صحت، نسبت تعداد پیش‌بینی‌های مثبت صحیح به کل تعداد پیش‌بینی‌های مثبت است:

Precision = TP / (TP + FP)

      1. بازیابی (Recall)

بازیابی، نسبت تعداد پیش‌بینی‌های مثبت صحیح به کل تعداد نمونه‌های مثبت واقعی است:

Recall = TP / (TP + FN)

      1. امتیاز F1

امتیاز F1 میانگین هارمونیک صحت و بازیابی است:

F1 Score = 2 * (Precision * Recall) / (Precision + Recall)

      1. منحنی ROC و AUC

منحنی ROC (Receiver Operating Characteristic) نموداری است که نرخ مثبت واقعی (True Positive Rate) را در برابر نرخ مثبت کاذب (False Positive Rate) برای آستانه‌های مختلف نشان می‌دهد. منطقه زیر منحنی ROC (Area Under the Curve - AUC) یک معیار واحد است که عملکرد کلی مدل را ارزیابی می‌کند. مقدار AUC بین 0 و 1 است، که مقدار بالاتر نشان‌دهنده عملکرد بهتر مدل است.

مفروضات رگرسیون لجستیک

رگرسیون لجستیک، مانند هر مدل آماری دیگری، دارای مفروضاتی است که باید برای اطمینان از اعتبار نتایج رعایت شوند:

  • **استقلال مشاهدات:** مشاهدات باید مستقل از یکدیگر باشند.
  • **عدم وجود هم‌خطی چندگانه:** متغیرهای پیش‌بین نباید به شدت با یکدیگر همبستگی داشته باشند.
  • **رابطه خطی بین متغیرهای پیش‌بین و لاگیت احتمال:** رابطه بین متغیرهای پیش‌بین و لاگیت احتمال باید تقریباً خطی باشد.
  • **اندازه نمونه کافی:** برای تخمین دقیق پارامترها، به اندازه نمونه کافی نیاز است.

کاربردهای رگرسیون لجستیک

رگرسیون لجستیک در زمینه‌های مختلفی کاربرد دارد، از جمله:

  • **پزشکی:** پیش‌بینی احتمال ابتلا به بیماری بر اساس عوامل خطر.
  • **بازاریابی:** پیش‌بینی احتمال خرید یک محصول توسط مشتری.
  • **اعتبارسنجی:** پیش‌بینی احتمال نکول وام.
  • **تشخیص تقلب:** پیش‌بینی احتمال تقلب در تراکنش‌های مالی.
  • **تحلیل ورزشی:** پیش‌بینی نتیجه یک مسابقه ورزشی.

مثال عملی

فرض کنید می‌خواهیم احتمال اینکه یک دانشجو در امتحان قبول شود را بر اساس تعداد ساعات مطالعه او پیش‌بینی کنیم. داده‌های زیر را داریم:

| ساعات مطالعه (x) | قبول شدن (y) | |---|---| | 2 | 0 | | 3 | 0 | | 4 | 1 | | 5 | 1 | | 6 | 1 | | 7 | 1 |

با استفاده از روش MLE، می‌توانیم ضرایب رگرسیون لجستیک (β0 و β1) را تخمین بزنیم. فرض کنید ضرایب تخمین زده شده به صورت زیر باشند:

  • β0 = -5
  • β1 = 1.5

اکنون می‌توانیم احتمال قبول شدن یک دانشجو را بر اساس تعداد ساعات مطالعه او محاسبه کنیم. به عنوان مثال، اگر دانشجو 5 ساعت مطالعه کند، احتمال قبول شدن او به صورت زیر محاسبه می‌شود:

z = -5 + 1.5 * 5 = 2.5

p = 1 / (1 + e-2.5) ≈ 0.924

بنابراین، احتمال قبول شدن دانشجو با 5 ساعت مطالعه تقریباً 92.4 درصد است.

رگرسیون لجستیک چندگانه

رگرسیون لجستیک چندگانه (Multinomial Logistic Regression) تعمیمی از رگرسیون لجستیک برای زمانی است که متغیر پاسخ بیش از دو مقدار ممکن داشته باشد. به عنوان مثال، اگر می‌خواهیم نوع گل (رز، لاله، یا آفتابگردان) را بر اساس ویژگی‌های مختلف آن پیش‌بینی کنیم، می‌توانیم از رگرسیون لجستیک چندگانه استفاده کنیم.

پیوندها به موضوعات مرتبط

پیوندها به استراتژی‌های مرتبط، تحلیل تکنیکال و تحلیل حجم معاملات

    • دلیل:** رگرسیون لجستیک یک روش آماری است که به طور گسترده در آمار و یادگیری ماشین استفاده می‌شود و به عنوان یک ابزار اساسی در تحلیل داده‌ها و مدل‌سازی احتمالی در نظر گرفته می‌شود. این روش به دلیل توانایی آن در پیش‌بینی احتمالات و طبقه‌بندی داده‌ها، نقش مهمی در تحقیقات و کاربردهای مختلف ایفا می‌کند.

شروع معاملات الآن

ثبت‌نام در IQ Option (حداقل واریز $10) باز کردن حساب در Pocket Option (حداقل واریز $5)

به جامعه ما بپیوندید

در کانال تلگرام ما عضو شوید @strategybin و دسترسی پیدا کنید به: ✓ سیگنال‌های معاملاتی روزانه ✓ تحلیل‌های استراتژیک انحصاری ✓ هشدارهای مربوط به روند بازار ✓ مواد آموزشی برای مبتدیان

Баннер