Evaluating model performance
ارزیابی عملکرد مدل
مقدمه
در یادگیری ماشین و علم داده، ساختن یک مدل پیشبینی تنها نیمی از کار است. نیمه دیگر و به همان اندازه مهم، ارزیابی عملکرد آن مدل است. یک مدل ممکن است روی دادههای آموزشی به خوبی عمل کند، اما در دنیای واقعی و روی دادههای جدید عملکرد ضعیفی داشته باشد. این پدیده به عنوان بیشبرازش (Overfitting) شناخته میشود. ارزیابی عملکرد مدل به ما کمک میکند تا بفهمیم مدل ما چقدر خوب تعمیم پیدا میکند و آیا برای استفاده در شرایط واقعی آماده است یا خیر. این مقاله به بررسی روشها و معیارهای مختلف برای ارزیابی عملکرد مدل میپردازد، به ویژه با تمرکز بر مسائل طبقهبندی و مسائل رگرسیون.
چرا ارزیابی عملکرد مدل مهم است؟
- تشخیص بیشبرازش و کمبرازش: ارزیابی عملکرد به ما کمک میکند تا متوجه شویم آیا مدل ما بیش از حد به دادههای آموزشی وابسته شده (بیشبرازش) یا به اندازه کافی از آنها یاد نگرفته (کمبرازش).
- انتخاب بهترین مدل: وقتی چندین مدل مختلف برای یک مسئله داریم، ارزیابی عملکرد به ما کمک میکند تا بهترین مدل را انتخاب کنیم.
- تنظیم هایپرپارامترها: با ارزیابی عملکرد مدل با تنظیمات مختلف هایپرپارامترها، میتوانیم بهترین ترکیب را برای عملکرد مطلوب پیدا کنیم.
- اعتبارسنجی نتایج: ارزیابی عملکرد به ما اطمینان میدهد که نتایج مدل قابل اعتماد و معتبر هستند.
- مقایسه با مدلهای موجود: میتوانیم عملکرد مدل خود را با مدلهای موجود مقایسه کنیم تا ببینیم آیا پیشرفتی حاصل شده است یا خیر.
مراحل ارزیابی عملکرد مدل
1. تقسیم دادهها: اولین قدم، تقسیم دادهها به سه مجموعه اصلی است:
* مجموعه آموزشی (Training Set): برای آموزش مدل استفاده میشود. * مجموعه اعتبارسنجی (Validation Set): برای تنظیم هایپرپارامترها و انتخاب مدل استفاده میشود. * مجموعه آزمون (Test Set): برای ارزیابی نهایی عملکرد مدل استفاده میشود. این مجموعه نباید در طول فرآیند آموزش یا اعتبارسنجی استفاده شود.
2. انتخاب معیار ارزیابی: با توجه به نوع مسئله (طبقهبندی یا رگرسیون)، باید معیار ارزیابی مناسب را انتخاب کنید. (به بخشهای بعدی مراجعه کنید).
3. آموزش مدل: مدل را با استفاده از مجموعه آموزشی آموزش دهید.
4. اعتبارسنجی مدل: عملکرد مدل را با استفاده از مجموعه اعتبارسنجی ارزیابی کنید و هایپرپارامترها را تنظیم کنید.
5. آزمون مدل: عملکرد نهایی مدل را با استفاده از مجموعه آزمون ارزیابی کنید.
معیارهای ارزیابی برای مسائل طبقهبندی
در مسائل طبقهبندی، هدف پیشبینی یک دسته (کلاس) برای هر نمونه است. معیارهای مختلفی برای ارزیابی عملکرد مدلهای طبقهبندی وجود دارد:
- دقت (Accuracy): نسبت تعداد پیشبینیهای درست به کل تعداد پیشبینیها. (تعداد درستها / کل تعداد)
- دقت (Precision): نسبت تعداد پیشبینیهای مثبت درست به کل تعداد پیشبینیهای مثبت. (درست مثبتها / (درست مثبتها + غلط مثبتها)). این معیار برای مواردی که هزینه غلط مثبت بالا است، مهم است.
- بازخوانی (Recall): نسبت تعداد پیشبینیهای مثبت درست به کل تعداد نمونههای مثبت واقعی. (درست مثبتها / (درست مثبتها + غلط منفیها)). این معیار برای مواردی که هزینه غلط منفی بالا است، مهم است.
- نمره F1 (F1-Score): میانگین هارمونیک دقت و بازخوانی. (2 * (دقت * بازخوانی) / (دقت + بازخوانی)).
- منحنی ROC (Receiver Operating Characteristic Curve): نموداری که عملکرد مدل را در آستانههای مختلف طبقهبندی نشان میدهد.
- مساحت زیر منحنی ROC (AUC-ROC): مساحتی که زیر منحنی ROC قرار دارد. AUC-ROC بالاتر نشاندهنده عملکرد بهتر مدل است.
- ماتریس درهمریختگی (Confusion Matrix): جدولی که تعداد درستها و غلطها را برای هر کلاس نشان میدهد.
معیار | تعریف | کاربرد |
دقت (Accuracy) | (درستها / کل) | ارزیابی کلی عملکرد |
دقت (Precision) | (درست مثبتها / (درست مثبتها + غلط مثبتها)) | زمانی که غلط مثبت پرهزینه است |
بازخوانی (Recall) | (درست مثبتها / (درست مثبتها + غلط منفیها)) | زمانی که غلط منفی پرهزینه است |
نمره F1 (F1-Score) | 2 * (دقت * بازخوانی) / (دقت + بازخوانی) | تعادل بین دقت و بازخوانی |
AUC-ROC | مساحت زیر منحنی ROC | ارزیابی عملکرد کلی در آستانههای مختلف |
معیارهای ارزیابی برای مسائل رگرسیون
در مسائل رگرسیون، هدف پیشبینی یک مقدار پیوسته است. معیارهای مختلفی برای ارزیابی عملکرد مدلهای رگرسیون وجود دارد:
- میانگین مربعات خطا (Mean Squared Error - MSE): میانگین مربع تفاوت بین مقادیر پیشبینیشده و مقادیر واقعی.
- ریشه میانگین مربعات خطا (Root Mean Squared Error - RMSE): جذر میانگین مربعات خطا.
- میانگین قدر مطلق خطا (Mean Absolute Error - MAE): میانگین قدر مطلق تفاوت بین مقادیر پیشبینیشده و مقادیر واقعی.
- ضریب تعیین (R-squared): نسبت واریانس در متغیر وابسته که توسط مدل توضیح داده میشود. مقدار R-squared بین 0 و 1 است، و مقدار بالاتر نشاندهنده عملکرد بهتر مدل است.
معیار | تعریف | کاربرد |
MSE | میانگین مربع خطا | حساس به مقادیر پرت |
RMSE | ریشه میانگین مربعات خطا | همان واحد مقیاس متغیر وابسته را دارد |
MAE | میانگین قدر مطلق خطا | کمتر حساس به مقادیر پرت |
R-squared | نسبت واریانس توضیح داده شده | ارزیابی کلی برازش مدل |
ارزیابی مدل در بازارهای مالی
ارزیابی مدل در بازارهای مالی نیازمند دقت بیشتری است. به دلیل نوسانات زیاد و دادههای غیرایستا، معیارهای ارزیابی باید با در نظر گرفتن این ویژگیها انتخاب شوند.
- نسبت شارپ (Sharpe Ratio): سود اضافی به ازای هر واحد ریسک.
- بازده انباشته (Cumulative Return): بازده کل سرمایهگذاری در یک دوره زمانی مشخص.
- حداکثر افت (Maximum Drawdown): بزرگترین افت ارزش سرمایهگذاری از یک نقطه اوج به یک نقطه فرود.
- آزمونهای Backtesting: شبیهسازی عملکرد مدل بر روی دادههای تاریخی.
تکنیکهای ارزیابی پیشرفته
- اعتبارسنجی متقابل (Cross-Validation): یک تکنیک برای ارزیابی عملکرد مدل با تقسیم دادهها به چندین زیرمجموعه و آموزش و ارزیابی مدل بر روی زیرمجموعههای مختلف. انواع مختلفی از اعتبارسنجی متقابل وجود دارد، مانند k-fold cross-validation.
- بوتاسترپ (Bootstrap): یک تکنیک برای تخمین توزیع نمونهبرداری یک آماره با استفاده از نمونهبرداری با جایگزینی از دادههای اصلی.
- تحلیل خطا (Error Analysis): بررسی دقیق نمونههایی که مدل در پیشبینی آنها اشتباه کرده است.
اهمیت انتخاب دادههای مناسب برای ارزیابی
دادههای استفاده شده برای ارزیابی مدل باید نماینده دادههایی باشند که مدل در دنیای واقعی با آنها مواجه خواهد شد. اگر دادههای آزمون با دادههای آموزشی تفاوت زیادی داشته باشند، ارزیابی عملکرد مدل ممکن است گمراهکننده باشد. به عنوان مثال، اگر مدل برای پیشبینی قیمت سهام در یک دوره زمانی خاص آموزش داده شده باشد، نباید با دادههای مربوط به یک دوره زمانی متفاوت ارزیابی شود.
پیوندهای مرتبط
- یادگیری ماشین
- علم داده
- مدل پیشبینی
- بیشبرازش
- مسائل طبقهبندی
- مسائل رگرسیون
- دقت (Accuracy)
- دقت (Precision)
- بازخوانی (Recall)
- نمره F1 (F1-Score)
- منحنی ROC
- مساحت زیر منحنی ROC
- ماتریس درهمریختگی
- میانگین مربعات خطا
- ریشه میانگین مربعات خطا
- میانگین قدر مطلق خطا
- ضریب تعیین
- اعتبارسنجی متقابل
- بوتاسترپ
- تحلیل خطا
- تحلیل تکنیکال
- تحلیل حجم معاملات
- الگوهای کندل استیک
- اندیکاتورهای تکنیکال
- مدیریت ریسک در سرمایهگذاری
- استراتژیهای معاملاتی
- بازارهای مالی
- نسبت شارپ
- بازده انباشته
- حداکثر افت
- آزمونهای Backtesting
- شبکههای عصبی
- درختهای تصمیم
- ماشین بردار پشتیبان
شروع معاملات الآن
ثبتنام در IQ Option (حداقل واریز $10) باز کردن حساب در Pocket Option (حداقل واریز $5)
به جامعه ما بپیوندید
در کانال تلگرام ما عضو شوید @strategybin و دسترسی پیدا کنید به: ✓ سیگنالهای معاملاتی روزانه ✓ تحلیلهای استراتژیک انحصاری ✓ هشدارهای مربوط به روند بازار ✓ مواد آموزشی برای مبتدیان