Cross-validation explained by StatQuest

اعتبارسنجی متقابل توضیح داده شده توسط StatQuest

مقدمه

در دنیای یادگیری ماشین، ساخت یک مدل دقیق تنها بخشی از کار است. ما باید مطمئن شویم که مدل ما به خوبی تعمیم می‌یابد، یعنی می‌تواند روی داده‌های جدید و دیده نشده عملکرد خوبی داشته باشد. یکی از مهم‌ترین روش‌ها برای ارزیابی این قابلیت، اعتبارسنجی متقابل (Cross-validation) است. این مقاله، با الهام از توضیحات شفاف و قابل فهم StatQuest، به بررسی عمیق اعتبارسنجی متقابل می‌پردازد. هدف این است که یک درک جامع از این تکنیک قدرتمند برای خوانندگان مبتدی فراهم شود.

چرا به اعتبارسنجی متقابل نیاز داریم؟

فرض کنید شما یک مدل یادگیری ماشین ساخته‌اید و آن را روی داده‌های خود آموزش داده‌اید. حالا می‌خواهید ببینید مدل شما چقدر خوب کار می‌کند. یک راه ساده این است که مدل را روی همان داده‌هایی که برای آموزش استفاده کرده‌اید، تست کنید. اما این کار اشتباه است! چرا؟

چون مدل شما داده‌های تست را قبلاً "دیده" است. این بدان معناست که مدل شما می‌تواند به سادگی داده‌های تست را "به خاطر بسپارد" و عملکرد بهتری نسبت به آنچه در واقعیت خواهد داشت، نشان دهد. این پدیده به عنوان بیش‌برازش (Overfitting) شناخته می‌شود. بیش‌برازش زمانی رخ می‌دهد که مدل شما به جای یادگیری الگوهای کلی در داده‌ها، نویز و جزئیات خاص داده‌های آموزشی را یاد می‌گیرد.

اعتبارسنجی متقابل راه حلی برای این مشکل است. این تکنیک به ما کمک می‌کند تا عملکرد مدل خود را روی داده‌هایی که قبلاً ندیده است، ارزیابی کنیم و از بیش‌برازش جلوگیری کنیم.

اعتبارسنجی متقابل چیست؟

اعتبارسنجی متقابل یک روش برای ارزیابی عملکرد یک مدل یادگیری ماشین با تقسیم داده‌ها به چند زیر مجموعه (یا "تا") است. مدل چندین بار آموزش داده می‌شود، هر بار با استفاده از ترکیبی متفاوت از زیرمجموعه‌ها برای آموزش و تست. سپس، نتایج عملکرد مدل در تمام تکرارها میانگین گرفته می‌شوند تا یک ارزیابی کلی از عملکرد مدل به دست آید.

انواع اصلی اعتبارسنجی متقابل

چندین نوع مختلف از اعتبارسنجی متقابل وجود دارد، اما رایج‌ترین آن‌ها عبارتند از:

**اعتبارسنجی متقابل k-تایی (k-Fold Cross-Validation):** این رایج‌ترین نوع اعتبارسنجی متقابل است. در این روش، داده‌ها به k زیر مجموعه مساوی تقسیم می‌شوند. سپس، مدل k بار آموزش داده می‌شود، هر بار با استفاده از k-1 زیر مجموعه برای آموزش و یک زیر مجموعه باقی‌مانده برای تست. در نهایت، نتایج عملکرد مدل در تمام k تکرار میانگین گرفته می‌شوند. مقادیر رایج برای k عبارتند از 5 و 10.
**اعتبارسنجی متقابل Leave-One-Out (LOOCV):** این روش یک حالت خاص از اعتبارسنجی متقابل k-تایی است که در آن k برابر با تعداد نمونه‌های داده است. به عبارت دیگر، در هر تکرار، مدل با استفاده از تمام نمونه‌های داده به جز یک نمونه آموزش داده می‌شود و سپس روی آن نمونه باقی‌مانده تست می‌شود. LOOCV معمولاً برای مجموعه‌های داده کوچک استفاده می‌شود.
**اعتبارسنجی متقابل طبقه‌بندی زمانی (Time Series Cross-Validation):** این روش برای داده‌های سری زمانی استفاده می‌شود. در این روش، داده‌ها به ترتیب زمانی تقسیم می‌شوند و مدل با استفاده از داده‌های قبلی آموزش داده می‌شود و سپس روی داده‌های بعدی تست می‌شود. این کار از نشت اطلاعات از آینده به گذشته جلوگیری می‌کند.

اعتبارسنجی متقابل k-تایی: یک مثال گام به گام

برای درک بهتر اعتبارسنجی متقابل k-تایی، یک مثال را در نظر بگیریم. فرض کنید یک مجموعه داده با 20 نمونه داریم و می‌خواهیم از اعتبارسنجی متقابل 5-تایی استفاده کنیم.

1. **تقسیم داده‌ها:** داده‌ها را به 5 زیر مجموعه مساوی تقسیم می‌کنیم، هر کدام شامل 4 نمونه. 2. **تکرار 1:** از زیرمجموعه‌های 1، 2، 3 و 4 برای آموزش مدل استفاده می‌کنیم و از زیرمجموعه 5 برای تست مدل استفاده می‌کنیم. 3. **تکرار 2:** از زیرمجموعه‌های 1، 2، 3 و 5 برای آموزش مدل استفاده می‌کنیم و از زیرمجموعه 4 برای تست مدل استفاده می‌کنیم. 4. **تکرار 3:** از زیرمجموعه‌های 1، 2، 4 و 5 برای آموزش مدل استفاده می‌کنیم و از زیرمجموعه 3 برای تست مدل استفاده می‌کنیم. 5. **تکرار 4:** از زیرمجموعه‌های 1، 3، 4 و 5 برای آموزش مدل استفاده می‌کنیم و از زیرمجموعه 2 برای تست مدل استفاده می‌کنیم. 6. **تکرار 5:** از زیرمجموعه‌های 2، 3، 4 و 5 برای آموزش مدل استفاده می‌کنیم و از زیرمجموعه 1 برای تست مدل استفاده می‌کنیم. 7. **محاسبه میانگین:** نتایج عملکرد مدل در تمام 5 تکرار میانگین گرفته می‌شوند تا یک ارزیابی کلی از عملکرد مدل به دست آید.

انتخاب مقدار k مناسب

انتخاب مقدار k مناسب برای اعتبارسنجی متقابل k-تایی مهم است.

**k کوچک:** اگر k کوچک باشد، هر تکرار از اعتبارسنجی متقابل از تعداد زیادی داده برای آموزش استفاده می‌کند، که می‌تواند منجر به یک ارزیابی دقیق‌تر از عملکرد مدل شود. با این حال، هر تکرار از اعتبارسنجی متقابل از تعداد کمی داده برای تست استفاده می‌کند، که می‌تواند منجر به یک ارزیابی ناپایدارتر از عملکرد مدل شود.
**k بزرگ:** اگر k بزرگ باشد، هر تکرار از اعتبارسنجی متقابل از تعداد کمی داده برای آموزش استفاده می‌کند، که می‌تواند منجر به یک ارزیابی ناپایدارتر از عملکرد مدل شود. با این حال، هر تکرار از اعتبارسنجی متقابل از تعداد زیادی داده برای تست استفاده می‌کند، که می‌تواند منجر به یک ارزیابی پایدارتر از عملکرد مدل شود.

به طور کلی، مقادیر رایج برای k عبارتند از 5 و 10. انتخاب مقدار k به اندازه مجموعه داده و پیچیدگی مدل بستگی دارد.

مزایای اعتبارسنجی متقابل

**ارزیابی دقیق‌تر:** اعتبارسنجی متقابل یک ارزیابی دقیق‌تر از عملکرد مدل نسبت به استفاده از یک مجموعه داده واحد برای آموزش و تست ارائه می‌دهد.
**جلوگیری از بیش‌برازش:** اعتبارسنجی متقابل به جلوگیری از بیش‌برازش کمک می‌کند، زیرا مدل روی داده‌هایی که قبلاً ندیده است، ارزیابی می‌شود.
**انتخاب مدل:** اعتبارسنجی متقابل می‌تواند برای مقایسه عملکرد مدل‌های مختلف و انتخاب بهترین مدل استفاده شود.
**تنظیم پارامترها:** اعتبارسنجی متقابل می‌تواند برای تنظیم پارامترهای یک مدل استفاده شود تا عملکرد آن را به حداکثر برساند.

معایب اعتبارسنجی متقابل

**هزینه محاسباتی:** اعتبارسنجی متقابل می‌تواند از نظر محاسباتی پرهزینه باشد، زیرا مدل باید چندین بار آموزش داده شود.
**پیچیدگی:** اعتبارسنجی متقابل می‌تواند پیچیده باشد، به خصوص برای انواع مختلف اعتبارسنجی متقابل.
**نیاز به داده‌های کافی:** اعتبارسنجی متقابل به داده‌های کافی نیاز دارد تا ارزیابی دقیق و قابل اعتمادی ارائه دهد.

اعتبارسنجی متقابل در عمل

بسیاری از کتابخانه‌های یادگیری ماشین، مانند Scikit-learn در پایتون، توابعی را برای انجام اعتبارسنجی متقابل ارائه می‌دهند. این توابع به شما امکان می‌دهند تا به راحتی اعتبارسنجی متقابل را روی داده‌های خود انجام دهید و عملکرد مدل خود را ارزیابی کنید.

استراتژی‌های مرتبط و تحلیل تکنیکال

انتخاب ویژگی (Feature Selection): در کنار اعتبارسنجی متقابل، انتخاب ویژگی‌های مناسب برای مدل، تاثیر بسزایی در عملکرد آن دارد.
تنظیم هایپرپارامتر (Hyperparameter Tuning): اعتبارسنجی متقابل اغلب همراه با تنظیم هایپرپارامترها برای یافتن بهترین پیکربندی مدل استفاده می‌شود.
بایاس-واریانس (Bias-Variance Tradeoff): درک این مفهوم برای تفسیر نتایج اعتبارسنجی متقابل و بهبود مدل ضروری است.
منحنی یادگیری (Learning Curve): این منحنی‌ها می‌توانند به شناسایی مشکلاتی مانند بیش‌برازش یا کم‌برازش کمک کنند.
ماتریس درهم‌ریختگی (Confusion Matrix): برای ارزیابی عملکرد مدل‌های طبقه‌بندی استفاده می‌شود.

تحلیل حجم معاملات و استراتژی‌های مرتبط

میانگین متحرک (Moving Average): استفاده از میانگین متحرک می‌تواند به هموارسازی داده‌ها و شناسایی روندها کمک کند.
شاخص قدرت نسبی (Relative Strength Index - RSI): این شاخص می‌تواند برای شناسایی شرایط بیش‌خرید یا بیش‌فروش استفاده شود.
MACD (Moving Average Convergence Divergence): یک شاخص مومنتوم که می‌تواند برای شناسایی سیگنال‌های خرید و فروش استفاده شود.
باندهای بولینگر (Bollinger Bands): این باندها می‌توانند برای شناسایی نوسانات و نقاط ورود و خروج احتمالی استفاده شوند.
حجم معاملات (Volume): تحلیل حجم معاملات می‌تواند به تأیید روندها و شناسایی نقاط تغییر احتمالی کمک کند.
شکاف قیمتی (Price Gap): شکاف‌های قیمتی می‌توانند نشان‌دهنده تغییرات ناگهانی در احساسات بازار باشند.
الگوهای کندل استیک (Candlestick Patterns): الگوهای کندل استیک می‌توانند سیگنال‌های بصری برای شناسایی فرصت‌های معاملاتی ارائه دهند.
فیبوناچی (Fibonacci): سطوح فیبوناچی می‌توانند به عنوان سطوح حمایت و مقاومت احتمالی استفاده شوند.
تحلیل موج الیوت (Elliott Wave Analysis): این تحلیل تلاش می‌کند تا الگوهای تکراری در قیمت‌ها را شناسایی کند.

نتیجه‌گیری

اعتبارسنجی متقابل یک ابزار قدرتمند برای ارزیابی عملکرد مدل‌های یادگیری ماشین و جلوگیری از بیش‌برازش است. با درک انواع مختلف اعتبارسنجی متقابل و نحوه استفاده از آن‌ها، می‌توانید مدل‌های دقیق‌تر و قابل اعتمادتری بسازید. توضیحات StatQuest در این زمینه بسیار مفید و قابل فهم است و این مقاله تلاش کرد تا این مفاهیم را به زبان ساده برای مبتدیان توضیح دهد.

یادگیری ماشین نظارت شده یادگیری ماشین بدون نظارت شبکه‌های عصبی رگرسیون خطی رگرسیون لجستیک درخت تصمیم جنگل تصادفی ماشین بردار پشتیبان کلاسترینگ کاهش ابعاد پردازش زبان طبیعی بینایی کامپیوتر داده‌کاوی آمار احتمالات جبر خطی حساب دیفرانسیل و انتگرال بهینه‌سازی الگوریتم‌ها ساختارهای داده

شروع معاملات الآن

ثبت‌نام در IQ Option (حداقل واریز $10) باز کردن حساب در Pocket Option (حداقل واریز $5)

به جامعه ما بپیوندید

در کانال تلگرام ما عضو شوید @strategybin و دسترسی پیدا کنید به: ✓ سیگنال‌های معاملاتی روزانه ✓ تحلیل‌های استراتژیک انحصاری ✓ هشدارهای مربوط به روند بازار ✓ مواد آموزشی برای مبتدیان