حذف دادههای پرت
حذف دادههای پرت
مقدمه
در علم داده و تحلیل آماری، دادههای پرت (Outliers) به مقادیری گفته میشود که به طور قابل توجهی با سایر دادهها در یک مجموعه داده متفاوت هستند. این مقادیر میتوانند ناشی از خطاهای اندازهگیری، خطاهای ورودی داده، یا به سادگی ناشی از تنوع طبیعی در دادهها باشند. وجود دادههای پرت میتواند تاثیر منفی بر آمار توصیفی، مدلسازی آماری و یادگیری ماشین داشته باشد. به همین دلیل، شناسایی و برخورد مناسب با دادههای پرت، یکی از مراحل مهم پیشپردازش دادهها است. این مقاله به بررسی روشهای شناسایی و حذف دادههای پرت برای مبتدیان میپردازد.
اهمیت شناسایی و حذف دادههای پرت
دادههای پرت میتوانند باعث موارد زیر شوند:
- **تحریف آمار توصیفی:** میانگین و انحراف معیار، دو معیار مهم در آمار توصیفی، به شدت تحت تاثیر دادههای پرت قرار میگیرند. یک داده پرت میتواند میانگین را به سمت خود بکشد و انحراف معیار را افزایش دهد.
- **کاهش دقت مدل:** در مدلسازی آماری و یادگیری ماشین، دادههای پرت میتوانند باعث کاهش دقت و قابلیت تعمیم مدل شوند. مدل ممکن است سعی کند دادههای پرت را در نظر بگیرد و در نتیجه، عملکرد آن بر روی دادههای جدید کاهش یابد.
- **نتایج گمراهکننده:** در تحلیل دادهها، دادههای پرت میتوانند باعث ارائه نتایج گمراهکننده و اشتباه شوند.
روشهای شناسایی دادههای پرت
روشهای مختلفی برای شناسایی دادههای پرت وجود دارد. برخی از این روشها عبارتند از:
- **روشهای گرافیکی:**
* **نمودار جعبهای (Box Plot):** نمودار جعبهای یک روش ساده و موثر برای شناسایی دادههای پرت است. در این نمودار، دادههای پرت به عنوان نقاطی خارج از "سبیلها" (Whiskers) نمایش داده میشوند. * **هیستوگرام (Histogram):** هیستوگرام توزیع دادهها را نشان میدهد. دادههای پرت معمولاً در انتهای نمودار قرار میگیرند و از سایر دادهها جدا میشوند. * **نمودار پراکندگی (Scatter Plot):** نمودار پراکندگی برای شناسایی دادههای پرت در دادههای دو بعدی استفاده میشود. دادههای پرت به عنوان نقاطی که از الگوهای اصلی دادهها دور هستند، نمایش داده میشوند.
- **روشهای آماری:**
* **قاعده محدوده میانگین (Mean Range Rule):** این روش بر اساس این فرض است که دادههای پرت خارج از محدوده مشخصی از میانگین قرار دارند. معمولاً این محدوده به صورت 3 انحراف معیار از میانگین در نظر گرفته میشود. * **قاعده محدوده چارکها (Interquartile Range - IQR):** این روش بر اساس محدوده بین چارک اول (Q1) و چارک سوم (Q3) است. دادههای پرت به عنوان مقادیری که کمتر از Q1 - 1.5 * IQR یا بیشتر از Q3 + 1.5 * IQR هستند، شناسایی میشوند. * **نمره Z (Z-score):** نمره Z نشان میدهد که یک داده چقدر از میانگین فاصله دارد. دادههایی که نمره Z آنها بیش از یک مقدار مشخص (معمولاً 3 یا -3) باشد، به عنوان دادههای پرت در نظر گرفته میشوند. * **مسافت ماهالانوبیس (Mahalanobis Distance):** این روش برای شناسایی دادههای پرت در دادههای چند بعدی استفاده میشود. مسافت ماهالانوبیس، فاصله یک نقطه از مرکز توزیع را با در نظر گرفتن کوواریانس بین متغیرها محاسبه میکند.
استراتژیهای برخورد با دادههای پرت
پس از شناسایی دادههای پرت، باید تصمیم گرفت که چگونه با آنها برخورد شود. استراتژیهای مختلفی برای برخورد با دادههای پرت وجود دارد:
- **حذف دادههای پرت:** سادهترین راه برای برخورد با دادههای پرت، حذف آنها از مجموعه داده است. با این حال، باید دقت کرد که حذف دادهها میتواند باعث کاهش حجم نمونه و از دست رفتن اطلاعات مفید شود.
- **تبدیل دادهها:** تبدیل دادهها میتواند به کاهش تاثیر دادههای پرت کمک کند. برخی از روشهای تبدیل دادهها عبارتند از:
* **تبدیل لگاریتمی (Log Transformation):** این تبدیل برای دادههای با توزیع نامتقارن مناسب است. * **تبدیل جذر (Square Root Transformation):** این تبدیل نیز برای دادههای با توزیع نامتقارن مناسب است. * **تبدیل باکس-کاکس (Box-Cox Transformation):** این تبدیل یک روش عمومیتر برای تبدیل دادهها است که میتواند به نرمالسازی توزیع دادهها کمک کند.
- **جایگزینی دادههای پرت:** به جای حذف دادههای پرت، میتوان آنها را با مقادیر دیگری جایگزین کرد. برخی از روشهای جایگزینی دادههای پرت عبارتند از:
* **میانگین (Mean):** جایگزینی دادههای پرت با میانگین مجموعه داده. * **میانه (Median):** جایگزینی دادههای پرت با میانه مجموعه داده. میانه نسبت به دادههای پرت مقاومتر است. * **مقدار نزدیکترین همسایه (Nearest Neighbor):** جایگزینی دادههای پرت با مقدار نزدیکترین همسایه آنها.
- **استفاده از الگوریتمهای مقاوم به دادههای پرت:** برخی از الگوریتمهای یادگیری ماشین و مدلسازی آماری وجود دارند که به دادههای پرت مقاوم هستند. به عنوان مثال، رگرسیون مقاوم (Robust Regression) و درخت تصمیمگیری (Decision Tree) نسبت به دادههای پرت مقاومتر از رگرسیون خطی (Linear Regression) هستند.
مثال عملی با استفاده از Python
در این بخش، یک مثال عملی از شناسایی و حذف دادههای پرت با استفاده از زبان برنامهنویسی Python و کتابخانه Pandas ارائه میشود.
```python import pandas as pd import numpy as np
- ایجاد یک مجموعه داده نمونه
data = {'Value': [10, 12, 15, 18, 20, 22, 25, 28, 30, 100]} df = pd.DataFrame(data)
- شناسایی دادههای پرت با استفاده از IQR
Q1 = df['Value'].quantile(0.25) Q3 = df['Value'].quantile(0.75) IQR = Q3 - Q1 lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR
outliers = df[(df['Value'] < lower_bound) | (df['Value'] > upper_bound)] print("داده های پرت:") print(outliers)
- حذف دادههای پرت
df_no_outliers = df[(df['Value'] >= lower_bound) & (df['Value'] <= upper_bound)] print("\nمجموعه داده بدون داده های پرت:") print(df_no_outliers) ```
ملاحظات مهم
- **دامنه موضوعی:** قبل از حذف دادههای پرت، باید دامنه موضوعی دادهها را در نظر گرفت. گاهی اوقات، دادههای پرت ممکن است نشاندهنده رویدادهای مهم و غیرمعمول باشند که نباید حذف شوند. به عنوان مثال، در تحلیل دادههای مالی، یک افزایش ناگهانی در قیمت سهام ممکن است یک داده پرت باشد، اما نباید حذف شود زیرا نشاندهنده یک رویداد مهم در بازار است.
- **حجم نمونه:** اگر حجم نمونه کوچک باشد، حذف دادههای پرت میتواند باعث کاهش قابل توجه حجم نمونه و کاهش قدرت آماری شود. در این موارد، بهتر است از روشهای دیگری مانند تبدیل دادهها یا استفاده از الگوریتمهای مقاوم به دادههای پرت استفاده شود.
- **تفسیر نتایج:** پس از برخورد با دادههای پرت، باید نتایج را با دقت تفسیر کرد. حذف یا تغییر دادهها میتواند باعث تغییر نتایج تحلیل شود.
پیوندهای مرتبط
- آمار توصیفی
- مدلسازی آماری
- یادگیری ماشین
- پیشپردازش دادهها
- نمودار جعبهای
- هیستوگرام
- نمودار پراکندگی
- نمره Z
- رگرسیون مقاوم
- درخت تصمیمگیری
- رگرسیون خطی
- تحلیل سری زمانی
- تحلیل خوشهبندی
- تحلیل بقا
- مدیریت ریسک
- تحلیل حجم معاملات
- میانگین متحرک
- شاخص قدرت نسبی
- اندیکاتور MACD
- باند بولینگر
- تحلیل تکنیکال
- الگوریتمهای تشخیص ناهنجاری
- تحلیل دادههای مالی
منابع
- Iglewicz, B., & Hoaglin, D. C. (1993). How to detect and deal with outliers. *ASQ Quality Press*.
- Barnett, V., & Hunter, T. (2014). *Outliers in statistical data*. John Wiley & Sons.
شروع معاملات الآن
ثبتنام در IQ Option (حداقل واریز $10) باز کردن حساب در Pocket Option (حداقل واریز $5)
به جامعه ما بپیوندید
در کانال تلگرام ما عضو شوید @strategybin و دسترسی پیدا کنید به: ✓ سیگنالهای معاملاتی روزانه ✓ تحلیلهای استراتژیک انحصاری ✓ هشدارهای مربوط به روند بازار ✓ مواد آموزشی برای مبتدیان