حذف داده‌های پرت

From binaryoption
Jump to navigation Jump to search
Баннер1

حذف داده‌های پرت

مقدمه

در علم داده و تحلیل آماری، داده‌های پرت (Outliers) به مقادیری گفته می‌شود که به طور قابل توجهی با سایر داده‌ها در یک مجموعه داده متفاوت هستند. این مقادیر می‌توانند ناشی از خطاهای اندازه‌گیری، خطاهای ورودی داده، یا به سادگی ناشی از تنوع طبیعی در داده‌ها باشند. وجود داده‌های پرت می‌تواند تاثیر منفی بر آمار توصیفی، مدل‌سازی آماری و یادگیری ماشین داشته باشد. به همین دلیل، شناسایی و برخورد مناسب با داده‌های پرت، یکی از مراحل مهم پیش‌پردازش داده‌ها است. این مقاله به بررسی روش‌های شناسایی و حذف داده‌های پرت برای مبتدیان می‌پردازد.

اهمیت شناسایی و حذف داده‌های پرت

داده‌های پرت می‌توانند باعث موارد زیر شوند:

  • **تحریف آمار توصیفی:** میانگین و انحراف معیار، دو معیار مهم در آمار توصیفی، به شدت تحت تاثیر داده‌های پرت قرار می‌گیرند. یک داده پرت می‌تواند میانگین را به سمت خود بکشد و انحراف معیار را افزایش دهد.
  • **کاهش دقت مدل:** در مدل‌سازی آماری و یادگیری ماشین، داده‌های پرت می‌توانند باعث کاهش دقت و قابلیت تعمیم مدل شوند. مدل ممکن است سعی کند داده‌های پرت را در نظر بگیرد و در نتیجه، عملکرد آن بر روی داده‌های جدید کاهش یابد.
  • **نتایج گمراه‌کننده:** در تحلیل داده‌ها، داده‌های پرت می‌توانند باعث ارائه نتایج گمراه‌کننده و اشتباه شوند.

روش‌های شناسایی داده‌های پرت

روش‌های مختلفی برای شناسایی داده‌های پرت وجود دارد. برخی از این روش‌ها عبارتند از:

  • **روش‌های گرافیکی:**
   *   **نمودار جعبه‌ای (Box Plot):** نمودار جعبه‌ای یک روش ساده و موثر برای شناسایی داده‌های پرت است. در این نمودار، داده‌های پرت به عنوان نقاطی خارج از "سبیل‌ها" (Whiskers) نمایش داده می‌شوند.
   *   **هیستوگرام (Histogram):** هیستوگرام توزیع داده‌ها را نشان می‌دهد. داده‌های پرت معمولاً در انتهای نمودار قرار می‌گیرند و از سایر داده‌ها جدا می‌شوند.
   *   **نمودار پراکندگی (Scatter Plot):** نمودار پراکندگی برای شناسایی داده‌های پرت در داده‌های دو بعدی استفاده می‌شود. داده‌های پرت به عنوان نقاطی که از الگوهای اصلی داده‌ها دور هستند، نمایش داده می‌شوند.
  • **روش‌های آماری:**
   *   **قاعده محدوده میانگین (Mean Range Rule):** این روش بر اساس این فرض است که داده‌های پرت خارج از محدوده مشخصی از میانگین قرار دارند. معمولاً این محدوده به صورت 3 انحراف معیار از میانگین در نظر گرفته می‌شود.
   *   **قاعده محدوده چارک‌ها (Interquartile Range - IQR):** این روش بر اساس محدوده بین چارک اول (Q1) و چارک سوم (Q3) است. داده‌های پرت به عنوان مقادیری که کمتر از Q1 - 1.5 * IQR یا بیشتر از Q3 + 1.5 * IQR هستند، شناسایی می‌شوند.
   *   **نمره Z (Z-score):** نمره Z نشان می‌دهد که یک داده چقدر از میانگین فاصله دارد. داده‌هایی که نمره Z آن‌ها بیش از یک مقدار مشخص (معمولاً 3 یا -3) باشد، به عنوان داده‌های پرت در نظر گرفته می‌شوند.
   *   **مسافت ماهالانوبیس (Mahalanobis Distance):** این روش برای شناسایی داده‌های پرت در داده‌های چند بعدی استفاده می‌شود. مسافت ماهالانوبیس، فاصله یک نقطه از مرکز توزیع را با در نظر گرفتن کوواریانس بین متغیرها محاسبه می‌کند.

استراتژی‌های برخورد با داده‌های پرت

پس از شناسایی داده‌های پرت، باید تصمیم گرفت که چگونه با آن‌ها برخورد شود. استراتژی‌های مختلفی برای برخورد با داده‌های پرت وجود دارد:

  • **حذف داده‌های پرت:** ساده‌ترین راه برای برخورد با داده‌های پرت، حذف آن‌ها از مجموعه داده است. با این حال، باید دقت کرد که حذف داده‌ها می‌تواند باعث کاهش حجم نمونه و از دست رفتن اطلاعات مفید شود.
  • **تبدیل داده‌ها:** تبدیل داده‌ها می‌تواند به کاهش تاثیر داده‌های پرت کمک کند. برخی از روش‌های تبدیل داده‌ها عبارتند از:
   *   **تبدیل لگاریتمی (Log Transformation):** این تبدیل برای داده‌های با توزیع نامتقارن مناسب است.
   *   **تبدیل جذر (Square Root Transformation):** این تبدیل نیز برای داده‌های با توزیع نامتقارن مناسب است.
   *   **تبدیل باکس-کاکس (Box-Cox Transformation):** این تبدیل یک روش عمومی‌تر برای تبدیل داده‌ها است که می‌تواند به نرمال‌سازی توزیع داده‌ها کمک کند.
  • **جایگزینی داده‌های پرت:** به جای حذف داده‌های پرت، می‌توان آن‌ها را با مقادیر دیگری جایگزین کرد. برخی از روش‌های جایگزینی داده‌های پرت عبارتند از:
   *   **میانگین (Mean):** جایگزینی داده‌های پرت با میانگین مجموعه داده.
   *   **میانه (Median):** جایگزینی داده‌های پرت با میانه مجموعه داده. میانه نسبت به داده‌های پرت مقاوم‌تر است.
   *   **مقدار نزدیک‌ترین همسایه (Nearest Neighbor):** جایگزینی داده‌های پرت با مقدار نزدیک‌ترین همسایه آن‌ها.
  • **استفاده از الگوریتم‌های مقاوم به داده‌های پرت:** برخی از الگوریتم‌های یادگیری ماشین و مدل‌سازی آماری وجود دارند که به داده‌های پرت مقاوم هستند. به عنوان مثال، رگرسیون مقاوم (Robust Regression) و درخت تصمیم‌گیری (Decision Tree) نسبت به داده‌های پرت مقاوم‌تر از رگرسیون خطی (Linear Regression) هستند.

مثال عملی با استفاده از Python

در این بخش، یک مثال عملی از شناسایی و حذف داده‌های پرت با استفاده از زبان برنامه‌نویسی Python و کتابخانه Pandas ارائه می‌شود.

```python import pandas as pd import numpy as np

  1. ایجاد یک مجموعه داده نمونه

data = {'Value': [10, 12, 15, 18, 20, 22, 25, 28, 30, 100]} df = pd.DataFrame(data)

  1. شناسایی داده‌های پرت با استفاده از IQR

Q1 = df['Value'].quantile(0.25) Q3 = df['Value'].quantile(0.75) IQR = Q3 - Q1 lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR

outliers = df[(df['Value'] < lower_bound) | (df['Value'] > upper_bound)] print("داده های پرت:") print(outliers)

  1. حذف داده‌های پرت

df_no_outliers = df[(df['Value'] >= lower_bound) & (df['Value'] <= upper_bound)] print("\nمجموعه داده بدون داده های پرت:") print(df_no_outliers) ```

ملاحظات مهم

  • **دامنه موضوعی:** قبل از حذف داده‌های پرت، باید دامنه موضوعی داده‌ها را در نظر گرفت. گاهی اوقات، داده‌های پرت ممکن است نشان‌دهنده رویدادهای مهم و غیرمعمول باشند که نباید حذف شوند. به عنوان مثال، در تحلیل داده‌های مالی، یک افزایش ناگهانی در قیمت سهام ممکن است یک داده پرت باشد، اما نباید حذف شود زیرا نشان‌دهنده یک رویداد مهم در بازار است.
  • **حجم نمونه:** اگر حجم نمونه کوچک باشد، حذف داده‌های پرت می‌تواند باعث کاهش قابل توجه حجم نمونه و کاهش قدرت آماری شود. در این موارد، بهتر است از روش‌های دیگری مانند تبدیل داده‌ها یا استفاده از الگوریتم‌های مقاوم به داده‌های پرت استفاده شود.
  • **تفسیر نتایج:** پس از برخورد با داده‌های پرت، باید نتایج را با دقت تفسیر کرد. حذف یا تغییر داده‌ها می‌تواند باعث تغییر نتایج تحلیل شود.

پیوندهای مرتبط

منابع

  • Iglewicz, B., & Hoaglin, D. C. (1993). How to detect and deal with outliers. *ASQ Quality Press*.
  • Barnett, V., & Hunter, T. (2014). *Outliers in statistical data*. John Wiley & Sons.

شروع معاملات الآن

ثبت‌نام در IQ Option (حداقل واریز $10) باز کردن حساب در Pocket Option (حداقل واریز $5)

به جامعه ما بپیوندید

در کانال تلگرام ما عضو شوید @strategybin و دسترسی پیدا کنید به: ✓ سیگنال‌های معاملاتی روزانه ✓ تحلیل‌های استراتژیک انحصاری ✓ هشدارهای مربوط به روند بازار ✓ مواد آموزشی برای مبتدیان

Баннер