داده‌های پرت

From binaryoption
Jump to navigation Jump to search
Баннер1

داده‌های پرت

داده‌های پرت (Outliers) در آمار و تحلیل داده‌ها به مقادیری گفته می‌شود که به طور قابل توجهی با سایر مقادیر مجموعه داده متفاوت هستند. این مقادیر می‌توانند بسیار بزرگ یا بسیار کوچک باشند و به دلیل خطای اندازه‌گیری، خطا در ورود داده‌ها یا وجود پدیده‌های واقعی غیرمعمول ایجاد شوند. شناسایی و برخورد مناسب با داده‌های پرت، گام مهمی در فرایند تحلیل داده‌ها است، زیرا می‌توانند به طور جدی بر نتایج تحلیل‌ها و مدل‌سازی‌ها تاثیر بگذارند. در این مقاله، به بررسی جامع داده‌های پرت، انواع آن، روش‌های شناسایی، و استراتژی‌های برخورد با آن‌ها خواهیم پرداخت.

تعریف و اهمیت داده‌های پرت

داده‌های پرت، مقادیری هستند که در توزیع داده‌ها، از بقیه داده‌ها دور افتاده‌اند. این دورافتادگی می‌تواند به دلیل عوامل مختلفی رخ دهد. درک ماهیت داده‌های پرت و تاثیر آن‌ها بر آمار توصیفی و آمار استنباطی بسیار مهم است.

  • **تاثیر بر میانگین و انحراف معیار:** داده‌های پرت می‌توانند به طور قابل توجهی میانگین و انحراف معیار یک مجموعه داده را تحت تاثیر قرار دهند. به عنوان مثال، یک داده پرت بزرگ می‌تواند میانگین را به سمت بالا بکشد و انحراف معیار را افزایش دهد.
  • **تاثیر بر مدل‌سازی:** در یادگیری ماشین و مدل‌سازی آماری، داده‌های پرت می‌توانند باعث ایجاد مدل‌های نادرست و غیرقابل اعتماد شوند.
  • **شناسایی ناهنجاری‌ها:** در برخی موارد، داده‌های پرت می‌توانند نشان‌دهنده ناهنجاری‌ها یا رویدادهای غیرمعمول باشند که نیاز به بررسی بیشتر دارند. برای مثال، در تشخیص تقلب، تراکنش‌های غیرمعمول می‌توانند به عنوان داده‌های پرت شناسایی شوند.

انواع داده‌های پرت

داده‌های پرت را می‌توان به چند دسته اصلی تقسیم کرد:

  • **داده‌های پرت یک‌جانبه (Univariate Outliers):** این نوع داده‌های پرت در یک متغیر منفرد وجود دارند. به عنوان مثال، در یک مجموعه داده از سن افراد، یک فرد با سن 120 سال، یک داده پرت یک‌جانبه خواهد بود.
  • **داده‌های پرت چند‌متغیره (Multivariate Outliers):** این نوع داده‌های پرت در ترکیب چندین متغیر وجود دارند. به عنوان مثال، یک فرد با قد بسیار بلند و وزن بسیار کم، ممکن است در یک مجموعه داده از اطلاعات قد و وزن، یک داده پرت چند‌متغیره باشد.
  • **داده‌های پرت نقطه‌ای (Point Outliers):** این نوع داده‌های پرت، مقادیری هستند که به طور کلی با سایر مقادیر در مجموعه داده متفاوت هستند.
  • **داده‌های پرت زمینه‌ای (Contextual Outliers):** این نوع داده‌های پرت، مقادیری هستند که در یک زمینه خاص، غیرمعمول هستند. به عنوان مثال، یک فروش بسیار بالا در یک روز خاص، ممکن است در یک مجموعه داده از فروش روزانه، یک داده پرت زمینه‌ای باشد.
  • **داده‌های پرت جمعیتی (Collective Outliers):** این نوع داده‌های پرت، گروهی از داده‌ها هستند که به طور کلی با سایر داده‌ها در مجموعه داده متفاوت هستند.

روش‌های شناسایی داده‌های پرت

روش‌های مختلفی برای شناسایی داده‌های پرت وجود دارد. انتخاب روش مناسب به نوع داده‌ها و هدف تحلیل بستگی دارد.

  • **روش‌های گرافیکی:**
   * **نمودار جعبه‌ای (Box Plot):** نمودار جعبه‌ای، داده‌ها را بر اساس چارک‌ها نشان می‌دهد و داده‌های پرت را به عنوان نقاط خارج از "سبیل‌ها" (whiskers) نمایش می‌دهد. نمودار جعبه‌ای ابزار قدرتمندی برای شناسایی داده‌های پرت است.
   * **هیستوگرام (Histogram):** هیستوگرام، توزیع داده‌ها را نشان می‌دهد و داده‌های پرت را به عنوان مقادیری که در انتهای توزیع قرار دارند، نمایش می‌دهد.
   * **نمودار پراکندگی (Scatter Plot):** نمودار پراکندگی، رابطه بین دو متغیر را نشان می‌دهد و داده‌های پرت را به عنوان نقاط دور از سایر نقاط نمایش می‌دهد.
  • **روش‌های آماری:**
   * **قاعده 1.5IQR:** این قاعده، داده‌هایی را که خارج از 1.5 برابر دامنه بین چارکی (IQR) از چارک اول یا سوم قرار دارند، به عنوان داده پرت شناسایی می‌کند.
   * **آزمون Z-Score:** آزمون Z-Score، میزان فاصله یک داده از میانگین را بر حسب انحراف معیار اندازه‌گیری می‌کند. داده‌هایی که Z-Score آن‌ها از یک آستانه مشخص (مثلاً 3 یا -3) بیشتر باشد، به عنوان داده پرت شناسایی می‌شوند.
   * **آزمون Grubbs:** آزمون Grubbs برای شناسایی یک داده پرت در یک مجموعه داده استفاده می‌شود.
   * **روش‌های مبتنی بر فاصله:** روش‌هایی مانند Mahalanobis Distance برای شناسایی داده‌های پرت چند‌متغیره استفاده می‌شوند.
  • **الگوریتم‌های یادگیری ماشین:**
   * **Isolation Forest:** این الگوریتم، داده‌های پرت را به عنوان داده‌هایی شناسایی می‌کند که به راحتی از بقیه داده‌ها جدا می‌شوند.
   * **One-Class SVM:** این الگوریتم، یک مدل برای داده‌های نرمال ایجاد می‌کند و داده‌هایی که خارج از این مدل قرار دارند را به عنوان داده پرت شناسایی می‌کند.

استراتژی‌های برخورد با داده‌های پرت

پس از شناسایی داده‌های پرت، باید تصمیم گرفت که چگونه با آن‌ها برخورد کرد. استراتژی مناسب به علت ایجاد داده‌های پرت و هدف تحلیل بستگی دارد.

  • **حذف داده‌های پرت:** اگر داده‌های پرت به دلیل خطای اندازه‌گیری یا خطا در ورود داده‌ها ایجاد شده باشند، می‌توان آن‌ها را حذف کرد. با این حال، باید مراقب بود که حذف داده‌ها باعث از دست رفتن اطلاعات مهم نشود.
  • **تبدیل داده‌ها:** تبدیل داده‌ها، مانند استفاده از لگاریتم یا جذر، می‌تواند به کاهش تاثیر داده‌های پرت بر تحلیل‌ها کمک کند.
  • **جایگزینی داده‌های پرت:** داده‌های پرت می‌توانند با مقادیر دیگری جایگزین شوند، مانند میانگین، میانه یا مقدار پیش‌بینی شده.
  • **استفاده از روش‌های مقاوم (Robust Methods):** روش‌های مقاوم، مانند میانه به جای میانگین، کمتر تحت تاثیر داده‌های پرت قرار می‌گیرند.
  • **تحلیل جداگانه:** در برخی موارد، داده‌های پرت می‌توانند نشان‌دهنده پدیده‌های جالبی باشند که نیاز به تحلیل جداگانه دارند.

کاربردهای داده‌های پرت

شناسایی و تحلیل داده‌های پرت در زمینه‌های مختلف کاربرد دارد:

  • **تشخیص تقلب:** در صنعت مالی، داده‌های پرت می‌توانند نشان‌دهنده تراکنش‌های تقلبی باشند.
  • **پزشکی:** در پزشکی، داده‌های پرت می‌توانند نشان‌دهنده بیماری‌های غیرمعمول باشند.
  • **مهندسی:** در مهندسی، داده‌های پرت می‌توانند نشان‌دهنده نقص در تجهیزات یا فرآیندها باشند.
  • **بازاریابی:** در بازاریابی، داده‌های پرت می‌توانند نشان‌دهنده مشتریان غیرمعمول باشند.
  • **کنترل کیفیت:** در کنترل کیفیت، داده‌های پرت می‌توانند نشان‌دهنده نقص در محصولات باشند.

مثال‌هایی از داده‌های پرت

| سن (سال) | درآمد (دلار) | قد (سانتی‌متر) | |---|---|---| | 25 | 50000 | 175 | | 30 | 60000 | 180 | | 35 | 70000 | 170 | | 40 | 80000 | 185 | | 120 | 100000 | 160 | | 28 | 1000000 | 178 | | 32 | 55000 | 210 |

در جدول بالا، داده‌های مربوط به فرد 120 ساله، فرد با درآمد 1000000 دلار و فرد با قد 210 سانتی‌متر به عنوان داده‌های پرت در نظر گرفته می‌شوند.

نکات مهم

  • قبل از هر اقدامی، علت ایجاد داده‌های پرت را بررسی کنید.
  • از روش‌های مختلف برای شناسایی داده‌های پرت استفاده کنید.
  • استراتژی برخورد با داده‌های پرت را با توجه به هدف تحلیل انتخاب کنید.
  • مستندسازی دقیق فرایند شناسایی و برخورد با داده‌های پرت ضروری است.

پیوندها به استراتژی‌های مرتبط، تحلیل تکنیکال و تحلیل حجم معاملات

پیوندهای داخلی مرتبط

    • توضیح:** داده‌های پرت (Outliers) یک مفهوم کلیدی در آمار هستند و شناسایی و برخورد با آن‌ها برای تحلیل دقیق و قابل اعتماد داده‌ها ضروری است. این مقاله به بررسی جامع این موضوع پرداخته و روش‌های مختلف شناسایی و استراتژی‌های برخورد با داده‌های پرت را ارائه می‌دهد.

شروع معاملات الآن

ثبت‌نام در IQ Option (حداقل واریز $10) باز کردن حساب در Pocket Option (حداقل واریز $5)

به جامعه ما بپیوندید

در کانال تلگرام ما عضو شوید @strategybin و دسترسی پیدا کنید به: ✓ سیگنال‌های معاملاتی روزانه ✓ تحلیل‌های استراتژیک انحصاری ✓ هشدارهای مربوط به روند بازار ✓ مواد آموزشی برای مبتدیان

Баннер