دادههای پرت
دادههای پرت
دادههای پرت (Outliers) در آمار و تحلیل دادهها به مقادیری گفته میشود که به طور قابل توجهی با سایر مقادیر مجموعه داده متفاوت هستند. این مقادیر میتوانند بسیار بزرگ یا بسیار کوچک باشند و به دلیل خطای اندازهگیری، خطا در ورود دادهها یا وجود پدیدههای واقعی غیرمعمول ایجاد شوند. شناسایی و برخورد مناسب با دادههای پرت، گام مهمی در فرایند تحلیل دادهها است، زیرا میتوانند به طور جدی بر نتایج تحلیلها و مدلسازیها تاثیر بگذارند. در این مقاله، به بررسی جامع دادههای پرت، انواع آن، روشهای شناسایی، و استراتژیهای برخورد با آنها خواهیم پرداخت.
تعریف و اهمیت دادههای پرت
دادههای پرت، مقادیری هستند که در توزیع دادهها، از بقیه دادهها دور افتادهاند. این دورافتادگی میتواند به دلیل عوامل مختلفی رخ دهد. درک ماهیت دادههای پرت و تاثیر آنها بر آمار توصیفی و آمار استنباطی بسیار مهم است.
- **تاثیر بر میانگین و انحراف معیار:** دادههای پرت میتوانند به طور قابل توجهی میانگین و انحراف معیار یک مجموعه داده را تحت تاثیر قرار دهند. به عنوان مثال، یک داده پرت بزرگ میتواند میانگین را به سمت بالا بکشد و انحراف معیار را افزایش دهد.
- **تاثیر بر مدلسازی:** در یادگیری ماشین و مدلسازی آماری، دادههای پرت میتوانند باعث ایجاد مدلهای نادرست و غیرقابل اعتماد شوند.
- **شناسایی ناهنجاریها:** در برخی موارد، دادههای پرت میتوانند نشاندهنده ناهنجاریها یا رویدادهای غیرمعمول باشند که نیاز به بررسی بیشتر دارند. برای مثال، در تشخیص تقلب، تراکنشهای غیرمعمول میتوانند به عنوان دادههای پرت شناسایی شوند.
انواع دادههای پرت
دادههای پرت را میتوان به چند دسته اصلی تقسیم کرد:
- **دادههای پرت یکجانبه (Univariate Outliers):** این نوع دادههای پرت در یک متغیر منفرد وجود دارند. به عنوان مثال، در یک مجموعه داده از سن افراد، یک فرد با سن 120 سال، یک داده پرت یکجانبه خواهد بود.
- **دادههای پرت چندمتغیره (Multivariate Outliers):** این نوع دادههای پرت در ترکیب چندین متغیر وجود دارند. به عنوان مثال، یک فرد با قد بسیار بلند و وزن بسیار کم، ممکن است در یک مجموعه داده از اطلاعات قد و وزن، یک داده پرت چندمتغیره باشد.
- **دادههای پرت نقطهای (Point Outliers):** این نوع دادههای پرت، مقادیری هستند که به طور کلی با سایر مقادیر در مجموعه داده متفاوت هستند.
- **دادههای پرت زمینهای (Contextual Outliers):** این نوع دادههای پرت، مقادیری هستند که در یک زمینه خاص، غیرمعمول هستند. به عنوان مثال، یک فروش بسیار بالا در یک روز خاص، ممکن است در یک مجموعه داده از فروش روزانه، یک داده پرت زمینهای باشد.
- **دادههای پرت جمعیتی (Collective Outliers):** این نوع دادههای پرت، گروهی از دادهها هستند که به طور کلی با سایر دادهها در مجموعه داده متفاوت هستند.
روشهای شناسایی دادههای پرت
روشهای مختلفی برای شناسایی دادههای پرت وجود دارد. انتخاب روش مناسب به نوع دادهها و هدف تحلیل بستگی دارد.
- **روشهای گرافیکی:**
* **نمودار جعبهای (Box Plot):** نمودار جعبهای، دادهها را بر اساس چارکها نشان میدهد و دادههای پرت را به عنوان نقاط خارج از "سبیلها" (whiskers) نمایش میدهد. نمودار جعبهای ابزار قدرتمندی برای شناسایی دادههای پرت است. * **هیستوگرام (Histogram):** هیستوگرام، توزیع دادهها را نشان میدهد و دادههای پرت را به عنوان مقادیری که در انتهای توزیع قرار دارند، نمایش میدهد. * **نمودار پراکندگی (Scatter Plot):** نمودار پراکندگی، رابطه بین دو متغیر را نشان میدهد و دادههای پرت را به عنوان نقاط دور از سایر نقاط نمایش میدهد.
- **روشهای آماری:**
* **قاعده 1.5IQR:** این قاعده، دادههایی را که خارج از 1.5 برابر دامنه بین چارکی (IQR) از چارک اول یا سوم قرار دارند، به عنوان داده پرت شناسایی میکند. * **آزمون Z-Score:** آزمون Z-Score، میزان فاصله یک داده از میانگین را بر حسب انحراف معیار اندازهگیری میکند. دادههایی که Z-Score آنها از یک آستانه مشخص (مثلاً 3 یا -3) بیشتر باشد، به عنوان داده پرت شناسایی میشوند. * **آزمون Grubbs:** آزمون Grubbs برای شناسایی یک داده پرت در یک مجموعه داده استفاده میشود. * **روشهای مبتنی بر فاصله:** روشهایی مانند Mahalanobis Distance برای شناسایی دادههای پرت چندمتغیره استفاده میشوند.
- **الگوریتمهای یادگیری ماشین:**
* **Isolation Forest:** این الگوریتم، دادههای پرت را به عنوان دادههایی شناسایی میکند که به راحتی از بقیه دادهها جدا میشوند. * **One-Class SVM:** این الگوریتم، یک مدل برای دادههای نرمال ایجاد میکند و دادههایی که خارج از این مدل قرار دارند را به عنوان داده پرت شناسایی میکند.
استراتژیهای برخورد با دادههای پرت
پس از شناسایی دادههای پرت، باید تصمیم گرفت که چگونه با آنها برخورد کرد. استراتژی مناسب به علت ایجاد دادههای پرت و هدف تحلیل بستگی دارد.
- **حذف دادههای پرت:** اگر دادههای پرت به دلیل خطای اندازهگیری یا خطا در ورود دادهها ایجاد شده باشند، میتوان آنها را حذف کرد. با این حال، باید مراقب بود که حذف دادهها باعث از دست رفتن اطلاعات مهم نشود.
- **تبدیل دادهها:** تبدیل دادهها، مانند استفاده از لگاریتم یا جذر، میتواند به کاهش تاثیر دادههای پرت بر تحلیلها کمک کند.
- **جایگزینی دادههای پرت:** دادههای پرت میتوانند با مقادیر دیگری جایگزین شوند، مانند میانگین، میانه یا مقدار پیشبینی شده.
- **استفاده از روشهای مقاوم (Robust Methods):** روشهای مقاوم، مانند میانه به جای میانگین، کمتر تحت تاثیر دادههای پرت قرار میگیرند.
- **تحلیل جداگانه:** در برخی موارد، دادههای پرت میتوانند نشاندهنده پدیدههای جالبی باشند که نیاز به تحلیل جداگانه دارند.
کاربردهای دادههای پرت
شناسایی و تحلیل دادههای پرت در زمینههای مختلف کاربرد دارد:
- **تشخیص تقلب:** در صنعت مالی، دادههای پرت میتوانند نشاندهنده تراکنشهای تقلبی باشند.
- **پزشکی:** در پزشکی، دادههای پرت میتوانند نشاندهنده بیماریهای غیرمعمول باشند.
- **مهندسی:** در مهندسی، دادههای پرت میتوانند نشاندهنده نقص در تجهیزات یا فرآیندها باشند.
- **بازاریابی:** در بازاریابی، دادههای پرت میتوانند نشاندهنده مشتریان غیرمعمول باشند.
- **کنترل کیفیت:** در کنترل کیفیت، دادههای پرت میتوانند نشاندهنده نقص در محصولات باشند.
مثالهایی از دادههای پرت
| سن (سال) | درآمد (دلار) | قد (سانتیمتر) | |---|---|---| | 25 | 50000 | 175 | | 30 | 60000 | 180 | | 35 | 70000 | 170 | | 40 | 80000 | 185 | | 120 | 100000 | 160 | | 28 | 1000000 | 178 | | 32 | 55000 | 210 |
در جدول بالا، دادههای مربوط به فرد 120 ساله، فرد با درآمد 1000000 دلار و فرد با قد 210 سانتیمتر به عنوان دادههای پرت در نظر گرفته میشوند.
نکات مهم
- قبل از هر اقدامی، علت ایجاد دادههای پرت را بررسی کنید.
- از روشهای مختلف برای شناسایی دادههای پرت استفاده کنید.
- استراتژی برخورد با دادههای پرت را با توجه به هدف تحلیل انتخاب کنید.
- مستندسازی دقیق فرایند شناسایی و برخورد با دادههای پرت ضروری است.
پیوندها به استراتژیهای مرتبط، تحلیل تکنیکال و تحلیل حجم معاملات
- میانگین متحرک
- شاخص قدرت نسبی (RSI)
- باندهای بولینگر
- واگرایی
- الگوهای کندل استیک
- حجم معاملات
- تحلیل فیبوناچی
- میانگین همگرایی واگرایی (MACD)
- اندیکاتور استوکاستیک
- تحلیل موج الیوت
- تحلیل بنیادی
- مدیریت ریسک
- تنظیم اندازه موقعیت
- استراتژیهای ورود و خروج
- تحلیل تکنیکال پیشرفته
پیوندهای داخلی مرتبط
- آمار توصیفی
- آمار استنباطی
- یادگیری ماشین
- مدلسازی آماری
- تحلیل دادهها
- نمودار جعبهای
- هیستوگرام
- نمودار پراکندگی
- انحراف معیار
- میانگین
- چارکها
- IQR (دامنه بین چارکی)
- Z-Score
- آزمون Grubbs
- Mahalanobis Distance
- Isolation Forest
- One-Class SVM
- روشهای مقاوم
- توضیح:** دادههای پرت (Outliers) یک مفهوم کلیدی در آمار هستند و شناسایی و برخورد با آنها برای تحلیل دقیق و قابل اعتماد دادهها ضروری است. این مقاله به بررسی جامع این موضوع پرداخته و روشهای مختلف شناسایی و استراتژیهای برخورد با دادههای پرت را ارائه میدهد.
شروع معاملات الآن
ثبتنام در IQ Option (حداقل واریز $10) باز کردن حساب در Pocket Option (حداقل واریز $5)
به جامعه ما بپیوندید
در کانال تلگرام ما عضو شوید @strategybin و دسترسی پیدا کنید به: ✓ سیگنالهای معاملاتی روزانه ✓ تحلیلهای استراتژیک انحصاری ✓ هشدارهای مربوط به روند بازار ✓ مواد آموزشی برای مبتدیان