تصویر:Scikit learn logo.png: Difference between revisions

Latest revision as of 02:26, 7 May 2025

تصویر: Scikit learn logo.png: راهنمای جامع برای مبتدیان

مقدمه

Scikit-learn یک کتابخانه یادگیری ماشین متن‌باز و رایگان در زبان برنامه‌نویسی پایتون است. این کتابخانه مجموعه‌ای گسترده از الگوریتم‌های یادگیری ماشین را برای طبقه‌بندی، رگرسیون، خوشه‌بندی، کاهش ابعاد، انتخاب مدل و پیش‌پردازش داده‌ها ارائه می‌دهد. Scikit-learn به دلیل سهولت استفاده، مستندات جامع و کارایی بالا، به یکی از محبوب‌ترین کتابخانه‌های یادگیری ماشین در بین محققان و متخصصان داده تبدیل شده است. این مقاله به عنوان یک راهنمای جامع برای مبتدیان طراحی شده است تا با مفاهیم اساسی Scikit-learn و نحوه استفاده از آن آشنا شوند.

پیش‌نیازها

قبل از شروع کار با Scikit-learn، لازم است پیش‌نیازهای زیر را داشته باشید:

**پایتون:** Scikit-learn بر پایه پایتون ساخته شده است. بنابراین، باید با مفاهیم پایه پایتون مانند متغیرها، توابع، حلقه‌ها و شرط‌ها آشنا باشید.
**NumPy:** NumPy یک کتابخانه پایتون برای محاسبات عددی است که توسط Scikit-learn استفاده می‌شود.
**SciPy:** SciPy یک کتابخانه پایتون برای محاسبات علمی است که شامل توابعی برای بهینه‌سازی، انتگرال‌گیری و آمار است.
**Matplotlib:** Matplotlib یک کتابخانه پایتون برای رسم نمودارها و تجسم داده‌ها است.

می‌توانید این کتابخانه‌ها را با استفاده از pip نصب کنید:

```bash pip install numpy scipy matplotlib scikit-learn ```

نصب Scikit-learn

همانطور که در بالا اشاره شد، Scikit-learn را می‌توان با استفاده از pip نصب کرد:

```bash pip install scikit-learn ```

همچنین می‌توانید Scikit-learn را از طریق conda نصب کنید:

```bash conda install -c conda-forge scikit-learn ```

مفاهیم کلیدی در Scikit-learn

Scikit-learn بر اساس مجموعه‌ای از مفاهیم کلیدی بنا شده است که درک آن‌ها برای استفاده مؤثر از این کتابخانه ضروری است:

**Estimator:** یک شیء در Scikit-learn که می‌تواند بر اساس داده‌ها یاد بگیرد و پیش‌بینی انجام دهد.
**Transformer:** یک شیء که داده‌ها را به شکل دیگری تبدیل می‌کند.
**Pipeline:** یک زنجیره از Transformers که می‌توانند برای پیش‌پردازش داده‌ها و آموزش مدل‌ها استفاده شوند.
**Model:** یک شیء که پس از آموزش، می‌تواند برای پیش‌بینی داده‌های جدید استفاده شود.
**Dataset:** مجموعه‌ای از داده‌ها که برای آموزش و ارزیابی مدل‌ها استفاده می‌شود.

جریان کار معمول در Scikit-learn

یک جریان کار معمول در Scikit-learn شامل مراحل زیر است:

1. **بارگذاری داده‌ها:** داده‌ها را از یک فایل یا منبع دیگر بارگذاری کنید. 2. **پیش‌پردازش داده‌ها:** داده‌ها را تمیز کنید، مقادیر گمشده را پر کنید و ویژگی‌ها را مقیاس‌بندی کنید. 3. **انتخاب مدل:** یک مدل یادگیری ماشین مناسب برای مسئله خود انتخاب کنید. 4. **آموزش مدل:** مدل را با استفاده از داده‌های آموزشی آموزش دهید. 5. **ارزیابی مدل:** عملکرد مدل را با استفاده از داده‌های آزمایشی ارزیابی کنید. 6. **تنظیم هایپرپارامترها:** هایپرپارامترهای مدل را تنظیم کنید تا عملکرد آن بهبود یابد. 7. **پیش‌بینی:** از مدل آموزش‌دیده برای پیش‌بینی داده‌های جدید استفاده کنید.

مثال‌های عملی

در این بخش، چند مثال عملی از نحوه استفاده از Scikit-learn را بررسی می‌کنیم.

**طبقه‌بندی با استفاده از Logistic Regression:**

```python from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split from sklearn.datasets import load_iris

بارگذاری مجموعه داده Iris

iris = load_iris() X, y = iris.data, iris.target

تقسیم داده‌ها به مجموعه‌های آموزشی و آزمایشی

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

ایجاد یک مدل Logistic Regression

model = LogisticRegression()

آموزش مدل

model.fit(X_train, y_train)

ارزیابی مدل

accuracy = model.score(X_test, y_test) print("Accuracy:", accuracy) ```

**رگرسیون با استفاده از Linear Regression:**

```python from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_split from sklearn.datasets import load_boston

بارگذاری مجموعه داده Boston Housing

boston = load_boston() X, y = boston.data, boston.target

تقسیم داده‌ها به مجموعه‌های آموزشی و آزمایشی

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

ایجاد یک مدل Linear Regression

model = LinearRegression()

آموزش مدل

model.fit(X_train, y_train)

ارزیابی مدل

r2_score = model.score(X_test, y_test) print("R2 Score:", r2_score) ```

**خوشه‌بندی با استفاده از K-Means:**

```python from sklearn.cluster import KMeans from sklearn.datasets import make_blobs

ایجاد داده‌های مصنوعی

X, y = make_blobs(n_samples=100, centers=3, random_state=42)

ایجاد یک مدل K-Means با 3 خوشه

model = KMeans(n_clusters=3, random_state=42)

آموزش مدل

model.fit(X)

پیش‌بینی برچسب‌های خوشه برای داده‌ها

labels = model.predict(X) ```

پیش‌پردازش داده‌ها

پیش‌پردازش داده‌ها یک مرحله مهم در یادگیری ماشین است که می‌تواند به بهبود عملکرد مدل‌ها کمک کند. Scikit-learn مجموعه‌ای از ابزارها برای پیش‌پردازش داده‌ها ارائه می‌دهد، از جمله:

**StandardScaler:** مقیاس‌بندی ویژگی‌ها به طوری که میانگین 0 و انحراف معیار 1 باشد.
**MinMaxScaler:** مقیاس‌بندی ویژگی‌ها به محدوده [0, 1].
**Imputer:** پر کردن مقادیر گمشده در داده‌ها.
**OneHotEncoder:** تبدیل ویژگی‌های دسته‌ای به ویژگی‌های عددی.

انتخاب مدل

انتخاب مدل مناسب برای مسئله یادگیری ماشین شما بسیار مهم است. Scikit-learn مجموعه‌ای گسترده از الگوریتم‌های یادگیری ماشین را ارائه می‌دهد، از جمله:

**Logistic Regression:** برای مسائل طبقه‌بندی.
**Linear Regression:** برای مسائل رگرسیون.
**Support Vector Machines (SVM):** برای مسائل طبقه‌بندی و رگرسیون.
**Decision Trees:** برای مسائل طبقه‌بندی و رگرسیون.
**Random Forests:** برای مسائل طبقه‌بندی و رگرسیون.
**K-Means:** برای مسائل خوشه‌بندی.
**Principal Component Analysis (PCA):** برای کاهش ابعاد.

ارزیابی مدل

ارزیابی عملکرد مدل یادگیری ماشین یک مرحله ضروری است. Scikit-learn مجموعه‌ای از معیارهای ارزیابی را ارائه می‌دهد، از جمله:

**Accuracy:** درصد پیش‌بینی‌های صحیح.
**Precision:** نسبت پیش‌بینی‌های مثبت صحیح به کل پیش‌بینی‌های مثبت.
**Recall:** نسبت پیش‌بینی‌های مثبت صحیح به کل نمونه‌های مثبت واقعی.
**F1-Score:** میانگین هارمونیک Precision و Recall.
**R2 Score:** ضریب تعیین که نشان می‌دهد چه مقدار از واریانس متغیر وابسته توسط مدل توضیح داده می‌شود.
**Mean Squared Error (MSE):** میانگین مربع تفاوت بین مقادیر پیش‌بینی شده و مقادیر واقعی.

تنظیم هایپرپارامترها

هایپرپارامترها پارامترهایی هستند که قبل از آموزش مدل تنظیم می‌شوند. تنظیم هایپرپارامترها می‌تواند به بهبود عملکرد مدل کمک کند. Scikit-learn مجموعه‌ای از ابزارها برای تنظیم هایپرپارامترها ارائه می‌دهد، از جمله:

**GridSearchCV:** جستجوی جامع در یک شبکه از مقادیر هایپرپارامتر.
**RandomizedSearchCV:** جستجوی تصادفی در یک توزیع از مقادیر هایپرپارامتر.

منابع بیشتر

استراتژی‌های مرتبط، تحلیل تکنیکال و تحلیل حجم معاملات

شروع معاملات الآن

ثبت‌نام در IQ Option (حداقل واریز $10) باز کردن حساب در Pocket Option (حداقل واریز $5)

به جامعه ما بپیوندید

در کانال تلگرام ما عضو شوید @strategybin و دسترسی پیدا کنید به: ✓ سیگنال‌های معاملاتی روزانه ✓ تحلیل‌های استراتژیک انحصاری ✓ هشدارهای مربوط به روند بازار ✓ مواد آموزشی برای مبتدیان