Pandas

From binaryoption
Revision as of 10:55, 23 April 2025 by Admin (talk | contribs) (@pipegas_WP)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to navigation Jump to search
Баннер1

পান্ডাস ডেটা বিশ্লেষণ এবং ম্যানিপুলেশন

পান্ডাস (Pandas) হল পাইথনের একটি বহুল ব্যবহৃত ডেটা ম্যানিপুলেশন এবং বিশ্লেষণের লাইব্রেরি। এটি ডেটা স্ট্রাকচার এবং ডেটা বিশ্লেষণের সরঞ্জাম সরবরাহ করে, যা ব্যবহার করে ডেটা পরিষ্কার, রূপান্তর এবং বিশ্লেষণ করা যায়। পান্ডাস বিশেষভাবে টেবুলার ডেটা (tabular data) যেমন স্প্রেডশিট বা SQL ডেটাবেস-এর সাথে কাজ করার জন্য ডিজাইন করা হয়েছে। এই লাইব্রেরিটি ডেটা বিজ্ঞানী, বিশ্লেষক এবং প্রকৌশলীদের মধ্যে অত্যন্ত জনপ্রিয়।

পান্ডাসের মূল ডেটা স্ট্রাকচার

পান্ডাস মূলত দুটি ডেটা স্ট্রাকচার ব্যবহার করে:

  • সিরিজ (Series): একটি এক-মাত্রিক লেবেলযুক্ত অ্যারে যা যেকোনো ডেটা টাইপ (যেমন ইন্টিজার, স্ট্রিং, ফ্লোট, ইত্যাদি) ধারণ করতে পারে। এটি একটি কলামের মতো, যেখানে প্রতিটি ডেটা একটি ইন্ডেক্স দ্বারা চিহ্নিত করা হয়। ডেটা টাইপ সম্পর্কে আরও জানতে পারেন।
  • ডেটাফ্রেম (DataFrame): একটি দুই-মাত্রিক লেবেলযুক্ত ডেটা স্ট্রাকচার, যা সারি এবং কলামে ডেটা ধারণ করে। এটি স্প্রেডশিটের মতো, যেখানে প্রতিটি কলাম একটি সিরিজ এবং প্রতিটি সারি একটি অবজারভেশন। স্প্রেডশিট এর গঠন সম্পর্কে ধারণা থাকলে এটি বুঝতে সুবিধা হবে।
পান্ডাসের ডেটা স্ট্রাকচার
ডেটা স্ট্রাকচার বিবরণ উদাহরণ
সিরিজ (Series) এক-মাত্রিক লেবেলযুক্ত অ্যারে `pd.Series([1, 2, 3, 4, 5])` ডেটাফ্রেম (DataFrame) দুই-মাত্রিক লেবেলযুক্ত ডেটা স্ট্রাকচার `pd.DataFrame({'নাম': ['আকাশ', 'বাতাস', 'নদী'], 'বয়স': [25, 30, 28]})`

পান্ডাস ব্যবহারের সুবিধা

  • সহজ সিনট্যাক্স: পান্ডাসের সিনট্যাক্স সহজ এবং ব্যবহারবান্ধব, যা ডেটা ম্যানিপুলেশনকে সহজ করে তোলে।
  • ডেটা পরিষ্কারকরণ: পান্ডাস ডেটা থেকে অনুপস্থিত মান (missing values) এবং ভুল ডেটা (incorrect data) সনাক্ত এবং অপসারণ করতে সাহায্য করে। ডেটা পরিষ্কারকরণ একটি গুরুত্বপূর্ণ পদক্ষেপ।
  • ডেটা রূপান্তর: পান্ডাস ডেটাকে বিভিন্ন ফরম্যাটে রূপান্তর করতে পারে, যেমন CSV, Excel, SQL, ইত্যাদি। ডেটা রূপান্তর ডেটা বিশ্লেষণের জন্য অপরিহার্য।
  • ডেটা বিশ্লেষণ: পান্ডাস ডেটার ওপর বিভিন্ন পরিসংখ্যানিক বিশ্লেষণ (statistical analysis) করতে পারে, যেমন গড়, মধ্যমা, মোড, ইত্যাদি। পরিসংখ্যানিক বিশ্লেষণ এর মাধ্যমে ডেটা থেকে মূল্যবান তথ্য বের করা যায়।
  • দ্রুত কর্মক্ষমতা: পান্ডাস অভ্যন্তরীণভাবে NumPy ব্যবহার করে, যা দ্রুত গাণিতিক অপারেশন করতে সক্ষম। NumPy পান্ডাসের ভিত্তি হিসেবে কাজ করে।

পান্ডাস ইন্সটল এবং ইম্পোর্ট করা

পান্ডাস ইন্সটল করার জন্য, আপনি pip ব্যবহার করতে পারেন:

```bash pip install pandas ```

ইম্পোর্ট করার জন্য:

```python import pandas as pd ```

ডেটাফ্রেম তৈরি করা

ডেটাফ্রেম বিভিন্ন উৎস থেকে তৈরি করা যেতে পারে, যেমন:

  • ডিকশনারি (Dictionary):

```python data = {'নাম': ['আকাশ', 'বাতাস', 'নদী'],

       'বয়স': [25, 30, 28],
       'শহর': ['ঢাকা', 'চট্টগ্রাম', 'খুলনা']}

df = pd.DataFrame(data) print(df) ```

  • CSV ফাইল:

```python df = pd.read_csv('data.csv') print(df) ```

  • Excel ফাইল:

```python df = pd.read_excel('data.xlsx') print(df) ```

ডেটাফ্রেমের মৌলিক অপারেশন

  • ডেটা দেখা:
   *   `df.head()`: প্রথম কয়েকটি সারি দেখায়।
   *   `df.tail()`: শেষ কয়েকটি সারি দেখায়।
   *   `df.info()`: ডেটাফ্রেমের তথ্য দেখায়, যেমন কলামের নাম, ডেটা টাইপ, এবং অনুপস্থিত মানের সংখ্যা।
   *   `df.describe()`: সংখ্যাসূচক কলামগুলির পরিসংখ্যানিক সারসংক্ষেপ দেখায়।
  • ডেটা নির্বাচন:
   *   `df['নাম']`: 'নাম' কলামটি নির্বাচন করে।
   *   `df.loc[0]`: প্রথম সারি নির্বাচন করে।
   *   `df.iloc[0]`: প্রথম সারি নির্বাচন করে (সংখ্যাসূচক ইন্ডেক্স ব্যবহার করে)।
   *   `df.loc[0:2, ['নাম', 'বয়স']]`: প্রথম তিনটি সারির 'নাম' এবং 'বয়স' কলাম নির্বাচন করে।
  • ডেটা ফিল্টার করা:

```python df[df['বয়স'] > 25] ```

এই কোডটি ২৫ বছরের বেশি বয়সীদের সারিগুলো ফিল্টার করে দেখাবে।

  • নতুন কলাম যোগ করা:

```python df['নতুন_কলাম'] = [1, 2, 3] ```

  • কলাম বাদ দেওয়া:

```python df = df.drop('নতুন_কলাম', axis=1) ```

ডেটা পরিষ্কারকরণ

  • অনুপস্থিত মান (Missing Values) পরিচালনা:
   *   `df.isnull()`: অনুপস্থিত মানগুলি সনাক্ত করে।
   *   `df.fillna(0)`: অনুপস্থিত মানগুলি 0 দিয়ে পূরণ করে।
   *   `df.dropna()`: অনুপস্থিত মানযুক্ত সারিগুলি বাদ দেয়।
  • ডুপ্লিকেট ডেটা (Duplicate Data) পরিচালনা:
   *   `df.duplicated()`: ডুপ্লিকেট সারিগুলি সনাক্ত করে।
   *   `df.drop_duplicates()`: ডুপ্লিকেট সারিগুলি বাদ দেয়।

ডেটা রূপান্তর

  • ডেটা টাইপ পরিবর্তন:

```python df['বয়স'] = df['বয়স'].astype(int) ```

  • স্ট্রিং ম্যানিপুলেশন:

```python df['নাম'] = df['নাম'].str.upper() ```

  • তারিখ এবং সময় (Date and Time) ম্যানিপুলেশন:

```python df['তারিখ'] = pd.to_datetime(df['তারিখ']) ```

ডেটা বিশ্লেষণ

  • গ্রুপিং (Grouping):

```python df.groupby('শহর')['বয়স'].mean() ```

এই কোডটি শহরের ভিত্তিতে বয়সের গড় গণনা করে।

  • সর্টিং (Sorting):

```python df.sort_values(by='বয়স', ascending=False) ```

এই কোডটি বয়সের ভিত্তিতে ডেটাফ্রেমকে সাজায়।

  • এগ্রিগেশন (Aggregation):

```python df.agg({'বয়স': 'mean', 'শহর': 'count'}) ```

এই কোডটি বয়সের গড় এবং শহরের সংখ্যা গণনা করে।

পান্ডাসের সাথে সম্পর্কিত অন্যান্য গুরুত্বপূর্ণ বিষয়

পান্ডাস একটি শক্তিশালী এবং নমনীয় লাইব্রেরি, যা ডেটা বিশ্লেষণের কাজকে অনেক সহজ করে দেয়। এর বহুমুখী ব্যবহার এটিকে ডেটা বিজ্ঞানীদের জন্য একটি অপরিহার্য হাতিয়ার করে তুলেছে।

এখনই ট্রেডিং শুরু করুন

IQ Option-এ নিবন্ধন করুন (সর্বনিম্ন ডিপোজিট $10) Pocket Option-এ অ্যাকাউন্ট খুলুন (সর্বনিম্ন ডিপোজিট $5)

আমাদের সম্প্রদায়ে যোগ দিন

আমাদের টেলিগ্রাম চ্যানেলে যোগ দিন @strategybin এবং পান: ✓ দৈনিক ট্রেডিং সংকেত ✓ একচেটিয়া কৌশলগত বিশ্লেষণ ✓ বাজারের প্রবণতা সম্পর্কে বিজ্ঞপ্তি ✓ নতুনদের জন্য শিক্ষামূলক উপকরণ

Баннер