Pandas
पांडास : शुरुआती के लिए डेटा विश्लेषण का शक्तिशाली उपकरण
परिचय
पांडास (Pandas) पायथन (Python) प्रोग्रामिंग भाषा में डेटा विश्लेषण (Data analysis) के लिए एक अत्यंत महत्वपूर्ण और शक्तिशाली लाइब्रेरी है। यह डेटा को व्यवस्थित करने, साफ करने, विश्लेषण करने और समझने में मदद करता है। शुरुआती लोगों के लिए, पांडास डेटा विज्ञान (Data Science) और मशीन लर्निंग (Machine Learning) की दुनिया में प्रवेश करने का एक शानदार तरीका है। यह लेख आपको पांडास की मूल अवधारणाओं, डेटा संरचनाओं, और सामान्य कार्यों से परिचित कराएगा, जिससे आप डेटा विश्लेषण के लिए तैयार हो सकें। साथ ही, हम इस लाइब्रेरी के उपयोग को तकनीकी विश्लेषण और वॉल्यूम विश्लेषण जैसे क्षेत्रों से भी जोड़ेंगे, यह समझने के लिए कि यह वित्तीय बाजारों में कैसे उपयोगी हो सकता है।
पांडास की स्थापना
पांडास का उपयोग शुरू करने से पहले, आपको इसे अपने सिस्टम पर स्थापित करना होगा। यदि आपके पास पायथन और पिप (pip) पहले से स्थापित हैं, तो आप निम्नलिखित कमांड का उपयोग करके पांडास स्थापित कर सकते हैं:
```bash pip install pandas ```
स्थापना के बाद, आप अपने पायथन स्क्रिप्ट में पांडास को इम्पोर्ट (Import) कर सकते हैं:
```python import pandas as pd ```
यहां `pd` एक एलियास (Alias) है जिसका उपयोग पांडास को संदर्भित करने के लिए किया जाता है।
पांडास की डेटा संरचनाएं
पांडास दो मुख्य डेटा संरचनाओं पर आधारित है:
- सीरीज (Series): यह एक-आयामी लेबल वाला एरे (Array) है जो किसी भी डेटा प्रकार (जैसे पूर्णांक, फ्लोट, स्ट्रिंग, आदि) को धारण कर सकता है।
- डेटाफ्रेम (DataFrame): यह दो-आयामी लेबल वाला डेटा संरचना है जिसमें कॉलम (Column) विभिन्न डेटा प्रकारों के हो सकते हैं। यह डेटा को सारणीबद्ध रूप में संग्रहीत करने के लिए उपयोगी है, जैसे कि स्प्रेडशीट (Spreadsheet) या एसक्यूएल (SQL) टेबल।
सीरीज (Series)
सीरीज बनाने के लिए, आप एक लिस्ट (List), टपल (Tuple), या डिक्शनरी (Dictionary) का उपयोग कर सकते हैं। उदाहरण के लिए:
```python import pandas as pd
- लिस्ट से सीरीज बनाना
data = [10, 20, 30, 40, 50] series1 = pd.Series(data) print(series1)
- डिक्शनरी से सीरीज बनाना
data = {'a': 1, 'b': 2, 'c': 3} series2 = pd.Series(data) print(series2) ```
डेटाफ्रेम (DataFrame)
डेटाफ्रेम बनाने के लिए, आप डिक्शनरी की लिस्ट, लिस्ट की डिक्शनरी, या किसी अन्य डेटाफ्रेम से डेटा का उपयोग कर सकते हैं। उदाहरण के लिए:
```python import pandas as pd
- डिक्शनरी की लिस्ट से डेटाफ्रेम बनाना
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 28], 'City': ['New York', 'London', 'Paris']}
df = pd.DataFrame(data) print(df) ```
डेटाफ्रेम के साथ बुनियादी संचालन
एक बार जब आपके पास एक डेटाफ्रेम हो, तो आप विभिन्न प्रकार के संचालन कर सकते हैं, जैसे कि:
- डेटा देखना: `head()`, `tail()`, `info()` और `describe()` विधियों का उपयोग डेटाफ्रेम के पहले कुछ पंक्तियों, अंतिम कुछ पंक्तियों, डेटा प्रकारों और सांख्यिकीय सारांश को देखने के लिए किया जा सकता है।
- डेटा चयन: कॉलम (Column) या पंक्तियों (Rows) को उनके लेबल या इंडेक्स (Index) का उपयोग करके चुना जा सकता है।
- डेटा फ़िल्टरिंग: विशिष्ट मानदंडों के आधार पर पंक्तियों को फ़िल्टर किया जा सकता है।
- डेटा सॉर्टिंग: कॉलम (Column) के आधार पर पंक्तियों को सॉर्ट किया जा सकता है।
- डेटा जोड़ना और हटाना: नए कॉलम जोड़े जा सकते हैं या मौजूदा कॉलम हटाए जा सकते हैं।
डेटा देखना
```python import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 28], 'City': ['New York', 'London', 'Paris']}
df = pd.DataFrame(data)
- पहले दो पंक्तियां देखें
print(df.head(2))
- अंतिम दो पंक्तियां देखें
print(df.tail(2))
- डेटाफ्रेम की जानकारी
print(df.info())
- सांख्यिकीय सारांश
print(df.describe()) ```
डेटा चयन
```python import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 28], 'City': ['New York', 'London', 'Paris']}
df = pd.DataFrame(data)
- 'Name' कॉलम का चयन करें
print(df['Name'])
- इंडेक्स के आधार पर पंक्ति का चयन करें
print(df.loc[0])
- विशिष्ट पंक्तियों और कॉलम का चयन करें
print(df.loc[[0, 2], ['Name', 'City']]) ```
डेटा फ़िल्टरिंग
```python import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 28], 'City': ['New York', 'London', 'Paris']}
df = pd.DataFrame(data)
- 25 वर्ष से अधिक आयु के लोगों को फ़िल्टर करें
filtered_df = df[df['Age'] > 25] print(filtered_df) ```
डेटा सॉर्टिंग
```python import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 28], 'City': ['New York', 'London', 'Paris']}
df = pd.DataFrame(data)
- 'Age' कॉलम के आधार पर डेटाफ्रेम को सॉर्ट करें
sorted_df = df.sort_values(by='Age') print(sorted_df) ```
डेटा जोड़ना और हटाना
```python import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 28], 'City': ['New York', 'London', 'Paris']}
df = pd.DataFrame(data)
- नया कॉलम जोड़ें
df['Salary'] = [50000, 60000, 55000] print(df)
- 'City' कॉलम हटाएं
df = df.drop('City', axis=1) print(df) ```
डेटा साफ़ करना
डेटा विश्लेषण में डेटा को साफ करना एक महत्वपूर्ण कदम है। पांडास में, आप लापता मूल्यों (Missing values) को संभालने, डुप्लिकेट (Duplicate) पंक्तियों को हटाने और डेटा प्रकारों को बदलने के लिए विभिन्न विधियों का उपयोग कर सकते हैं।
लापता मूल्यों को संभालना
```python import pandas as pd import numpy as np
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, np.nan, 28, 30], 'City': ['New York', 'London', 'Paris', np.nan]}
df = pd.DataFrame(data)
- लापता मूल्यों की जांच करें
print(df.isnull().sum())
- लापता मूल्यों को हटा दें
df_dropped = df.dropna() print(df_dropped)
- लापता मूल्यों को प्रतिस्थापित करें
df_filled = df.fillna(0) print(df_filled) ```
डुप्लिकेट पंक्तियों को हटाना
```python import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Alice', 'Charlie'],
'Age': [25, 30, 25, 28], 'City': ['New York', 'London', 'New York', 'Paris']}
df = pd.DataFrame(data)
- डुप्लिकेट पंक्तियों की जांच करें
print(df.duplicated().sum())
- डुप्लिकेट पंक्तियों को हटा दें
df_dropped = df.drop_duplicates() print(df_dropped) ```
डेटा प्रकारों को बदलना
```python import pandas as pd
data = {'Age': ['25', '30', '28']} df = pd.DataFrame(data)
- डेटा प्रकार की जांच करें
print(df['Age'].dtype)
- डेटा प्रकार को पूर्णांक में बदलें
df['Age'] = df['Age'].astype(int) print(df['Age'].dtype) ```
डेटा को मर्ज (Merge) और जॉइन (Join) करना
पांडास आपको दो या अधिक डेटाफ्रेम को मर्ज और जॉइन करने की अनुमति देता है। यह अक्सर तब उपयोगी होता है जब आपके पास अलग-अलग डेटा स्रोतों से डेटा होता है जिसे आप एक साथ विश्लेषण करना चाहते हैं।
डेटा को मर्ज करना
```python import pandas as pd
- पहला डेटाफ्रेम
data1 = {'ID': [1, 2, 3],
'Name': ['Alice', 'Bob', 'Charlie']}
df1 = pd.DataFrame(data1)
- दूसरा डेटाफ्रेम
data2 = {'ID': [1, 2, 4],
'Salary': [50000, 60000, 70000]}
df2 = pd.DataFrame(data2)
- डेटाफ्रेम को 'ID' कॉलम के आधार पर मर्ज करें
merged_df = pd.merge(df1, df2, on='ID') print(merged_df) ```
डेटा को जॉइन करना
```python import pandas as pd
- पहला डेटाफ्रेम
data1 = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 28]}
df1 = pd.DataFrame(data1, index=[1, 2, 3])
- दूसरा डेटाफ्रेम
data2 = {'Salary': [50000, 60000, 70000],
'City': ['New York', 'London', 'Paris']}
df2 = pd.DataFrame(data2, index=[1, 2, 4])
- डेटाफ्रेम को इंडेक्स के आधार पर जॉइन करें
joined_df = df1.join(df2) print(joined_df) ```
पांडास और वित्तीय बाजार
पांडास वित्तीय बाजारों में डेटा विश्लेषण के लिए एक शक्तिशाली उपकरण है। इसका उपयोग स्टॉक (Stock) की कीमतों, ट्रेडिंग वॉल्यूम, और अन्य वित्तीय डेटा को संसाधित करने और विश्लेषण करने के लिए किया जा सकता है।
- स्टॉक मूल्य डेटा का विश्लेषण: पांडास का उपयोग ऐतिहासिक स्टॉक मूल्य डेटा को आयात करने, साफ करने और विश्लेषण करने के लिए किया जा सकता है।
- ट्रेडिंग वॉल्यूम का विश्लेषण: पांडास का उपयोग ट्रेडिंग वॉल्यूम डेटा को आयात करने, साफ करने और विश्लेषण करने के लिए किया जा सकता है।
- पोर्टफोलियो विश्लेषण: पांडास का उपयोग पोर्टफोलियो (Portfolio) के प्रदर्शन का विश्लेषण करने के लिए किया जा सकता है।
- जोखिम प्रबंधन: पांडास का उपयोग वित्तीय जोखिम (Financial risk) का आकलन और प्रबंधन करने के लिए किया जा सकता है।
निष्कर्ष
पांडास डेटा विश्लेषण के लिए एक अनिवार्य उपकरण है। यह शुरुआती लोगों के लिए डेटा विज्ञान और मशीन लर्निंग की दुनिया में प्रवेश करने का एक शानदार तरीका है। इस लेख में, हमने पांडास की मूल अवधारणाओं, डेटा संरचनाओं, और सामान्य कार्यों को कवर किया है। पांडास की शक्ति और लचीलेपन के साथ, आप डेटा से मूल्यवान अंतर्दृष्टि प्राप्त कर सकते हैं और सूचित निर्णय ले सकते हैं। टाइम सीरीज़ विश्लेषण और रिग्रेशन विश्लेषण जैसे अधिक उन्नत तकनीकों का उपयोग करने के लिए पांडास एक मजबूत आधार प्रदान करता है। इंडेक्सिंग और स्लाइसिंग की अवधारणाओं को समझना पांडास में डेटा के साथ काम करते समय महत्वपूर्ण है। डेटा विज़ुअलाइज़ेशन के लिए पांडास को मैटप्लोटलिब और सीबोर्न जैसी लाइब्रेरी के साथ जोड़ा जा सकता है। फॉर लूप और फंक्शन का उपयोग पांडास में डेटा को स्वचालित रूप से संसाधित करने के लिए किया जा सकता है। डेटाबेस कनेक्शन के लिए पांडास का उपयोग एसक्यूएल डेटाबेस से डेटा आयात करने और निर्यात करने के लिए किया जा सकता है। वेब स्क्रैपिंग से प्राप्त डेटा को भी पांडास डेटाफ्रेम में आसानी से लोड किया जा सकता है। एक्सेल फाइलें और CSV फाइलें पांडास के साथ काम करने के लिए सामान्य डेटा स्रोत हैं। JSON डेटा को भी पांडास में आसानी से पार्स (Parse) किया जा सकता है। डेटा रूपांतरण और फीचर इंजीनियरिंग पांडास में डेटा को तैयार करने के लिए महत्वपूर्ण कदम हैं। सांख्यिकीय विश्लेषण के लिए पांडास के साथ स्किपी और साइंटिफिक पायथन जैसी लाइब्रेरी का उपयोग किया जा सकता है।
अभी ट्रेडिंग शुरू करें
IQ Option पर रजिस्टर करें (न्यूनतम जमा $10) Pocket Option में खाता खोलें (न्यूनतम जमा $5)
हमारे समुदाय में शामिल हों
हमारे Telegram चैनल @strategybin से जुड़ें और प्राप्त करें: ✓ दैनिक ट्रेडिंग सिग्नल ✓ विशेष रणनीति विश्लेषण ✓ बाजार की प्रवृत्ति पर अलर्ट ✓ शुरुआती के लिए शिक्षण सामग्री