Tidyr
- Tidyr: डेटा को व्यवस्थित करने का शक्तिशाली उपकरण
Tidyr एक R पैकेज है जो डेटा को 'व्यवस्थित' (tidy) डेटा फॉर्मेट में बदलने में मदद करता है। यह डेटा विश्लेषण के लिए एक महत्वपूर्ण कदम है, क्योंकि व्यवस्थित डेटा को समझना, विश्लेषण करना और विज़ुअलाइज़ करना आसान होता है। इस लेख में, हम Tidyr की मूल अवधारणाओं और कार्यों को विस्तार से समझेंगे, ताकि आप अपने डेटा को प्रभावी ढंग से प्रबंधित कर सकें।
Tidyr क्या है?
Tidyr का नाम 'tidy data' के सिद्धांत पर आधारित है, जिसे हैडली विकहैम ने प्रस्तावित किया है। व्यवस्थित डेटा में तीन मुख्य विशेषताएं होती हैं:
1. प्रत्येक चर (variable) एक कॉलम का प्रतिनिधित्व करता है। 2. प्रत्येक अवलोकन (observation) एक पंक्ति का प्रतिनिधित्व करता है। 3. प्रत्येक मान (value) एक सेल का प्रतिनिधित्व करता है।
Tidyr इन सिद्धांतों को लागू करने के लिए कई शक्तिशाली उपकरण प्रदान करता है। यह डेटा को आकार बदलने, कॉलम को विभाजित करने, कॉलम को एक साथ जोड़ने और लापता मूल्यों को संभालने में मदद करता है।
Tidyr स्थापित करना
Tidyr को स्थापित करना बहुत आसान है। आप इसे R में `install.packages("tidyr")` कमांड का उपयोग करके स्थापित कर सकते हैं। स्थापना के बाद, आप लाइब्रेरी को लोड करने के लिए `library(tidyr)` का उपयोग कर सकते हैं।
Tidyr के मुख्य कार्य
Tidyr में कई महत्वपूर्ण कार्य हैं, जिनमें से कुछ प्रमुख निम्नलिखित हैं:
- pivot_longer() : यह फ़ंक्शन कई कॉलम को एक या अधिक 'की' कॉलम और 'वैल्यू' कॉलम में बदलता है। यह उन डेटासेट के लिए उपयोगी है जहां चर कॉलम के रूप में संग्रहीत होते हैं, जबकि आपको उन्हें पंक्ति के रूप में चाहिए।
- pivot_wider() : यह फ़ंक्शन `pivot_longer()` के विपरीत कार्य करता है। यह 'की' और 'वैल्यू' कॉलम को कई कॉलम में बदलता है।
- separate() : यह फ़ंक्शन एक कॉलम को कई कॉलम में विभाजित करता है, आमतौर पर एक विभाजक (separator) के आधार पर।
- unite() : यह फ़ंक्शन कई कॉलम को एक कॉलम में जोड़ता है।
- drop_na() : यह फ़ंक्शन उन पंक्तियों को हटा देता है जिनमें एक या अधिक लापता मान (NA) होते हैं।
- fill() : यह फ़ंक्शन लापता मानों को पिछली या अगली मान के साथ भरता है।
- complete() : यह फ़ंक्शन डेटासेट में लापता संयोजनों को जोड़ता है।
pivot_longer() का उपयोग
`pivot_longer()` फ़ंक्शन का उपयोग डेटा को व्यवस्थित करने के लिए सबसे अधिक किया जाता है। उदाहरण के लिए, मान लीजिए आपके पास एक डेटासेट है जिसमें प्रत्येक वर्ष के लिए बिक्री डेटा अलग-अलग कॉलम में संग्रहीत है:
वर्ष | 2021 | 2022 | 2023 |
उत्पाद A | 100 | 120 | 150 |
उत्पाद B | 80 | 90 | 110 |
इस डेटासेट को व्यवस्थित करने के लिए, आप `pivot_longer()` का उपयोग कर सकते हैं:
```R library(tidyr)
data <- data.frame(
वर्ष = c("उत्पाद A", "उत्पाद B"), 2021 = c(100, 80), 2022 = c(120, 90), 2023 = c(150, 110)
)
tidy_data <- data %>%
pivot_longer( cols = c(2021, 2022, 2023), names_to = "वर्ष", values_to = "बिक्री" )
print(tidy_data) ```
परिणामी डेटासेट इस प्रकार होगा:
वर्ष | बिक्री |
उत्पाद A | 100 |
उत्पाद A | 120 |
उत्पाद A | 150 |
उत्पाद B | 80 |
उत्पाद B | 90 |
उत्पाद B | 110 |
यहां, हमने `cols` तर्क का उपयोग उन कॉलम को निर्दिष्ट करने के लिए किया जिन्हें हम बदलना चाहते हैं। `names_to` तर्क नए कॉलम के नाम को निर्दिष्ट करता है जिसमें मूल कॉलम के नाम संग्रहीत होंगे, और `values_to` तर्क नए कॉलम के नाम को निर्दिष्ट करता है जिसमें मूल कॉलम के मान संग्रहीत होंगे।
pivot_wider() का उपयोग
`pivot_wider()` फ़ंक्शन `pivot_longer()` के विपरीत कार्य करता है। उदाहरण के लिए, मान लीजिए आपके पास निम्न डेटासेट है:
उत्पाद | वर्ष | बिक्री |
उत्पाद A | 2021 | 100 |
उत्पाद A | 2022 | 120 |
उत्पाद A | 2023 | 150 |
उत्पाद B | 2021 | 80 |
उत्पाद B | 2022 | 90 |
उत्पाद B | 2023 | 110 |
इस डेटासेट को वापस मूल प्रारूप में बदलने के लिए, आप `pivot_wider()` का उपयोग कर सकते हैं:
```R library(tidyr)
data <- data.frame(
उत्पाद = c("उत्पाद A", "उत्पाद A", "उत्पाद A", "उत्पाद B", "उत्पाद B", "उत्पाद B"), वर्ष = c(2021, 2022, 2023, 2021, 2022, 2023), बिक्री = c(100, 120, 150, 80, 90, 110)
)
tidy_data <- data %>%
pivot_wider( names_from = वर्ष, values_from = बिक्री )
print(tidy_data) ```
परिणामी डेटासेट इस प्रकार होगा:
उत्पाद | 2021 | 2022 | 2023 |
उत्पाद A | 100 | 120 | 150 |
उत्पाद B | 80 | 90 | 110 |
यहां, हमने `names_from` तर्क का उपयोग उस कॉलम को निर्दिष्ट करने के लिए किया जिसे हम नए कॉलम नाम के रूप में उपयोग करना चाहते हैं, और `values_from` तर्क उस कॉलम को निर्दिष्ट करता है जिसके मानों को नए कॉलम में संग्रहीत किया जाएगा।
separate() और unite() का उपयोग
`separate()` फ़ंक्शन एक कॉलम को कई कॉलम में विभाजित करता है। उदाहरण के लिए, मान लीजिए आपके पास एक कॉलम है जिसमें तारीख और समय दोनों शामिल हैं:
```R data <- data.frame(
तारीख_समय = c("2023-10-26 10:00:00", "2023-10-27 12:30:00")
)
tidy_data <- data %>%
separate( col = तारीख_समय, into = c("तारीख", "समय"), sep = " " )
print(tidy_data) ```
परिणामी डेटासेट इस प्रकार होगा:
तारीख | समय |
2023-10-26 | 10:00:00 |
2023-10-27 | 12:30:00 |
`unite()` फ़ंक्शन `separate()` के विपरीत कार्य करता है। यह कई कॉलम को एक कॉलम में जोड़ता है। उदाहरण के लिए:
```R data <- data.frame(
तारीख = c("2023-10-26", "2023-10-27"), समय = c("10:00:00", "12:30:00")
)
tidy_data <- data %>%
unite( col = तारीख_समय, c(तारीख, समय), sep = " " )
print(tidy_data) ```
परिणामी डेटासेट इस प्रकार होगा:
तारीख_समय |
2023-10-26 10:00:00 |
2023-10-27 12:30:00 |
लापता मूल्यों का प्रबंधन
Tidyr लापता मूल्यों को संभालने के लिए कई उपकरण प्रदान करता है।
- drop_na() : यह फ़ंक्शन उन पंक्तियों को हटा देता है जिनमें एक या अधिक लापता मान (NA) होते हैं।
```R data <- data.frame(
A = c(1, 2, NA, 4), B = c(5, NA, 7, 8)
)
tidy_data <- data %>%
drop_na()
print(tidy_data) ```
- fill() : यह फ़ंक्शन लापता मानों को पिछली या अगली मान के साथ भरता है।
```R data <- data.frame(
A = c(1, 2, NA, 4), B = c(5, NA, 7, 8)
)
tidy_data <- data %>%
fill(B, .direction = "down")
print(tidy_data) ```
- complete() : यह फ़ंक्शन डेटासेट में लापता संयोजनों को जोड़ता है।
```R data <- data.frame(
A = c(1, 2, 3), B = c("x", "y", NA)
)
tidy_data <- data %>%
complete(A, B)
print(tidy_data) ```
निष्कर्ष
Tidyr एक शक्तिशाली R पैकेज है जो डेटा को व्यवस्थित करने और प्रबंधित करने में मदद करता है। यह डेटा विश्लेषण के लिए एक महत्वपूर्ण उपकरण है, क्योंकि व्यवस्थित डेटा को समझना, विश्लेषण करना और विज़ुअलाइज़ करना आसान होता है। इस लेख में, हमने Tidyr की मूल अवधारणाओं और कार्यों को विस्तार से समझा है। अब आप अपने डेटा को प्रभावी ढंग से प्रबंधित करने के लिए Tidyr का उपयोग कर सकते हैं।
डेटा विश्लेषण आर (प्रोग्रामिंग भाषा) डेटा मैनिपुलेशन डेटा विज़ुअलाइज़ेशन सांख्यिकी हैडली विकहैम dplyr ggplot2 डेटा फ्रेम लापता मान डेटा सफाई डेटा रूपांतरण पिवट टेबल डेटा एग्रीगेशन टाइम सीरीज़ विश्लेषण बाइनरी ऑप्शन रणनीति तकनीकी विश्लेषण वॉल्यूम विश्लेषण जोखिम प्रबंधन पोर्टफोलियो विविधीकरण वित्तीय मॉडलिंग
अभी ट्रेडिंग शुरू करें
IQ Option पर रजिस्टर करें (न्यूनतम जमा $10) Pocket Option में खाता खोलें (न्यूनतम जमा $5)
हमारे समुदाय में शामिल हों
हमारे Telegram चैनल @strategybin से जुड़ें और प्राप्त करें: ✓ दैनिक ट्रेडिंग सिग्नल ✓ विशेष रणनीति विश्लेषण ✓ बाजार की प्रवृत्ति पर अलर्ट ✓ शुरुआती के लिए शिक्षण सामग्री