Datasets in Spark

1. مجموعات البيانات في سبارك

مقدمة

سبارك (Spark) هو محرك معالجة بيانات موزع سريع، يستخدم على نطاق واسع في تحليل البيانات الضخمة. جوهر عمل سبارك يرتكز على مفهوم مجموعات البيانات (Datasets). هذا المقال موجه للمبتدئين ويهدف إلى شرح مفهوم مجموعات البيانات في سبارك بتفصيل، مع التركيز على كيفية استخدامها وخصائصها المختلفة. سنغطي أيضًا العلاقة بين مجموعات البيانات وأنواع هياكل البيانات الأخرى في سبارك، مثل RDDs (Resilient Distributed Datasets) و DataFrames و SQL tables، وكيفية اختيار الأنسب منها لحالة الاستخدام الخاصة بك.

ما هي مجموعات البيانات في سبارك؟

مجموعة البيانات (Dataset) في سبارك هي مجموعة موزعة من البيانات. بعبارة أخرى، هي عبارة عن مجموعة من البيانات مقسمة إلى أجزاء أصغر، موزعة على عدة عقد (nodes) في مجموعة سبارك. تتيح هذه التوزيع إمكانية معالجة البيانات بشكل متوازٍ، مما يؤدي إلى تسريع كبير في الأداء مقارنة بمعالجة البيانات على جهاز واحد.

مجموعات البيانات في سبارك تتميز بالآتي:

النوع الآمن (Type Safety): تُعرف مجموعات البيانات بنوع البيانات التي تحتوي عليها (مثل سلسلة نصية، عدد صحيح، إلخ). هذا يساعد في اكتشاف الأخطاء في وقت مبكر أثناء التطوير.
التحسين التلقائي (Automatic Optimization): يمكن لسبارك تحسين تنفيذ العمليات على مجموعات البيانات تلقائيًا، مما يزيد من الكفاءة.
التوافق مع JVM (JVM Compatibility): مجموعات البيانات متوافقة مع آلة Java الافتراضية (JVM)، مما يتيح استخدام لغات برمجة مختلفة مثل Java و Scala و Python و R للتعامل معها.
الدعم للترميز (Serialization): تستخدم مجموعات البيانات آليات الترميز (encoding) لتمثيل البيانات بشكل فعال، مما يقلل من حجم البيانات المخزنة والمُرسلة عبر الشبكة.

أنواع مجموعات البيانات

في سبارك، هناك أنواع مختلفة من مجموعات البيانات، ولكل منها خصائصه واستخداماته:

Datasets of primitive types: مجموعات بيانات تحتوي على أنواع بيانات أولية مثل int, double, boolean.
Datasets of complex types: مجموعات بيانات تحتوي على أنواع بيانات معقدة مثل classes, structs, arrays, maps.
Datasets of generic types: مجموعات بيانات تستخدم الأنواع العامة (generic types) لتمثيل البيانات.

الفرق بين Datasets, RDDs, و DataFrames

العديد من المطورين الجدد يجدون صعوبة في فهم الفرق بين هذه الهياكل الثلاثة. إليك توضيح:

| الهيكل | الوصف | النوع الآمن | التحسين التلقائي | |---|---|---|---| | RDDs | أقدم هيكل بيانات في سبارك. يمثل مجموعة موزعة من البيانات غير المهيكلة. | لا | لا | | DataFrames | مجموعة من البيانات المنظمة في شكل جداول، تشبه جداول قواعد البيانات. | جزئيًا | نعم | | Datasets | مجموعة من البيانات المنظمة بنوع بيانات محدد، مع دعم كامل للنوع الآمن والتحسين التلقائي. | نعم | نعم |

بشكل عام، تعتبر DataFrames و Datasets أكثر كفاءة ومرونة من RDDs، خاصةً عند التعامل مع البيانات المنظمة. Datasets هي الخيار الأفضل عندما تحتاج إلى النوع الآمن والتحسين التلقائي، بينما DataFrames مناسبة عندما لا تحتاج إلى النوع الآمن بشكل صارم. RDDs لا تزال تستخدم في بعض الحالات الخاصة، ولكنها أصبحت أقل شيوعًا مع تطور سبارك.

إنشاء مجموعات البيانات

هناك عدة طرق لإنشاء مجموعات البيانات في سبارك:

من مجموعة RDD: يمكنك تحويل RDD موجود إلى Dataset باستخدام الدالة `toDS()`.
من ملفات البيانات: يمكنك قراءة البيانات من ملفات مختلفة (مثل CSV و JSON و Parquet و ORC) وإنشاء Dataset مباشرةً.
من مصادر البيانات الأخرى: يمكنك قراءة البيانات من مصادر أخرى مثل قواعد البيانات (MySQL و PostgreSQL و MongoDB) و Kafka وإنشاء Dataset.

العمليات على مجموعات البيانات

سبارك يوفر مجموعة واسعة من العمليات التي يمكنك تطبيقها على مجموعات البيانات، بما في ذلك:

Transformations: عمليات تحويل البيانات مثل `map()`, `filter()`, `groupBy()`, `join()`.
Actions: عمليات إرجاع النتائج مثل `count()`, `collect()`, `reduce()`.
SQL Queries: يمكنك استخدام SQL للاستعلام عن مجموعات البيانات مباشرةً.

أمثلة عملية

لنأخذ مثالاً بسيطًا على كيفية إنشاء Dataset من ملف CSV ومعالجته:

Scala:

```scala import org.apache.spark.sql.SparkSession

object DatasetExample {

 def main(args: Array[String]): Unit = {
   val spark = SparkSession.builder()
     .appName("Dataset Example")
     .master("local[*]")
     .getOrCreate()

   // قراءة البيانات من ملف CSV
   val dataset = spark.read
     .option("header", "true")
     .option("inferSchema", "true")
     .csv("path/to/your/file.csv")

   // عرض مخطط البيانات
   dataset.printSchema()

   // تصفية البيانات
   val filteredDataset = dataset.filter($"age" > 25)

   // عرض البيانات المصفاة
   filteredDataset.show()

   spark.stop()
 }

} ```

Python:

```python from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("Dataset Example").master("local[*]").getOrCreate()

قراءة البيانات من ملف CSV

dataset = spark.read.option("header", "true").option("inferSchema", "true").csv("path/to/your/file.csv")

عرض مخطط البيانات

dataset.printSchema()

تصفية البيانات

filtered_dataset = dataset.filter(dataset.age > 25)

عرض البيانات المصفاة

filtered_dataset.show()

spark.stop() ```

اعتبارات الأداء

عند العمل مع مجموعات البيانات في سبارك، من المهم مراعاة بعض اعتبارات الأداء:

تقسيم البيانات (Data Partitioning): تأكد من أن البيانات مقسمة بشكل صحيح لتوزيع الحمل بالتساوي على جميع العقد في المجموعة.
التخزين المؤقت (Caching): استخدم التخزين المؤقت لتخزين مجموعات البيانات المستخدمة بشكل متكرر في الذاكرة، مما يقلل من وقت الوصول إليها.
تجنب العمليات المكلفة: تجنب العمليات المكلفة مثل `groupBy()` و `join()` إذا لم تكن ضرورية.
استخدام تنسيقات البيانات الفعالة: استخدم تنسيقات البيانات الفعالة مثل Parquet و ORC لتخزين البيانات.

روابط ذات صلة

استراتيجيات التحليل الفني وحجم التداول

ابدأ التداول الآن

سجل في IQ Option (الحد الأدنى للإيداع $10) افتح حساباً في Pocket Option (الحد الأدنى للإيداع $5)

انضم إلى مجتمعنا

اشترك في قناة Telegram الخاصة بنا @strategybin للحصول على: ✓ إشارات تداول يومية ✓ تحليلات استراتيجية حصرية ✓ تنبيهات باتجاهات السوق ✓ مواد تعليمية للمبتدئين