تفاضل البيانات
في علوم الحاسب و نظرية المعلومات، ينتج اختلاف البيانات أو الضغط التفاضلي وصفًا تقنيًا للفرق بين مجموعتين من البيانات - كمصدر و هدف. بشكل عام، تأخذ الخوارزمية بيانات، كبياناتٍ من مصدر و بيانات هدف، وتنتج الاختلاف بينهم. وبذلك يمكن للمرء إعادة بناء البيانات المستهدفة («تصحيح» المصدر باستعمال الاختلاف لإنتاج الهدف). أهمية تفاضل البيانات 1. تحليل التغييرات: يساعد في معرفة ما تغير بين إصدارين من البيانات.[1] 2. تصحيح الأخطاء: يُستخدم لتحديد التعديلات الخاطئة. 3. دمج البيانات: مقارنة البيانات المحدثة مع الأصلية لتحديثها أو دمجها. 4. التدقيق والمراجعة: معرفة الفرق بين البيانات المدخلة والمخرجة.
أمثلة
أحد أفضل الأمثلة المعروفة لتمييز البيانات هو الأداة المساعدة diff، والتي تنتج اختلافات سطحية للملفات النصية (وفي بعض التطبيقات، ملفات ثنائية، وبالتالي فهي أداة تمييز عامة). تباين الملفات الثنائية العامة يندرج تحت عنوان ترميز دلتا، و أشهر مثال اللذي يستخدم على نطاق واسع هي الخوارزمية المستخدمة في rsync. كمثال جيد على برنامج تفاضل ذو كفاءة العالية هو bsdiff، والذي يعتمد على ضغط bzip2، مما يوضح العلاقة الوثيقة بين التمييز والضغط. أمثلة عملية لتفاضل البيانات مقارنة ملفات نصية لديك ملفين يحتويان على بيانات موظفين. تريد معرفة الفرق بينهما. file1.csv:
ID,Name,Salary
1,Ali,5000
2,Sara,6000
3,Omar,7000
file2.csv:
ID,Name,Salary
1,Ali,5500
2,Sara,6000
4,Lina,8000
الأداة:
استخدام `diff` أو أدوات تحليل البيانات مثل Python. باستخدام Python:
import pandas as pd
# قراءة الملفات
df1 = pd.read_csv("file1.csv")
df2 = pd.read_csv("file2.csv")
# مقارنة البيانات
diff = pd.concat([df1, df2]).drop_duplicates(keep=False)
print(diff)
الناتج:
ID Name Salary
0 1 Ali 5000
0 1 Ali 5500
2 3 Omar 7000
2 4 Lina 8000
مراجع
- ↑ "فهم تفاضل البيانات مع الشرح". اطلع عليه بتاريخ 2025-01-06.
{{استشهاد ويب}}
: تحقق من التاريخ في:|تاريخ-الوصول=
(مساعدة)