الأربعاء، 17 يناير 2018

البيانات الضخمة Big Data

######################
البيانات الضخمة Big Data:
######################

قبل أن نتطرق لتعريف البيانات الضخمة، علينا أولاً أن نعرف ما هي البيانات، وما اختلافها عن المعلومات.

البيانات هي الشكل الخام لأي محتوى ننتجه، مثلاً لو كان لديك عشرة أشخاص وقمت بقياس أطوالهم وسجلتها على ورقة، هذه الورقة تحوي بيانات.

المعلومات هي مخرجات أية عملية معالجة للبيانات الخام، بمعنى لو أخذت أطول هؤلاء الأشخاص العشرة وقمت بالحصول على متوسط حسابي لها، هذا المتوسط هو معلومة، لأنه يعطي مقياس مفيد. بينما البيانات مجرد أرقام مسجلة على ورقة.

عرف معهد ماكنزي العالمي سنة 2011 البيانات الضخمة أنها أي مجموعة من البيانات التي هي بحجم يفوق قدرة أدوات قواعد البيانات التقليدية من إلتقاط، تخزين، إدارة وتحليل لتلك البيانات.

وتتألف البيانات الضخمة من كل من المعلومات المنظمة والتي تشكل جزء ضئيل يصل إلى 10% مقارنة بالمعلومات غير المنظمة والتي تشكل الباقي.

والمعلومات غير المنظمة هي ما ينتجه البشر، كرسائل البريد الإلكتروني، مقاطع الفيديو، التغريدات، منشورات فيس بوك، رسائل الدردشة على الواتساب، النقرات على المواقع وغيرها.

البيانات الضخمة Big data أصبحت واقع نعيشه، حتى أن قاموس أوكسفورد اعتمد المصطلح وأضافه للقاموس مع مصطلحات مستحدثة أخرى مثل التغريدة tweet.

######################
كم يعني ضخمة؟!!
######################

ما هو ضخم اليوم، لن يكون كذلك غداً. وما هو ضخم بالنسبة لك، يعد صغيراً جداً لغيرك. وهنا يبرز التحدي لتعريف معنى الضخم.

ومنذ العام الماضي كانت الحدود المفروضة على حجم مجموعات البيانات الملائمة للمعالجة في مدة معقولة من الوقت خاضعة لوحدة قياس البيانات إكسابايت.

تقدر أبحاث شركة إنتل أن حجم البيانات التي ولدها البشر منذ بداية التاريخ وحتى عام 2003 ما قدره 5 إكسابايت، لكن هذا الرقم تضاعف 500 مرة خلال عام 2012 ليصل إلى 2.7 زيتابايت، ويتضاعف هذا الرقم أيضاً ثلاث مرات حتى عام 2015.

مثال: طائرة ايرباص A380 تنتح مليار سطر من الشيفرات البرمجية كل نصف ساعة، أو لنقل 10 تيرابايت من البيانات، هذه البيانات تولدها المحركات والحساسات في الطائرة عن كل التفاصيل الدقيقة المصاحبة لرحلتها، ونذكر هذه مجرد نصف ساعة في رحلة واحدة فقط من طائرة واحدة فقط.

وبالمثل فلو سافرت بالطائرة في رحلة من مطار هيثرو إلى مطار كيندي، فإن الرحلة سينتج عنها 640 تيرابايت من البيانات. فتخيل كم رحلة تقطعها الطائرات يومياً، ومنه ستتخيل طبيعة حجم البيانات الضخمة. وبهذه المقاييس فإن كل ما كنا نعرفه على أنه بيانات ضخمة، يصبح قزماً.

ويقوم كل فرد منا بإطلاق 2.2 مليون تيرا بايت من البيانات يومياً، و هناك 12 تيرابايت من التغريدات يومياً مع 25 تيرابايت من سجلات الدخول على فيس بوك يومياً وعلى تويتر أكثر من 200 مليون مستخدم نشط يكتبون أكثر من 230 مليون تغريدة يوميا.

حجم البيانات كان في 2009 حوالي 1 زيتابايت (تريليون غيغابايت) وفي 2011 ارتفع إلى 1.8 زيتابايت.

تقول IBM إننا ننتج 2.5 كوينتيليون بايت من البيانات كل يوم (الكوينتيليون هو الرقم واحد متبوعاً بـ18 صفراً). هذه البيانات تنبع من كل مكان، مثل المعلومات حول المناخ والتعليقات المنشورة على مواقع التواصل الاجتماعي والصور الرقمية والفيديوهات ومعاملات البيع والشراء... إلخ.

تعد البيانات الضخمة الجيل القادم من الحوسبة والتي تعمل على خلق القيمة من خلال مسح وتحليل البيانات. ومع مرور الزمن أصبحت البيانات التي ينتجها المستخدمين تنمو بشكل متسارع لعدة أسباب، منها بيانات المشتريات في محلات السوبر ماركت والأسواق التجارية وفواتير الشحن والمصارف والصحة والشبكات الإجتماعية.

ومع تطوير تقنيات التعرف على الوجه والأشخاص، فإنها ستتمكن من العثور على المزيد من التفاصيل والمعلومات عن أي شخص، ومع تزايد عدد الأجهزة المتصلة بالإنترنت، الأجهزة التي لم نعتد عليها أن تتصل بالشبكة العالمية مثل السيارات والبرادات والغسالات فإنها كلها تساهم في زيادة حجم البيانات المنتجة.

######################
خصائص البيانات الضخمة:
######################

وحتى تكون البيانات ضخمة يجب توفر ثلاثة عوامل رئيسية:

1- الحجم: وهو عدد التيراباتيت من البيانات التي نطلقها يومياً من المحتوى.
2- التنوع: وهو تنوع هذه البيانات ما بين مهيكلة وغير مهيكلة ونصف مهيكلة.
3- السرعة: مدى سرعة تواتر حدوث البيانات، مثلاً تختلف سرعة نشر التغريدات عن سرعة مسح أجهزة الاستشعار عن بعد لتغييرات المناخ.

لكن ما هي خصائص البيانات الضخمة؟!!

يتم تمييز البيانات الضخمة من خلال الحجم، التنوع، والسرعة. ومن خلال دراسة الحجم الكبير للبيانات يمكن للشركات أن تفهم زبائنها بشكل أفضل، تخيل مثلاً البحث في بيانات مشتريات مليون شخص يتعامل مع متجر وول مارت، هذا البحث والتحليل في الكم الهائل من فواتير المشتريات وتكرار المشتريات وتنوعها، سيعطي معلومات مفيدة جداً للإدارة ومتخذي القرار.

وتبرز التحديات أمام أدوات إدارة قواعد البيانات التقليدية في التعامل مع البيانات المتنوعة والسريعة، حيث كانت قواعد البيانات التقليدية تتعامل مع المستندات النصية والأرقام فقط، أما البيانات الضخمة اليوم تحوي أنواع جديدة من البيانات التي لا يمكن تجاهلها، كالصور والمقاطع الصوتية والفيديو والنماذج ثلاثية الأبعاد وبيانات المواقع الجغرافية وغيرها.

ومع تزايد حجم وتنوع البيانات التي تتعامل معها الشركات اليوم وجدت نفسها أمام طريقين، إما تجاهل هذه البيانات، أو البدء بالتكيف معها تدريجياً لفهمها والإستفادة منها. لكن مع استخدام الأدوات التقليدية المتبعة سابقاً لا يمكنك التحليل والاستفادة من هذه البيانات الجديدة الضخمة.

وعلى سبيل المثال فإن غالبية المتاجر الضخمة والأسواق التجارية التي تتعامل مع بطاقات الولاء، لا تستفيد من هذه البيانات وتعالجها بطريقة تساعدها على فهم المشترين بشكل أفضل لتطوير نموذج بطاقات الولاء.

وأيضاً كل مقاطع الفيديو التي تسجلها الأجهزة الطبية خلال العمليات الجراحية، لا يتم الاستفادة منها بالشكل المطلوب، بل ويتم حذفها خلال أسابيع.

واليوم تعد Hadoop من أفضل تقنيات التعامل مع البيانات الضخمة، وهي مكتبة مفتوحة المصدر مناسبة للتعامل مع البيانات الضخمة المتنوعة والسريعة، وتستخدم شركات كبرى خدمة Hadoop. مثلاً هناك لينكدإن الشبكة الإجتماعية المتخصصة بالوظائف والعمل تستخدم الخدمة من أجل توليد أكثر من 100 مليار مقترح على المستخدمين أسبوعياً.

######################
ما الفائدة من البيانات الضخمة؟!!
######################

تقول IBM أن البيانات الضخمة تعطيك فرصة إكتشاف رؤى مهمة في البيانات، وتقول أوراكل أن البيانات الضخمة تتيح للشركات أن تفهم بعمق أكثر زبائنها.

قدرت شركة سيسكو أنه وبحلول عام 2015 فإن حركة الزيارات على الإنترنت بالشكل الإجمالي ستتجاوز 4.8 زيتابايت (أي 4.8 مليار تيرا بايت) سنوياً.

######################
لماذا يجب أن نهتم بالبيانات الضخمة؟!!
######################

السبب الأهم لزيادة حجم البيانات، لأنها تستمر بالتولد بشكل أكبر بكثير من السابق من خلال عدة أجهزة ومصادر، والأهم أن معظم تلك البيانات ليست مهيكلة، كتغريدات تويتر والفيديوهات على يوتيوب وتحديثات الحالة على فيس بوك وغيرها، ما يعني أنه لا يمكن استخدام أدوات إدارة قواعد البيانات وتحليلها التقليدية مع هذه البيانات لأنها ببساطة ليست وفق الهيكل الذي تتعامل معه كجداول.

######################
لكن هل تستحق البيانات الضخمة عناء الإهتمام بها؟!! لما لا نتجاهلها وحسب؟!!
######################

تشير الدراسات من غارتنر أن هناك حوالي 15% فقط من الشركات التي تستفيد بشكل جيد من البيانات الضخمة، وهذه الشركات حققت فعالية 20% أكثر في المؤشرات المالية.

لكن حتى تصل لهذه النتيجة التي لا يحققها منافسيك، عليك إستخدام تقنيات ومفاهيم جديدة إبداعية مخصصة للتعامل مع البيانات الضخمة. لأن الأمر أشبه بجبل شاهق من البيانات ستقوم بغربلته لتحصل على صخرة ذهبية وزنها كيلوغرام واحد.

تخيل أن هناك شركة نقل وشحن وتقوم بالتنقيب في بيانات مواعيد شاحنات نقل البضائع بحيث تحصل على البيانات في الزمن الفعلي لمواعيد إطلاق ووصول الشاحنات وفق عدة مواقع جغرافية أو مدن أو حتى دول. والآن تخيل لو أن أحد الزبائن اتصل بالشركة وأخبرهم أن لديه شحنة، أي شاحنة سترسل إليه من الأسطول المكون من مئات الشاحنات التي تدير الأعمال في المدينة!! المنطق يكون أن ترسل أقرب شاحنة وذلك وفق تتبعها عبر GPS، لكن ماذا لو كان الطريق أمام أقرب شاحنة مزدحماً جداً، أو لو كانت أقرب شاحنة ممتلئة بالكامل ولا مجال لإضافة شحنة أخرى، في هذه الحالة لن يكون الإختيار الأقرب هو الأنسب لذا علينا إجراء تحليل على كل الشاحنات المتاحة وفق عدة معايير، وهذه المعايير نطبقها على البيانات التي تصدرها تلك الشاحنات، مثل بيانات حركتها وموقعها الحالي عبر GPS، ازدحام الطريق، وزن وحجم ونوع الحمولة، الوجهة التالية، وغيرها. وهذا التحليل تقوم به أدوات متخصصة تصدرها شركات كبرى مثل إنتل و IBM وغيرها، تعمل على تحليل البيانات الضخمة في الزمن الحقيقي.

######################
أمثلة عملية:
######################

- مصادم الهيدرون العظيم يملك 150 مليون جهاز استشعار تقدم بيانات 40 مليون مرة في الثانية الواحدة. وهناك ما يقرب من 600 مليون تصادم في الثانية الواحدة. لكن نتعامل فقط مع أقل من 0.001% من بيانات تيار الاستشعار، فإن تدفق البيانات من جميع تجارب المصادم الأربعة يمثل 25 بيتابايت.

- موقع Amazon.com يعالج ملايين العمليات الخلفية كل يوم، فضلاً عن استفسارات من أكثر من نصف مليون بائع طرف ثالث. وتعتمد أمازون على نظام اللينوكس بشكل أساسي ليتمكن من التعامل مع هذا الكم الهائل من البيانات، وتملك أمازون أكبر 3 قواعد بيانات لينوكس في العالم والتي تصل سعتها إلى 7.8، 18.5 و 24.7 تيرابايت.

- سلسلة المتاجر Walmart تعالج أكثر من مليون معاملة تجارية كل ساعة، والتي يتم استيرادها إلى قواعد بيانات يُقدر أنها تحتوي على أكثر من 2.5 بيتابايت (2560 تيرابايت) من البيانات، وهو ما يوازي 167 ضعف البيانات الواردة في جميع الكتب الموجودة في مكتبة الكونغرس في الولايات المتحدة.

- يعالج فيس بوك 50 مليار صورة من قاعدة مستخدميه. ويقوم نظام حماية بطاقات الائتمان من الاحتيال "FICO Falcon Credit Card Fraud Detection System" بحماية 2.1 مليار حساب نشط في جميع أنحاء العالم.

- تقوم شركة Windermere Real Estate باستخدام إشارات GPS مجهولة من ما يقرب من 100 مليون سائق لمساعدة مشتري المنازل الجدد لتحديد أوقات قيادتهم من وإلى العمل خلال الأوقات المختلفة لليوم.

######################
ما الذي يجعل هادوب Hadoop أمراً هاماً جداً في عالم البيانات؟!!
######################

هادوب هي طفل عالم البيانات الضخمة Big Data المدلل. مدلل لدرجة أن منصة البيانات المفتوحة المصدر هذه أصبحت عملياً مصطلحاً مرادفاً للمصطلح الشائع لتخزين وتحليل كميات كبيرة من المعلومات.

هادوب ليست اللاعب الوحيد في هذا العالم، لكن كان لهذا التطبيق البرمجي تأثيراً ملحوظاً في عالم البيانات.

ما الذي يجعله مهماً لهذه الدرجة؟!!

قد تكون الأسباب الكامنة وراء نجاح شيء ما أمامك مباشرة أحياناً. لكن وبالنسبة لهادوب ونجاحه، كان المحفز الأكبر في السوق بسيط. قبل هادوب، تخزين البيانات كان باهظ الثمن.

يسمح لك هادوب بأن تخزن القدر الذي ترغبه من المعلومات بأي صيغة تريد عن طريق إضافة مزيد من المخدمات إلى كتلة هادوب Hadoop Cluster ببساطة. يضيف كل مخدم جديد (الذي يمكن أن يكون عبارة عن أجهزة  x86 بأسعار رخيصة نسبياً) تخزيناً أكثر وقدرة معالجة أكبر لكتلة هادوب ككل. يجعل هذا تخزين البيانات بواسطة هادوب أرخص بكثير من الطرق السابقة لتخزين البيانات.

وهذا.. ماخلق الحاجة لوجود هادوب.

لا نتكلم هنا عن تخزين البيانات من ناحية أرشفة، فذاك مجرد وضع البيانات على شريط.

تحتاج الشركات لأن تخزن بشكل متزايد كميات أكبر من البيانات وأن تمتلك القدرة على الرجوع إليها لأهداف عديدة. ذاك النوع من تخزين البيانات كان مكلفاً قبل هادوب.

######################
ما هي البيانات التي نحتاج لتخزينها؟!!
######################

تحاول المؤسسات والشركات الصغيرة تعقب عدد كبير من مجموعات البيانات: رسائل البريد الإلكتروني ونتائج البحث وبيانات المبيعات وبيانات الزبائن إضافة إلى أمور حتى مثل التفضيلات في المواقع. يأتي كل هذا بصورة أسرع من أي وقت مضى، ومحاولة إدارته في نظام إدارة قواعد بيانات RDBMS هو عملية مكلفة للغاية.

تاريخياً، كانت الشركات التي تحاول أن تتدبر التكاليف تأخذ عينة من تلك البيانات لتحولها إلى مجموعة أصغر. ستحمل هذه العينة الصغيرة من البيانات تلقائياً افتراضات معينة، أولها أن بعض البيانات أهم من غيرها. مثال هذا، حالة شركة تعتمد على بيانات المعاملات التجارية عن طريق الإنترنت، سترتب هذه الشركة أولوية بياناتها على افتراض منطقي بأن بيانات بطاقات الائتمان أهم من بيانات المنتج، والتي بدورها أهم من بيانات التفضيلات في المواقع.

لكن يمكن لهذا أن يتغير..

الأمر جيد إن كان عملك قائماً على مجموعة واحدة من الافتراضات. لكن ماذا سيحدث إن تغيرت؟!!
ستضطر أي سيناريوهات جديدة للعمل لاستخدام عينات البيانات التي ما تزال في التخزين، البيانات المستعادة على أساس الافتراضات الأصلية. ستكون البيانات الخام قد انتهت من فترة طويلة، حيث من المكلف جداً إبقاؤها. وهذا السبب لأخذ عينات منها في المقام الأول.

قاد التخزين القائم على نظام إدارة قواعد بيانات منطقية إلى تخزين البيانات في مستوعبات محدودة. المبيعات، التسويق، المحاسبة، كل منها له بياناته الخاصة. وأسوأ من ذلك، كل قسم سيكون قد أخذ عينات من بياناته بناء على افتراضاته الخاصة. وهذا ما يجعل من الصعب والمضلل جداً أن تستخدم البيانات لقرارات هامة في الشركة.

لكن هادوب غير المعايير.

تستخدم طريقة هادوب في التخزين نظام ملفات موزع يقوم بكشف البيانات أينما كانت في كتلة مخدمات هادوب. كما أن أدوات معالجة تلك البيانات موزعة أيضاً، وتقع غالباً على نفس المخدمات التي تضم البيانات، هذا ما يفيد في جعل معالجة البيانات أسرع.

الآن يسمح هادوب للشركات أن تخزن بيانات بثمن أقل بكثير.

بكم؟!!

قدر Rainstore في عام 2012 كلفة تشغيل كتلة هادوب بمواصفات 75 عقدة وسعة 300 تيرابايت بحوالي 1.05 مليون دولار على مدى ثلاث سنوات.

باعت أوراكل قاعدة بيانات بأكثر من نصف السعة تقريباً (حوالي 168تيرابايت) مقابل 2.33 مليون دولار، بدون أن يشمل الأمر تكاليف التشغيل.

يعني هذا النوع من الادخار للسعر أن هادوب تسمح للشركات أن تتكلف مصاريف الاحتفاظ ببياناتها كلها، ليس فقط الأجزاء التي تم أخذ عينات منها. ولسنا بحاجة إلى افتراضات مسبقة. كل البيانات تصبح متاحة بالتساوي، وبالتالي يمكن العمل على سيناريوهات مع بيانات خام في أي وقت نريده، دون حدود أو افتراضات. الأمر هام، لأنه إن لم نحتاج لإلقاء بيانات، فأي نموذج بياني تريد الشركة أن تجربه يصبح لعبة عادلة.

######################
المزيد من فوائد هادوب:
######################

تسمح هادوب للشركات أن تخزن بياناتها بالشكل التي هي عليه - منظمة أو غير منظمة - لذا من غير الضروري أن ننفق المال والوقت لتكوين بيانات لقواعد البيانات وجداولها الجامدة.

وبما أن هادوب يمكنه أن يتعامل مع التضخم بسهولة، يمكن له أن يكون المنصة المثلى لالتقاط كافة البيانات الآتية من عدة مصادر في آن واحد.

أكثر صفات هادوب المحمودة هي قدرته على تخزين البيانات بثمن أقل بكثير مما يمكن فعله مع برمجيات نظام إدارة قواعد بيانات منطقية. لكن هذا يشكل الجزء الأول من القصة فقط. القدرة على الاحتفاظ بهذا الكم الهائل من البيانات بسعر بخس تعني شركات يمكن أن تستخدم كل بياناتها لصنع قرارات أفضل.

مقتبس من موقع عالم التقنية.

ليست هناك تعليقات:

إرسال تعليق