ما هو التنقيب عن البيانات؟ أساسيات وتقنياتها.

يعتمد أساس الثورة الصناعية الرابعة إلى حد كبير على البيانات(Data) والاتصال . (Connectivity)ستلعب خدمات التحليل(Analysis Services) القادرة على تطوير أو إنشاء حلول التنقيب عن البيانات دورًا رئيسيًا في هذا الصدد. يمكن أن يساعد في تحليل والتنبؤ بنتائج سلوك الشراء للعملاء(customer purchasing behavior) لاستهداف المشترين المحتملين. ستصبح البيانات مورداً طبيعياً جديداً وستكتسب عملية استخراج المعلومات ذات الصلة من هذه البيانات غير المصنفة أهمية كبيرة. (Data)على هذا النحو ، يمكن أن يساعدنا الفهم الصحيح للمصطلح - (term –) التنقيب في البيانات(Data Mining) وعملياتها وتطبيقها في تطوير نهج شامل لهذه الكلمة الطنانة.

أساسيات التنقيب عن البيانات(Data Mining Basics) وتقنياتها

بيانات التعدين

التنقيب في البيانات ، المعروف أيضًا باسم اكتشاف المعرفة في البيانات(Knowledge Discovery in Data) ( KDD ) ، يتعلق بالبحث في مخازن كبيرة من البيانات للكشف عن الأنماط والاتجاهات التي تتجاوز التحليل البسيط. هذا ، مع ذلك ، ليس حلاً من خطوة واحدة ولكنه عملية متعددة الخطوات ويتم إكمالها في مراحل مختلفة. وتشمل هذه:

1] جمع البيانات وإعدادها

يبدأ بجمع البيانات والتنظيم المناسب. يساعد هذا في تحسين فرص العثور على المعلومات التي يمكن اكتشافها من خلال التنقيب عن البيانات بشكل كبير

2] بناء النموذج والتقييم

الخطوة الثانية في عملية التنقيب(mining process) عن البيانات هي تطبيق تقنيات النمذجة المختلفة. تستخدم هذه لمعايرة المعلمات إلى القيم المثلى. تعتمد التقنيات المستخدمة إلى حد كبير على القدرات التحليلية المطلوبة لمعالجة سلسلة كاملة من الاحتياجات التنظيمية والتوصل إلى قرار.

دعونا نفحص بعض تقنيات التنقيب عن البيانات باختصار. لقد وجد أن معظم المؤسسات تجمع بين تقنيتين أو أكثر من تقنيات التنقيب عن البيانات معًا لتشكيل عملية مناسبة تلبي متطلبات أعمالها.

قراءة(Read) : ما هي البيانات الضخمة؟

تقنيات التنقيب عن البيانات

  1. الرابطة -  (Association – )الرابطة(Association) هي إحدى تقنيات التنقيب عن البيانات المعروفة على نطاق واسع. تحت هذا ، يتم فك نمط بناءً على العلاقة بين العناصر في نفس المعاملة. ومن ثم(Hence) ، فهي تُعرف أيضًا باسم تقنية العلاقة(relation technique) . يعتمد تجار التجزئة ذوو العلامات التجارية الكبرى على هذه التقنية للبحث في عادات / تفضيلات الشراء لدى العملاء. على سبيل المثال ، عند تتبع عادات الشراء لدى الأشخاص ، قد يحدد تجار التجزئة أن العميل دائمًا ما يشتري كريمًا عند شراء الشوكولاتة ، وبالتالي يقترحون أنه في المرة القادمة التي يشترون فيها الشوكولاتة ، قد يرغبون أيضًا في شراء كريم.
  2. التصنيف(Classification) - تختلف تقنية استخراج البيانات(data mining technique) هذه عن ما سبق في الطريقة التي تعتمد على التعلم الآلي(machine learning) وتستخدم التقنيات الرياضية مثل البرمجة الخطية(Linear programming) ، وأشجار القرار ، (Decision)والشبكة العصبية(Neural network) . في التصنيف ، تحاول الشركات بناء برمجيات يمكنها تعلم كيفية تصنيف عناصر البيانات إلى مجموعات. على سبيل المثال ، يمكن للشركة تحديد تصنيف في التطبيق "بالنظر إلى جميع سجلات الموظفين الذين عرضوا الاستقالة من الشركة ، توقع عدد الأفراد الذين من المحتمل أن يستقيلوا من الشركة في المستقبل". في ظل هذا السيناريو ، يمكن للشركة تصنيف سجلات الموظفين إلى مجموعتين هما "إجازة" و "إقامة". يمكنه بعد ذلك استخدام بياناتهبرنامج التعدين(mining software) لتصنيف الموظفين إلى مجموعات منفصلة تم إنشاؤها مسبقًا.
  3. التجميع(Clustering) - يتم تجميع الكائنات المختلفة(Different) التي تظهر خصائص متشابهة معًا في مجموعة واحدة عبر الأتمتة. يتم إنشاء العديد من هذه المجموعات كالفئات والكائنات (ذات الخصائص المتشابهة) توضع فيها وفقًا لذلك. لفهم هذا بشكل أفضل ، دعونا نفكر في مثال لإدارة الكتب(book management) في المكتبة. في المكتبة ، يتم فهرسة المجموعة الهائلة من الكتب بشكل كامل. يتم سرد العناصر من نفس النوع معًا. هذا يسهل علينا العثور على كتاب يهمنا. وبالمثل ، باستخدام تقنية التجميع(clustering technique) ، يمكننا الاحتفاظ بالكتب التي بها بعض أنواع التشابه في مجموعة واحدة وتعيين اسم مناسب لها. لذلك ، إذا كان القارئ يتطلع إلى الحصول على كتاب ذي صلة(book relevant)لمصلحته ، عليه فقط الذهاب إلى هذا الرف بدلاً من البحث في المكتبة بأكملها. وبالتالي ، فإن تقنية التجميع(clustering technique) تحدد الفئات وتضع الكائنات في كل فئة ، بينما في تقنيات التصنيف ، يتم تخصيص الكائنات في فئات محددة مسبقًا.
  4. التنبؤ(Prediction) - التنبؤ هو تقنية للتنقيب عن البيانات(data mining technique) تُستخدم غالبًا مع تقنيات التنقيب عن البيانات(data mining technique) الأخرى . يتضمن تحليل الاتجاهات والتصنيف ومطابقة الأنماط(pattern matching) والعلاقة. من خلال تحليل الأحداث أو الأحداث الماضية في تسلسل مناسب ، يمكن للمرء(sequence one) أن يتنبأ بأمان بحدث مستقبلي. على سبيل المثال ، يمكن استخدام تقنية تحليل التنبؤ(prediction analysis technique) في البيع للتنبؤ بالربح المستقبلي إذا تم اختيار البيع كمتغير مستقل والربح(variable and profit) كمتغير يعتمد على البيع. بعد ذلك ، بناءً على بيانات البيع والربح(sale and profit data) التاريخية ، يمكن للمرء رسم منحنى انحدار ملائم(regression curve) يُستخدم من أجلهتوقع الربح(profit prediction) .
  5. أشجار القرار(Decision trees) - ضمن شجرة القرار(decision tree) ، نبدأ بسؤال بسيط له إجابات متعددة. تؤدي كل إجابة إلى سؤال إضافي للمساعدة في تصنيف البيانات أو تحديدها بحيث يمكن تصنيفها ، أو حتى يمكن إجراء تنبؤ بناءً على كل إجابة. على سبيل المثال ، نستخدم شجرة القرار(decision tree) التالية لتحديد ما إذا كنت ستلعب لعبة ODI للكريكيت أم لا : شجرة قرار تعدين البيانات(Data Mining Decision Tree) : بدءًا من عقدة الجذر(root node) ، إذا كانت توقعات الطقس(weather forecast) تتنبأ بالمطر ، فيجب علينا تجنب المباراة لليوم. بدلاً من ذلك ، إذا كانت توقعات الطقس(weather forecast) واضحة ، فيجب أن نلعب المباراة.

يعد تعدين البيانات(Data Mining) في صميم جهود التحليلات عبر مجموعة متنوعة من الصناعات والتخصصات مثل الاتصالات والتأمين (Manufacturing)والتعليم(Insurance) والتصنيع والخدمات(Education) المصرفية والتجزئة والمزيد(Banking and Retail) . لذلك ، من الضروري الحصول على معلومات صحيحة عنها قبل تطبيق التقنيات المختلفة.



About the author

أنا مهندس برمجيات ذو خبرة ولدي أكثر من 10 سنوات من الخبرة في تطوير وإدارة حسابات المستخدمين وأمان العائلة وتكنولوجيا Google Chrome. لدي أساس قوي في الرياضيات وعلوم الكمبيوتر أستخدمه لإنشاء أوصاف واضحة وموجزة لمهاراتي.



Related posts