ما هو Web Scraping وكيف يعمل في العالم الرقمي

البيانات(Data) والمعلومات هما المصطلحان اللذان يستخدمان غالبًا بالتبادل ولكن هناك فرق ملحوظ بينهما. على سبيل المثال ، تشير البيانات إلى أجزاء من المعلومات ، ولكنها لا تشير إلى المعلومات نفسها. من ناحية أخرى ، المعلومات(Information) هي مجموعة من البيانات التي تتم معالجتها بطريقة مفيدة. مع البيانات الهائلة المتاحة على الإنترنت ، يتم استخدام أساليب مختلفة مثل Web Scraping أو Web Harvesting أو Web Data Extraction لتوليد رؤى قابلة للتنفيذ وتغير قواعد اللعبة حول استخدام الإنترنت(Internet) . لكن ما يعنونه بالضبط في عالم الإنترنت. لنلقي نظرة!

كيف يعمل Web Scraping

تجريف على شبكة الإنترنت

برامج الكمبيوتر(Computer) المصممة على أنها روبوتات ذكية(Intelligent) تقوم بعمل Web Scraping . على عكس تجريف الشاشة ، الذي ينسخ وحدات البكسل المعروضة على الشاشة فقط ، فإن تجريف الويب يستخرج كود HTML الأساسي ومعه البيانات المخزنة في قاعدة بيانات. أصبح هذا النهج شائعًا جدًا. في الواقع ، تعتبر واحدة من المهارات الأساسية لاكتسابها في العالم الرقمي اليوم. لديها بعض التطبيقات الرائعة في تجميع مجموعات البيانات الكبيرة ، وهي أساسية لتقنيات مثل-

مع التوسع السريع للمعلومات الرقمية ، أصبح الوصول إلى البيانات الضخمة(Big Data) عن طريق تجريف(Web Scraping) الويب أو نهج استخراج بيانات الويب(Web Data Extraction) أسهل بكثير. بعد قولي هذا ، يمكن استخدام Web Scraping للأعمال الرقمية التي تعتمد على جمع البيانات في كل من الحالات المشروعة(Legitimate) أو غير المشروعة. يتضمن الأول أمثلة على تجريف الويب الخيري(Benevolent Web Scraping Examples) بينما يعرض الأخير أمثلة على تجريف الويب الخبيث(Malicious Web Scraping) .

أمثلة على تجريف الويب الخيري

  • تقوم روبوتات محرك البحث(Search) بالزحف إلى موقع ما ، وتحليل محتواه لتعيين رتبة بناءً على نتائج معينة ، مثل Google .
  • مواقع مقارنة الأسعار(Price) تنشر الروبوتات لجلب أسعار المنتجات تلقائيًا
  • تستخدم شركات أبحاث السوق(Market) أدوات الكشط لاستخراج البيانات من وسائل التواصل الاجتماعي (على سبيل المثال ، لتحليل المشاعر والتفضيلات الشخصية وما إلى ذلك).

أمثلة على تجريف الويب الخبيث

يمكن أن يتسبب تجريف الويب(Web Scraping) لأغراض غير قانونية في خسائر مالية فادحة إذا تم استخراج البيانات دون إذن من مالكي مواقع الويب. حالتا الاستخدام الأكثر شيوعًا لكشط الويب الضار(Malicious Web Scraping) هما كشط الأسعار وسرقة المحتوى.

  • كشط السعر(Price Scraping)  - تقوم روبوتات الكاشطة(Scraper) بفحص قواعد بيانات الأعمال المنافسة للوصول إلى معلومات التسعير وتقويض المنافسين وزيادة المبيعات.
  • سرقة المحتوى(Content Theft)  - يشمل هذا النشاط غير المشروع سرقة محتوى على نطاق واسع من موقع ويب مستهدف. تشمل الأهداف النموذجية بشكل أساسي كتالوجات المنتجات والمواقع الإلكترونية التي تعتمد على المحتوى الرقمي لدفع الأعمال.

أتمنى أن يساعدك هذا!



About the author

أنا فني كمبيوتر عملت مع Android وبرامج المكتب لسنوات عديدة. لقد قمت أيضًا بتعليم الأشخاص كيفية استخدام أجهزة Mac على مدار السنوات الخمس الماضية أو نحو ذلك. إذا كنت تبحث عن شخص يعرف كيفية إصلاح الأشياء على جهاز الكمبيوتر الخاص بك ، فربما يمكنني مساعدتك!



Related posts