كيفية كشط موقع على شبكة الإنترنت

(Web)تستخدم كل صناعة تقريبًا تقنية تجريف الويب لاستخراج البيانات من الإنترنت وتحليلها. تستخدم الشركات البيانات المجمعة للتوصل إلى استراتيجيات ومنتجات تجارية جديدة. بياناتك ذات قيمة. ما لم تكن تتخذ خطوات لحماية خصوصيتك ، فإن الشركات تستخدم بياناتك لكسب المال.

إذا كانت الشركات الكبيرة تقوم بذلك ، فلماذا لا تفعل ذلك أيضًا؟ يمكن أن يساعدك تعلم كيفية كشط موقع ويب في العثور على أفضل صفقة ، وجمع العملاء المحتملين لعملك ، وحتى مساعدتك في العثور على وظيفة جديدة. 

استخدم خدمة Web Scraping

الطريقة الأسرع والأبسط لجمع البيانات من الإنترنت هي استخدام خدمة تجريف ويب احترافية. إذا كنت بحاجة إلى جمع كميات كبيرة من البيانات ، فقد تكون خدمة مثل Scrapinghub مناسبة لك. أنها توفر خدمة واسعة النطاق وسهلة الاستخدام لجمع البيانات عبر الإنترنت.  

إذا كنت تبحث عن شيء ما على نطاق أصغر ، فإن ParseHub يستحق البحث في بعض المواقع الإلكترونية. يبدأ جميع المستخدمين بخطة مجانية من 200 صفحة ، لا تتطلب بطاقة ائتمان ، والتي يمكن البناء عليها لاحقًا من خلال نظام تسعير متدرج.

تطبيق Web Scraping

للحصول على طريقة سريعة ومجانية وملائمة لإلغاء مواقع الويب ، يعد Web Scraper Chrome Extension خيارًا رائعًا.

هناك القليل من منحنى التعلم ، لكن المطور قدم توثيقًا(documentation) رائعًا ومقاطع فيديو (videos)تعليمية(tutorial ) . يعد Web Scraper(Web Scraper) من بين أبسط وأفضل الأدوات لجمع البيانات على نطاق صغير ، حيث يقدم المزيد في مستواه المجاني(Free) أكثر من معظمه. 

استخدم Microsoft Excel(Use Microsoft Excel) لكشط موقع ويب(Website)

لشيء مألوف أكثر ، يقدم Microsoft Excel ميزة تجريف الويب الأساسية. لتجربتها ، افتح مصنف Excel جديدًا ، وحدد علامة التبويب البيانات . (Data)انقر فوق من الويب(From Web) في شريط الأدوات ، واتبع الإرشادات الموجودة في المعالج لبدء المجموعة.

من هناك ، لديك عدة خيارات لحفظ البيانات في جدول البيانات الخاص بك. تحقق من دليلنا لكشف الويب باستخدام Excel(guide to web scraping with Excel) للحصول على برنامج تعليمي كامل.

استخدم مكتبة Scrapy Python(Use the Scrapy Python Library)

إذا كنت معتادًا على لغة برمجة Python(Python programming language) ، فإن Scrapy(Scrapy) هي المكتبة المثالية لك. يسمح لك بإعداد "عناكب" مخصصة تزحف إلى مواقع الويب لاستخراج المعلومات. يمكنك بعد ذلك استخدام المعلومات التي تم جمعها في برامجك ، أو تصديرها إلى ملف.

يغطي البرنامج التعليمي Scrapy كل شيء بدءًا من تجريف الويب الأساسي وحتى جمع المعلومات المجدولة متعدد العناكب على المستوى الاحترافي. إن تعلم كيفية استخدام Scrapy للتخلص(Scrapy) من موقع ويب ليس مجرد مهارة مفيدة لاحتياجاتك الخاصة. هناك طلب كبير على المطورين(Developers) الذين يعرفون كيفية استخدام Scrapy ، مما قد يؤدي إلى مهنة جديدة بالكامل(a whole new career) .

استخدم مكتبة حساء بايثون الجميلة(Use The Beautiful Soup Python Library)

شوربة جميلة(Beautiful Soup) هي مكتبة بايثون(Python) لكشط الويب. إنه مشابه لـ Scrapy ولكنه كان موجودًا لفترة أطول. كثير من المستخدمين يجدون حساء(Soup) جميل أسهل في الاستخدام من سكرابي(Scrapy) .

إنها ليست مميزة تمامًا مثل Scrapy ، ولكن في معظم حالات الاستخدام ، فهي توازن مثالي بين الوظائف وسهولة الاستخدام لمبرمجي Python .

استخدم واجهة برمجة تطبيقات Web Scraping

إذا كنت مرتاحًا لكتابة كود تجريف الويب بنفسك ، فلا يزال عليك تشغيله محليًا. يعد هذا أمرًا جيدًا للعمليات الصغيرة ، ولكن مع زيادة حجم جمع البيانات الخاصة بك ، فسوف يستهلك النطاق الترددي الثمين(use up precious bandwidth) ، مما قد يؤدي إلى إبطاء الشبكة(slowing down your network) .

يمكن أن يؤدي استخدام واجهة برمجة تطبيقات(API) كشط الويب إلى إلغاء تحميل بعض الأعمال إلى خادم بعيد ، والذي يمكنك الوصول إليه عبر التعليمات البرمجية. تحتوي هذه الطريقة على العديد من الخيارات ، بما في ذلك الخيارات كاملة الميزات وذات الأسعار الاحترافية مثل Dexi ، والخدمات التي تم تجريدها ببساطة مثل ScraperAPI .

كلاهما يكلف مالًا للاستخدام ، لكن ScraperAPI يقدم 1000 مكالمة مجانية لواجهة برمجة التطبيقات(API) قبل أي دفعة لتجربة الخدمة قبل الالتزام بها.

استخدم IFTTT لكشط موقع ويب

IFTTT هي أداة أتمتة قوية. يمكنك استخدامه لأتمتة أي شيء تقريبًا(use it to automate almost anything) ، بما في ذلك جمع البيانات وتجريف الويب.

تتمثل إحدى الفوائد الهائلة لـ IFTTT في تكاملها مع العديد من خدمات الويب. يمكن أن يبدو أحد الأمثلة الأساسية عند استخدام Twitter شيئًا كالتالي:

  • سجّل الدخول إلى IFTTT وحدد إنشاء(Create)
  • حدد Twitter في قائمة الخدمة
  • حدد بحث جديد من التغريدة(New Search From Tweet)
  • أدخل مصطلح بحث أو علامة تصنيف ، وانقر فوق إنشاء مشغل(Create Trigger)
  • اختر جداول بيانات Google(Google Sheets) كخدمة العمل الخاصة بك
  • حدد إضافة صف إلى جدول البيانات(Add Row to Spreadsheet) واتبع الخطوات
  • انقر فوق إنشاء إجراء(Create Action)

في بضع خطوات قصيرة فقط ، قمت بإنشاء خدمة تلقائية تقوم بتوثيق التغريدات المرتبطة بمصطلح بحث أو علامة تصنيف واسم المستخدم مع وقت نشرها.

مع وجود العديد من الخيارات لربط الخدمات عبر الإنترنت ، فإن IFTTT أو أحد بدائلها(IFTTT, or one of its alternatives) هو الأداة المثالية لجمع البيانات البسيطة عن طريق كشط مواقع الويب.

تجريف الويب باستخدام تطبيق Siri Shortcuts(Web Scraping With The Siri Shortcuts App)

بالنسبة لمستخدمي iOS ، يعد تطبيق Shortcuts أداة رائعة لربط حياتك الرقمية وأتمتتها. على الرغم من أنك قد تكون على دراية بتكامله بين التقويم وجهات الاتصال والخرائط(integration between your calendar, contacts, and maps) ، إلا أنه قادر على المزيد.

في منشور مفصل ، يوضح مستخدم Reddit(Reddit user) u / keveridge كيفية استخدام التعبيرات العادية مع تطبيق Shortcuts(how to use regular expressions with the Shortcuts app) للحصول على معلومات مفصلة من مواقع الويب.

تسمح التعبيرات(Expressions) العادية بمزيد من البحث الدقيق ويمكن أن تعمل عبر ملفات متعددة(can work across multiple files) لإرجاع المعلومات التي تحتاجها فقط.

استخدم Tasker(Use Tasker) لنظام Android للبحث في الويب(Web)

إذا كنت من مستخدمي Android ، فلا توجد خيارات بسيطة لكشط موقع ويب. يمكنك استخدام تطبيق IFTTT من خلال الخطوات الموضحة أعلاه ، ولكن قد يكون Tasker هو الأنسب لك.

Available for $3.50 on the Play Store ، يرى الكثيرون تاسكر(Tasker) على أنه الأخ الأكبر لـ IFTTT. لديها مجموعة واسعة من الخيارات للأتمتة. يتضمن ذلك عمليات البحث المخصصة على الويب ، والتنبيهات عند تغيير البيانات الموجودة على مواقع الويب المحددة ، والقدرة على تنزيل المحتوى من Twitter(download content from Twitter) .

على الرغم من أنها ليست طريقة تقليدية لاستخراج البيانات من الويب ، إلا أن تطبيقات التشغيل الآلي يمكن أن توفر الكثير من الوظائف نفسها التي توفرها أدوات تجريف الويب الاحترافية دون الحاجة إلى تعلم كيفية البرمجة أو الدفع مقابل خدمة جمع البيانات عبر الإنترنت.

تجريف الويب الآلي

سواء كنت ترغب في جمع معلومات لعملك أو جعل حياتك أكثر ملاءمة ، فإن تجريف الويب هو مهارة تستحق التعلم.

ستمنحك المعلومات التي تجمعها ، بمجرد فرزها بشكل صحيح ، نظرة ثاقبة أكثر على الأشياء التي تهمك وأصدقائك وعملاء عملك.(once properly sorted)



About the author

أنا مبرمج كمبيوتر منذ أكثر من 15 عامًا. تكمن مهاراتي في تطوير التطبيقات البرمجية وصيانتها ، فضلاً عن تقديم الدعم الفني لتلك التطبيقات. لقد قمت أيضًا بتدريس برمجة الكمبيوتر لطلاب المدارس الثانوية ، وأنا حاليًا مدرس محترف.



Related posts