تجريف الويب مع ملحق مكشطة الكروم - Semalt Expert

Sraper هو نص برمجي مؤتمت وأداة سهلة الاستخدام تستخدم لاستخراج البيانات من صفحات الويب وتصدير البيانات المسحوبة إلى جداول البيانات. إذا كنت من عشاق Google Chrome ، فإن Chrome Scraper Extension هي أفضل أداة للنظر فيها. ستساعدك أداة تجريف الويب هذه على استخراج معلومات مفيدة من صفحة الويب المفضلة وتصديرها إلى محرر مستندات Google.

لماذا تختار ملحق مكشطة كروم؟

المكوّن الإضافي لـ scraper من Google Chrome هو أداة افعلها بنفسك تستخرج كميات كبيرة من البيانات من الويب إلى تنسيقات قابلة للقراءة. لتثبيت إضافة الكاشطة على متصفحك ، قم بزيارة سوق Chrome الإلكتروني وانقر على خيار "إضافة إلى Chrome" لإكمال عملية التثبيت. مع هذا البرنامج المساعد ، لا يتعين عليك استئجار مبرمج لكشط صفحات الويب لك.

بمجرد تثبيتها على متصفحك ، تتولى مكشطة المكشطة جميع عمليات الكشط نيابة عنك. للبدء ، حدد المعلومات المراد كشطها ، وانقر بزر الماوس الأيمن على البيانات المحددة وانقر على "Scrape مماثلة".

إذا كنت تتطلع إلى استخدام ملحق المكشطة ، فإن معرفة لغة البرمجة هي الحد الأدنى من المتطلبات. ومع ذلك ، إذا كنت معتادًا على XPath ، فستصبح الأمور أسهل كثيرًا بالنسبة لك. لأغراض التوضيح ، XPath هي لغة برمجة تستخدم تعبيرات المسار لتحديد مجموعات العقد. في معظم الحالات ، يتم استخدام XPath في مستندات لغة الترميز القابلة للتوسيع (XML) حيث يعمل على التنقل عبر السمات والعناصر الأساسية المستخدمة في مستند XML.

كيف يمكن إزالة صفحة ويب باستخدام المكوّن الإضافي لمكشطة Chrome؟

في هذا الدليل ، ستتعلم كيفية مسح صفحات الويب ومستندات XML بامتداد الكاشطة. استخدم الدليل التالي لاستخراج البيانات المفيدة من صفحة ويب وتصديرها إلى محرر مستندات Google.

  • ابدأ تشغيل متصفح Chrome وابحث عن سوق Chrome الإلكتروني. انقر على خيار "إضافة إلى Chrome" الذي سيظهر على شاشة العرض.
  • افتح المستند الهدف أو صفحة الويب وحدد كافة البيانات المراد كشطها.
  • انقر بزر الماوس الأيمن على النص المحدد واضغط على خيار "Scrape مماثلة".
  • سيفتح Chrome نافذة أخرى مع البيانات المسحوبة. لتصدير البيانات المستخرجة ، انقر على خيار "حفظ في مستندات Google" لحفظ المحتوى في مستندات Google الخاصة بك.

كشط الويب المتقدم مع ملحق مكشطة

XPath هي لغة برمجة تستخدم لتحديد مجموعات العقدة في نص يستند إلى XML. تستخدم لغة البرمجة هذه تعبيرات المسار التي يمكن استخدامها في JavaScript و Python. إذا واجهت تحديات عند محاولة خدش صفحة ويب ، فافتح وحدة تحكم الكاشطة وستجد مربعًا صغيرًا في الزاوية العلوية اليسرى.

مع امتداد المكشطة ، يمكنك إما اختيار jQuery أو XPath. في هذه الحالة ، انقر على "XPath" للعثور على العناصر المستهدفة في صفحة الويب. لتنفيذ مهمة الكشط ، حدد العنصر الصحيح في الصفحة وقم بإنشاء XPath الخاص بها. تضم وحدة الكاشطة قسم "الأعمدة". استخدم أقسام الأعمدة للحصول على بياناتك المسروقة بتنسيقات قابلة للقراءة والاستخدام.