أفضل أمثلة تجريف الويب - بواسطة Promptcloud
نشرت: 2019-08-19أصبحت البيانات مكونًا رئيسيًا لاستراتيجية النمو لكل شركة. عندما يتعلق الأمر بجمع البيانات ، تتوفر الكثير من المصادر. ومع ذلك ، فإن جمع البيانات يدويًا أمر صعب لسببين - أ) زيادة فرصة الأخطاء ، و ب) عملية تستغرق وقتًا طويلاً. أفضل طريقة لجمع البيانات هي الزحف إلى البيانات خارج الويب ، باختصار ، تجريف الويب. بمجرد قيامك بإعداد نظام للزحف إلى البيانات من مواقع معينة واستخدام البيانات المسردة في سير عمل عملك ، يمكنك الاستمرار في استخدام نفس النظام لسنوات عديدة. سنناقش اليوم بعضًا من أفضل أمثلة تجريف الويب التي صادفناها في PromptCloud.
كشط بيانات العقارات باستخدام بايثون
هذه واحدة من أكثر البيانات المرغوبة في العالم. تبدأ معظم كتب أو دورات تعلم الآلة بمجموعة من المنازل وتفاصيلها وأسعارها لتعليم الانحدار الخطي قبل الانتقال إلى نماذج ML المعقدة. تحتوي بعض أفضل المواقع العقارية في جميع أنحاء الولايات المتحدة على ملايين السجلات للمنازل سواء في السوق أو خارجها. حتى أنها تحتوي على أسعار الإيجار ، وتقديرات لأسعار المنازل بعد بضع سنوات ، وما إلى ذلك. لقد قمنا بتجميع البيانات من المواقع الرائدة ويمكنك التحقق من هذه الروابط مع ملفات JSON مع نقاط البيانات المتعددة.
مثال 1
[لغة الكود = "بيثون"] {
“الوصف”: “327 101st St # 1A، Brooklyn، NY عبارة عن 3 أسرّة و 3 حمامات ومنزل بمساحة 1302 قدمًا مربعة في حبس الرهن. سجّل الدخول إلى Trulia لتلقي جميع معلومات الرهن. "،
"الرابط": "https://www.trulia.com/p/ny/brooklyn/327-101st-st-1a-brooklyn-ny-11209–2180131215" ،
"سعر": {
"المبلغ": "510000" ،
"العملة": "USD"
} ،
"وصف واسع": "وحدة دوبلكس كبيرة جدًا بالطابق الأول تحتوي على غرفة ترفيهية منتهية وغرفة ترفيه ونصف حمام. يحتوي المستوى الثاني على غرفتي نوم وحمامين كاملين وغرفة معيشة / غرفة طعام ومساحة خارجية. هناك views.n جسر فيرازانو. عرض أدلة التعويق الخاصة بنا "،
"نظرة عامة": [
"شقة"،
"3 أسرة" ،
"3 حمامات" ،
"بني عام 2006" ،
"5 أيام في Trulia" ،
"1،302 قدم مربع" ،
"392 دولارًا / قدم مربع"،
"143 مشاهدة"
]}
[/الشفرة]
مثال 2
[لغة الكود = "بيثون"] {
"تفاصيل_طريقة": {
"عدد الغرف": 4 ،
"حجم الأرضية (بالقدم المربع)": "1.728"
} ،
"تبوك": {
"الشارع": "638 Grant Ave" ،
"المكان": "شمال بالدوين" ،
"المنطقة": "نيويورك" ،
"الرمز البريدي": "11510"
} ،
"العنوان": "638 Grant Ave، North Baldwin، NY 11510 | MLS # 3137924 | Zillow "،
"Detail_Short": "638 Grant Ave، North Baldwin، NY 11510-1332 هو منزل لأسرة واحدة معروض للبيع بسعر 299.000 دولار. المنزل الذي تبلغ مساحته 1728 قدمًا مربعًا مكون من 4 أسرّة و 2.0 حمام. اعثر على 31 صورة لمنزل 638 Grant Ave في Zillow. عرض المزيد من تفاصيل العقارات وسجل المبيعات وبيانات Zestimate على Zillow. MLS # 3137924 "،
"السعر بالدولار": 299000 ،
"صورة": "https://photos.zillowstatic.com/p_h/ISzz1p7wk4ktye1000000000.jpg"
}
[/الشفرة]
استخراج بيانات الفندق من أفضل بوابات السفر
تحتوي مواقع حجز الفنادق على عدد كبير من البيانات مثل الأسعار والمراجعات والتقييمات وعدد الأشخاص الذين صنفوا الفندق والمزيد. أوضحنا كيفية الزحف إلى البيانات من أكبر شركة حجز لمراجعات الفنادق في مقال آخر.
باستخدام مكتبة تحليل HTML المسماة Beautiful Soup ، تمكنا من الزحف إلى نقاط بيانات متعددة. باستخدام جزء صغير من التعليمات البرمجية الواردة أدناه ، يمكنك النقر على موقع الويب والحصول على محتوى HTML وتحويله إلى كائن حساء جميل. بمجرد الانتهاء من ذلك ، يعد تحليل الكائن وإيجاد نقاط بيانات محددة في علامات محددة لها سمات معينة مهمة بسيطة.
[code language = "python"] warnings.simplefilter ("ignore") # لتجاهل أخطاء شهادة SSL
ctx = ssl.create_default_context ()
ctx.check_hostname = خطأ
ctx.verify_mode = ssl.CERT_NONE
url = input ("أدخل عنوان URL للفندق -")
html = urllib.request.urlopen (url ، Context = ctx) .read ()
حساء = شوربة جميلة (html، 'html.parser')
html = soup.prettify (“utf-8”)
hotel_json = {}
[/الشفرة]
كود للحصول على محتوى HTML لصفحة ويب وتحويله إلى كائن حساء جميل.
كشط بيانات الوسائط الاجتماعية
تعد وسائل التواصل الاجتماعي من أكبر مصادر بيانات المستخدم. سواء كنت ترغب في التحقق مما إذا كان الأشخاص يحبون أغنية معينة أو فيلمًا أو شركة ، يمكن أن تساعدك بيانات الوسائط الاجتماعية على فهم مشاعر المستخدم وكذلك تتبع السمعة العامة لشركتك. في PromptCloud ، قمنا بتجميع البيانات من Twitter️ و Instagram️ وحتى YouTube️. كانت نقاط البيانات في الثلاثة مختلفة. على سبيل المثال ، من Instagram ، يعمل تجريف البيانات على هذا النحو ..
[code language = "python"] المستخدم: Ariana Grande (arianagrande)
المتابعون: 130.5 م
المتابعون: 1348
المشاركات: 3،669
[/الشفرة]
البيانات المأخوذة من حسابات Instagram
ومع ذلك ، كانت نقاط البيانات التي استخرجناها من YouTube️ مختلفة تمامًا. مثال على ذلك هو البيانات المأخوذة من أغنية شهيرة أدت إلى تحدٍ عبر الإنترنت بحد ذاته.

[لغة الكود = "بيثون"]
{
"TITLE": "Drake - In My Feelings (Lyrics، Audio)" Kiki Do you love me ""،
"CHANNEL_NAME": "الوحدة الخاصة" ،
“NUMBER_OF_VIEWS”: “278،121،686 مشاهدة” ،
"مثل": "2407688" ،
"يكره": "114.933" ،
"NUMBER_OF_SUBSCRIPTIONS": "614 كيلوبايت" ،
"HASH_TAGS": [
"#InMyFeelings" ،
"#Drake" ،
"#برج العقرب"
]}
[/الشفرة]
البيانات مأخوذة من صفحات يوتيوب
بالنسبة إلى Twitter ، تجدر الإشارة إلى أننا بحاجة إلى حساب مطور ، ويمكننا أيضًا الزحف إلى التغريدات لكل حساب ، فقط حتى حساب آخر 3240 تغريدة لهذا المستخدم المحدد. ومن ثم ، يمكنك أن ترى أن أمثلة تجريف الويب المختلفة يمكن أن يكون لها مناهج ونتائج مختلفة.
استخراج كلمات الأغاني باستخدام Python من مواقع مثل Genius️
كشط كلمات الأغاني هو شيء قام به الناس منذ العصور السحيقة. الاختلاف الوحيد هو أنه يمكنك الآن الزحف إلى كلمات الأغاني بسهولة أكبر في بضع ثوانٍ ، باستخدام جزء من التعليمات البرمجية بدلاً من قضاء ساعات أو دقائق في القيام بذلك يدويًا. أحد الأمثلة على ذلك هو هذا المقال حيث أظهرنا كيفية الزحف إلى كلمات الأغاني والبيانات الأخرى ذات الصلة من موقع موسيقى شهير يسمى Genius.
نظرًا لأن موقع الويب يحتوي على أكثر بكثير من مجرد كلمات الأغاني ، فقد تمكنا من التقاط نقاط البيانات مثل التعليقات والعناوين وتاريخ الإصدار أيضًا.
كشط Python لبيانات الأسهم من مواقع مثل تلك الموجودة في Yahoo Finance
تعد بيانات سوق الأوراق المالية أحد المستودعات الضخمة للبيانات التي يتم تحليلها عادةً من قبل الأشخاص الذين يدرسون السوق ويقررون أين يضعون رهاناتهم. كل من البيانات الحالية والتاريخية ذات قيمة كبيرة. موقع الويب الذي يمكن كشطه بسهولة للحصول على معلومات الأسهم حول الشركات المختلفة هو Yahoo Finance. لا تعني معلومات المخزون أسعار الأسهم الحالية فقط لأننا تمكنا من الزحف إلى العديد من نقاط البيانات الأخرى أيضًا باستخدام هذه العملية.
هذه هي نقاط البيانات التي كشطناها لـ Apple️
[لغة الكود = "بيثون"] {
"PRESENT_VALUE": "198.87" ،
"PRESENT_GROWTH": "-0.08 (-0.04٪)" ،
"تفاصيل أخرى": {
"PREV_CLOSE": "198.95" ،
"فتح": "199.20" ،
"BID": "198.91 × 800" ،
"اسأل": "198.99 × 1000" ،
"TD_VOLUME": "27760668" ،
"AVERAGE_VOLUME_3MONTH": "28641896" ،
"MARKET_CAP": "937.728B" ،
"BETA_3Y": "0.91" ،
"PE_RATIO": "16.41" ،
"EPS_RATIO": "12.12" ،
"EARNINGS_DATE": [
"30 أبريل 2019"
] ،
"DIVIDEND_AND_YIELD": "2.92 (1.50٪)" ،
"EX_DIVIDEND_DATE": "2019-02-08" ،
"ONE_YEAR_TARGET_PRICE": "193.12"
}
}
[/الشفرة]
كشط بيانات المنتج والتسعير والمراجعة من مواقع التجارة الإلكترونية
للحصول على معلومات حول المنتجات المختلفة وأسعارها الحالية في السوق ، لا يوجد مكان أفضل لجمع البيانات من شركات التجارة الإلكترونية الكبيرة مثل Amazon️. في حين أن Amazon️ لديها تخطيطات صفحات مختلفة عبر فئات وفئات فرعية مختلفة وحتى في مناطق مختلفة في جميع أنحاء العالم ، يمكنك الزحف بأمان على الويب إلى كمية صغيرة من البيانات عبر فئات محدودة كما أوضحنا في هذه الصفحة ، حيث قمنا بتجميع بيانات المنتج ومعلومات التسعير .
باستخدام الكود ، يمكنك استخراج سعر المقالة وأهم ميزاتها. بمجرد أن تصبح الروابط التي ستحتاج إلى الزحف إليها بانتظام جاهزة ، يمكنك تشغيل الكود الخاص بك بتردد معين. بهذه الطريقة ستكون قادرًا على تتبع تغيرات أسعار هذا العنصر والاستفادة منه.
كشط بيانات المواقع الإخبارية من مواقع مثل بي بي سي ونيويورك تايمز والجزيرة
هناك طلب كبير على مجمعي الأخبار اليوم. إنهم يصنعون أحد أفضل أمثلة تجريف الويب التي ساعدت المستخدمين بشكل مباشر على زيادة إنتاجيتهم. لم يعد لدى الناس الوقت لتصفح الصحف أو حتى صفحات الويب بأكملها. إذن ما الذي يفعله مجمعو الأخبار بشكل مختلف؟
- يجمع مجمعو الأخبار الأخبار ويعرضون سطراً أو سطرين فقط يشرحون مقالة إخبارية باختصار. في حالة رغبتك في معرفة المزيد ، يمكنك النقر فوق ارتباط وسيقومون بتوجيهك إلى صفحة ويب إخبارية فعلية.
- يقومون بتجميع المقالات الإخبارية من وكالات الأنباء الكبرى مثل BBC️ و New York Times️ وغالبًا ما يساعد ذلك في تزويدك بصورة كاملة بمزيد من التفاصيل.
- مع مرور الوقت ، يتأكد التطبيق من إبداءات الإعجاب وعدم الإعجاب ويقدم لك مقالات إخبارية حسب استخدامك السابق.
كما ترى ، هذه بعض الأشياء التي تميز مجمعي الأخبار ، ومع ذلك ، فإن الخطوة الأولى في كل هذه العمليات هي تجميع البيانات ، والتي غالبًا ما تكون مجرد كشط المقالات الإخبارية من مواقع الويب المختلفة.
كشط بيانات العمل
التوظيف هو أحد الصناعات التي ، مثل صناعة العقارات ، وجدت دعمًا كبيرًا بفضل تجريف الويب وازدهار الإنترنت. في هذه الأيام ، يمكنك الزحف إلى قوائم الوظائف من كل من مواقع الشركة ولوحات الوظائف الشهيرة القائمة على الإنترنت ثم استخدام البيانات المجمعة لتعزيز عملك. سواء كنت شركة توظيف أو شركة استشارية أو تدير لوحة وظائف بنفسك ، فإن كشط بيانات الوظيفة أمر لا بد منه. أحد حلولنا العديدة لاستخراج بيانات الويب ، وهو JobsPikr ، يجعل من السهل جدًا الحصول على قوائم وظائف محدثة لإدارة التخطيط الاستراتيجي للقوى العاملة وإدارة الأعمال بكفاءة. إنها أداة اكتشاف وظائف مستقلة تمامًا يمكنها أن تجلب لك قائمة وظائف جديدة باستخدام عوامل تصفية مثل المسمى الوظيفي والموقع والمنصب والمزيد.
استخلاص الصور والبيانات النصية المطلوبة للبحث
مطلوب قدر هائل من البيانات في المشاريع البحثية عند العمل على نماذج مختلفة للتعلم الآلي. حتى لتدريب الكمبيوتر على التمييز بين صورة كلب وقطة ، ستحتاج إلى آلاف الصور للكلاب والقطط. يتم حل متطلبات البيانات هذه من خلال حلول تجريف الويب ويقوم العلماء اليوم بالزحف إلى صور Google ومصادر الصور الأخرى للحصول على صور لمشروعاتهم. لقد استخدمت بيانات Twitter لجمع الصور التي تم تحميلها على موقع التواصل الاجتماعي أثناء الفيضان. كنت أحاول فصل الصور المتعلقة بالفيضان عن تلك التي لم تكن كذلك.
تجريف الويب لإنشاء المحتوى
تحتاج الشركات إلى إنشاء محتوى عالي الجودة بشكل منتظم لزيادة الرؤية وتثقيف العملاء وبناء علامة تجارية وزيادة المبيعات. يساعد تجريف المحتوى على الإنترنت العاملين في مجال التسويق والإعلان على الحصول على أفكار أفضل وطرح الأفكار والتوصل إلى طرق جديدة لجذب العملاء وزيادة المبيعات.
بينما أوضحنا بعض أمثلة تجريف الويب ، فإن الاحتمالات لا حصر لها وتجريف الويب أمر يمكن الاستفادة منه من قبل الشركات المختلفة في سيناريوهات مختلفة. في نهاية اليوم ، تساعد في جعل العمليات والقرارات أكثر ذكاءً باستخدام قوة البيانات.
