ตัวอย่างการขูดเว็บที่ดีที่สุด - โดย Promptcloud

เผยแพร่แล้ว: 2019-08-19
สารบัญ แสดง
การขูดข้อมูลอสังหาริมทรัพย์โดยใช้ Python
ขูดข้อมูลโรงแรมจากพอร์ทัลท่องเที่ยวยอดนิยม
ขูดข้อมูลโซเชียลมีเดีย
ขูดเนื้อเพลงโดยใช้ Python จาก Sites Like Genius️
ขูดข้อมูลหุ้น Python จากเว็บไซต์เช่นเดียวกับ Yahoo️ Finance
ขูดข้อมูลผลิตภัณฑ์ ราคา และบทวิจารณ์จากเว็บไซต์อีคอมเมิร์ซ
ขูดข้อมูลเว็บไซต์ข่าวจากเว็บไซต์อย่าง BBC, New York Times, Al Jazeera
ขูดข้อมูลงาน
ขูดรูปภาพและข้อความที่จำเป็นสำหรับการวิจัย
Web Scraping สำหรับการสร้างเนื้อหา

ข้อมูลได้กลายเป็นองค์ประกอบสำคัญของกลยุทธ์การเติบโตของทุกบริษัท เมื่อพูดถึงการรวบรวมข้อมูล มีแหล่งข้อมูลมากมาย อย่างไรก็ตาม การรวบรวมข้อมูลด้วยตนเองนั้นทำได้ยากเนื่องจากเหตุผลสองประการ – a) โอกาสในการผิดพลาดที่เพิ่มขึ้น และ b) กระบวนการที่ใช้เวลานาน วิธีที่ดีกว่าในการรวบรวมข้อมูลคือการรวบรวมข้อมูลจากเว็บ หรือเรียกสั้นๆ ว่าการขูดเว็บ เมื่อคุณได้ตั้งค่าระบบเพื่อรวบรวมข้อมูลจากเว็บไซต์บางแห่งและใช้ข้อมูลที่คัดลอกมาภายในเวิร์กโฟลว์ธุรกิจของคุณแล้ว คุณสามารถใช้ระบบเดิมต่อไปได้อีกหลายปี วันนี้เราจะมาพูดถึงตัวอย่างการขูดเว็บยอดนิยมที่เราเคยเจอที่ PromptCloud

การขูดข้อมูลอสังหาริมทรัพย์โดยใช้ Python

นี่เป็นหนึ่งในข้อมูลที่เป็นที่ต้องการมากที่สุดในโลก หนังสือหรือหลักสูตรแมชชีนเลิร์นนิงส่วนใหญ่เริ่มต้นด้วยชุดบ้าน รายละเอียด และราคาเพื่อสอนการถดถอยเชิงเส้นก่อนที่จะไปยังโมเดล ML ที่ซับซ้อน เว็บไซต์อสังหาริมทรัพย์ชั้นนำบางแห่งในสหรัฐอเมริกามีบ้านหลายล้านหลังทั้งในตลาดและนอก พวกเขายังมีราคาเช่า การประเมินราคาบ้านหลังจากผ่านไปหลายปี ฯลฯ เราคัดลอกข้อมูลจากเว็บไซต์ชั้นนำและคุณสามารถตรวจสอบลิงก์เหล่านี้พร้อมกับไฟล์ JSON ที่มีจุดข้อมูลหลายจุด

ตัวอย่าง 1

[รหัสภาษา =”หลาม”] {
"รายละเอียด": "327 101st St #1A, Brooklyn, NY เป็นบ้าน 3 ห้องนอน 3 ห้องน้ำ 1302 ตารางฟุตในการยึดสังหาริมทรัพย์ ลงชื่อเข้าใช้ Trulia เพื่อรับข้อมูลการยึดสังหาริมทรัพย์ทั้งหมด”,
“ลิงก์”: “https://www.trulia.com/p/ny/brooklyn/327-101st-st-1a-brooklyn-ny-11209–2180131215”,
"ราคา": {
“จำนวนเงิน”: “510000”,
“สกุลเงิน”: “USD”
},
“คำอธิบายกว้างๆ”: “ห้องดูเพล็กซ์ขนาดใหญ่มากมีชั้น 1 มีห้องสันทนาการสำเร็จรูป ห้องบันเทิง และห้องน้ำครึ่งห้อง ชั้นที่ 2 ประกอบด้วยห้องนอน 2 ห้อง ห้องน้ำเต็มรูปแบบ 2 ห้อง ห้องนั่งเล่น/ห้องรับประทานอาหาร และพื้นที่กลางแจ้ง มีจุดชมวิว Verrazano Bridge ดูคำแนะนำในการยึดสังหาริมทรัพย์ของเรา”,
“ภาพรวม”: [
“คอนโด”,
“3 เตียง”,
“ 3 ห้องน้ำ”,
“สร้างขึ้นในปี 2549”,
“ 5 วันใน Trulia”
“1,302 ตารางฟุต”,
“$392/ตารางฟุต”,
“143 มุมมอง”
] }
[/รหัส]

ตัวอย่าง 2

[รหัสภาษา =”หลาม”] {
“รายละเอียด_กว้าง”: {
“จำนวนห้อง”: 4,
“ขนาดพื้น (ตร.ฟุต)”: “1,728”
},
"ที่อยู่": {
“ถนน”: “638 Grant Ave”,
“ท้องถิ่น”: “นอร์ทบอลด์วิน”,
“ภูมิภาค”: “นิวยอร์ก”,
“รหัสไปรษณีย์”: “11510”
},
“หัวข้อ”: “638 Grant Ave, North Baldwin, NY 11510 | MLS #3137924 | ซิลโลว์”,
“Detail_Short”: “638 Grant Ave , North Baldwin, NY 11510-1332 เป็นบ้านเดี่ยวพร้อมขายในราคา $299,000 บ้าน 1,728 ตร.ฟุต มีขนาด 4 ห้องนอน 2.0 ห้องน้ำ ค้นหารูปภาพ 31 รูปของบ้าน 638 Grant Ave บน Zillow ดูรายละเอียดทรัพย์สิน ประวัติการขาย และข้อมูล Zestimate เพิ่มเติมบน Zillow MLS # 3137924”,
“ราคาเป็น $”: 299000,
“รูปภาพ”: “https://photos.zillowstatic.com/p_h/ISzz1p7wk4ktye1000000000.jpg”
}
[/รหัส]

ขูดข้อมูลโรงแรมจากพอร์ทัลท่องเที่ยวยอดนิยม

เว็บไซต์จองโรงแรมมีข้อมูลมากมาย เช่น ราคา รีวิว การให้คะแนน จำนวนผู้ที่ให้คะแนนโรงแรม และอื่นๆ เราแสดงวิธีการรวบรวมข้อมูลจากบริษัทจองรีวิวโรงแรมที่ใหญ่ที่สุดในบทความอื่น

การใช้ไลบรารีการแยกวิเคราะห์ HTML ที่เรียกว่า Beautiful Soup ทำให้เรารวบรวมข้อมูลหลายจุดข้อมูลได้ คุณสามารถใช้โค้ดเล็กๆ ด้านล่างเพื่อเข้าสู่เว็บไซต์ รับเนื้อหา HTML และแปลงเป็นวัตถุ Beautiful Soup เมื่อเสร็จแล้ว แยกวิเคราะห์วัตถุและค้นหาจุดข้อมูลเฉพาะในแท็กเฉพาะที่มีแอตทริบิวต์บางอย่างเป็นงานง่าย

[code language=”python”] warnings.simplefilter(“ละเว้น”)# สำหรับการละเว้นข้อผิดพลาดของใบรับรอง SSL
ctx = ssl.create_default_context()
ctx.check_hostname = เท็จ
ctx.verify_mode = ssl.CERT_NONE
url=input("ป้อน Hotel Url – “)
html = urllib.request.urlopen(url, บริบท = ctx).read()
ซุป = BeautifulSoup (html, 'html.parser')
html = soup.prettify (“utf-8”)
hotel_json = {}
[/รหัส]

รหัสเพื่อรับเนื้อหา HTML ของหน้าเว็บและแปลงเป็นวัตถุ Beautiful Soup

ขูดข้อมูลโซเชียลมีเดีย

หนึ่งในแหล่งข้อมูลผู้ใช้ที่ใหญ่ที่สุดคือโซเชียลมีเดีย ไม่ว่าคุณต้องการตรวจสอบว่าคนชอบเพลง ภาพยนตร์ หรือบริษัทใดโดยเฉพาะ ข้อมูลโซเชียลมีเดียสามารถช่วยให้คุณเข้าใจความรู้สึกของผู้ใช้และติดตามชื่อเสียงสาธารณะของบริษัทของคุณ ที่ PromptCloud เราได้คัดลอกข้อมูลจาก Twitter️, Instagram️ และแม้แต่ YouTube️ จุดข้อมูลในทั้งสามนั้นแตกต่างกัน ตัวอย่างเช่น จาก Instagram การดึงข้อมูลทำงานแบบนี้..

[รหัสภาษา =”python”] ผู้ใช้: Ariana Grande (@arianagrande)
ผู้ติดตาม: 130.5m
กำลังติดตาม: 1,348
กระทู้: 3,669
[/รหัส]

ข้อมูลที่คัดลอกมาจากบัญชี Instagram

อย่างไรก็ตาม จุดข้อมูลที่เราคัดลอกมาจาก YouTube️ นั้นแตกต่างอย่างสิ้นเชิง ตัวอย่างคือข้อมูลที่คัดลอกมาจากเพลงดังที่นำไปสู่ความท้าทายทางออนไลน์

[รหัสภาษา =”หลาม”]

{
“TITLE”: “Drake – In My Feelings (เนื้อเพลง, เสียง) ”Kiki Do you love me””,
“CHANNEL_NAME”: “เอกภาพพิเศษ”,
“NUMBER_OF_VIEWS”: “278,121,686 การดู”,
“ชอบ”: “2,407,688”,
“ไม่ชอบ”: “114,933”,
“NUMBER_OF_SUBSCRIPTIONS”: “614K”,
“HASH_TAGS”: [
“#InMyFeelings”,
“#เดรก”,
"#แมงป่อง"
] }
[/รหัส]

ข้อมูลที่คัดลอกมาจากหน้า YouTube️

สำหรับ Twitter โปรดทราบว่าเราต้องการบัญชีนักพัฒนา และเราสามารถรวบรวมข้อมูลทวีตสำหรับแต่ละบัญชีได้จนถึงจำนวนทวีตล่าสุด 3240 ของผู้ใช้รายนั้นเท่านั้น ดังนั้น คุณจะเห็นได้ว่าตัวอย่างการขูดเว็บต่างๆ อาจมีวิธีการและผลลัพธ์ที่แตกต่างกัน

ขูดเนื้อเพลงโดยใช้ Python จาก Sites Like Genius️

การขูดเนื้อเพลงเป็นสิ่งที่ผู้คนทำกันมาตั้งแต่ไหนแต่ไรแล้ว ข้อแตกต่างเพียงอย่างเดียวคือตอนนี้คุณสามารถรวบรวมข้อมูลเนื้อเพลงได้ง่ายขึ้นมากในไม่กี่วินาที โดยใช้โค้ดแทนที่จะใช้เวลาหลายชั่วโมงหรือหลายนาทีในการดำเนินการด้วยตนเอง ตัวอย่างหนึ่งคือบทความนี้ที่เราแสดงวิธีการรวบรวมข้อมูลเนื้อเพลงและข้อมูลที่เกี่ยวข้องอื่น ๆ จากเว็บไซต์เพลงยอดนิยมที่เรียกว่า Genius

เนื่องจากเว็บไซต์มีมากกว่าเนื้อเพลง เราจึงสามารถบันทึกข้อมูลต่างๆ เช่น ความคิดเห็น ชื่อเพลง และวันที่เผยแพร่ได้เช่นกัน

ขูดข้อมูลหุ้น Python จากเว็บไซต์เช่นเดียวกับ Yahoo️ Finance

ข้อมูลตลาดหุ้นเป็นแหล่งเก็บข้อมูลขนาดใหญ่แห่งหนึ่งที่มักจะวิเคราะห์โดยผู้ที่ศึกษาตลาดและตัดสินใจว่าจะวางเดิมพันไว้ที่ใด ข้อมูลทั้งในปัจจุบันและในอดีตมีค่ามาก เว็บไซต์หนึ่งที่สามารถดึงข้อมูลหุ้นเกี่ยวกับบริษัทต่างๆ ได้อย่างง่ายดายคือ Yahoo Finance ข้อมูลหุ้นไม่ได้หมายถึงราคาหุ้นในปัจจุบันเท่านั้น เนื่องจากเราสามารถรวบรวมข้อมูลจุดข้อมูลอื่นๆ ได้โดยใช้กระบวนการนี้

นี่คือจุดข้อมูลที่เราคัดลอกมาสำหรับ Apple️

[รหัสภาษา =”หลาม”] {
“PRESENT_VALUE”: “198.87”,
“PRESENT_GROWTH”: “-0.08 (-0.04%)”,
"รายละเอียดอื่น ๆ": {
“PREV_CLOSE”: “198.95”,
“เปิด”: “199.20”,
“ราคาเสนอ”: “198.91 x 800”,
“ถาม”: “198.99 x 1,000”,
“TD_VOLUME”: “27,760,668”,
“AVERAGE_VOLUME_3MONTH”: “28,641,896”,
“MARKET_CAP”: “937.728B”,
“BETA_3Y”: “0.91”,
“PE_RATIO”: “16.41”,
“EPS_RATIO”: “12.12”,
“EARNINGS_DATE”: [
“30 เม.ย. 2019”
],
“DIVIDEND_AND_YIELD”: “2.92 (1.50%)”,
“EX_DIVIDEND_DATE”: “2019-02-08”,
“ONE_YEAR_TARGET_PRICE”: “193.12”
}
}
[/รหัส]

ขูดข้อมูลผลิตภัณฑ์ ราคา และบทวิจารณ์จากเว็บไซต์อีคอมเมิร์ซ

สำหรับข้อมูลเกี่ยวกับผลิตภัณฑ์ต่างๆ และราคาในตลาดปัจจุบัน ไม่มีที่ใดที่จะรวบรวมข้อมูลได้ดีไปกว่าบริษัทอีคอมเมิร์ซขนาดใหญ่อย่าง Amazon️ แม้ว่า Amazon️ จะมีเค้าโครงหน้าที่แตกต่างกันในหมวดหมู่และหมวดหมู่ย่อยต่างๆ และแม้แต่ในภูมิภาคต่างๆ ทั่วโลก คุณสามารถรวบรวมข้อมูลเว็บจำนวนเล็กน้อยในหมวดหมู่ที่จำกัดได้อย่างปลอดภัยดังที่เราได้แสดงในหน้านี้ ซึ่งเราคัดแยกข้อมูลผลิตภัณฑ์และข้อมูลราคา .

คุณสามารถใช้รหัสเพื่อแยกราคาของบทความและคุณสมบัติเด่นของบทความได้ เมื่อลิงก์ที่คุณจะต้องรวบรวมข้อมูลเป็นประจำพร้อมแล้ว คุณสามารถเรียกใช้โค้ดของคุณในความถี่ที่ต้องการได้ ด้วยวิธีนี้ คุณจะสามารถติดตามการเปลี่ยนแปลงราคาของสินค้านั้นและใช้ประโยชน์จากมันได้

ขูดข้อมูลเว็บไซต์ข่าวจากเว็บไซต์อย่าง BBC, New York Times, Al Jazeera

ผู้รวบรวมข่าวเป็นที่ต้องการสูงในปัจจุบัน พวกเขาสร้างหนึ่งในตัวอย่างการขูดเว็บที่ดีที่สุดที่ช่วยให้ผู้ใช้เพิ่มประสิทธิภาพการทำงานได้โดยตรง ผู้คนไม่มีเวลาอ่านหนังสือพิมพ์หรือแม้แต่หน้าเว็บทั้งหมดอีกต่อไป แล้วผู้รวบรวมข่าวทำอะไรแตกต่างไปจากนี้?

  • ผู้รวบรวมข่าวรวบรวมข่าวและแสดงเพียงหนึ่งหรือสองบรรทัดเพื่ออธิบายบทความข่าวโดยสังเขป ในกรณีที่คุณต้องการทราบข้อมูลเพิ่มเติม คุณสามารถคลิกที่ลิงค์และพวกเขาจะนำคุณไปยังหน้าเว็บข่าวจริง
  • พวกเขารวบรวมบทความข่าวจากสำนักข่าวใหญ่ๆ อย่าง BBC️ และ New York Times️ และมักจะช่วยให้เห็นภาพที่สมบูรณ์ยิ่งขึ้นพร้อมรายละเอียดเพิ่มเติม
  • เมื่อเวลาผ่านไป แอปจะตรวจสอบสิ่งที่คุณชอบและไม่ชอบ และนำเสนอบทความข่าวตามการใช้งานในอดีตของคุณ

คุณเห็นไหม สิ่งเหล่านี้คือสิ่งที่ทำให้ผู้รวบรวมข่าวแตกต่างออกไป แต่ขั้นตอนแรกในกระบวนการทั้งหมดเหล่านี้คือการรวบรวมข้อมูล ซึ่งมักจะเป็นเพียงการขูดบทความข่าวจากเว็บไซต์ต่างๆ

ขูดข้อมูลงาน

การสรรหาบุคลากรเป็นอุตสาหกรรมหนึ่งที่เหมือนกับอุตสาหกรรมอสังหาริมทรัพย์ พบว่ามีการเพิ่มขึ้นอย่างมากจากการขูดเว็บและการเฟื่องฟูทางอินเทอร์เน็ต ในปัจจุบัน คุณสามารถรวบรวมข้อมูลตำแหน่งงานจากเว็บไซต์ของบริษัทและกระดานรับสมัครงานทางอินเทอร์เน็ตยอดนิยม จากนั้นใช้ข้อมูลที่รวบรวมมาเพื่อส่งเสริมธุรกิจของคุณ ไม่ว่าคุณจะเป็นบริษัทจัดหางานหรือที่ปรึกษา หรือบริหารบอร์ดงานด้วยตัวเอง การขูดข้อมูลงานก็เป็นสิ่งจำเป็น JobsPikr หนึ่งในโซลูชันการขูดเว็บของเรา ทำให้การรับรายชื่องานที่อัปเดตเป็นเรื่องง่ายมาก เพื่อจัดการการวางแผนกำลังคนเชิงกลยุทธ์และการดำเนินธุรกิจอย่างมีประสิทธิภาพ เป็นเครื่องมือค้นหาตำแหน่งงานอัตโนมัติที่สามารถดึงข้อมูลตำแหน่งงานใหม่ให้คุณโดยใช้ตัวกรอง เช่น ตำแหน่ง ตำแหน่ง โพสต์ และอื่นๆ

ขูดรูปภาพและข้อความที่จำเป็นสำหรับการวิจัย

ต้องใช้ข้อมูลจำนวนมากในโครงการวิจัยเมื่อทำงานกับโมเดลการเรียนรู้ของเครื่องที่แตกต่างกัน แม้แต่การฝึกคอมพิวเตอร์ให้แยกแยะระหว่างภาพสุนัขกับแมว คุณจะต้องมีภาพสุนัขและแมวหลายพันภาพ ข้อกำหนดด้านข้อมูลดังกล่าวได้รับการแก้ไขโดยใช้โซลูชันการขูดเว็บ และในปัจจุบันนักวิทยาศาสตร์ได้รวบรวมข้อมูลรูปภาพของ Google และแหล่งที่มาของรูปภาพอื่นๆ เพื่อรับรูปภาพสำหรับโครงการของตน ฉันใช้ข้อมูล Twitter เพื่อรวบรวมภาพที่อัปโหลดไปยังไซต์โซเชียลมีเดียในช่วงน้ำท่วม ผมพยายามแยกภาพที่เกี่ยวข้องกับน้ำท่วมออกจากภาพที่ไม่ใช่

Web Scraping สำหรับการสร้างเนื้อหา

บริษัทจำเป็นต้องสร้างเนื้อหาคุณภาพสูงเป็นประจำเพื่อเพิ่มการมองเห็น ให้ความรู้ลูกค้า สร้างแบรนด์ และเพิ่มยอดขาย การคัดลอกเนื้อหาบนอินเทอร์เน็ตช่วยให้ผู้ทำการตลาดและโฆษณาได้รับแนวคิดที่ดีขึ้น ระดมความคิด และคิดหาวิธีใหม่ๆ ในการดึงดูดลูกค้า และเพิ่มยอดขาย

ในขณะที่เราอธิบายตัวอย่างการขูดเว็บบางส่วน ความเป็นไปได้นั้นไม่มีที่สิ้นสุดและการขูดเว็บเป็นสิ่งที่ธุรกิจต่างๆ สามารถใช้ประโยชน์ได้ในสถานการณ์ที่แตกต่างกัน ในท้ายที่สุด จะช่วยให้กระบวนการและการตัดสินใจฉลาดขึ้นโดยใช้พลังของข้อมูล