ตัวอย่างการขูดเว็บที่ดีที่สุด - โดย Promptcloud
เผยแพร่แล้ว: 2019-08-19ข้อมูลได้กลายเป็นองค์ประกอบสำคัญของกลยุทธ์การเติบโตของทุกบริษัท เมื่อพูดถึงการรวบรวมข้อมูล มีแหล่งข้อมูลมากมาย อย่างไรก็ตาม การรวบรวมข้อมูลด้วยตนเองนั้นทำได้ยากเนื่องจากเหตุผลสองประการ – a) โอกาสในการผิดพลาดที่เพิ่มขึ้น และ b) กระบวนการที่ใช้เวลานาน วิธีที่ดีกว่าในการรวบรวมข้อมูลคือการรวบรวมข้อมูลจากเว็บ หรือเรียกสั้นๆ ว่าการขูดเว็บ เมื่อคุณได้ตั้งค่าระบบเพื่อรวบรวมข้อมูลจากเว็บไซต์บางแห่งและใช้ข้อมูลที่คัดลอกมาภายในเวิร์กโฟลว์ธุรกิจของคุณแล้ว คุณสามารถใช้ระบบเดิมต่อไปได้อีกหลายปี วันนี้เราจะมาพูดถึงตัวอย่างการขูดเว็บยอดนิยมที่เราเคยเจอที่ PromptCloud
การขูดข้อมูลอสังหาริมทรัพย์โดยใช้ Python
นี่เป็นหนึ่งในข้อมูลที่เป็นที่ต้องการมากที่สุดในโลก หนังสือหรือหลักสูตรแมชชีนเลิร์นนิงส่วนใหญ่เริ่มต้นด้วยชุดบ้าน รายละเอียด และราคาเพื่อสอนการถดถอยเชิงเส้นก่อนที่จะไปยังโมเดล ML ที่ซับซ้อน เว็บไซต์อสังหาริมทรัพย์ชั้นนำบางแห่งในสหรัฐอเมริกามีบ้านหลายล้านหลังทั้งในตลาดและนอก พวกเขายังมีราคาเช่า การประเมินราคาบ้านหลังจากผ่านไปหลายปี ฯลฯ เราคัดลอกข้อมูลจากเว็บไซต์ชั้นนำและคุณสามารถตรวจสอบลิงก์เหล่านี้พร้อมกับไฟล์ JSON ที่มีจุดข้อมูลหลายจุด
ตัวอย่าง 1
[รหัสภาษา =”หลาม”] {
"รายละเอียด": "327 101st St #1A, Brooklyn, NY เป็นบ้าน 3 ห้องนอน 3 ห้องน้ำ 1302 ตารางฟุตในการยึดสังหาริมทรัพย์ ลงชื่อเข้าใช้ Trulia เพื่อรับข้อมูลการยึดสังหาริมทรัพย์ทั้งหมด”,
“ลิงก์”: “https://www.trulia.com/p/ny/brooklyn/327-101st-st-1a-brooklyn-ny-11209–2180131215”,
"ราคา": {
“จำนวนเงิน”: “510000”,
“สกุลเงิน”: “USD”
},
“คำอธิบายกว้างๆ”: “ห้องดูเพล็กซ์ขนาดใหญ่มากมีชั้น 1 มีห้องสันทนาการสำเร็จรูป ห้องบันเทิง และห้องน้ำครึ่งห้อง ชั้นที่ 2 ประกอบด้วยห้องนอน 2 ห้อง ห้องน้ำเต็มรูปแบบ 2 ห้อง ห้องนั่งเล่น/ห้องรับประทานอาหาร และพื้นที่กลางแจ้ง มีจุดชมวิว Verrazano Bridge ดูคำแนะนำในการยึดสังหาริมทรัพย์ของเรา”,
“ภาพรวม”: [
“คอนโด”,
“3 เตียง”,
“ 3 ห้องน้ำ”,
“สร้างขึ้นในปี 2549”,
“ 5 วันใน Trulia”
“1,302 ตารางฟุต”,
“$392/ตารางฟุต”,
“143 มุมมอง”
] }
[/รหัส]
ตัวอย่าง 2
[รหัสภาษา =”หลาม”] {
“รายละเอียด_กว้าง”: {
“จำนวนห้อง”: 4,
“ขนาดพื้น (ตร.ฟุต)”: “1,728”
},
"ที่อยู่": {
“ถนน”: “638 Grant Ave”,
“ท้องถิ่น”: “นอร์ทบอลด์วิน”,
“ภูมิภาค”: “นิวยอร์ก”,
“รหัสไปรษณีย์”: “11510”
},
“หัวข้อ”: “638 Grant Ave, North Baldwin, NY 11510 | MLS #3137924 | ซิลโลว์”,
“Detail_Short”: “638 Grant Ave , North Baldwin, NY 11510-1332 เป็นบ้านเดี่ยวพร้อมขายในราคา $299,000 บ้าน 1,728 ตร.ฟุต มีขนาด 4 ห้องนอน 2.0 ห้องน้ำ ค้นหารูปภาพ 31 รูปของบ้าน 638 Grant Ave บน Zillow ดูรายละเอียดทรัพย์สิน ประวัติการขาย และข้อมูล Zestimate เพิ่มเติมบน Zillow MLS # 3137924”,
“ราคาเป็น $”: 299000,
“รูปภาพ”: “https://photos.zillowstatic.com/p_h/ISzz1p7wk4ktye1000000000.jpg”
}
[/รหัส]
ขูดข้อมูลโรงแรมจากพอร์ทัลท่องเที่ยวยอดนิยม
เว็บไซต์จองโรงแรมมีข้อมูลมากมาย เช่น ราคา รีวิว การให้คะแนน จำนวนผู้ที่ให้คะแนนโรงแรม และอื่นๆ เราแสดงวิธีการรวบรวมข้อมูลจากบริษัทจองรีวิวโรงแรมที่ใหญ่ที่สุดในบทความอื่น
การใช้ไลบรารีการแยกวิเคราะห์ HTML ที่เรียกว่า Beautiful Soup ทำให้เรารวบรวมข้อมูลหลายจุดข้อมูลได้ คุณสามารถใช้โค้ดเล็กๆ ด้านล่างเพื่อเข้าสู่เว็บไซต์ รับเนื้อหา HTML และแปลงเป็นวัตถุ Beautiful Soup เมื่อเสร็จแล้ว แยกวิเคราะห์วัตถุและค้นหาจุดข้อมูลเฉพาะในแท็กเฉพาะที่มีแอตทริบิวต์บางอย่างเป็นงานง่าย
[code language=”python”] warnings.simplefilter(“ละเว้น”)# สำหรับการละเว้นข้อผิดพลาดของใบรับรอง SSL
ctx = ssl.create_default_context()
ctx.check_hostname = เท็จ
ctx.verify_mode = ssl.CERT_NONE
url=input("ป้อน Hotel Url – “)
html = urllib.request.urlopen(url, บริบท = ctx).read()
ซุป = BeautifulSoup (html, 'html.parser')
html = soup.prettify (“utf-8”)
hotel_json = {}
[/รหัส]
รหัสเพื่อรับเนื้อหา HTML ของหน้าเว็บและแปลงเป็นวัตถุ Beautiful Soup
ขูดข้อมูลโซเชียลมีเดีย
หนึ่งในแหล่งข้อมูลผู้ใช้ที่ใหญ่ที่สุดคือโซเชียลมีเดีย ไม่ว่าคุณต้องการตรวจสอบว่าคนชอบเพลง ภาพยนตร์ หรือบริษัทใดโดยเฉพาะ ข้อมูลโซเชียลมีเดียสามารถช่วยให้คุณเข้าใจความรู้สึกของผู้ใช้และติดตามชื่อเสียงสาธารณะของบริษัทของคุณ ที่ PromptCloud เราได้คัดลอกข้อมูลจาก Twitter️, Instagram️ และแม้แต่ YouTube️ จุดข้อมูลในทั้งสามนั้นแตกต่างกัน ตัวอย่างเช่น จาก Instagram การดึงข้อมูลทำงานแบบนี้..
[รหัสภาษา =”python”] ผู้ใช้: Ariana Grande (@arianagrande)
ผู้ติดตาม: 130.5m
กำลังติดตาม: 1,348
กระทู้: 3,669
[/รหัส]
ข้อมูลที่คัดลอกมาจากบัญชี Instagram
อย่างไรก็ตาม จุดข้อมูลที่เราคัดลอกมาจาก YouTube️ นั้นแตกต่างอย่างสิ้นเชิง ตัวอย่างคือข้อมูลที่คัดลอกมาจากเพลงดังที่นำไปสู่ความท้าทายทางออนไลน์

[รหัสภาษา =”หลาม”]
{
“TITLE”: “Drake – In My Feelings (เนื้อเพลง, เสียง) ”Kiki Do you love me””,
“CHANNEL_NAME”: “เอกภาพพิเศษ”,
“NUMBER_OF_VIEWS”: “278,121,686 การดู”,
“ชอบ”: “2,407,688”,
“ไม่ชอบ”: “114,933”,
“NUMBER_OF_SUBSCRIPTIONS”: “614K”,
“HASH_TAGS”: [
“#InMyFeelings”,
“#เดรก”,
"#แมงป่อง"
] }
[/รหัส]
ข้อมูลที่คัดลอกมาจากหน้า YouTube️
สำหรับ Twitter โปรดทราบว่าเราต้องการบัญชีนักพัฒนา และเราสามารถรวบรวมข้อมูลทวีตสำหรับแต่ละบัญชีได้จนถึงจำนวนทวีตล่าสุด 3240 ของผู้ใช้รายนั้นเท่านั้น ดังนั้น คุณจะเห็นได้ว่าตัวอย่างการขูดเว็บต่างๆ อาจมีวิธีการและผลลัพธ์ที่แตกต่างกัน
ขูดเนื้อเพลงโดยใช้ Python จาก Sites Like Genius️
การขูดเนื้อเพลงเป็นสิ่งที่ผู้คนทำกันมาตั้งแต่ไหนแต่ไรแล้ว ข้อแตกต่างเพียงอย่างเดียวคือตอนนี้คุณสามารถรวบรวมข้อมูลเนื้อเพลงได้ง่ายขึ้นมากในไม่กี่วินาที โดยใช้โค้ดแทนที่จะใช้เวลาหลายชั่วโมงหรือหลายนาทีในการดำเนินการด้วยตนเอง ตัวอย่างหนึ่งคือบทความนี้ที่เราแสดงวิธีการรวบรวมข้อมูลเนื้อเพลงและข้อมูลที่เกี่ยวข้องอื่น ๆ จากเว็บไซต์เพลงยอดนิยมที่เรียกว่า Genius
เนื่องจากเว็บไซต์มีมากกว่าเนื้อเพลง เราจึงสามารถบันทึกข้อมูลต่างๆ เช่น ความคิดเห็น ชื่อเพลง และวันที่เผยแพร่ได้เช่นกัน
ขูดข้อมูลหุ้น Python จากเว็บไซต์เช่นเดียวกับ Yahoo️ Finance
ข้อมูลตลาดหุ้นเป็นแหล่งเก็บข้อมูลขนาดใหญ่แห่งหนึ่งที่มักจะวิเคราะห์โดยผู้ที่ศึกษาตลาดและตัดสินใจว่าจะวางเดิมพันไว้ที่ใด ข้อมูลทั้งในปัจจุบันและในอดีตมีค่ามาก เว็บไซต์หนึ่งที่สามารถดึงข้อมูลหุ้นเกี่ยวกับบริษัทต่างๆ ได้อย่างง่ายดายคือ Yahoo Finance ข้อมูลหุ้นไม่ได้หมายถึงราคาหุ้นในปัจจุบันเท่านั้น เนื่องจากเราสามารถรวบรวมข้อมูลจุดข้อมูลอื่นๆ ได้โดยใช้กระบวนการนี้
นี่คือจุดข้อมูลที่เราคัดลอกมาสำหรับ Apple️
[รหัสภาษา =”หลาม”] {
“PRESENT_VALUE”: “198.87”,
“PRESENT_GROWTH”: “-0.08 (-0.04%)”,
"รายละเอียดอื่น ๆ": {
“PREV_CLOSE”: “198.95”,
“เปิด”: “199.20”,
“ราคาเสนอ”: “198.91 x 800”,
“ถาม”: “198.99 x 1,000”,
“TD_VOLUME”: “27,760,668”,
“AVERAGE_VOLUME_3MONTH”: “28,641,896”,
“MARKET_CAP”: “937.728B”,
“BETA_3Y”: “0.91”,
“PE_RATIO”: “16.41”,
“EPS_RATIO”: “12.12”,
“EARNINGS_DATE”: [
“30 เม.ย. 2019”
],
“DIVIDEND_AND_YIELD”: “2.92 (1.50%)”,
“EX_DIVIDEND_DATE”: “2019-02-08”,
“ONE_YEAR_TARGET_PRICE”: “193.12”
}
}
[/รหัส]
ขูดข้อมูลผลิตภัณฑ์ ราคา และบทวิจารณ์จากเว็บไซต์อีคอมเมิร์ซ
สำหรับข้อมูลเกี่ยวกับผลิตภัณฑ์ต่างๆ และราคาในตลาดปัจจุบัน ไม่มีที่ใดที่จะรวบรวมข้อมูลได้ดีไปกว่าบริษัทอีคอมเมิร์ซขนาดใหญ่อย่าง Amazon️ แม้ว่า Amazon️ จะมีเค้าโครงหน้าที่แตกต่างกันในหมวดหมู่และหมวดหมู่ย่อยต่างๆ และแม้แต่ในภูมิภาคต่างๆ ทั่วโลก คุณสามารถรวบรวมข้อมูลเว็บจำนวนเล็กน้อยในหมวดหมู่ที่จำกัดได้อย่างปลอดภัยดังที่เราได้แสดงในหน้านี้ ซึ่งเราคัดแยกข้อมูลผลิตภัณฑ์และข้อมูลราคา .
คุณสามารถใช้รหัสเพื่อแยกราคาของบทความและคุณสมบัติเด่นของบทความได้ เมื่อลิงก์ที่คุณจะต้องรวบรวมข้อมูลเป็นประจำพร้อมแล้ว คุณสามารถเรียกใช้โค้ดของคุณในความถี่ที่ต้องการได้ ด้วยวิธีนี้ คุณจะสามารถติดตามการเปลี่ยนแปลงราคาของสินค้านั้นและใช้ประโยชน์จากมันได้
ขูดข้อมูลเว็บไซต์ข่าวจากเว็บไซต์อย่าง BBC, New York Times, Al Jazeera
ผู้รวบรวมข่าวเป็นที่ต้องการสูงในปัจจุบัน พวกเขาสร้างหนึ่งในตัวอย่างการขูดเว็บที่ดีที่สุดที่ช่วยให้ผู้ใช้เพิ่มประสิทธิภาพการทำงานได้โดยตรง ผู้คนไม่มีเวลาอ่านหนังสือพิมพ์หรือแม้แต่หน้าเว็บทั้งหมดอีกต่อไป แล้วผู้รวบรวมข่าวทำอะไรแตกต่างไปจากนี้?
- ผู้รวบรวมข่าวรวบรวมข่าวและแสดงเพียงหนึ่งหรือสองบรรทัดเพื่ออธิบายบทความข่าวโดยสังเขป ในกรณีที่คุณต้องการทราบข้อมูลเพิ่มเติม คุณสามารถคลิกที่ลิงค์และพวกเขาจะนำคุณไปยังหน้าเว็บข่าวจริง
- พวกเขารวบรวมบทความข่าวจากสำนักข่าวใหญ่ๆ อย่าง BBC️ และ New York Times️ และมักจะช่วยให้เห็นภาพที่สมบูรณ์ยิ่งขึ้นพร้อมรายละเอียดเพิ่มเติม
- เมื่อเวลาผ่านไป แอปจะตรวจสอบสิ่งที่คุณชอบและไม่ชอบ และนำเสนอบทความข่าวตามการใช้งานในอดีตของคุณ
คุณเห็นไหม สิ่งเหล่านี้คือสิ่งที่ทำให้ผู้รวบรวมข่าวแตกต่างออกไป แต่ขั้นตอนแรกในกระบวนการทั้งหมดเหล่านี้คือการรวบรวมข้อมูล ซึ่งมักจะเป็นเพียงการขูดบทความข่าวจากเว็บไซต์ต่างๆ
ขูดข้อมูลงาน
การสรรหาบุคลากรเป็นอุตสาหกรรมหนึ่งที่เหมือนกับอุตสาหกรรมอสังหาริมทรัพย์ พบว่ามีการเพิ่มขึ้นอย่างมากจากการขูดเว็บและการเฟื่องฟูทางอินเทอร์เน็ต ในปัจจุบัน คุณสามารถรวบรวมข้อมูลตำแหน่งงานจากเว็บไซต์ของบริษัทและกระดานรับสมัครงานทางอินเทอร์เน็ตยอดนิยม จากนั้นใช้ข้อมูลที่รวบรวมมาเพื่อส่งเสริมธุรกิจของคุณ ไม่ว่าคุณจะเป็นบริษัทจัดหางานหรือที่ปรึกษา หรือบริหารบอร์ดงานด้วยตัวเอง การขูดข้อมูลงานก็เป็นสิ่งจำเป็น JobsPikr หนึ่งในโซลูชันการขูดเว็บของเรา ทำให้การรับรายชื่องานที่อัปเดตเป็นเรื่องง่ายมาก เพื่อจัดการการวางแผนกำลังคนเชิงกลยุทธ์และการดำเนินธุรกิจอย่างมีประสิทธิภาพ เป็นเครื่องมือค้นหาตำแหน่งงานอัตโนมัติที่สามารถดึงข้อมูลตำแหน่งงานใหม่ให้คุณโดยใช้ตัวกรอง เช่น ตำแหน่ง ตำแหน่ง โพสต์ และอื่นๆ
ขูดรูปภาพและข้อความที่จำเป็นสำหรับการวิจัย
ต้องใช้ข้อมูลจำนวนมากในโครงการวิจัยเมื่อทำงานกับโมเดลการเรียนรู้ของเครื่องที่แตกต่างกัน แม้แต่การฝึกคอมพิวเตอร์ให้แยกแยะระหว่างภาพสุนัขกับแมว คุณจะต้องมีภาพสุนัขและแมวหลายพันภาพ ข้อกำหนดด้านข้อมูลดังกล่าวได้รับการแก้ไขโดยใช้โซลูชันการขูดเว็บ และในปัจจุบันนักวิทยาศาสตร์ได้รวบรวมข้อมูลรูปภาพของ Google และแหล่งที่มาของรูปภาพอื่นๆ เพื่อรับรูปภาพสำหรับโครงการของตน ฉันใช้ข้อมูล Twitter เพื่อรวบรวมภาพที่อัปโหลดไปยังไซต์โซเชียลมีเดียในช่วงน้ำท่วม ผมพยายามแยกภาพที่เกี่ยวข้องกับน้ำท่วมออกจากภาพที่ไม่ใช่
Web Scraping สำหรับการสร้างเนื้อหา
บริษัทจำเป็นต้องสร้างเนื้อหาคุณภาพสูงเป็นประจำเพื่อเพิ่มการมองเห็น ให้ความรู้ลูกค้า สร้างแบรนด์ และเพิ่มยอดขาย การคัดลอกเนื้อหาบนอินเทอร์เน็ตช่วยให้ผู้ทำการตลาดและโฆษณาได้รับแนวคิดที่ดีขึ้น ระดมความคิด และคิดหาวิธีใหม่ๆ ในการดึงดูดลูกค้า และเพิ่มยอดขาย
ในขณะที่เราอธิบายตัวอย่างการขูดเว็บบางส่วน ความเป็นไปได้นั้นไม่มีที่สิ้นสุดและการขูดเว็บเป็นสิ่งที่ธุรกิจต่างๆ สามารถใช้ประโยชน์ได้ในสถานการณ์ที่แตกต่างกัน ในท้ายที่สุด จะช่วยให้กระบวนการและการตัดสินใจฉลาดขึ้นโดยใช้พลังของข้อมูล
