คู่มือฉบับสมบูรณ์สำหรับเครื่องมือค้นหาชุดข้อมูล Google ใหม่ – Promptcloud
เผยแพร่แล้ว: 2018-10-18เมื่อฉันเขียนอัลกอริธึมแมชชีนเลิร์นนิงครั้งแรก ฉันใช้ คอลเล็กชันชุดข้อมูล แมมมอธที่ โฮสต์โดย UC Irvine เพื่อเรียนรู้เกี่ยวกับเชือก มีชุดข้อมูลมากมายให้ฝึกฝน 442 เป็นที่แน่นอน แต่ปัญหาคือ สิ่งเหล่านี้เป็นชุดข้อมูลที่ถูกใช้โดยผู้คนจำนวนมากทั่วโลก และสิ่งที่ค้นพบเกือบทั้งหมดที่จะได้รับจากพวกเขา ได้รับการตีพิมพ์แล้ว นอกจากนี้ วิทยาศาสตร์ข้อมูลยังมีความก้าวหน้าในหลายสาขา มีชุดข้อมูลหลายประเภทที่คุณอาจต้องการศึกษา ในกรณีนั้น 442 นั้นมีขนาดเล็ก เกือบหนึ่งหยดในมหาสมุทร และการค้นหาชุดข้อมูลของ Google ก็เช่นกัน
แต่เมื่อใดที่เราต้องการค้นหาบางสิ่ง เราจะ "Google" สิ่งนั้นใช่ไหม ดังนั้น ถ้าฉันต้องการชุดข้อมูลที่มีรายละเอียดเกี่ยวกับผู้ป่วยโรคมะเร็งในภูมิภาค เพื่อค้นหาว่าการอาศัยอยู่ในเขตเมืองเพิ่มโอกาสในการเกิดโรคร้ายแรงหรือไม่ ฉันมักจะจบลงด้วยการ "กูเกิล" กับมัน อย่างไรก็ตาม สิ่งที่คุณต้องเข้าใจคือ Google ทำงานโดยใช้การจับคู่คำ มีแนวโน้มที่จะดึงบทความของคุณที่มีคำว่า "ชุดข้อมูลของผู้ป่วยโรคมะเร็ง" เมื่อคุณค้นหามากกว่าการให้ชุดข้อมูลจริงแก่คุณ และนี่คือเหตุผลที่ Google ได้เปิดตัว Google dataset search beta ในวันที่ 5 กันยายนปีนี้
ตอนนี้ คุณสามารถค้นหาคำสำคัญ และค้นหาชุดข้อมูลที่เกี่ยวข้องได้ แต่คุณต้องค้นหาด้วยอะไร? เราทุกคนรู้กลเม็ดและเคล็ดลับบางอย่างที่ได้ผลเมื่อค้นหาบน Google กฎดังกล่าวมีผลบังคับใช้เมื่อค้นหา google โดยเฉพาะหรือไม่ ใช่ ตามข้อมูลของ Google คุณจะพบว่าการเก็บเกี่ยวชุดข้อมูลจาก Google Search Engine นั้นง่ายกว่ามาก ในกรณีที่คุณให้ข้อมูล เช่น ชื่อของชุดข้อมูล คำอธิบาย ข้อมูลผู้สร้าง และรูปแบบ (CSV, JSON เป็นต้น) ). แม้แต่ชุดข้อมูลในภาษามาร์กอัปก็สามารถค้นพบได้ด้วยความช่วยเหลือของเครื่องมือค้นหาใหม่ทั้งหมด
สำหรับคนที่ต้องการให้ Google ค้นหาชุดข้อมูลในเว็บไซต์ของตนและแสดงให้ผู้ใช้เห็น Google กล่าวว่าแม้ว่าคุณลักษณะนี้จะอยู่ในช่วงทดลอง แต่สิ่งต่างๆ ก็ดำเนินไปอย่างรวดเร็ว และคุณสามารถเริ่มเพิ่มชุดข้อมูลโดยการเพิ่มข้อมูลที่มีโครงสร้างลงในเว็บไซต์ของคุณ และพวกเขาจะทำ ในที่สุดก็เกิดขึ้นในเครื่องมือค้นหาเมื่อผู้คนค้นหาด้วยคำที่เกี่ยวข้อง
เหตุใด Google จึงสร้างสิ่งนี้ขึ้นมา
มีที่เก็บข้อมูลหลายพันแห่งที่มีข้อมูลบนเว็บและช่วยให้สามารถเข้าถึงชุดข้อมูลนับล้านได้ ชุดข้อมูลเหล่านี้อาจเป็นของรัฐบาลระดับชาติ ระดับนานาชาติ หรือระดับภูมิภาค องค์กรไม่แสวงหากำไร หรือแม้แต่บริษัทที่ต้องการมีส่วนร่วมกับสาธารณะในการจัดการกับชุดข้อมูลของตน ชุดข้อมูลจำนวนมากถูกเปิดเผยโดยองค์กรวิจัยและวิทยาลัยระดับอุดมศึกษา การเข้าถึงชุดข้อมูลเหล่านี้มีความสำคัญอย่างยิ่ง เพื่อช่วยให้การไหลของข้อมูลเป็นไปอย่างง่ายดาย ชุดข้อมูลที่ติดอยู่ภายใต้ค่าธรรมเนียมพันดอลลาร์อาจอยู่ไกลเกินเอื้อมของนักวิจัยหลายคนที่อาจมีเหตุผลจากข้อมูล
แต่ปัญหาอยู่ที่ปริมาณ ด้วยข้อมูลจำนวนมากบนอินเทอร์เน็ต การค้นหาชุดข้อมูลใดชุดหนึ่งจึงเป็นเรื่องยาก แม้ว่าคุณจะจำกัดให้แคบลงเป็นหมวดหมู่ หมวดหมู่ย่อย ภูมิภาค และอื่นๆ ก็ตาม คุณสามารถระบุได้ว่าคุณกำลังค้นหาข้อมูลเกี่ยวกับโรค ภาพยนตร์ พืช สัตว์ ภัยพิบัติ การพบเห็นยูเอฟโอ และอีกมากมาย และในทางทฤษฎี คุณควรจะสามารถหาสิ่งเหล่านี้ได้ง่าย แต่ปัจจุบันไม่เป็นเช่นนั้น
Google กำลังแก้ปัญหาโดยอนุญาตให้บุคคลแนบข้อมูลเมตาในรูปแบบเฉพาะซึ่งจะอยู่ภายใต้มาตรฐานบางประการ เพื่อช่วยให้ Google ติดตามชุดข้อมูลได้ง่ายขึ้น ข้อมูลเมตาเหล่านี้จะช่วยให้ Google สร้างชุดข้อมูลให้สาธารณชนเข้าถึงได้ง่าย

ทำไมโปรแกรมยังอยู่ในช่วงเบต้า?
แม้ว่าปัญหาทางเทคนิคส่วนใหญ่ได้รับการแก้ไขแล้ว แต่ความท้าทายหลักคือคำถามบางข้อที่ยังไม่ได้รับคำตอบ คำถามเหล่านี้บางส่วนคือ - คำจำกัดความสากลของชุดข้อมูลคืออะไร ตารางเดียวสามารถเรียกว่าชุดข้อมูลได้หรือไม่? แล้วคอลเลกชันของตารางล่ะ? โฟลเดอร์รูปภาพ? จะบอกว่าภาพในโฟลเดอร์มีความเกี่ยวข้องกันอย่างไร? หรือตารางที่พบรวมกันมีความเกี่ยวข้องกัน? แล้ว API ที่ให้ชุดข้อมูลล่ะ เป็นไปได้ไหมที่จะเชื่อมโยงชุดข้อมูลที่คล้ายกันโดยใช้พารามิเตอร์บางอย่าง?
ปัญหาคือชุดข้อมูลถูกสร้างขึ้นมาเป็นเวลานานและถูกจัดเก็บในรูปแบบต่างๆ มากมาย และไม่มีทางที่จะค้นหาข้อมูลหลักหรือข้อมูลเมตา หรือแท็กที่สามารถระบุได้ทันทีจากส่วนลึกของอินเทอร์เน็ต และนี่คือสิ่งที่ Google พยายามทำ ดังนั้นสิ่งที่พวกเขาแนะนำคือสำหรับผู้ที่กำลังอัปโหลดข้อมูล ปฏิบัติตามอนุสัญญาที่เหมาะสม และผู้ที่ใช้ข้อมูล ในการวิจัย เพื่อให้การอ้างอิงที่เหมาะสม ท้ายที่สุด Google เป็นเพียงเครื่องมือค้นหา มันแสดงให้เราเห็นข้อมูลที่มีอยู่ก่อน ไม่สามารถหาสิ่งที่ไม่อยู่ในสภาพที่จะพบได้ เว้นแต่ผู้คนจะเริ่มจัดการข้อมูลอย่างมีความรับผิดชอบ โดยการจัดเก็บในรูปแบบที่แนะนำและเพิ่มข้อมูลเมตาและการอ้างอิง สิ่งต่างๆ จะแย่ลงไปอีกเมื่อมีการเพิ่มชุดข้อมูลลงในเว็บทุกวัน
จะใช้การค้นหาชุดข้อมูลของ Google ได้อย่างไร
คุณสามารถค้นหาชุดข้อมูลประเภทต่างๆ และจากข้อมูลของ Google ชุดข้อมูลอาจเป็นสิ่งต่อไปนี้
- รวมตารางที่เกี่ยวโยงกัน
- ข้อมูลในรูปแบบ CSV หรือตาราง
- ชุดรูปภาพหรือวิดีโอ
- ไฟล์รูปแบบที่เป็นกรรมสิทธิ์ใดๆ ที่มี data
- คอลเล็กชันของไฟล์ที่รวมกันเป็นชุดข้อมูลบางรูปแบบ
- วัตถุเช่น JSON ที่สามารถประมวลผลเพื่อสร้างชุดข้อมูล
- โมเดลไบนารีเช่นที่ผลิตโดย Tensorflow
- อะไรก็ได้ที่ดูเหมือนชุดข้อมูลด้วยตาเปล่า
นี่คือลักษณะของเครื่องมือค้นหา และ คุณสามารถดำเนินการค้นหาบางอย่างได้ตามปกติในการค้นหาเว็บของ Google:
เมื่อฉันค้นหาชุดข้อมูลที่อยู่อาศัย ฉันพบผลลัพธ์นี้:

คุณจะเห็นว่า Google พยายามแสดงชุดข้อมูลที่เกี่ยวข้องและเป็นที่นิยมมากที่สุดซึ่งเกี่ยวข้องกับคำสองคำที่ฉันป้อนเท่านั้น และในสถานการณ์นี้ Kaggle มีชุดข้อมูลที่อยู่อาศัยจำนวนมากที่มีผู้ใช้หลายพันคนใช้ ดังนั้นสิ่งเหล่านี้จึงมาที่ สูงสุด.
ต่อไป ฉันค้นหาสิ่งที่เจาะจงกว่านี้อีกเล็กน้อย และได้ผลดังนี้

ครั้งนี้ คุณจะเห็นได้ว่าเนื่องจากฉันค้นหาบางอย่างที่เฉพาะเจาะจง Google จึงสามารถระบุแหล่งข้อมูลให้ฉันได้ ซึ่งช่วยให้ฉันขยายงานได้เร็วขึ้น Google ยังให้คำอธิบายและลิงก์พื้นฐานบางอย่างเพื่อให้ฉันเข้าใจเพิ่มเติมเกี่ยวกับชุดข้อมูลที่ฉันต้องการใช้
บริการดังกล่าวมาจากสวรรค์ และฉันหวังว่าสิ่งนี้จะพร้อมใช้งานเมื่อฉันเริ่มเรียนรู้วิทยาศาสตร์ข้อมูล ฉันอยากจะแนะนำให้คุณค้นหาชุดข้อมูลบน Google และพยายามให้ข้อมูลเกี่ยวกับชุดข้อมูลที่คุณพยายามค้นหาให้มากที่สุด เพื่อหาชุดข้อมูลที่เหมาะสมที่สุดสำหรับโครงการ การศึกษา หรือการวิจัยของคุณ ในขณะเดียวกัน หากข้อมูลที่คุณต้องการไม่พร้อมใช้งานในรูปแบบพร้อมใช้งานบนเว็บอยู่แล้ว คุณสามารถติดต่อเราเพื่อตั้งค่าการรวบรวมข้อมูลแบบกำหนดเองได้เสมอ
หาบริการขูดเว็บเพื่อดึงข้อมูลติดต่อได้ที่ PromptCloud
