Derin Web Madenciliği - Neleri İçerir ve Neden Gereklidir?
Yayınlanan: 2018-06-16Yani “çok yaygın olmayan” bir konuda bir makale yazıyorsunuz ve bu konuda fazla bilgi bulamıyorsunuz çünkü bu gizli bir işti ve hükümet tarafından örtbas edildi. Bu, bir tuğla duvara çarptığınız anlamına gelmez. Belki de sadece yanlış yerde arıyorsunuz.
Son araştırmalara göre, internetin sadece yüzde dördü indekslendi, yani yüzde doksan altısı indekslenmedi ve indekslenmemiş bir şey bulmak çok zor olurdu. Sadece arama motorlarında görünmezdi. Diyelim ki “1857 İsyanı”nı arıyorsunuz ve derin ağda ayaklanma hakkında birçok bilgi içeren dizine eklenmemiş web siteleri var. Google, bing veya duckduckgo kullansanız da görünmeyecekti.
Derin ağ kendi içinde büyük bir bilgi deposudur, çoğunlukla otomatik arama motorları tarafından indekslenmemiş, ancak erişebilenler veya ona ulaşmanıza yardımcı olacak araçları bilenler için hazırdır.
Spektrumun diğer ucunda, otomatik arama motorları tarafından indekslenen web sitelerinin bir koleksiyonu olan Yüzey Web veya Statik Web bulunur. Kullandığınız bir arama botu veya web tarayıcısı olsun, url'leri izleyecek, içeriği dizine ekleyecek ve ardından sonuçları birleştirme ve kullanıcı sorgusu için arama motorunun merkezi deposuna iletecektir.
İdeal olarak, sürecin tüm Web'den geçmesi beklenir, ancak aslında satıcının zaman ve depolama kısıtlamalarına tabidir. Ağrı noktası, arama veya tarama olsun, indekslemede yatmaktadır. Oluşturduğunuz bir bot, dizine eklenemeyen bir şeyi bildiremez. Bu nedenle büyük arama motorları olası bulguların yalnızca %20'sini kapsar.
Onu “DERİN” yapan nedir?
Bu site kategorilerini kazımakta zorluk çekeceksiniz-
- tescilli siteler
- Kayıt gerektiren siteler
- Komut dosyalarının çalıştığı siteler
- Dinamik siteler
- geçici siteler
- Yerel web yöneticileri tarafından engellenen siteler
- Arama motoru politikası tarafından engellenen siteler
- Belirli özel biçimlere sahip siteler
- aranabilir veritabanları
Tescilli siteler, onları taramak istiyorsanız genellikle bir ücret gerektirir. Kayıt sitelerine gelince, bir giriş kimliği ve şifre gerektirirler. Bir bot, komut dosyası kodunu dizine ekleyebilir, ancak komut dosyasının gerçekte ne yaptığını her zaman gösteremez. Dinamik web sitelerinin verileri talep üzerine oluşturulur ve sorgudan önce varlığı yoktur ve sonrasında sınırlı varlığı vardır. Bir sosyal medya sitesinde veya bir haber sitesinde ilginç bir bağlantı fark ettiyseniz ancak daha sonra bağlantıya erişilemediğini fark ettiyseniz, geçici bir web sitesiyle karşılaştınız. Daha önce pdf'ler gibi dizine eklenemeyen biçimlerin çoğu artık kolayca dizine ekleniyor.
Ancak, hepsinin en değerli derin öğrenme kaynağı aranabilir veritabanlarıdır. Milyarlarca değerinde bilgi içeren çok sayıda güvenli veri tabanı vardır. Ama hepsi çoğunlukla kazınamaz. Çeşitli sitelerde arka uçtan ön uca arama çubukları olarak hizmet ederler - Verilerin bir kısmını tek seferde görmenize izin verecek, ancak hiçbir zaman tamamını görmemenizi sağlayacak siteler.

Peki derin web'i nasıl tararsınız?
Sözlükler, ansiklopediler, üniversiteler ve diğer birçok kar amacı gütmeyen .org sitesinden alınan bilgilere sahip Factbites gibi akademiye özel arama motorları vardır. Derin Web, labirentlerinde nasıl gezineceğini bilenler için kolayca erişilebilir. Birçok kişi ve kurum, web kazıma aramanızı başlatmak için bir nokta olarak kullanılabilecek görünmez Web dizinlerini bir araya getirmeye yardımcı oldu. Bazı örnekler-
- Michigan Üniversitesi'nden OAIster ("istiridye" olarak telaffuz edilir) ve insanları Deep Web'de sözde "incileri bulmaya" teşvik ediyor. African Journals Online'dan Batı İsviçre Kütüphane Ağı'na kadar çeşitli kurumlardan milyonlarca kayıt var. Böylece çeşitliliği tahmin edebilirsiniz.
- LookSmart'ın https://www.findarticles.com/, popüler dergiler veya bilimsel dergiler olsun, makaleler için basılı yayınlarda arama yapmanızı sağlar.
- Kütüphane Noktası, Deep Web'den toplanan veritabanları, çevrimiçi kütüphaneler, referanslar ve diğer iyi bilgilerden oluşan başka bir koleksiyondur. Ayrıca, popüler okuyucuların sorularını yanıtladıkları, öne çıkan bir “Sen Sordun” bölümü de var.
- UCLA çevrimiçi Kütüphanesi, yalnızca derin ağda bulunan özel koleksiyonları da dahil olmak üzere geniş bir holdinge sahiptir.
- İlginç bir keşif, www.infoPlease.com ve onun aranabilir Deep Web veritabanlarıdır. Yalnızca Deep Web'den çıkarılan ansiklopedilerden, sözlüklerden, almanaklardan ve kaynaklardan gelen sonuçları görüntüler.
- Merkezi İstihbarat Teşkilatı (Evet, izlemiş olabileceğiniz birçok Hollywood filminden tanımanız gereken CIA.) Dünya bayraklarının aranabilir bir dizini olan World Factbook'un yanı sıra referans haritalarına, ülke profillerine sahiptir. ve çok daha fazlası. Coğrafi içerik üzerinde çalışıyorsanız harika bir kaynaktır.
- Idaho Üniversitesi, arşivlerin yanı sıra nadir kitaplar ve daha fazlasının yanı sıra el yazmalarına sayısız bağlantı içeren bir Birincil Kaynaklar Havuzuna sahiptir. Sadece ABD ile ilgili değil, diğer ülkeler ve diğer yerler ile ilgili bilgileri içerir.
- Belirli özelliklere sahip bitkileri bulmak istiyorsanız ve tarımla ilgileniyorsanız, Deep Web'deki USDA'nın Bitkiler Veritabanında muhtemelen gözünüze çarpacak bir şey bulabilirsiniz.
- İnsan Genom Veritabanı, insan genomu hakkında insanlar tarafından keşfedilen hemen hemen her şeyi içeren tonlarca bilgiye sahiptir.
- Tıbbi sorular için- Kombine Sağlık Bilgi Veritabanı, kullanıcı dostu ve hemen hemen tüm sağlık sorularına yanıt sağlayan bir konu rehberidir.
Çözüm
Bu makale bitebilir, ama ne biliyor musunuz? Derin web, iş arayışlarınızda ve hatta kişisel zenginleştirmenizde size yardımcı olabilecek bitmeyen bir bilgi kaynağıdır. Ancak, orada bulunan verilerden gerçekten yararlanmak ve bilgileri, ihtiyaçlarınıza göre kullanmak ve işinizi büyütmek için yapılandırılmış bir biçimde çıkarmak istiyorsanız, çalışmakta olan bir sağlayıcıdan yardım almalısınız. bu alanda ve diğer başarılı işletmelere yardımcı olmak.
