深層ウェブマイニング – その内容と必要な理由

公開: 2018-06-16
目次を見る
それを「深い」ものにするのは何ですか?
では、深層ウェブをどのようにクロールするのでしょうか?
結論

つまり、あなたは「あまり一般的ではない」トピックに関する記事を書いていますが、それは秘密の出来事であり、政府によって秘密にされていたため、多くの情報を見つけることができません。 それはあなたがレンガの壁にぶつかったという意味ではありません。 間違った場所を探しているだけかもしれません。

最近の調査によると、インターネットの約 4% しかインデックスされていません。つまり、96% はインデックスされていないことを意味し、インデックスされていないものを見つけることは非常に困難です。 検索エンジンに表示されないだけです。 たとえば、「1857 年の反乱」を検索しているとします。深層ウェブには、反乱に関する大量の情報を含む、インデックスに登録されていない Web サイトがあるとします。 Google、bing、duckduckgo を使用しても表示されません。

深層ウェブは、それ自体が大量の情報のリポジトリであり、ほとんどが自動検索エンジンによってインデックス化されていませんが、アクセスできる人、またはアクセスするのに役立つツールを知っている人はすぐに利用できます.

対極にあるのが、Surface Web または Static Web です。これは、自動検索エンジンによってインデックス付けされた Web サイトのコレクションです。 使用するのが検索ボットであろうと Web クローラーであろうと、URL をたどり、コンテンツにインデックスを付け、結果を検索エンジンの中央リポジトリに中継して、統合とユーザー クエリを実行します。

理想的には、プロセスは Web 全体を通過することになっていますが、実際には、ベンダーの時間とストレージの制約を受けます。 検索でもクローリングでも問題は、インデックス作成にあります。 作成したボットは、インデックス化できないものを報告できません。 これが、主要な検索エンジンが可能な検索結果の 20% しかカバーしていない理由です。

それを「深い」ものにするのは何ですか?

これらのカテゴリのサイトをスクレイピングするのは困難です-

  • 独自のサイト
  • 登録が必要なサイト
  • スクリプトが実行されているサイト
  • 動的サイト
  • エフェメラル サイト
  • ローカル ウェブマスターによってブロックされているサイト
  • 検索エンジン ポリシーによってブロックされているサイト
  • 特定の特殊な形式のサイト
  • 検索可能なデータベース

プロプライエタリ サイトをクロールする場合は、通常、料金が必要です。 登録サイトに関しては、ログイン ID とパスワードが必要です。 ボットはスクリプト コードのインデックスを作成できますが、スクリプトが実際に何を行うかを常に示すとは限りません。 動的 Web サイトのデータはオンデマンドで作成され、クエリの前には存在せず、その後は限定的に存在します。 ソーシャル メディア サイトやニュース サイトで興味深いリンクに気づいたものの、後でそのリンクにアクセスできなくなったことがある場合は、一時的な Web サイトに遭遇したことになります。 PDF のように以前はインデックス化できなかったほとんどの形式は、今では簡単にインデックス化できます。

ただし、最も価値のあるディープ ラーニング リソースは、検索可能なデータベースです。 何十億ドルもの価値のある情報を含む膨大な数の安全なデータベースがあります。 しかし、それらはすべてほとんどスクラップ不可能です。 それらは、さまざまなサイトのバックエンドからフロントエンドの検索バーとして機能します。サイトでは、データの一部を一度に表示できますが、全体を表示することはできません.

では、深層ウェブをどのようにクロールするのでしょうか?

辞書、百科事典、大学、およびその他の多くの非営利の .org サイトから情報を得ている Factbites のような学術機関固有の検索エンジンがあります。 深層ウェブは、迷路をナビゲートする方法を知っている人なら簡単にアクセスできます。 多くの個人や機関が、Web スクレイピング検索を開始するためのポイントとして使用できる、目に見えない Web ディレクトリの作成を支援しています。 いくつかの例-

  • ミシガン大学の OAIster (「オイスター」と発音) は、深層 Web で「真珠を見つける」ことを奨励しています。 アフリカ ジャーナル オンラインから西スイスの図書館ネットワークまで、さまざまな機関からの何百万ものレコードがあります。 したがって、多様性を推測できます。
  • LookSmart の https://www.findarticles.com/ では、人気のある雑誌や学術雑誌など、印刷された出版物から記事を検索できます。
  • Library Spot は、データベース、オンライン ライブラリ、参考文献、およびディープ Web から収集されたその他の優れた情報の別のコレクションです。 また、注目の「You Asked For It」セクションもあり、人気のある読者の質問に答えています。
  • UCLA オンライン ライブラリには、深層ウェブでしか見られない特別なコレクションを含む膨大な資料があります。
  • 興味深い発見は、www.infoplease.com とその検索可能なディープ Web データベースです。 百科事典、辞書、年鑑、およびリソースからの結果が表示され、深層 Web からのみ抽出されます。
  • 中央情報局 (そうです、あなたが見たことがあるかもしれない多くのハリウッド映画から認識しなければならない CIA です。)などなど。 地理的なコンテンツに取り組んでいる場合、これは優れたリソースです。
  • アイダホ大学には一次情報源のリポジトリがあり、アーカイブや珍しい本などの写本への無数のリンクが含まれています。 米国だけでなく、他の国や場所に関する情報も含まれています。
  • 特定の特性を持つ植物を見つけたいと考えていて、農業に携わっている場合は、ディープ Web の USDA の植物データベースで目を引くものを見つけることができるでしょう。
  • ヒトゲノムデータベースには、ヒトゲノムに関して人間によって発見されたほとんどすべての情報が含まれています。
  • 医学的な質問の場合 - 複合健康情報データベースは、ユーザーフレンドリーで、ほとんどすべての医療上の質問に対する回答を提供するサブジェクト ディレクトリです。

結論

この記事は終了するかもしれませんが、何を知っていますか? 深層ウェブは終わりのない情報源であり、ビジネスの追求や個人的な豊かさにさえ役立つ可能性があります。 ただし、そこにあるデータを本当に活用し、構造化された形式で情報を抽出して、ニーズに応じて使用し、ビジネスを成長させたい場合は、これまで取り組んできたプロバイダーの助けを借りる必要があります。この分野で成功し、他の成功したビジネスを支援します。