딥 웹 마이닝 – 수반되는 것과 필요한 이유

게시 됨: 2018-06-16

목차 쇼

무엇이 그것을 "딥"하게 만드는가?

그렇다면 어떻게 딥 웹을 크롤링합니까?

결론

그래서, 당신은 "일반적이지 않은" 주제에 대한 기사를 쓰고 있고 그것에 대한 많은 정보를 찾을 수 없습니다. 왜냐하면 그것은 비밀 사건이었고 정부에 의해 잠잠했기 때문입니다. 그렇다고 해서 벽돌 벽에 부딪혔다는 의미는 아닙니다. 어쩌면 당신은 엉뚱한 곳에서 찾고 있습니다.

최근 연구에 따르면 인터넷의 약 4%만 색인이 생성되었으며, 이는 96%가 색인되지 않았음을 의미하며 색인이 생성되지 않은 항목을 찾는 것은 매우 어려울 것입니다. 그것은 단순히 검색 엔진에 나타나지 않을 것입니다. "1857년의 반란"을 검색 중이고 반란에 대한 많은 정보가 있는 색인되지 않은 웹사이트가 딥 웹에 있다고 가정해 보겠습니다. google이나 bing, duckduckgo를 사용해도 표시되지 않습니다.

딥 웹은 그 자체로 방대한 정보 저장소이며 대부분 자동화된 검색 엔진에 의해 색인이 생성되지 않지만 접근할 수 있거나 접근하는 데 도움이 될 도구를 알고 있는 사람들이 쉽게 사용할 수 있습니다.

스펙트럼의 다른 쪽 끝에는 자동 검색 엔진에 의해 인덱싱된 웹 사이트 모음인 Surface Web 또는 Static Web이 있습니다. 사용하는 검색 봇이든 웹 크롤러이든 상관없이 URL을 추적하고 콘텐츠를 색인화한 다음 통합 및 사용자 쿼리를 위해 결과를 검색 엔진의 중앙 저장소로 다시 전달합니다.

이상적으로는 프로세스가 전체 웹을 통과해야 하지만 실제로는 공급업체 시간과 저장 공간 제약이 따릅니다. 검색이든 크롤링이든 문제는 인덱싱에 있습니다. 생성한 봇은 인덱싱할 수 없는 항목을 보고할 수 없습니다. 이것이 주요 검색 엔진이 가능한 발견의 20%만 다루는 이유입니다.

무엇이 그것을 "딥"하게 만드는가?

이러한 범주의 사이트를 스크랩하는 데 어려움을 겪을 것입니다.

독점 사이트
등록이 필요한 사이트
스크립트가 실행 중인 사이트
동적 사이트
임시 사이트
로컬 웹마스터가 차단한 사이트
검색 엔진 정책에 의해 차단된 사이트
특정 특수 형식의 사이트
검색 가능한 데이터베이스

독점 사이트를 크롤링하려면 일반적으로 요금이 필요합니다. 등록 사이트의 경우 로그인 ID와 비밀번호가 필요합니다. 봇은 스크립트 코드를 인덱싱할 수 있지만 스크립트가 실제로 수행하는 작업을 항상 나타낼 수는 없습니다. 동적 웹 사이트의 데이터는 요청 시 생성되며 쿼리 이전에는 존재하지 않고 이후에는 제한적으로 존재합니다. 소셜 미디어 사이트나 뉴스 사이트에서 흥미로운 링크를 발견했지만 나중에 해당 링크에 액세스할 수 없다는 것을 발견했다면 일시적인 웹사이트를 발견한 것입니다. pdf와 같이 이전에는 인덱싱할 수 없었던 대부분의 형식은 이제 쉽게 인덱싱됩니다.

그러나 검색 가능한 모든 데이터베이스 중에서 가장 가치 있는 딥 러닝 리소스입니다. 수십억 가치의 정보가 있는 보안 데이터베이스가 엄청나게 많습니다. 그러나 그것들은 모두 대부분 폐기할 수 없습니다. 그들은 다양한 사이트에서 백엔드에서 프론트엔드까지의 검색창 역할을 합니다. 사이트에서는 데이터의 일부를 한 번에 볼 수 있지만 전체는 볼 수 없습니다.

그렇다면 어떻게 딥 웹을 크롤링합니까?

사전, 백과사전, 대학 및 기타 여러 비영리 .org 사이트에서 정보를 제공하는 Factbites와 같은 학계별 검색 엔진이 있습니다. Deep Web은 미로를 탐색하는 방법을 알고 있는 사람들이 쉽게 액세스할 수 있습니다. 많은 개인과 기관이 웹 스크래핑 검색을 시작하기 위한 지점으로 사용할 수 있는 보이지 않는 웹 디렉토리를 만드는 데 도움을 주었습니다. 몇 가지 예-

University of Michigan의 OAIster("굴"로 발음)는 사람들이 딥 웹에서 "진주 찾기"를 하도록 권장합니다. 그들은 아프리카 저널 온라인에서 서부 스위스 도서관 네트워크에 이르기까지 다양한 기관에서 수백만 개의 기록을 보유하고 있습니다. 따라서 다양성을 추측할 수 있습니다.
LookSmart의 https://www.findarticles.com/을 사용하면 인쇄 간행물을 통해 인기 잡지나 학술지 등의 기사를 검색할 수 있습니다.
Library Spot은 Deep Web에서 수집한 데이터베이스, 온라인 라이브러리, 참고 문헌 및 기타 좋은 정보의 또 다른 모음입니다. 그들은 또한 인기 있는 독자의 질문에 답하는 특집 "당신이 요청했습니다" 섹션이 있습니다.
UCLA 온라인 도서관은 딥 웹에서만 볼 수 있는 특별 컬렉션을 포함하여 방대한 소장품을 보유하고 있습니다.
흥미로운 발견은 www.infoPlease.com과 검색 가능한 Deep Web 데이터베이스입니다. 딥 웹에서만 추출한 백과사전, 사전, 연감 및 리소스에서 가져온 결과를 표시합니다.
중앙 정보국(예, CIA는 보았을 수 있는 많은 할리우드 영화에서 인식해야 합니다.) World Factbook은 검색 가능한 세계 국기 및 참조 지도, 국가 프로필 디렉토리입니다. 그리고 훨씬 더. 지리적 콘텐츠에 대해 작업하는 경우 훌륭한 리소스입니다.
아이다호 대학교에는 기록 보관소는 물론 희귀 도서 등의 원고에 대한 수많은 링크가 포함된 1차 출처의 리포지토리가 있습니다. 미국 뿐만 아니라 다른 나라와 다른 장소와 관련된 정보를 담고 있습니다.
특정 특성을 가진 식물을 찾고 싶고 농업에 관심이 있는 경우 딥 웹의 USDA 식물 데이터베이스에서 눈을 사로잡을 무언가를 찾을 수 있습니다.
인간 게놈 데이터베이스에는 인간 게놈에 대해 인간이 발견한 거의 모든 정보가 포함되어 있습니다.
의학적 질문의 경우 - Combined Health Information Database는 사용자 친화적이며 거의 모든 의료 질문에 대한 답변을 제공하는 주제 디렉토리입니다.

결론

이 기사는 끝날 수 있지만 무엇을 알고 있습니까? 딥 웹은 비즈니스 추구와 개인적인 풍요로움에 도움이 될 수 있는 끝없는 정보 소스입니다. 그러나 실제로 거기에 있는 데이터를 활용하고 필요에 따라 사용할 수 있도록 구조화된 형식으로 정보를 추출하고 비즈니스를 성장시키려면 지금까지 일해온 제공자의 도움을 받아야 합니다. 이 분야에서 그리고 다른 성공적인 사업을 돕습니다.