이미지 검색 엔진을 위한 이미지 스크래핑

게시 됨: 2016-09-29
목차
이미지 스크래핑
로그오프하기 전에

다른 날 나는 새 휴대전화를 사기 위해 온라인 쇼핑을 하고 있었다. 여러 사이트를 살펴보니 제가 계속 언급한 것은 가격(물론!)이었습니다. 하지만 내가 계속 찾고 있던 또 다른 측면이 있었는데, 그것은 내가 원했던 전화기의 이미지였습니다. 나중에 나는 설명이 이미지와 일치하지 않는 곳이면 어디에서나 그 판매자를 계속 진행할 수 있는 신뢰 요인이 매우 낮다는 것을 깨달았습니다. 그리고 확대해서 다각도로 볼 수 있는 고해상도 이미지를 찾을 수 있는 사이트, 가장 오래 머물렀던 사이트. 쇼핑이나 브라우징 행동이 이미지에 중요하다면 이미지 검색의 세계에 오신 것을 환영합니다.

이미지 검색 엔진을 위한 이미지 스크래핑

실제로 이러한 추세는 온라인 생태계에서 매우 지배적이어서 검색 엔진의 거물인 Google이 일반 텍스트 쿼리 검색 외에 이미지 검색도 수행하고 있습니다. 우리를 믿지 않아? 그런 다음 일반 검색 쿼리를 통해 얻은 이미지 중 하나를 검색 문자열로 끌어서 무슨 뜻인지 확인하십시오.

이미지 검색 엔진을 위한 이미지 스크래핑

텍스트 검색창 왼쪽에 이미지가 보이시나요? 그것이 내가 Google에 검색하도록 요청한 이미지이며 결과는 매우 정확했습니다(즉, Asus ZenFone 3 – 내가 구매하려고 조사하던 많은 전화기 중 하나).

이미지 검색 엔진

이 새로운 형태의 콘텐츠 검색은 이미지 검색 엔진의 도움으로 가능합니다. 정보를 찾기 위해 텍스트 쿼리에만 의존할 필요는 없습니다. 검색 엔진에 제공한 소스 이미지를 기반으로 유사한 이미지를 찾을 수도 있습니다. 이것은 이미지 검색 엔진의 정확한 USP입니다. 이미지를 시각적으로 표시하여 이미지 입력을 기반으로 정보를 찾도록 설계된 검색 엔진으로 정의됩니다. 이 기술은 주로 전자 상거래 구매자와 판매자가 사용하고 알 수 없는 물체의 이미지에 대한 추가 정보를 찾거나 경쟁자가 주어진 제품을 어떻게 포지셔닝하는지에 대한 중요한 정보를 얻습니다.

검색 엔진이 관련성 있고 일치하는 이미지만 반환할 수 있도록 백그라운드에서 실행되는 멋진 알고리즘이나 기계 학습이 무엇인지 궁금할 것입니다. 대부분의 경우 간단합니다. 이미지는 이름을 검색하고 중요도에 대한 쿼리 이미지와 일치하는 경우 검색 결과로 수집되어 표시되는 것은 이 이름입니다. 이 구식 방법은 이미지를 긁는 기본 방법입니다. 웹 스크래핑 을 수행할 때 도구는 파일 이름에 검색어가 포함된 파일 이름의 전체 또는 일부가 있는지 확인하고 해당 이미지를 반환합니다.

대부분의 개발자, 디자이너 및 디지털 마케팅 담당자는 원래 파일 이름(IMG_10092015.jpg 등)을 의미 있고 의미 있는 이름(Earl_Grey_Teabag_1332.jpg 등)으로 바꾸는 규칙을 따릅니다. 이는 순위 신호를 개선하기 위한 핵심 중 하나로 이미지 파일에 적절한 이름을 제공하는 Google 알고리즘 명령을 준수하기 위한 것입니다. 그리고 이것이 정확한 검색 결과를 제공하기 위해 이미지 검색 엔진이 찾는 것입니다.

물론 이것은 이미지 검색 엔진을 사용하여 이미지를 찾는 방법 중 하나일 뿐입니다. 온라인에서 정보를 검색하는 두 가지 주요 방법은 다음과 같습니다.

  1. 메타데이터 검색 – 위 섹션에서 설명한 대로 이미지 검색은 이미지의 메타데이터를 조회하여 실행됩니다. 이 메타데이터에는 키워드, 캡션, Alt+텍스트 또는 이미지 이름 중 하나 이상이 포함될 수 있습니다.
  2. 콘텐츠 기반 검색 – 이러한 유형의 검색에서는 원본 이미지의 다양한 특성이 사용되며 컴퓨터 프로그램 및 특수 소프트웨어를 통해 실행되어 관련 결과를 반환합니다. 메타데이터 대신 이 유형의 검색은 검색을 위해 이미지의 콘텐츠를 사용합니다. 이러한 유형의 정보 검색에는 다음과 같은 많은 기본 기술 이 있습니다.
    1. 쿼리 접근 방식 – 사용자가 소스 이미지를 제공하면 프로그램은 모양, 색상 및 크기와 같은 특성을 조사합니다.
    2. 의미 검색 – 사용자는 이미지를 찾기 위해 쿼리를 설명합니다. 이것은 검색 쿼리에 제공된 설명과 이미지를 일치시키는 데 분명히 어려움이 있기 때문에 덜 사용되는 옵션입니다.
    3. 머신 러닝 – 머신 러닝을 사용한 이미지 검색은 신경망과 딥 러닝의 도움으로 향상될 수 있습니다.
    4. 타사 응용 프로그램 – 이미지 쿼리에 대한 검색 결과를 제공할 때 이미지 정확도를 높이는 것과 관련하여 흥미로운 작업이 진행되고 있습니다. 2006년 Google이 Neven Vision을 인수것이 그 예입니다 .

이미지 스크래핑은 다양한 소스에서 데이터와 이미지를 얻은 다음 해당 메타데이터와 이미지를 구조화된 방식으로 마이그레이션하는 데 도움이 됩니다. 일반적인 내보내기 채널에는 Excel, 백엔드 데이터베이스, CSV 또는 XML이 포함됩니다. 웹에서 이미지를 스크랩하면 웹 개발자, 디자이너, 콘텐츠 관리자, 언론인, 마케팅 임원 또는 블로거를 비롯한 여러 수혜자가 도움이 됩니다.

스파이더를 사용하여 이미지를 크롤링 할 때 프로그램은 네 가지 핵심 사항을 찾습니다.

  1. 페이지 제목
  2. 발행일
  3. 실제 이미지
  4. 사이트의 URL

다음에 무슨 일이 일어나는지 알고 싶으십니까? 그런 다음 계속 읽으십시오.

이미지 검색 분석

프로그램이 이미지를 스크랩하고 메타데이터와 이미지와 관련된 콘텐츠를 살펴보면 대부분의 작업이 완료된 것입니다. 그러나 여전히 이미지 파일의 내용을 확인하는 중요한 포인터가 남아 있습니다. 따라서 Superman 을 찾으면 다양한 조합을 얻을 수 있다고 가정합니다.

  1. 만화 속 슈퍼맨
  2. 영화 속 슈퍼맨
  3. 크리스토퍼 리브스 Christopher Reeves 슈퍼맨 역
  4. 헨리 카빌 Henry Cavill 슈퍼맨 역
  5. 영화 포스터 속 슈퍼맨
  6. 슈퍼맨과 팬

…등등

이것은 이미지 검색 처리의 분류 단계입니다. 엔진은 기본적인 질문을 던집니다.

  1. 이미지에 얼굴이 있습니까?
  2. 프론트프로파일인가요?
  3. 현재 배경색은 무엇입니까?
  4. 전경색은 무엇이며 주파수/강도는 얼마입니까?
  5. 무료 또는 라이센스 이미지입니까?
  6. 파일 크기는 얼마입니까?
  7. 이미지 해상도는 무엇입니까?

Google과 같은 일부 이미지 검색 엔진은 한 단계 더 나아가 사용자가 자신의 이미지를 업로드하여 찾을 수 있도록 합니다.

이미지 검색 엔진이 보여주는 결과의 성공 정도와 정확성을 결정하는 다양한 기준이 있습니다. 다음 중 하나라도 있으면 정확한 결과를 반환할 가능성이 크게 줄어듭니다.

  1. 배경에 노이즈가 너무 많습니다.
  2. 전경이나 배경에 색상이 너무 많습니다.
  3. 디테일이 너무 적거나
  4. 입력 이미지의 낮은 해상도

이제 우리는 클러스터링과 같은 또 다른 분류 방법을 살펴봅니다. 이것은 유사한 콘텐츠를 가진 모든 이미지를 하나의 그룹으로 통합하려고 합니다. 따라서 위의 예를 계속하면 클러스터링은 이러한 Superman의 모든 조합을 통합하고 Superman vs. Batman 또는 Superman 만화 와 같은 관련 항목도 포함 합니다. 다시 말하지만, 이것은 이미지의 노이즈가 적고 해상도가 높은 경우에만 정확한 결과를 제공합니다.

이미지 스크래핑

많은 수의 이미지를 확보하는 것은 이미지 검색 엔진을 구축하는 데 중요합니다. 방대한 양의 데이터를 수집하려면 확장 가능한 웹 스크래핑 솔루션이 필요합니다. 웹 스크래핑은 구조화된 데이터, URL 또는 이미지와 같이 웹에서 데이터를 수집하는 가장 편리한 방법입니다. 이미지 검색 엔진의 이미지 스크래핑은 웹 스크래핑 서비스 제공업체에 맡기는 것이 좋습니다.

로그오프하기 전에

분명히 알 수 있듯이 이미지 검색 엔진이 제공하는 가치는 정확성을 훨씬 뛰어넘습니다. 쇼핑객이 정보에 입각한 구매 결정을 내리고 웹 사용자 경험을 최대한 활용할 수 있도록 도와줍니다. 전자 상거래 소유자의 경우 라이벌 매장에서 제품 구색에 대한 중요한 정보를 수집하고 특정 제품에 대한 다양한 데이터에 대한 최신 정보를 유지하는 데 도움이 됩니다. 따라서 대부분의 상점 소유자가 약 825달러 범위의 iPhone 6s를 가지고 있다면 전자 상거래 포털에서 웹 트래픽 변환을 지원하기 위해 상점도 이 가격과 일치해야 한다는 것을 알 수 있습니다. 이러한 방식으로 이미지 검색은 가격 인텔리전스에도 도움이 됩니다.

웹에서 데이터를 수집할 계획입니까? 도와드리겠습니다. 귀하의 요구 사항에 대해 알려주십시오 .