Scraping imagini pentru motorul dvs. de căutare de imagini
Publicat: 2016-09-29Zilele trecute făceam cumpărături online pentru a cumpăra un telefon mobil nou. Privind mai multe site-uri, am descoperit că singurul lucru la care m-am tot referit era prețul (desigur!). Dar a mai fost un aspect pe care l-am tot căutat și acela a fost o imagine a telefonului pe care mi-l doream. Mai târziu mi-am dat seama că oriunde descrierea nu se potrivea cu imaginea, factorul de încredere era foarte scăzut pentru ca eu să merg mai departe cu acel vânzător. Iar site-ul unde am putut găsi imagini de înaltă rezoluție pe care le-am putut mări și le-am privi din mai multe unghiuri, a fost site-ul pe care am stat cel mai mult. Dacă și comportamentul dvs. de cumpărături sau de navigare pune în prim plan imaginilor, atunci bine ați venit în lumea căutării de imagini.

De fapt, această tendință este atât de dominantă pe ecosistemul online încât Google, gigantul motorului de căutare, are și o căutare de imagini, pe lângă căutarea obișnuită prin interogare de text. Nu ne crezi? Apoi încercați să trageți una dintre imaginile pe care le obțineți prin interogarea de căutare obișnuită în șirul de căutare pentru a vedea ce vreau să spun.

Vedeți imaginea din stânga casetei de căutare text? Aceasta este imaginea pe care i-am cerut Google să caute, iar rezultatele au fost destul de precise (adică Asus ZenFone 3 – unul dintre multele telefoane pe care căutam să le cumpăr).
Motoare de căutare de imagini
Această nouă formă de regăsire a conținutului este posibilă cu ajutorul unui motor de căutare de imagini. Nu trebuie să depindeți doar de interogarea text pentru a găsi informații. De asemenea, puteți căuta imagini similare pe baza imaginii sursă pe care o furnizați motorului de căutare. Acesta este USP-ul exact al unui motor de căutare de imagini. Este definit ca un motor de căutare conceput pentru a găsi informații pe baza introducerii unei imagini cu afișarea vizuală a imaginilor. Tehnica este folosită în cea mai mare parte de cumpărătorii și vânzătorii de comerț electronic și pentru a căuta mai multe informații despre imaginea unui obiect necunoscut sau pentru a obține informații cruciale despre modul în care concurenții poziționează un anumit produs.
S-ar putea să vă întrebați ce algoritm grozav sau învățarea automată rulează în fundal pentru a permite motorului de căutare să returneze doar imaginile relevante și care se potrivesc. Ei bine, de cele mai multe ori este simplu; imaginea caută numele și acesta este cel care este colectat și afișat ca rezultat al căutării dacă se potrivește cu imaginea interogării ca importanță. Această metodă de modă veche este modalitatea de bază de a răzui imagini. Când faceți web scraping, instrumentul va verifica dacă numele fișierului are întregul sau o parte din numele fișierului care conține interogarea de căutare și va returna acea imagine.
Majoritatea dezvoltatorilor, designerilor și agenților de marketing digital respectă convenția de redenumire a numelui fișierului original (ceva de genul IMG_10092015.jpg) în ceva semnificativ și de consecință (ceva de genul Earl_Grey_Teabag_1332.jpg). Acest lucru este pentru a adera la mandatul algoritmului Google de a oferi un nume sensibil unui fișier imagine ca una dintre cheile pentru îmbunătățirea semnalelor de clasare. Și asta este ceea ce motorul de căutare de imagini va căuta pentru a oferi rezultate de căutare precise.
Desigur, aceasta este doar una dintre modalitățile de a găsi imagini folosind un motor de căutare de imagini. Cele două moduri cheie în care informațiile sunt căutate online sunt:
- Căutarea metadatelor – După cum sa subliniat în secțiunea de mai sus, căutarea imaginii este executată prin căutarea metadatelor imaginii. Aceste metadate pot include unul sau mai multe dintre cuvintele cheie, legenda, alt+text sau numele imaginii.
- Preluare bazată pe conținut – În cadrul acestui tip de căutare, diferitele caracteristici ale imaginii sursă sunt utilizate și rulate prin programe de calculator și software specializat pentru a returna rezultate relevante. În locul metadatelor, acest tip de căutare folosește conținutul imaginii pentru căutare. Acest tip de căutare de informații are multe tehnici de bază, ca mai jos -
- Abordarea interogării – Utilizatorul oferă o imagine sursă, programul va analiza caracteristici precum forma, culoarea și dimensiunea.
- Preluare semantică – Utilizatorul va descrie interogarea pentru a găsi o imagine. Aceasta este o opțiune mai puțin utilizată din cauza dificultăților evidente de a potrivi imaginea cu descrierea dată în interogarea de căutare.
- Învățare automată – Căutarea de imagini folosind învățarea automată poate fi îmbunătățită cu ajutorul rețelelor neuronale și al învățării profunde.
- Aplicații de la terți – Se desfășoară activități interesante în ceea ce privește îmbunătățirea acurateței imaginii la livrarea rezultatelor căutării pentru o interogare de imagine. Un exemplu în acest sens este achiziția în 2006 a Neven Vision de către Google.
Scrapingul imaginilor ajută la obținerea de date și imagini din surse variate și apoi la migrarea metadatelor și a imaginii într-un mod structurat. Unele dintre canalele comune de export includ Excel, baze de date backend, CSV sau XML. Scrapingul web pentru imagini ajută mai mulți beneficiari, inclusiv dezvoltatori web, designeri, manageri de conținut, jurnaliști, directori de marketing sau bloggeri.

Când utilizați un păianjen pentru a accesa cu crawlere imaginile , programul va căuta patru lucruri cheie
- Titlul paginii
- Data publicării
- Imaginea reală
- URL-ul site-ului
Ești interesat să știi ce se întâmplă în continuare? Apoi citește mai departe.
Analiza căutării imaginilor
Odată ce programul a răzuit o imagine și a analizat metadatele și conținutul asociat cu imaginea, cea mai mare parte a muncii este făcută. Cu toate acestea, rămâne indicatorul important de verificare a conținutului fișierului imagine. Deci, să presupunem că dacă găsiți pentru Superman , veți obține diverse combinații -
- Superman în benzi desenate
- Superman în filme
- Christopher Reeves ca Superman
- Henry Cavill ca Superman
- Superman în afișe de film
- Superman și fani
…si asa mai departe
Aceasta este etapa de clasificare a procesării căutării imaginilor. Motorul va arunca întrebări de bază -
- Imaginea are o față?
- Este profilul frontal?
- Care este culoarea de fundal prezentă?
- Care este culoarea primului plan prezentă și care este frecvența/intensitatea acesteia?
- Este o imagine gratuită sau cu licență?
- Care este dimensiunea fișierului?
- Care este rezoluția imaginii?
Unele motoare de căutare de imagini precum Google fac un pas mai departe și permit utilizatorilor să-și încarce propria imagine pentru a o găsi.
Există diverse criterii pentru a determina gradul de succes și acuratețea rezultatului afișat de motorul de căutare de imagini. Dacă există oricare dintre următoarele, atunci șansele de a returna rezultate exacte scad semnificativ:
- Prea mult zgomot în fundal
- Prea multe culori fie în prim-plan, fie în fundal
- Prea puține detalii sau
- Rezoluție mai mică a imaginii de intrare
Acum ne uităm la o altă metodă de clasificare, adică gruparea. Aceasta încearcă să adună toate imaginile cu conținut similar într-un singur grup. Așa că, continuând cu exemplul de mai sus, gruparea va reuni toate aceste combinații de Superman și va include chiar articole înrudite precum Superman vs. Batman sau desene animate Superman . Din nou, acest lucru va oferi rezultate precise numai dacă zgomotul din imagine este mai mic și rezoluția este mare.
Razuirea imaginilor
Obținerea unui număr mare de imagini este crucială pentru construirea unui motor de căutare de imagini. Obținerea unor cantități uriașe de date necesită o soluție scalabilă de scraping web. Web scraping este cel mai convenabil mod de a obține date de pe web, fie că este vorba de date structurate, URL-uri sau imagini. Este mai bine să vă bazați pe un furnizor de servicii de scraping web pentru scraping imagini pentru motorul dvs. de căutare de imagini.
Înainte de a semna
După cum este evident, valoarea oferită de un motor de căutare de imagini depășește cu mult acuratețea. Îi ajută pe cumpărători să ia o decizie informată de cumpărare și să profite la maximum de experiența lor de utilizator web. Pentru proprietarii de comerț electronic, îi ajută să adune informații cruciale despre sortimentul de produse din magazinele rivalilor și îi ține la curent cu diferitele date din jurul unui anumit produs. Deci, dacă majoritatea proprietarilor de magazine au iPhone 6s vândut cu amănuntul în jurul valorii de 825 USD, ați ști că și magazinul dvs. ar trebui să egaleze acest preț pentru a ajuta la conversia traficului web la portalul dvs. de comerț electronic. În acest fel, căutarea de imagini ajută și la informațiile privind prețurile.
Plănuiți să achiziționați date de pe web? Suntem aici pentru a vă ajuta. Anunțați-ne despre cerințele dvs.
