Scraping von Bildern für Ihre Bildsuchmaschine
Veröffentlicht: 2016-09-29Neulich war ich online einkaufen, um ein neues Handy zu kaufen. Als ich mir mehrere Websites ansah, stellte ich fest, dass ich mich immer wieder auf den Preis bezog (natürlich!). Aber es gab noch einen anderen Aspekt, nach dem ich weiter gesucht hatte, und das war ein Bild des Telefons, das ich wollte. Später stellte ich fest, dass der Vertrauensfaktor für mich, mit diesem Verkäufer weiterzumachen, sehr gering war, wenn die Beschreibung nicht mit dem Bild übereinstimmte. Und die Seite, auf der ich hochauflösende Bilder finden konnte, die ich vergrößern und aus verschiedenen Blickwinkeln betrachten konnte, war die Seite, auf der ich mich am längsten aufgehalten habe. Wenn auch Ihr Einkaufs- oder Surfverhalten Bilder in den Vordergrund stellt, dann willkommen in der Welt der Bildersuche.

Tatsächlich dominiert dieser Trend das Online-Ökosystem so stark, dass Google, der Suchmaschinengigant, zusätzlich zur regulären Textsuche auch eine Bildsuche eingeführt hat. Glauben Sie uns nicht? Versuchen Sie dann, eines der Bilder, die Sie durch Ihre normale Suchabfrage erhalten, in die Suchzeichenfolge zu ziehen, um zu sehen, was ich meine.

Sehen Sie das Bild links neben dem Textsuchfeld? Das ist das Bild, um das ich Google gebeten habe, und die Ergebnisse waren ziemlich genau (das ist das Asus ZenFone 3 – eines der vielen Telefone, die ich kaufen wollte).
Bildsuchmaschinen
Möglich wird diese neue Form der Inhaltssuche mit Hilfe einer Bildsuchmaschine. Sie müssen sich nicht nur auf Textabfragen verlassen, um Informationen zu finden. Sie können auch ähnliche Bilder basierend auf dem Quellbild suchen, das Sie der Suchmaschine zur Verfügung stellen. Genau das ist der USP einer Bildersuchmaschine. Es ist definiert als eine Suchmaschine, die entwickelt wurde, um Informationen basierend auf der Eingabe eines Bildes mit einer visuellen Anzeige der Bilder zu finden. Die Technik wird hauptsächlich von E-Commerce-Käufern und -Verkäufern verwendet, um weitere Informationen über das Bild eines unbekannten Objekts nachzuschlagen oder entscheidende Informationen darüber zu erhalten, wie die Wettbewerber ein bestimmtes Produkt positionieren.
Sie fragen sich vielleicht, welcher coole Algorithmus oder welches maschinelle Lernen im Hintergrund läuft, damit die Suchmaschine nur die relevanten und passenden Bilder zurückgibt. Nun, meistens ist es einfach; Das Bild sucht nach dem Namen, und dieser Name wird gesammelt und als Suchergebnis angezeigt, wenn er mit dem Suchbild hinsichtlich der Wichtigkeit übereinstimmt. Diese altmodische Methode ist die grundlegende Methode zum Scrapen von Bildern. Beim Web Scraping prüft das Tool, ob der Dateiname die Suchanfrage vollständig oder teilweise enthält, und gibt dieses Bild zurück.
Die meisten Entwickler, Designer und digitalen Vermarkter folgen der Konvention, den ursprünglichen Dateinamen (etwas wie IMG_10092015.jpg) in etwas Sinnvolles und Konsequentes (etwas wie Earl_Grey_Teabag_1332.jpg) umzubenennen. Dies dient der Einhaltung des Google-Algorithmus-Mandats, einer Bilddatei einen sinnvollen Namen als einen der Schlüssel zur Verbesserung der Ranking-Signale zu geben. Und danach sucht die Bildsuchmaschine, um genaue Suchergebnisse zu liefern.
Dies ist natürlich nur eine der Möglichkeiten, Bilder über eine Bildersuchmaschine zu finden. Die zwei Hauptmethoden, mit denen Informationen online gesucht werden, sind:
- Metadatensuche – Wie im obigen Abschnitt beschrieben, wird die Bildsuche ausgeführt, indem die Metadaten des Bildes nachgeschlagen werden. Diese Metadaten können eines oder mehrere der Schlüsselwörter, Bildunterschrift, Alt+Text oder Bildnamen enthalten.
- Inhaltsbasierter Abruf – Bei dieser Art der Suche werden die verschiedenen Merkmale des Quellbilds verwendet und Computerprogramme und spezialisierte Software durchlaufen, um relevante Ergebnisse zurückzugeben. Anstelle der Metadaten verwendet diese Art der Suche den Inhalt des Bildes für die Suche. Diese Art der Informationssuche hat viele zugrunde liegende Techniken wie unten –
- Abfrageansatz – Der Benutzer stellt ein Quellbild bereit, das Programm untersucht Eigenschaften wie Form, Farbe und Größe.
- Semantischer Abruf – Der Benutzer beschreibt die Abfrage, um ein Bild zu finden. Diese Option wird weniger verwendet, da es offensichtliche Schwierigkeiten gibt, das Bild mit der in der Suchanfrage angegebenen Beschreibung abzugleichen.
- Maschinelles Lernen – Die Bildsuche mit maschinellem Lernen kann mit Hilfe von neuronalen Netzen und Deep Learning verstärkt werden.
- Anwendungen von Drittanbietern – Es werden einige interessante Arbeiten zur Verbesserung der Bildgenauigkeit bei der Bereitstellung von Suchergebnissen für eine Bildabfrage durchgeführt. Ein typisches Beispiel ist die Übernahme von Neven Vision durch Google im Jahr 2006.
Image Scraping hilft dabei, Daten und Bilder aus verschiedenen Quellen zu erhalten und dann ihre Metadaten und Bilder strukturiert zu migrieren. Zu den gängigen Exportkanälen gehören Excel, Backend-Datenbanken, CSV oder XML. Das Durchsuchen des Webs nach Bildern hilft mehreren Nutznießern, darunter Webentwickler, Designer, Content-Manager, Journalisten, Marketingleiter oder Blogger.

Wenn Sie eine Spinne zum Crawlen von Bildern verwenden , sucht das Programm nach vier wichtigen Dingen
- Titel der Seite
- Veröffentlichungsdatum
- Das eigentliche Bild
- Die URL der Website
Interessiert zu wissen, was als nächstes passiert? Dann lesen Sie weiter.
Analyse der Bildersuche
Sobald das Programm ein Bild gekratzt und die Metadaten und den zugehörigen Inhalt mit dem Bild betrachtet hat, ist die meiste Arbeit erledigt. Es bleibt jedoch immer noch der wichtige Hinweis, den Inhalt der Bilddatei zu überprüfen. Nehmen wir also an, wenn Sie nach Superman suchen , erhalten Sie verschiedene Kombinationen –
- Superman im Comic
- Superman im Film
- Christopher Reeves als Superman
- Henry Cavill als Superman
- Superman auf Filmplakaten
- Superman und Fans
…usw
Dies ist die Klassifizierungsstufe der Bildsuchverarbeitung. Der Motor wird grundlegende Fragen aufwerfen –
- Hat das Bild ein Gesicht?
- Ist es das Frontprofil?
- Welche Hintergrundfarbe ist vorhanden?
- Was ist die vorhandene Vordergrundfarbe und wie ist ihre Frequenz/Intensität?
- Ist es ein kostenloses oder lizenziertes Bild?
- Wie groß ist die Datei?
- Was ist die Bildauflösung?
Einige Bildsuchmaschinen wie Google gehen noch einen Schritt weiter und ermöglichen es den Nutzern, ihr eigenes Bild hochzuladen, um es zu finden.
Es gibt verschiedene Kriterien, um den Erfolgsgrad und die Genauigkeit des von der Bildersuchmaschine angezeigten Ergebnisses zu bestimmen. Wenn einer der folgenden Punkte zutrifft, sinken die Chancen, genaue Ergebnisse zu erhalten, erheblich:
- Zu viel Rauschen im Hintergrund
- Zu viele Farben im Vorder- oder Hintergrund
- Zu wenig Detaillierung, bzw
- Niedrigere Auflösung des Eingangsbildes
Nun betrachten wir eine andere Klassifikationsmethode, nämlich Clustering. Diese versucht, alle Bilder mit ähnlichen Inhalten in einer Gruppe zusammenzufassen. Wenn wir also das obige Beispiel fortsetzen, wird Clustering all diese Kombinationen von Superman zusammenstellen und sogar verwandte Elemente wie Superman vs. Batman oder Superman-Cartoons enthalten . Auch dies liefert nur dann genaue Ergebnisse, wenn das Rauschen im Bild geringer und die Auflösung hoch ist.
Scraping der Bilder
Eine große Anzahl von Bildern zu erhalten, ist entscheidend für den Aufbau einer Bildersuchmaschine. Die Erfassung riesiger Datenmengen erfordert eine skalierbare Web-Scraping-Lösung. Web Scraping ist die bequemste Art, Daten aus dem Web zu erfassen, seien es strukturierte Daten, URLs oder Bilder. Es ist besser, sich auf einen Web-Scraping-Dienstleister zu verlassen, um Bilder für Ihre Bildersuchmaschine zu schaben.
Vor der Abmeldung
Wie man sieht, geht der Wert einer Bildsuchmaschine weit über die Genauigkeit hinaus. Es hilft Käufern, eine fundierte Kaufentscheidung zu treffen und das Beste aus ihrer Web-Benutzererfahrung zu machen. Für E-Commerce-Besitzer hilft es ihnen, wichtige Informationen über das Produktsortiment in den Geschäften der Konkurrenten zu sammeln und sie über die verschiedenen Daten zu einem bestimmten Produkt auf dem Laufenden zu halten. Wenn also die meisten Ladenbesitzer das iPhone 6s im Einzelhandel im Bereich von etwa 825 US-Dollar haben, wissen Sie, dass auch Ihr Geschäft diesen Preis einhalten muss, um die Konvertierung des Webverkehrs auf Ihrem E-Commerce-Portal zu unterstützen. Auf diese Weise hilft die Bildsuche auch bei der Preisintelligenz.
Planen Sie, Daten aus dem Internet zu erfassen? Wir sind hier um zu helfen. Teilen Sie uns Ihre Anforderungen mit.
