为您的图像搜索引擎抓取图像

已发表: 2016-09-29
目录显示
抓取图像
签字前

前几天我在网上购物买一部新手机。 查看多个站点,我发现我一直提到的一件事是价格(当然!)。 但我一直在寻找另一个方面,那就是我想要的手机的图像。 后来我意识到,如果描述与图像不符,那么我对那个卖家的信任度就很低。 我可以找到可以放大并从多个角度查看的高分辨率图像的网站,这是我停留时间最长的网站。 如果您的购物或浏览行为过于突出图片,那么欢迎来到图片搜索的世界。

为您的图像搜索引擎抓取图像

事实上,这种趋势在在线生态系统中占据主导地位,以至于搜索引擎巨头谷歌除了常规的文本查询搜索外,还推出了图像搜索。 不相信我们? 然后尝试将通过常规搜索查询获得的图像之一拖到搜索字符串中,以了解我的意思。

为您的图像搜索引擎抓取图像

看到文本搜索框左侧的图像了吗? 那是我让谷歌搜索的图片,结果非常准确(那是华硕 ZenFone 3——我正在研究购买的众多手机之一)。

图片搜索引擎

在图像搜索引擎的帮助下,这种新形式的内容检索成为可能。 您不必仅仅依靠文本查询来查找信息。 您还可以根据您提供给搜索引擎的源图像查找相似的图像。 这是图像搜索引擎的确切 USP。 它被定义为一种搜索引擎,旨在根据图像的视觉显示来查找信息。 该技术主要用于电子商务买家和卖家,并查找有关未知对象图像的更多信息或获取有关竞争对手如何定位给定产品的重要信息。

您可能想知道在后台运行什么很酷的算法或机器学习来允许搜索引擎只返回相关和匹配的图像。 好吧,大多数时候它很简单。 图像搜索名称,如果它与查询图像的重要性相匹配,则会收集并显示该名称作为搜索结果。 这种老式的方法是抓取图像的基本方法。 在进行网络抓取时,该工具将检查文件名是否包含搜索查询的完整或部分文件名,并将返回该图像。

大多数开发人员、设计师和数字营销人员都遵循将原始文件名(例如 IMG_10092015.jpg)重命名为有意义且有意义的名称(例如 Earl_Grey_Teabag_1332.jpg)的惯例。 这是为了遵守 Google 算法的要求,即为图像文件提供一个合理的名称,作为提高排名信号的关键之一。 这就是图像搜索引擎为提供准确搜索结果而寻找的内容。

当然,这只是使用图像搜索引擎查找图像的方法之一。 在线搜索信息的两种主要方式是 -

  1. 元数据搜索——如上一节所述,图像搜索是通过查找图像的元数据来执行的。 该元数据可以包括一个或多个关键字、标题、alt+text 或图像名称。
  2. 基于内容的检索——在这种类型的搜索下,源图像的各种特征被使用并通过计算机程序和专用软件运行以返回相关结果。 这种类型的搜索不使用元数据,而是使用图像的内容进行搜索。 这种类型的信息搜索具有以下许多基本技术-
    1. 查询方法——用户提供源图像,程序将查看形状、颜色和大小等特征。
    2. 语义检索——用户将描述查询以查找图像。 这是一个较少使用的选项,因为在将图像与搜索查询中给出的描述匹配方面存在明显困难。
    3. 机器学习——在神经网络和深度学习的帮助下,使用机器学习的图像搜索可以得到提升。
    4. 第三方应用程序——在为图像查询提供搜索结果时,围绕提高图像准确性发生了一些有趣的工作。 2006 年谷歌收购Neven Vision就是一个很好的例子

图像抓取有助于从各种来源获取数据和图像,然后以结构化方式迁移其元数据和图像。 一些常见的导出渠道包括 Excel、后端数据库、CSV 或 XML。 从网络上抓取图像可以帮助多个受益者,包括网络开发人员、设计师、内容经理、记者、营销主管或博主。

当使用蜘蛛抓取图像时,程序将寻找四个关键的东西。

  1. 页面标题
  2. 出版日期
  3. 实际图像
  4. 网站的网址

有兴趣知道接下来会发生什么吗? 然后继续阅读。

图像搜索分析

一旦程序抓取了图像并查看了元数据和与图像相关的内容,大部分工作就完成了。 但是,仍然存在验证图像文件内容的重要指针。 所以假设如果你找到超人,你会得到各种组合——

  1. 漫画中的超人
  2. 电影中的超人
  3. 克里斯托弗·里夫斯饰 Superman
  4. 亨利·卡维尔饰 Superman
  5. 电影海报中的超人
  6. 超人和粉丝

…等等

这是图像搜索处理的分类阶段。 引擎会抛出基本问题——

  1. 图片有脸吗?
  2. 是前面的简介吗?
  3. 存在的背景颜色是什么?
  4. 前景色是什么,它的频率/强度是多少?
  5. 它是免费的还是许可的图像?
  6. 文件大小是多少?
  7. 图像分辨率是多少?

一些像谷歌这样的图片搜索引擎更进一步,允许用户上传自己的图片进行查找。

有各种标准来确定图像搜索引擎显示的结果的成功程度和准确性。 如果有以下任何一种情况,那么返回准确结果的机会就会大大降低:

  1. 背景噪音太大
  2. 前景或背景中的颜色过多
  3. 细节太少,或
  4. 输入图像的分辨率较低

现在我们来看另一种分类方法,即聚类。 这试图将具有相似内容的所有图像放在一组中。 所以继承上面的例子,聚类将把所有这些超人的组合放在一起,甚至包括像超人大战蝙蝠侠超人卡通这样的相关项目 同样,仅当图像中的噪声较少且分辨率较高时,这将提供准确的结果。

抓取图像

掌握大量图像对于构建图像搜索引擎至关重要。 获取大量数据需要可扩展的网络抓取解决方案。 Web 抓取是从 Web 获取数据的最便捷方式,无论是结构化数据、URL 还是图像。 最好依靠网络抓取服务提供商为您的图像搜索引擎抓取图像。

签字前

很明显,图像搜索引擎提供的价值远远超出了准确性。 它可以帮助购物者做出明智的购买决定,并充分利用他们的网络用户体验。 对于电子商务所有者来说,它可以帮助他们在竞争对手的商店中收集有关产品分类的重要情报,并让他们及时了解特定产品的各种数据。 因此,如果大多数店主的 iPhone 6s 零售价在 825 美元左右,您就会知道您的商店也必须匹配这个价格,以帮助您的电子商务门户网站的网络流量转换。 这种方式图像搜索也有助于定价智能。

计划从网络获取数据? 我们是来帮忙的。 让我们知道您的要求。