图像无疑是互联网上最重要的资源媒介,搜索引擎也无疑是互联网上最重要的资源获取渠道,顺理成章,当图像遇上了搜索引擎时,它们之间迅速萌生了产品化的火花。
目前几乎所有的主流互联网搜索引擎都提供搜索图像的功能(在此之前还有专门的垂直搜索引擎 Tineye,Picitup),最常用的形式是,通过用户输入关键字来检索相关图像。然而很少有人注意到另一种搜索形式:以图搜索。在谷歌图像搜索界面上,点击搜索框右边的像机图标(百度是一个图片图标),搜索引擎将允许用户上传一幅图像或引用图像链接,搜索引擎根据图像内容进行搜索。但为什么这个看似酷炫的功能用户却并不常用,甚至鲜为人知呢?
搜索到的图像不尽人意
图像搜索引擎多采用图像指纹的方法对图像进行表征,这就限定检索出的目标图像是与原图像基本一致或至少大部分一致的,在此基础上允许目标图像进行缩放变换。可想而知,用户在极少的情况下需要获取与自己上传图像一致的另一幅图像。
搜索到的内容难尽人意
让我们试图猜测,用户上传一幅图像时,他们想搜索到什么样的结果?可能有这样的情景:
同学A:上传一位女星的头像,迫切地想知道她是谁,以及与她相关的一切。其实,很大程度上,我们知道她是谁,就可以通过她的名字或绰号检索出互联网中关于她的一切。
谷歌的对策
通过大量包含目标图像的网页分析出与图像最相关的关键字,利用关键字强化检索。在这个情景中,该关键字恰好是女星的名字。
百度的对策
更进一步,当图像中有明显的人脸内容时,将启用人脸识别,返回包含有相似人脸内容的图像。
搜狗的对策
在谷歌的基础上,推出了同主题图片集,其中包含了可能相关但并不相同的图像。
该情景,同学A的问题被得到了较好的解决。但我们还要来看看同学B。
同学B:上传一幅关于腊肠树的图像,试图找到更多关于这种植物的背景信息或图像时。
谷歌的对策
这次谷歌无法获取它的关键词,从而更无法推测用户搜索意图,好在它返回了一些在内容上,尤其是颜色相似的图像,但其中大多并不是同学B想要的腊肠树图像。
百度的对策(搜狗同)
百度无法获取关键词,也无法猜测用户搜索意图,于是极端地罢工了。
用户的需求是繁杂的,以目前的技术,想单独依靠图像识别准确推测用户需求几乎不可能。
能做什么
既然这样,用户能利用“以图搜索”做什么?搜狗为我们做了一个简要举例:
搜狗的说明页面也暗示出:广大用户尚不了解“以图搜索”,更不明确知晓如何利用“以图搜索”;而互联网产品经理们也没有清晰地产品应用定位,只能蜻蜓点水地举些具体应用情景,而这些具体的应用场景,更像垂直搜索引擎的研究范畴。
拨开表面的功能包装,可以分析出通过图像为媒介,最容易获取到以下几方面互联网资源:
- 相关网页,目标图像所在页面;
- 相关关键词,通过目标图像所在页面获取相关文本;
- 相关图像,通过目标图像所在页面获取相关图像;
- 相似图像,通过目标图像特征获取相似的图像 。
尴尬的是,这些资源中哪些是对用户有用的,还要用户自己去判断。
“识图”不是最终目的
正如搜索引擎尚不能完全解析人类自然语言一样,图像识别技术也不能完全了解图像的语义内容,更难理解用户对图像赋予的语义。或许凭借目前的模式识别技术,“以图搜索”想要实现垂直搜索确实比较困难,而将最容易获取的资源清晰明确地进行罗列,让用户自行筛选交互,可能更加易行实用。
但是,只要还有人拿着一张照片询问这是哪个歌星这样的情景还存在,“以图搜索”就值得投入资源进行研究,而随着地理信息以及多媒体媒介等技术地不断发展,搜索引擎将能获取更多的用户背景信息,关联更多媒介类别的资源,强化整体资源网络的联系,取得更理想的反馈结果。
另外,或许在移动端,这种视觉搜索会有可能有一番作为。因为从 Web 到 App 的搜索转变更加符合人们随时随地搜索的特性,因为情景的改变用户的需求也会改变,同时还可以和移动端的社交网络以及其他 App 结合起来。如之前极客公园观察家 kaler 所提到的那样,“在商店里看上了一条领带,但我们不喜欢这样的颜色,而且我们希望淘宝价能比较便宜。我们只要拍下领带的样子然后就可以跳转到淘宝,我们一下子就能得到具体的价格还有其他类似的领带信息,这时我们就有了更多的选择,能更快选择到真正符合我们需求的商品”。