西西河

主题:问一个搜索引擎的问题 -- 大明湖

共:💬27 🌺5 新:
全看分页树展 · 主题 跟帖
家园 懒橱说的接近

我想补充几点。

google目前是根据图片的alt属性(附加于网页图片的说明文字,有时候你看图片时,鼠标划过图片时显示的那中文字)和图片的url中含有的文字部分来定位图片的。这就是他们的image搜索的原理。进一步的根据包含图片的网页的上下文来定位的技术,据我所知还没有投入应用。

当然图片还可能有其他的属性,例如建立/修改时间、图片尺寸,索引图(某些格式的图片是支持内嵌那么一张索引图的)、作者、数字水印等,都可能被应用来定位图片。

再比如,若要直接对图片建立索引,可以采用把图片建立一个(缩放到)一定尺寸的小索引图,例如30点*30点,这个数据量就是有限的。忽略掉颜色信息,这个索引图可以按照一定的特征(公式)被归纳成简单的数字或字符串。这个并不困难。然后,我们就有了图象的直接索引了,检索这个索引文件那是一点问题没有。

在计算机能理解图片之前,肯定可以在这些基础上建立起折中的、俺估计效果还不错的图片搜索功能。俺上面说的,都是现在立马就能或已经实现的东西。当然随着算法的改进,其搜索效果可以越来越好。并且我认为主要是算法和数学模型的改进问题,硬件问题不是主要的瓶颈。

元宝推荐:Highway,

本帖一共被 1 帖 引用 (帖内工具实现)
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河