西西河

主题:问一个搜索引擎的问题 -- 大明湖

共:💬27 🌺5
分页树展主题 · 全看首页 上页
/ 2
下页 末页
          • 家园 期待中
          • 家园 谢谢了先!
            • 家园 刚到家

              对不起,久等了

              http://67.184.79.81/

              速度会较慢,一周不在家,MySQL Crash,这台机器正在同时修复数据库,所以速度比较慢,抱歉.

              我的email是[email protected], 有什么建议或者问题,敬请告知.

              • 家园 Tried 3 times, one error, two sorries!
                Not Found
                
                The requested URL /hello was not found on this server.
                Apache/2.0.54 (Win32) mod_jk2/2.0.4 mod_perl/1.999.21 Perl/v5.8.7 Server at 67.184.79.81 Port 80
                Sorry, we havn't reached that far, please try later
                • 家园 数据库太小

                  第一个问题是因为您上传的要么不是图片,要么我的系统还识别不了这种格式。

                  第二个主要是因为:

                  1。您要找的图片我的WWW收集器还没能收集到。

                  2。我的数据库url table不能访问

                  • 家园 还在独力发展阶段?

                    Anything I can help you please don’t hesitate to let me know.

                    • 家园 有帮助最好了

                      因为是空闲时间做,一直不能完全投入,现在主要有以下几个问题需要解决

                      1。mysql总是crash,按说俺们的数据库也并不大,最大的一个table也就10G,(网上说mysql需要到100G才会出现状况)

                      2。web grabber不能完整的收集页面。

                      如果有朋友有志共同做这个方面的工作,我的email信箱[email protected].

                      • 家园 你指的页面是image还是page?

                        mysql出状况要到TB级以后了。但GB级以上的table建议用innoDB类型,myISAM显然会出事的。

                        静态的image或page可以参考头信息里的chunked size,判断是否下载完毕。

                        但对没写size的动态page或image没有啥好法子,因为大多数人的page都是瞎写的,毫无语法限制。你没法子从页面本身判断是否到尾部了(除非你针对特定的一批网页设定了尾部标志)。若是自己能写到TCP/IP协议这一级,不用封装的sock模块,大约会好办。

                        不过说实话,不是俺泼冷水,您这个发展方向俺还真是看不出什么大的价值来。

    • 家园 索引成大问题。

      估计得到机器理解图片有突破了这种搜索才有可能。

    • 家园 猜测一下

      基于文字搜索,是搜索那些含有关键词的页面,然后把照片提出来,因为含有照片的页面往往附有照片的介绍。

      理论上基于图片的搜索是有可能的,有算法可以对比照片的相似程度。但电脑工作量太大,恐怕实现不了。

      • 家园 同意.即使是衣服简单的图片,信息量也远大于文字.

        所以理论上是可能,但现在计算机的能力还达不到.

      • 家园 Thanks
分页树展主题 · 全看首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河