西西河

主题:【求助】请问这家翻译搜索网站是什么程序? -- deaf

共:💬19 🌺15
全看树展主题 · 分页首页 上页
/ 2
下页 末页
家园 【求助】请问这家翻译搜索网站是什么程序?

请问http://fanyi.52shouyu.com 是用什么程序?我已经有php和mysql空间。

我手里拥有大量清晰手语素材,是权威单位专门提供的。我想做成一个搜索网站,提供给大家查询。谢谢!

关键词(Tags): #手语#搜索通宝推:刹那芳华,
家园 帮忙顶一下,支持
家园 也帮顶一下
家园 php 的,

整个论坛是 Discuz! Archiver 6.1.0 的,猜测数据库自然应该是 MySQL 的。

它那个论坛搜索结果是 bmp 的。太大了,比较亏。希望你不至于犯这个错误。

家园 貌似里面还有分词系统

分词,然后查询数据库就简单了。不过分词程序挺初级的。

老叫花开始看见翻译搜索四个字,瞎激动了半天,进来才发现是个手语词典。

此类事情是行善,还是很值得认真做的,不过经济利益大概不多吧?

家园 求助楼主本人就是手语使用者之一。

您看他主贴就知道呢链接出处,已经无关利益,只求让更多类似朋友受益呢

家园 这么说来

还是很好的一件事情。我看了各位大侠的说法,语音识别的确是很好的选择。老叫花当年也折腾过一阵语音识别。

这里给yueyu的建议补充一点,语料库看来是比较难搞,其实有很多中文教程里面,有发音和文字对应,可以作为语料库。有方言口音的语料库困难一些。

分词的程序网络上面很多,可以比楼主给出的链接里面做的更好一些。

家园 感谢你热心支持!
家园 呵,这个网站不是我做的,不过谢谢你。

我搞清楚了,应该是美人的他爹说的分词程序。谢谢!

家园 非常感谢你热情帮助,我先说一说这个思路。

经你的指点,我才明白了这就是分词程序,不是搜索的。

上次讨论过语音识别程序,发现这个有很大的难度。

后来我有一位朋友,在出版社负责中国手语编辑,他有大量高清手语图片,可以用做资料库。你说了网上有不少的分词程序,能不能推荐一两种给我测试么?

家园 也是感谢支持!
家园 这种事情还是要送花的。
家园 大概是这样一个系统架构

用户输入一段话,你的程序先把这段话分解成为一组词,然后用各个词到数据库里面去查询。

查询的结果应当是一个图像在你服务器上的url,这个图像就是你说的手语图片。然后把这些词和手语图片对应起来,组合成html的格式,返回用户的浏览器,用户就看到了词和手语图片的对应网页。

分词的方面我不是专家,程序我也没有评估过很多,不便推荐,河里做这方面的大牛还望帮楼主一把。

家园 计算所汉语词法分析系统ICTCLAS

http:/ /www.nlp.org.cn/categories/default.php?cat_id=12

你可以去这里看看,其实基础分词系统差别不大的,这个中科院系统很多人用的,语音识别大概分词方面会有特殊的需求。

家园 分词我接触过一些

php的分词程序

scws,基于词频辞典的分词程序 外链出处

外链出处

这个是测试页面 外链出处

phpcws,这个是基于ICTCLAS的中文分词程序,外链出处

另外,关于手语图片资料的情况不了解,是不是每一个图片对应一个汉语语素?比如拇指向上屈伸对应“谢”?如果是这样的简单对应关系,搜索关键词分出来的词和资料简单对应即可,需要考虑的是分词的效率问题,上面给出的链接当中,优先采用C实现的,不过可能会受限于主机的环境。如果手语资料本身就是一个句子,除了分词之外,还需要对手语资料本身建立全文索引,可能就会稍微复杂一点,如果是这种情况,建议考虑适用lucene,也有很多种语言的实现,自定义起来也不麻烦。

分词和全文检索技术方面不是专家,只是项目当中用过一些,楼主做善事,小羊就抛个砖,期待河里大牛的玉

全看树展主题 · 分页首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河