主题:【求助】请问这家翻译搜索网站是什么程序? -- deaf
请问http://fanyi.52shouyu.com 是用什么程序?我已经有php和mysql空间。
我手里拥有大量清晰手语素材,是权威单位专门提供的。我想做成一个搜索网站,提供给大家查询。谢谢!
整个论坛是 Discuz! Archiver 6.1.0 的,猜测数据库自然应该是 MySQL 的。
它那个论坛搜索结果是 bmp 的。太大了,比较亏。希望你不至于犯这个错误。
分词,然后查询数据库就简单了。不过分词程序挺初级的。
老叫花开始看见翻译搜索四个字,瞎激动了半天,进来才发现是个手语词典。
此类事情是行善,还是很值得认真做的,不过经济利益大概不多吧?
您看他主贴就知道呢链接出处,已经无关利益,只求让更多类似朋友受益呢
还是很好的一件事情。我看了各位大侠的说法,语音识别的确是很好的选择。老叫花当年也折腾过一阵语音识别。
这里给yueyu的建议补充一点,语料库看来是比较难搞,其实有很多中文教程里面,有发音和文字对应,可以作为语料库。有方言口音的语料库困难一些。
分词的程序网络上面很多,可以比楼主给出的链接里面做的更好一些。
我搞清楚了,应该是美人的他爹说的分词程序。谢谢!
经你的指点,我才明白了这就是分词程序,不是搜索的。
上次讨论过语音识别程序,发现这个有很大的难度。
后来我有一位朋友,在出版社负责中国手语编辑,他有大量高清手语图片,可以用做资料库。你说了网上有不少的分词程序,能不能推荐一两种给我测试么?
用户输入一段话,你的程序先把这段话分解成为一组词,然后用各个词到数据库里面去查询。
查询的结果应当是一个图像在你服务器上的url,这个图像就是你说的手语图片。然后把这些词和手语图片对应起来,组合成html的格式,返回用户的浏览器,用户就看到了词和手语图片的对应网页。
分词的方面我不是专家,程序我也没有评估过很多,不便推荐,河里做这方面的大牛还望帮楼主一把。
http:/ /www.nlp.org.cn/categories/default.php?cat_id=12
你可以去这里看看,其实基础分词系统差别不大的,这个中科院系统很多人用的,语音识别大概分词方面会有特殊的需求。
php的分词程序
scws,基于词频辞典的分词程序 外链出处
这个是测试页面 外链出处
phpcws,这个是基于ICTCLAS的中文分词程序,外链出处
另外,关于手语图片资料的情况不了解,是不是每一个图片对应一个汉语语素?比如拇指向上屈伸对应“谢”?如果是这样的简单对应关系,搜索关键词分出来的词和资料简单对应即可,需要考虑的是分词的效率问题,上面给出的链接当中,优先采用C实现的,不过可能会受限于主机的环境。如果手语资料本身就是一个句子,除了分词之外,还需要对手语资料本身建立全文索引,可能就会稍微复杂一点,如果是这种情况,建议考虑适用lucene,也有很多种语言的实现,自定义起来也不麻烦。
分词和全文检索技术方面不是专家,只是项目当中用过一些,楼主做善事,小羊就抛个砖,期待河里大牛的玉