主题:【原创】看了《焦点访谈》,看到了利益二字 -- 鹦鹉
一个是他的识别率,一个是他的识别模式。
识别率95%可能是可以达到,现在手机都有语音拨号,你存个语音再拨一下试试;我原来做过图像的模式识别,如果有先验条件的话,可以达到90%左右,但音频似乎比图像要困难些 —— 这个是从单个技术角度;我觉得这个方面如果把音频分解的再细一些(这对处理器要求比较高),可能在不久的将来是可以预见的。
另一个是识别模式,因为现在都是定向的识别(即给你一个模板,然后通过计算机根据具体参数去模糊匹配);但实际上如果要运用到监听系统,这个是没有模板的 —— 因为你需要监听的音频在你的资料库里是不存在的,被监听对象也不会刻意的配合你,那么如果需要匹配某个音频字段的话,这个的模糊量范围将很大,而如果模糊太大的话,那么搜索的范围和搜索的错误率将成指数倍增加。。。结论就是根本无法实际使用。
谢谢科普,不是我的专业范畴。
虽然是带条件的。但这个条件不是技术上不可达到,而是运营商不愿意这么做。
总算有人愿意相信现在已经进入21世纪了~~~
而移动等又咬牙与QQ绑定的转向,太过明显了
但是3G的到来是不可避免的
最重要的,应该是利益划分之开始,大家相互谈判的筹码罢了
首先这种可能只是基于运算能力的一种“可能”,要真正达到实用相应的软硬件都需要开发。
而且那玩意造价是以千万乃至亿计算的,运行维护费也是一大笔开销。这种情况下,恐怕没有哪个设备商能够承担开发成本--想让移动自己开发--洗洗睡吧。
真要上这东西,就不要做生意了。
我不知道你是否是这个行业的,不过坦白说我不是。但是我是做IT的,平时也很关注这方面的消息。
关于语音识别:
Most commercial companies claim that recognition software can achieve between 98% to 99% accuracy if operated under optimal conditions. `Optimal conditions' usually assume that users:
* have speech characteristics which match the training data,
* can achieve proper speaker adaptation, and
* work in a clean noise environment (e.g. quiet office or laboratory space).
This explains why some users, especially those whose speech is heavily accented, might achieve recognition rates much lower than expected. Speech recognition in video has become a popular search technology used by several video search companies.
Limited vocabulary systems, requiring no training, can recognize a small number of words (for instance, the ten digits) as spoken by most speakers. Such systems are popular for routing incoming phone calls to their destinations in large organizations.
既然可以识别数字,识别一些“特定行业”的“特定用语”应该没问题吧
图像识别我没有找到数据,但既然人脸识别技术已经实用化,也就不需要多说什么了吧
要是你还对文字识别有任何疑问,我就无语了。
好了,我的证据举完了。该你了。
从算法上来说,这在技术上是完全是可能的;但从运算能力上来说,在实践上不够现实。我想你也同意这样的说法吧?
我从来(从这个主题的第一个帖子,或者在任何论坛上)都没有说过这玩意儿便宜。GFW达到目前的监控效果肯定也花了N个亿了。
但我开始就提出了“法律是法律,技术是技术”。OK,法律要求运营商实施这样的监控,而且现在技术上是可以实现的,但运营商由于成本的原因不愿意去实现——这是谁的错?
就象我前面说的,ZF也要求论坛去监控每条帖子,对于163这样的大型论坛来说,这也是非常困难的任务,但结果如何?163做到了。因为它如果做不到只好关门,所以即使成本很高,它也只能去做。
电信,移动的资产比163高出太多了。我不知道从成本上他们到底能否承受,但即使不能,“有问题跟人大提,跟法官说不着”。既然有了这样的法律,就应该严格执法。如果执法的结果是电信移动不能承受的,那么要么电信移动“洗洗睡吧”,要么要求人大修改法律。这么说对吧?
从理论上来说,不可能进行有效的识别,因为特征向量的相似性趋于0。但在实际上,我们可以通过后期处理去逼近,但现在的技术远达不到。绿坝对此做出了勇敢的尝试,可惜它的识别技术跟筛子一样;况且,而对于通讯行业,绿坝所需要处理的实时数据量根本不值一提。
你需要举出的证据是:对于数据流和模糊值都极大的情况下,现今存在一种技术手段能够实现精准度较高的语音以及图像识别;如果你能在百度或者google上找到,那么恭喜你,别在西西河里说服我了,赶紧悄悄的注册专利吧,你发财了。
所有的数据/语音都要通过电信移动,而且数据来源或目的是电信移动已知的,注册的SP的地址,所以电信移动有条件设置防火墙。这个case不是在讨论GFW。由于要搜索的信息有很大的相似性,我不知道你的“特征向量的相似性趋于0”的结论是怎么得出的。
数据量大这个我不否认,但数据量大与精准度没有任何关系,只是关系到处理成本而已。
至于精准度,我前面的例子已经提到了。
这个图像语音识别的专利早就被申请过N多了,连商业软件都是现成的。我是没指望靠这个发财了,只能在河里科普了。
1、什么是苹果?
2、怎么分辨苹果和梨子?
3、如果把苹果换成水果,会产生那些变化?
只能不客气的说,你对模式识别一窍不通。
看来你是专业的了,那么请教:
你的这几个问题,应该是说的图像识别吧?请问:
1. 苹果的图像特征没法提取吗?特征点没法检测吗?
2. 苹果和梨子的图像特征没有任何区别吗?
3. 请问“水果”长什么样?不好意思,咱孤陋寡闻没见过这个东东。我们现在说的也不是模糊数学人工智能。但如果你能把“水果”给咱定义了,不就是建模嘛,建一个是建,建一双也是建啊。
4. 请问对于色情图像中某些人体部位的检测(不用确定这是谁的),相对于指纹识别系统/人脸识别系统中对指纹,人脸的检测(需要透过化妆和不同角度确定这是谁),难度在哪里?
也请您这个专家再给咱这个一窍不通讲讲,如果对于苹果图像特征以及提取了,也知道如何检测苹果的图像特征了。请问,检测一个苹果,和一筐苹果,对检测的精准度有什么影响。谢谢。
列出来看看?
一个苹果和一筐苹果,这根本就是图像识别中的两个研究领域,连研究思路都不一样,或者说,这是两门不同的技术。
运营商也并不是都没考虑这个东西,实际上有些地方的运营商是专门做了页面信息检索然后审查的。
那位兄台要求的东西太梦幻了,不懂行的人你解释也很难的。
绿坝的技术其实是很前沿的,当然他们搞不出来那是另一回事情。