西西河

主题:【原创】看了《焦点访谈》,看到了利益二字 -- 鹦鹉

共:💬90 🌺66
分页树展主题 · 全看首页 上页
/ 6
下页 末页
                        • 家园 这个技术上的可能,未必在实践中可能

                          首先这种可能只是基于运算能力的一种“可能”,要真正达到实用相应的软硬件都需要开发。

                          而且那玩意造价是以千万乃至亿计算的,运行维护费也是一大笔开销。这种情况下,恐怕没有哪个设备商能够承担开发成本--想让移动自己开发--洗洗睡吧。

                          真要上这东西,就不要做生意了。

                          • 家园 这么说或许更好些

                            从算法上来说,这在技术上是完全是可能的;但从运算能力上来说,在实践上不够现实。我想你也同意这样的说法吧?

                            我从来(从这个主题的第一个帖子,或者在任何论坛上)都没有说过这玩意儿便宜。GFW达到目前的监控效果肯定也花了N个亿了。

                            但我开始就提出了“法律是法律,技术是技术”。OK,法律要求运营商实施这样的监控,而且现在技术上是可以实现的,但运营商由于成本的原因不愿意去实现——这是谁的错?

                            就象我前面说的,ZF也要求论坛去监控每条帖子,对于163这样的大型论坛来说,这也是非常困难的任务,但结果如何?163做到了。因为它如果做不到只好关门,所以即使成本很高,它也只能去做。

                            电信,移动的资产比163高出太多了。我不知道从成本上他们到底能否承受,但即使不能,“有问题跟人大提,跟法官说不着”。既然有了这样的法律,就应该严格执法。如果执法的结果是电信移动不能承受的,那么要么电信移动“洗洗睡吧”,要么要求人大修改法律。这么说对吧?

                            • 家园 什么法律要求运营商一定要实施你说的那种监控?

                              列出来看看?

                              • 家园 有篇文章你参考一下

                                以前看过的一篇引用了很多法律条款,但找不到了。临时找了一篇供参考,有兴趣的根据里面的提示google吧。

                                谁纵容手机黄祸泛滥?专家:运营商负法定责任

                                  从现有的针对运营商"责"的相应法律条规上看,运营商也不只是"修路"的,还承担了"检查站"与"收费站"功能。根据工业和信息化部出台的《关于进一步加强移动通信网络不良信息传播治理的通知》明确规定,电信运营企业对于信息安全的规则原则是,"谁经营、谁负责"。而早在2005年,工业和信息化部已对运营商提出的监管要求中就包括:事先进行内容审核、加强日常技术监测、健全用户投诉处理机制等。

                    • 家园 你愿意相信就相信好了。。。

                      对于你来说,一切皆有可能,一切都如此容易。。。

                      • 家园 可能吗?不可能吗?事实在说话

                        我不知道你是否是这个行业的,不过坦白说我不是。但是我是做IT的,平时也很关注这方面的消息。

                        关于语音识别:

                        Most commercial companies claim that recognition software can achieve between 98% to 99% accuracy if operated under optimal conditions. `Optimal conditions' usually assume that users:

                        * have speech characteristics which match the training data,

                        * can achieve proper speaker adaptation, and

                        * work in a clean noise environment (e.g. quiet office or laboratory space).

                        This explains why some users, especially those whose speech is heavily accented, might achieve recognition rates much lower than expected. Speech recognition in video has become a popular search technology used by several video search companies.

                        Limited vocabulary systems, requiring no training, can recognize a small number of words (for instance, the ten digits) as spoken by most speakers. Such systems are popular for routing incoming phone calls to their destinations in large organizations.

                        既然可以识别数字,识别一些“特定行业”的“特定用语”应该没问题吧

                        图像识别我没有找到数据,但既然人脸识别技术已经实用化,也就不需要多说什么了吧

                        要是你还对文字识别有任何疑问,我就无语了。

                        好了,我的证据举完了。该你了。

                        • 家园 通讯面临的数据流是海量且不定向的

                          从理论上来说,不可能进行有效的识别,因为特征向量的相似性趋于0。但在实际上,我们可以通过后期处理去逼近,但现在的技术远达不到。绿坝对此做出了勇敢的尝试,可惜它的识别技术跟筛子一样;况且,而对于通讯行业,绿坝所需要处理的实时数据量根本不值一提。

                          你需要举出的证据是:对于数据流和模糊值都极大的情况下,现今存在一种技术手段能够实现精准度较高的语音以及图像识别;如果你能在百度或者google上找到,那么恭喜你,别在西西河里说服我了,赶紧悄悄的注册专利吧,你发财了。

                          • 家园 在这个case里是数据流定向的

                            所有的数据/语音都要通过电信移动,而且数据来源或目的是电信移动已知的,注册的SP的地址,所以电信移动有条件设置防火墙。这个case不是在讨论GFW。由于要搜索的信息有很大的相似性,我不知道你的“特征向量的相似性趋于0”的结论是怎么得出的。

                            数据量大这个我不否认,但数据量大与精准度没有任何关系,只是关系到处理成本而已。

                            至于精准度,我前面的例子已经提到了。

                            这个图像语音识别的专利早就被申请过N多了,连商业软件都是现成的。我是没指望靠这个发财了,只能在河里科普了。

                            • 家园 模式识别的经典问题

                              1、什么是苹果?

                              2、怎么分辨苹果和梨子?

                              3、如果把苹果换成水果,会产生那些变化?

                              数据量大与精准度没有任何关系,只是关系到处理成本而已。

                              只能不客气的说,你对模式识别一窍不通。

                              • 家园 怎么?这个经典问题成千古难题了?

                                看来你是专业的了,那么请教:

                                你的这几个问题,应该是说的图像识别吧?请问:

                                1. 苹果的图像特征没法提取吗?特征点没法检测吗?

                                2. 苹果和梨子的图像特征没有任何区别吗?

                                3. 请问“水果”长什么样?不好意思,咱孤陋寡闻没见过这个东东。我们现在说的也不是模糊数学人工智能。但如果你能把“水果”给咱定义了,不就是建模嘛,建一个是建,建一双也是建啊。

                                4. 请问对于色情图像中某些人体部位的检测(不用确定这是谁的),相对于指纹识别系统/人脸识别系统中对指纹,人脸的检测(需要透过化妆和不同角度确定这是谁),难度在哪里?

                                也请您这个专家再给咱这个一窍不通讲讲,如果对于苹果图像特征以及提取了,也知道如何检测苹果的图像特征了。请问,检测一个苹果,和一筐苹果,对检测的精准度有什么影响。谢谢。

                                • 家园 你觉得c语言和c++语言一样吗?

                                  一个苹果和一筐苹果,这根本就是图像识别中的两个研究领域,连研究思路都不一样,或者说,这是两门不同的技术。

                                  • 家园 这个似乎没有可比性啊

                                    首先你没有回答我的问题,既然你花费了时间跟我辩论,也请再花多些时间简单回答一下吧。

                                    其次,我搜索了很长时间,还是没有找到识别一个苹果和一筐苹果有什么区别。麻烦你用专业术语简单描述一下区别到底在哪里,我好自学。只是——识别色情图像与识别一个苹果与一筐苹果的区别有联系吗?

                                    不过关于苹果,倒是有个意外的收获。一篇文章提到:

                                    通过对40幅果树图像试验表明,苹果及其果柄的识别率在80%以上.

                                    正如我前面所说,如果在一棵树上检测出80%的果实是苹果(识别率的限制),程序当然应该判定这是颗苹果树而不是梨树。同理,如果来源于某个SP的数据流里80%图片都被判定为色情图片,这个网站是色情网站的可能性是很大的吧?

                                    另外,顺便提一下,对于某个电信的数据中心而言,其接入的SP的数目和带宽都是有限的,有针对性地分析这些数据流也并非不可完成的任务。

                                    • 家园 到目前为止,我还没有看到你对概念的理解有正确的地方

                                      一个苹果意味着有监督,苹果梨子表示二类错误的引入,一筐苹果表示无监督,水果表示抽象元素的分类。这是模式这门课最基本的概念,而相对于现实中所用的模式识别技术,不过是万里长征的第一步。

                                      即便这样,我依然相信,你一会还会有更多的问题提出,对于一个无法下意识的区分一、二类错误的学习者来说,更加优先的选择应该是重修概率论,否则你根本无法理解对海量数据识别以及其后运用贝叶斯决策的时候的风险,也根本无法对基本的统计识别模式做任何有意义的学习。至少,你可以把你所列举的80%是个什么概念的数据理解的稍微正确点。

                                      进一步的选择应该是控制原理,否则你将不知道怎样的实现可控和可观,也不会知道在怎样的条件下无法实现,当你不知道这些的时候,你将会提出很多似乎极其正确的要求;所以你必须知道的是,即使是细微的极点和零点的变动,也将可能对你的识别系统产生根本性的变化,否则,你会提出“一个苹果和一筐苹果有什么不同”的问题。按照智能技术的发展水平,复杂元素的识别目前是不可控的,必须要精度更高的反馈器补偿 —— 也就是人脑来实现系统的可控。

                                      接下来,我想,应该是人工智能,通过这里你可以理解贝叶斯决策理论,可以理解BP网络到VC网络的发展,进而可以知道向量的关联是如何实现的,大特征分类是基于什么,可以知道“一个苹果如何用谓语描述”;同时,你也可以了解到,人工智能技术能够到达一个怎样地步,这样至少不会举出类似“全球语音监听识别系统”这样华丽丽的传说做论据。

                                      然后,系统辨识是需要的。否则,在面对一系列的诸如“水果”“非法图片”的抽象名词时,你会产生“建一个是建,建一双也是建”的疑惑,建一个和建N个的方法是不同的,而建有限个和建无穷个方法也是有差异的,更重要的是,对于具体对象和抽象对象的方法是不同,也就是“苹果”和“水果”的区别。而对于最后者,在巨大基数上,决策错误的概率将大的惊人,也就意味着你根本不可能信任这样一套识别决策系统,那么,你又何必去建立这套系统呢?

                                      非线性的一些基本知识是必须的,不仅因为其中夹杂了最优决策的相关内容,更重要的是,在现实而不是matlab上,你不会找到纯线性的东西,如果不了解非线性的分类器的各种算法,那么你不能明白为什么把精确度从90%提高到95%竟然比从0提高到90%要困难若干倍,从而多少对所需的资源有个初步了解。

                                      此外,以上都是建立在你已经牢固掌握了线性代数的基础之上的,否则,你会发现以上所有的学科都是天书。在完成这些知识结构的储备之后,你可以开始对最开始的问题进行思考。在与我学生时代的学习笔记进行比较之后,我有理由相信,你在百度上是不容易找到捷径的。

分页树展主题 · 全看首页 上页
/ 6
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河