- 近期网站停站换新具体说明
- 按以上说明时间,延期一周至网站时间26-27左右。具体实施前两天会在此提前通知具体实施时间
主题:【原创】机器学习的基础是什么?(0) -- 看树的老鼠
做知识库,自然语言识别,机器学习.做了几年之后对这个领域也算有点了解,没有之前那种神秘感了,最核心的模型架构思路基本还是美国在七八十年代搞得那些东西,主要的进步都是计算机技术的进步,大大提高了数据处理能力所带来的.
不知道这些年在机器学习的数学理论方面,有没有出现革命性的突破.
我也没感觉到什么革命性的东西。
看起来您现在不做了?我挺想知道做NLP或机器学习的人还能做些别的什么
假如人是大脑由非常先进的外星文明创造出来的,而不是进化出来的,机器学习能达到和人相似水平,唯一的出路就是反向工程。我们现在看人脑,就像原始人看电脑一样。
如果是这样,想要达到人脑的学习水平,除非科技水平达到能够理解人脑是如何工作的,或者有人知道如何反向工程人脑的设计。
否则就像原始人是造不出电脑一样,在这种情况下,单靠算法是没有希望的。
当时的主要应用方向有知识库,自然语言理解,机器翻译,语音识别等几个.IBM在2000年就推出了一个语音识别系统,刚出来的时候还挺火的,现在不知道怎么样了.
我记得当时是读到有一篇美国人在80年代写的论文,作者通过数学理论严格证明了,在当前的计算机体系结构下,没有可能完美的实现这些人工智能系统,我就决定转行了.
非常想听听这个“支持向量机和深度学习网络背后的直觉都是什么”。
通过此贴得到两点启发,1.凑公式,往简单里说,类似我们小时候解应用题,通过对事物的理解在头脑中找出某个或几个已知的公式,定理去推导解决,并通过结果印证。但是区别是,机器学习的公式并不能直接得出结果,只是通过这些公式构建一些模型,然后这些模型通过学习得出某种无法解释的原理去得出结果。
这个黑匣子问题虽然可能通过分层分解来减小黑匣子的范围,比如文字识别模型的问题可以通过分离整个字的识别模型为底层对笔画的识别模型,以及更底层对像素的模型,那么那一层出问题就可在哪一层解决。虽然黑匣子再小仍然是黑匣子,但便于修改公式与模型。就是说把学习发展为一个分布式的学习,关键在于不同模块之间如何能够有效的形成整体的学习模型。
另一个启发是通过人工把一些知识构建,但是与wikipedia不同的是,这个结构还必须可以与机器学习的模型共同发生作用,机器学习到的还可以加入,也就是说机器学习到的知识是人可以理解的。这个听起来有回到symbolic AI的老路上的样子。说是启发,到网上一搜,发现也不是什么新想法,MIT有人早在2010年就提出过这个想法http://web.mit.edu/newsoffice/2010/ai-unification.html 而且还出现过这个叫做Church的语言 http://www.mit.edu/~ndg/papers/churchUAI08_rev2.pdf
其实就是哲学问题,智能到底是进化产物,还是工程产物。
如果人脑智能是超级先进文明设计的类似电脑一样的复杂生物工程产品,就没有数学算法能简单概括了,只有反向工程一条路。
我们这样的文明人,在先进文明的眼里,就是原始人。我们去反向工程超级先进文明的生物工程产品,只能先指望生物技术先突破。
如果不反向工程,人类也可以尝试自己发明轮子,用现在的电脑,重新发明和人类大脑一样的智能工程产品,但这个可能性极小,因为我们文明水平太低。这种可能,就像石器时代的人发明现代计算机一样。
机器学习的所有分支都是解决同一个简单的数学问题:在N维线性空间中用已知数据估计一个N-1维超曲面,使得这个曲面把所有的已知和未知数据分成性质不同的两份。如果只求分开不管定量就叫classification(不知中文叫什么,分类?),如果分开程度要定量就叫regression(回归)。
不管什么svm,神经网络,任何方法,都是输入N个值(N维空间),输出一个值(离分界线的距离)。这个模型体系下,所有算法都没区别,都是画一条线,线的两边非黑即白。
我现在已经彻底改行了,都忘得差不多了.
所有的方法,其实都是依赖的都是计算机强大的数据处理能力,人工智能没有智能.
现在人类科技根本就没有搞明白,人脑到底是如何运作的,那又怎么能够做到用计算机来模拟人脑呢?
发明“人工智能”这个词的人,几乎把这个领域完全祸害了几十年。
“智能”就是个伪概念。从来没有人定义过什么叫“智能”,什么叫“学习”,什么叫“人工智能”,因为这些本身都是伪概念。如同“燃素”,“以太”一样,是从来没有被定义过的伪概念。
再一次深刻的体会一下“图灵实验”。图灵实验是对所谓“智能”伪概念的深刻鞭挞,也真正体现了图灵思想之深邃和深刻。
从“图灵实验”这个概念本身我们就知道,图灵根本上就没有什么“智能”概念。
人类在求知过程中,由于遇到了很多无法理解的事情,就暂时发明出一些伪概念,算是对某种现象的描述。而经过日久天长,这些伪概念慢慢进入普通生活,人们熟悉了这些词汇,就见怪不怪,把这些词汇代表的伪概念自然而然的接受了,当作理所应当的事情。但其实这些伪概念都是既无内涵又无外延,没有任何定义的伪概念。往往揭穿某个伪概念的过程,就是某个学科大进步的进程。
比如说“燃素”,“有机物”,“以太”,“遗传因子”。
实际上“图灵实验”就是图灵对“智能”这个概念的定义。而这个定义才是深刻的揭示了“智能”的本质——根本就不存在什么智能。
如果想不明白的人,就从图灵为什么想出来一个图灵实验开始想。图灵为什么提出这个图灵实验的概念?他肯定是想为”智能“下一个定义。但肯定是图灵想破脑子也没有想出来智能的定义。于是他明白了,智能从来就没有定义,而是一个“主观”的概念,即是由人来看某些现象所感受到的,而不是某个客观现象或客观事实。图灵实验的伟大远不是表面看上去的。
的强度罢了
我同意当不能准确预测最终结果的时候,我们可以用概率论。
像您所说的,因素太多或者过程非线性都会影响我们的预测能力。
我强调的是,哪怕是一个完全确定的过程。
比如y=sin(x)
当我们观察不到x时,我们使用概率论也是合理的。
智能只是人所喜欢的、描述自身行为的一个词语罢了。
这段时间忙于俗事