主题:【原创】机器学习的基础是什么?(0) -- 看树的老鼠
大概你是CS出身的,算法和模型是一体的。
对于绝大多数自然科学和工程领域来说,“模型”是对现实世界的模拟和简化,和现实世界的关系是地球仪和地球的关系。而算法是问题的解决方式,是在地球仪上找出两点之间路径、从而投射到地球上路径的方法。
你说的“清晰的理论”,其实是精密的制造地球仪、沙盘或者地图的过程,与具体问题(你是要看着航路图从北京飞到纽约,还是要看着军事地图打击敌人的补给线)无关。把模型和建立在模型假设之上的算法分开,对于说清楚问题还是很重要的。
我理解的机器学习和传统的科学/工程方法的区别,就是机器学习企图做最少的假设,绕过做地球仪的过程,用强大的计算能力直接在现实数据上解决现实问题,而不是用地图扭曲现实地球之后通过地图解决问题。举个例子,统计学上应用最广的分布无疑是高斯分布(正态分布),如果要测试一组数据是否以0为中心,统计学家会做这几件事:
1、假设/检测数据服从高斯分布,算出均值和方差 (这一步是建立模型)
2、用方差算出standard error(实在不知道中文怎么说)
3、如果均值在两倍standard error之外,就认为均值不为0,否则为0
别跟我提什么student-t分布,总体过程没区别。在这个过程中,为了使用已有理论,统计学家会把分明不是高斯分布的数据也用高斯分布建模,这就是经典统计学的硬伤之一。
而机器学习本质上认为第一步意义不大(除了Lasso之类跟传统统计很接近的方法之外),机器学习企图建立这样一个盒子:(如果是supervised learning)
1、输入一串数据X
2、输入一串{0,1}取值的Y,告诉盒子哪些X其实是0。这是学习过程
3、学习完之后,每输入一个新的X,盒子就输出一个0或者1,告诉你Y“应该”是什么
过程中完全不用人类“假设”数据服从什么分布、怎么采集的。当然,假设也有,比如数据相互独立之类,但比具体的统计模型宽松多了。
其实这跟人类学习的过程没什么区别。
至于因果性的问题,其实是人为造出的一个概念,无非是事件之间的相关性+事件和时间的绝对关系罢了。如果一只鸡每天固定早上8点打鸣,而日出却是在打鸣后20分钟随机出现,而且强迫鸡不打鸣时太阳绝不出现,这种规律在人类任何观测中保持不变,那人们(包括所有科学家)肯定会认为鸡叫是因,日出才是果。这种因果性用算法识别并不困难,而“真正”的因果性涉及到宇宙的本质,不见得是人类穷尽一切手法能观测到的,苛求机器学习也没什么意义。
- 相关回复 上下关系8
压缩 4 层
🙂所以机器不知道怎么表达想法,或许不是方向错了 看树的老鼠 字469 2014-07-30 23:52:00
🙂这句话的意思是 川普 字128 2014-07-31 21:28:24
🙂就是人机对话的最大,最赚钱的用途会是电子诈骗 三力思 字0 2014-07-31 09:55:45
🙂我们对于“模型”的定义似乎有分歧
🙂谢谢您把问题变得更清楚 2 看树的老鼠 字1970 2014-07-30 23:44:58
🙂人脑为什么偏爱几何假设 9 川普 字1252 2014-07-31 22:00:44
🙂说得好,简洁性是为了限制搜索空间 3 看树的老鼠 字480 2014-07-31 22:50:32
🙂从去年的这个讨论到这里算是想清楚了 1 川普 字193 2014-08-02 13:03:55