西西河

主题:【原创】机器学习的基础是什么?(0) -- 看树的老鼠

共:💬154 🌺509 🌵1
全看分页树展 · 主题 跟帖
家园 我们对于“模型”的定义似乎有分歧

大概你是CS出身的,算法和模型是一体的。

对于绝大多数自然科学和工程领域来说,“模型”是对现实世界的模拟和简化,和现实世界的关系是地球仪和地球的关系。而算法是问题的解决方式,是在地球仪上找出两点之间路径、从而投射到地球上路径的方法。

你说的“清晰的理论”,其实是精密的制造地球仪、沙盘或者地图的过程,与具体问题(你是要看着航路图从北京飞到纽约,还是要看着军事地图打击敌人的补给线)无关。把模型和建立在模型假设之上的算法分开,对于说清楚问题还是很重要的。

我理解的机器学习和传统的科学/工程方法的区别,就是机器学习企图做最少的假设,绕过做地球仪的过程,用强大的计算能力直接在现实数据上解决现实问题,而不是用地图扭曲现实地球之后通过地图解决问题。举个例子,统计学上应用最广的分布无疑是高斯分布(正态分布),如果要测试一组数据是否以0为中心,统计学家会做这几件事:

1、假设/检测数据服从高斯分布,算出均值和方差 (这一步是建立模型)

2、用方差算出standard error(实在不知道中文怎么说)

3、如果均值在两倍standard error之外,就认为均值不为0,否则为0

别跟我提什么student-t分布,总体过程没区别。在这个过程中,为了使用已有理论,统计学家会把分明不是高斯分布的数据也用高斯分布建模,这就是经典统计学的硬伤之一。

而机器学习本质上认为第一步意义不大(除了Lasso之类跟传统统计很接近的方法之外),机器学习企图建立这样一个盒子:(如果是supervised learning)

1、输入一串数据X

2、输入一串{0,1}取值的Y,告诉盒子哪些X其实是0。这是学习过程

3、学习完之后,每输入一个新的X,盒子就输出一个0或者1,告诉你Y“应该”是什么

过程中完全不用人类“假设”数据服从什么分布、怎么采集的。当然,假设也有,比如数据相互独立之类,但比具体的统计模型宽松多了。

其实这跟人类学习的过程没什么区别。

至于因果性的问题,其实是人为造出的一个概念,无非是事件之间的相关性+事件和时间的绝对关系罢了。如果一只鸡每天固定早上8点打鸣,而日出却是在打鸣后20分钟随机出现,而且强迫鸡不打鸣时太阳绝不出现,这种规律在人类任何观测中保持不变,那人们(包括所有科学家)肯定会认为鸡叫是因,日出才是果。这种因果性用算法识别并不困难,而“真正”的因果性涉及到宇宙的本质,不见得是人类穷尽一切手法能观测到的,苛求机器学习也没什么意义。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河