西西河

主题:【原创】机器学习的基础是什么?(0) -- 看树的老鼠

共:💬154 🌺509 🌵1
全看分页树展 · 主题 跟帖
家园 对统计的反叛是个大进步,但还不够

谢谢您的推荐。欢迎像您这样的专家参与讨论。

我在解决“讨厌机器学习”的这个过程中,确实读过这篇文章。

从主观假设出来的数据模型到机器学习,我同意这是个大进步。因为人类幻想出来的数据模型通常不对。在Leo Breiman的文章中,他也谈到了怎么解释模型的问题。对于random forrest这样的模型,直接看模型是看不懂的。Breiman建议用间接的方法,比如去除某个特征,看看模型的预测能力。但是这样的解释程度就够了吗?我同意随机森林是一个表现很好的模型,但是它的不可理解性不是它值得骄傲的地方,而是应该进步的地方。我认为机器如果能够自动生成一个人类可理解的数据模型,那才是真正的智能。而且这也可能会带来精确度的进一步提高,就像人在发展理论的时候,常常会有一个假设:优美的理论往往可能是对的(这不是必然的,只是一个说不上有多准确的先验。)

就好像人平时做决策的时候有很多时候就是直觉,你问他直觉是什么,他也说不清。科学发展就是逐渐把直觉性的东西变成清晰的理论。我这里做了一个类比,今天的机器学习有点像直觉,说不清。这样也能解决一堆问题,不过一旦机器学习学会怎么把事情说清楚,那就是一个飞跃。

当然,我这句话容易让人觉得我是支持在模型中加入更多知识和人假设的数据模型。我并不这么想,我认为人可以理解很可能是简单性与融贯性的一个结果。

总之,我这些说法还是近于幻想,50年内我不指望能看到。大家还是老老实实沿着现在的简单性(regularization)、融贯性(multi objective optimzation)的轨道走吧。

短期特征长期不适用,是我的语言不够严密。如果类比成“经验丰富的老年人在接受和解释新知识时比不上小学生,过去的经验会束缚创造性思考和限制新知识体系的形成”,那么确实是不可克服的问题。但是在witten1推荐的那篇文章中,谈论的其实是:今天的机器学习(哪怕在Breiman反叛了统计之后)对于现实的数据还是常常有不切实际的假设。比如用相关性来判断因果关系,相关性只在线性的情况下适用,如果问题本身是非线性的,用相关性得到的结论都是幻像,所以在长期不适用。

所以我觉得机器学习还应该进一步放松模型假设。当然大家已经在这么干了。多少模型都说自己是universal approximator。不过这是个矛盾,一旦universal了,就变得不可理解了。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河