西西河

主题:【原创】机器学习的基础是什么?(0) -- 看树的老鼠

共:💬154 🌺509 🌵1
分页树展主题 · 全看首页 上页
/ 11
下页 末页
                • 家园 可以参看这个视频

                  视频:外链出处

                  从44分钟看起。可能比较接近你的问题。他们那个东西可以记忆整个音乐曲调,大概也就可以记忆你的那些数据,因此就可以在这个记忆的基础上做认知/判断/报警等等。

                  • 家园 我的测试是看了这些视频和算法介绍后做的

                    记忆整个音乐曲调在我看来是机器学习了pattern,所以我去做了个测试。 Nupic算法问题是对scalar变量的equal weighting。 用hotgym的例子来说,假设健身房平均每天用电量低谷和高峰在100-10000kwh之间。100kwh的变化在高峰期是正常的,而在低谷期是异常的。

                • 家园 先确认一些事情,再做评论

                  准备先确认一些事情,再做评论。其实我对你说的事情是外行。但是,应该是很有趣的事情。

                  就是说,你有一个标量,随时间轴变动,你有一个程序监测这个量(什么时候监测一次呢?),如果这个标量低于某个标准,或者有某种反常的变化,就希望报警。你现在用通常的统计方式,可以解决问题。但是,这种方式,需要对这个标量的变化规律先有一个大致的了解,即pattern,然后再根据这个pattern来设计统计的方法。不过,只要你有了这个pattern,你可以用统计的方式比较好解决问题。这种理解对吗?

                  那么你希望用神经元的方法更进一步,就是说,不需要先知道这个pattern,仅通过一定的数据输入作为训练,也可以达到解决问题的目的。但是,你试用了他们的软件,发现还不能解决问题。这样理解对吗?问题还是出在,你还是先需要一个大致的pattern。对吗?

                  了解清楚后,再做些讨论。

    • 家园 机器学习的基础是什么?(4) 像火鸡一样推理

      像xiaobailong在下面所说,第2节和第3节有点跑题了。用了整整两章,才说了一个最简单的道理:“实验是检验真理的唯一标准,除此之外,别无标准。”不过我自己在思考之初,确实没有这么深刻的感觉。

      好吧,既然实验是检验真理的唯一标准,怎么检验?

      牛顿当年提出了引力的平方反比定理,他怎么知道自己的定理是对的?

      他选择了在第谷总结的太阳系几大行星的运行轨道上测试。然后,假设误差是E。如果E足够小,不管是牛顿还是读者您,都会觉得这个定理是正确的。

      但是,谁说精度高就正确。假设上帝精心准备了一组数据,这一组数据阴差阳错的正好符合平方反比定理。任何其他行星、恒星、天体都不符合这组数据。牛顿同学和尊敬的读者就都被坑了。

      所以,人总是假设一个原理:“我们观察到的运行轨道没有任何特殊性,它们是这个宇宙中所有物体的运行轨道的一个平凡的样本。”

      这个原理,只是人的一厢情愿而已。没有人能够保证正确。在此引用xiaobailong网友所说的故事。

      我记得有一个经典的故事,是说养鸡场里有一群火鸡,他们中间有一个智者,这个智者火鸡发现,每天早上太阳起来的时候,就会有食物从天而降。智者火鸡把他的发现告诉了众火鸡,火鸡们都很拜服,认为他发现了宇宙真理。日子一天天过去,每天在太阳升起来的时候,都会有食物从天而降,直到有一天,食物没有出现,那一天,是感恩节。

      我们都只是火鸡罢了。

      • 家园 你的说法似是而非

        1,观察星体,并从中挑选出五大行星是因为观察结果的周期性重复。这一点不光第谷,而是几乎所有文明都分辨出了五大行星的存在。

        2,其他星体之所以不被归类到五大行星一类是因为他们的周期性规律与五大行星不同,而几乎可以简单地用地球为中心的天球模型加以描述。

        3,五大行星和太阳加月球也可以用地球为中心的天球模型加以描述。但是相比其他星体而言,五大行星在天球上的周期性描述过于繁琐。

        4,所以才会出现日心说与地心说的争论。因为在日心说里边五大行星加上地球和月亮可以完美地简单地加以描述。

        5,日心说里边其他星体的描述何以地球为中心的天球模型没有大的区别 -- 毕竟相对于其他星体距离太阳系的距离,选择地球,太阳或者月亮为模型中心差别实在太小。

        6,但是五大行星加地球和月亮就有明显的简单和繁琐之分。

        7,所以才会有开普勒定律出现和平方反比率的出现。

        8,这和火鸡还是不太一样。

        通宝推:铁手,
        • 家园 事实上周期是波动的

          1.周期受行星间的扰动,在精度不足时被认为是E,除了水星进动的E太大了无法无视。

          2.行星在公转中损失能量,慢慢地远去。就象月球在慢慢远离地球一样,能量是在潮汐中损失的。没有原子钟,这些也观察不到。

          3.再过几十亿年,太阳变成红巨星,火星轨道以内的都被太阳吃掉了。这就是火鸡的感恩节了,我们只是寿命太短,来不及活到感恩节而已。

          宇宙,或者说客观世界,本质上是一个分形,一切规律性的东西都只是近似存在。一切观察所得,都与客观真实有所偏差。这是一个世界观信仰问题,即世界是可知的,还是不可知的。信仰问题,无法辩论。

        • 家园 这个是奥卡姆剃刀原则的结果。

          实际上按照参照系的不同,地心说和日心说都可以是“正确”的。太阳系既可以按照一个简单的模型看成是行星围绕太阳、卫星围绕行星运动,也可以按照一个无比复杂的模型看成是所有的物体绕着地球进行疯狂的扭曲运动。这两个观点都可以看成是“正确”的。

          但是科学的原则中有一条,是奥卡姆剃刀原则,也就是说如果两个理论解释现实现象的能力相同,那么我们应该选择较简单的那一个理论。因此日心说胜出。

          这个原则的基础,就是科学的哲学定义。很多缺乏基础科学教育的人通常会误认为科学就是“真理”,这是不对的。科学只是渺小的人类用来触摸真理的工具。这是因为宇宙现实(也就是真理)是复杂的、非直观的,而且很多时候是反直觉的,因此很难被人类理解。而科学,就是人类发明出来用来理解这个复杂现实的工具。所以只有能够对更加深刻理解现实宇宙有帮助的理论,才被保留下来作为科学结论,一但发现更简单的,或者是更深刻的理论,那么之前的复杂理论就会被抛弃。

          通宝推:明心灵竹,阿吹,益者三友,
        • 家园 多谢jent兄的指正。

          我完全接受您的意见,我对于科学史不太熟,所以说的太不严谨了。

          我之所以谈到人类推理和火鸡推理类似,在于人类和火鸡都假设,在我们看到的有限数据上成立的规律,能够推广到非常大的范围和非常长的时间范围去。

          而这个假设是没有人能够保证的。这个更多的是一个信念。

          关于这个信念,我又多写了一点宇宙为什么是简单的?

          不知您是否认同。再次感谢您的帮助。

    • 家园 机器学习的基础是什么?(3) 猜想与机器学习

      在牛顿定理的发现一节中,我列了许多小的有标号的段落。每一段都说明了我的一些想法。

      1. 但是在跳起来之前,我还是有功夫想到一些事情。前几天部落长老发现,大家都觉得用一打苹果和一打梨是公平的,因为看起来个数一样,为了聊天方便,全部落共同决定,以后管一打叫12,有个聪明人还一口气写出了一百个符号,管他们分别叫1、2、…、100。我觉得石头和我的距离快从100个苹果的距离缩短到80个苹果的距离了,或许距离也能用数字表示?另外,那块大石头挺重的,大概有100个苹果那么重,我是不是可以管它叫100果。

      想法:没有人能够解释为什么数字能够描述现实。我们猜测“数字能够描述现实”是对的,从我们做出这个猜测时起,几万年来,这个猜想没有辜负我们。

      2. 后来我听说,德先生发明了四则运算,就是加法、减法、乘法、除法什么的。反正我只关心,我是不是可以继续躺着,我喜欢躺着。

      想法:加法、减法、乘法、除法建模了现实,所以,他们实际上是有实验保证的。

      3. 德先生还发现,有些东西跑的快,有些东西跑的慢。比如我们部落里的夸父,跑100苹只需要2滴的时间,像我就需要5滴的时间。然后呢,5滴时间,夸父就能抛出250苹去。他发现,如果用除法定义一个叫做速度的东西,比如夸父的速度是50苹/滴,就可以猜出需要多少时间,夸父能够跑出一千万苹,虽然夸父从来也没跑过那么远。

      想法:从苹果得出的运算规则,竟然可以被用于计算速度。没有人知道为什么。距离=速度*时间。虽然在今天,每个人都觉得再自然不过。我们甚至会觉得,它就是公理。但是,我觉得在做出实验之前,原始人很可能根本就没有这样直觉。如果实验证明距离不等于速度乘以时间,那么不管它多么符合直觉,我们也应该否定掉它。直觉并不可靠。

      4. 我不是很感兴趣。因为斜面完全做平,会发生什么我们都知道。球最后还是会慢慢停下来呀。虽然略利伽写了一篇什么《关于两大世界体系的对话》,好像小姑娘还迷的不行不行的。但我觉得大家讨论来讨论去,听起来都挺有道理的。我不太聪明,没办法知道谁是对的。德先生发明了那么多东西,或许他比较靠近真理。

      5. 我的想法后来发生了一些变化。这都是因为天气太冷,把长河都冻起来了,孩子们在冰面上滑来滑去,有一次拉拉用力的把自己的孩子推出去了(我很怀疑这不是他的孩子),那孩子兴奋的滑了好几百米,我从来没见过一个物体自己运动这么长时间,我也不相信空气能把孩子推这么远。风的力量毕竟是有限的。也许略利伽他们说的对,物体总是保持原有的运动状态,只是因为地面不太平,产生了一种叫做摩擦力的东西。

      想法:哲学的思辨真的只是思辨。伽利略的思想实验,对于和他思想不同的人来说,也只能产生微弱的说服作用。如果最后伽利略的惰性(惯性)概念被实验证明是错的,那么他的思想实验只具有审美的价值,很漂亮,但是不对。

      6. 对了,尼白哥的天体运行数据!从他的数据看来,天体总是沿着一个椭圆轨道运行,从数学推理可以发现,天体的速度变化方向始终指向椭圆的一个焦点,那么就意味着有一种力在指向焦点,我管它叫引力,看起来有根绳子在牵引着星球,不是吗?在某些天的思考过后(不得不承认的是,一个叫做顿牛的家伙总在梦里和我讨论),我发现这种力服从平方反比定律。同时运用 力=重量*速度 和平方反比定律,我发现我可以以极高的精度预言天体的运动!

      7. 我是幸运的。如果 力不等于重量乘以速度,我不可能预言的这么准确。这个世界上有很多很多不同的数学公式可以定义力,比如重量乘以速度的平方,或者力不只与重量、速度这两个因素相关,还有更多因素。如果我猜了另外一个公式,那么天体数据可能根本就不能导出一个优美的数学公式。我也许会错过这个发现,不过幸好,如果我错过了这个公式,我的预测就会很不准,天体会告诉我,我犯了个错误。

      想法:天体运动数据同时证明了平方反比定律与牛顿第二定律。

      8. 从今以后,我还要继续大胆猜测,我只知道重量和速度与力有关,我能有的最简单的猜测就是我今天的发现。

      想法:人们还是可以大胆的运用直觉来猜测,但是,实验数据是永远的最高标准。

      总之,可以相信什么,不可以相信什么?

      我们可以相信我们看见的实验数据和被实验数据证明的猜想。被越多实验数据证明的猜想就具有越高的价值。

      为什么数学看起来可以脱离实验数据?因为数学只依赖的最基础的几个逻辑猜想,除此之外,别无其他猜想。而这些逻辑猜想每天都在被无数个人使用和检验,一旦它们出错,我们会在第一时间得到反馈。

      有理论分析证明,对于任何一个机器学习算法,我们总可以构造出一个数据集,使得这个机器学习算法具有最高的准确度。所以,实验数据并不能证明线性分类假设或者现有的机器学习领域中的任何假设可以被信任。

      现在,大家满足于接受George E.P. Box所说的:“Essentially, all models are wrong, but some are useful。”

      我们都在等待更高智慧的降临,来找到一些机器学习领域可以依赖的、应用更加广泛的基础性公理。

    • 家园 机器学习的基础是什么?(2) 牛顿定理的发现

      如果教科书上用这样的句式对我说:“xxxx年,在经过艰苦卓绝的工作后,顿牛先生露出了满意的微笑。他发现人脑在学习和思考的时候,使用的是线性分类器。”

      那么,我也许会接受线性分类器。这就是我思考的起点,我希望教科书斩钉截铁的告诉我一些事情。让我可以充满自豪感的使用公理、定理、定律。

      可是,没有一本教科书敢这么对我说。所以,我开始询问这个问题:什么是可以相信的,什么是不可以相信的?

      比如我深深信任的牛顿第二定律,除了教科书的背书,为什么我可以信任它?

      于是,我进入了挂羊头卖狗肉的阶段。表面上我在思考机器学习,可我实际上在思考物理。感谢changshou兄的雄文《牛顿定理到底说的是什么》,http://www.talkcc.com/article/3729441

      希望本文够的上狗尾续貂的标准。

      点看全图

      外链图片需谨慎,可能会被源头改

      最初我想,如果我是一个原始人,每天看着太阳昼伏夜出,潮起潮落,思考人生的意义。有一天,我正躺在地上晒太阳呢,突然发现远处有一个石头被我的敌人推着冲过来了。我能不能继续在地上躺一会,还是应该立刻跳起来?

      这是一道典型的物理题,可是我是一个原始人,我什么都不知道。所以我的选择是立刻跳起来。

      1. 但是在跳起来之前,我还是有功夫想到一些事情。前几天部落长老发现,大家都觉得用一打苹果和一打梨是公平的,因为看起来个数一样,为了聊天方便,全部落共同决定,以后管一打叫12,有个聪明人还一口气写出了一百个符号,管他们分别叫1、2、…、100。我觉得石头和我的距离快从100个苹果的距离缩短到80个苹果的距离了,或许距离也能用数字表示?另外,那块大石头挺重的,大概有100个苹果那么重,我是不是可以管它叫100果。

      点看全图

      外链图片需谨慎,可能会被源头改

      回到部落后,我发现一群人兴致勃勃的围成一个圈在讨论着什么,圈中站着我的老师德多士里亚先生。

      “竟然真的一样?”“我是不相信,以后我还是准备一个一个数。”

      我拉过朋友拉拉,问他:“到底发生了什么事情?”

      拉拉兴奋的说:“今天德多士里亚先生来集市买东西。你知道为了避免把苹果压坏,我们都把苹果分成5个一堆。德先生要了3堆,我还在数呢。德先生立刻就说,总共15个。我当时想,哪有数的这么快的。15个苹果呀,我眼睛都看花了。结果数出来果然和德先生说的一样。他还吹牛,说随便要几堆,他都能立刻数出来。大家听着都觉得新鲜,就这么围上来了。结果德先生每次都对了,真是奇迹。”

      我向来不爱理这些事情,每天德先生都神神叨叨的,老人们还总让我们跟他学习,反正他天天都吹牛,我早晚都会知道的。

      2. 后来我听说,德先生发明了四则运算,就是加法、减法、乘法、除法什么的。反正我只关心,我是不是可以继续躺着,我喜欢躺着。

      说到躺着,德先生后来发明的一些东西倒是很有趣。他说:“大家有没有发现,背阴出的水滴,每落下5000次,太阳就会升到头顶?或许,我们可以用水滴的数量来代表太阳的运动?”这是一个好的想法,也许我可以用水滴的数量代表时间的长度?

      点看全图

      外链图片需谨慎,可能会被源头改

      3. 德先生还发现,有些东西跑的快,有些东西跑的慢。比如我们部落里的夸父,跑100苹只需要2滴的时间,像我就需要5滴的时间。然后呢,5滴时间,夸父就能抛出250苹去。他发现,如果用除法定义一个叫做速度的东西,比如夸父的速度是50苹/滴,就可以猜出需要多少时间,夸父能够跑出一千万苹,虽然夸父从来也没跑过那么远。

      我喜欢这个发现,看起来,如果大石头的速度小于5苹/滴,我的偷懒计划就能够成功了。可是,我不知道石头的速度,我只知道,那个部落的家伙力气挺大的。

      可是什么是力气,德先生也不知道。那之后,我有好长时间没有想我的偷懒计划。

      德先生觉得:“如果一个物体在运动,那一定是因为有力的作用。如果你看不到力,那么力一定在物体里面。就好像夸父能跑那么快,不是因为他力气大吗?”部落里的智者修莱克卢不同意德先生的说法,他说:”那你说扔石头的时候,石头离开了手,为什么还能继续飞呢?你觉得石头想夸父一样,有理智,能用力吗?对于这个问题,我倒有一种解释。那就是任何物体都有很懒,它总是保持它原有的运动状态。所以石头总是会继续飞。”德先生觉得这个问题很好回答:“石头和夸父自然是不一样的。但肯定是空气在推着石头跑。我们没有见过石头用力,但我们都见过风,不是吗?你的解释简直滑稽,我们都知道跑步得用很多力气,你不用力,倒是给我跑跑看?”

      很少有人相信修莱克卢先生的说法。倒是一个叫尼白哥的小伙子,觉得太阳每天东升西落,从来不曾停止,这证明了修莱克卢的说法。不过德先生的支持者还是更多,毕竟德先生举的例子明显更贴近生活。天上的运动和尘世间的运动,毕竟是不同的。

      后来,有个叫略利伽的流浪者来到我们部落。他喜欢和尼白哥讨论问题,就住了下来。他发现,如果有两个斜面,从一个斜面滚下来的球总是会几乎升到和球出发点同样高的高度。如果把右边的斜面做的越来越平缓,那么,球就会滚得越来越远。他想,如果把斜面做的很平,那么,球是不是会滚到无穷远处呢?如果能滚到无穷远,不就证明了修莱克卢的说法吗?

      4. 我不是很感兴趣。因为斜面完全做平,会发生什么我们都知道。球最后还是会慢慢停下来呀。虽然略利伽写了一篇什么《关于两大世界体系的对话》,好像小姑娘还迷的不行不行的。但我觉得大家讨论来讨论去,听起来都挺有道理的。我不太聪明,没办法知道谁是对的。德先生发明了那么多东西,或许他比较靠近真理。

      点看全图

      外链图片需谨慎,可能会被源头改

      点看全图

      外链图片需谨慎,可能会被源头改

      点看全图

      外链图片需谨慎,可能会被源头改

      5. 我的想法后来发生了一些变化。这都是因为天气太冷,把长河都冻起来了,孩子们在冰面上滑来滑去,有一次拉拉用力的把自己的孩子推出去了(我很怀疑这不是他的孩子),那孩子兴奋的滑了好几百米,我从来没见过一个物体自己运动这么长时间,我也不相信空气能把孩子推这么远。风的力量毕竟是有限的。也许略利伽他们说的对,物体总是保持原有的运动状态,只是因为地面不太平,产生了一种叫做摩擦力的东西。

      如果物体总是保持原有的运动速度,如果物体有惰性,那么,力到底改变了什么?对了,力让石头、孩子停下来,那么是不是说,力使得速度变慢呢?而且,好像重的东西很难拉动,轻的物体很容易拉动。仿造德老师关于速度的猜测,正如 距离 = 速度 * 时间, 是不是 力 = 重量 * 速度的变换呢?

      如果我的假设是对的,那么怎么做实验? 德老师发现速度的时候,请夸父跑了好多次,才发现 距离=速度*时间。可是,平时生活中,做实验总是有摩擦力在干扰,我到哪里去找没有摩擦力干扰的实验呢?

      6. 对了,尼白哥的天体运行数据!从他的数据看来,天体总是沿着一个椭圆轨道运行,从数学推理可以发现,天体的速度变化方向始终指向椭圆的一个焦点,那么就意味着有一种力在指向焦点,我管它叫引力,看起来有根绳子在牵引着星球,不是吗?在某些天的思考过后(不得不承认的是,一个叫做顿牛的家伙总在梦里和我讨论),我发现这种力服从平方反比定律。同时运用 力=重量*速度 和平方反比定律,我发现我可以以极高的精度预言天体的运动!

      7. 我是幸运的。如果 力不等于重量乘以速度,我不可能预言的这么准确。这个世界上有很多很多不同的数学公式可以定义力,比如重量乘以速度的平方,或者力不只与重量、速度这两个因素相关,还有更多因素。如果我猜了另外一个公式,那么天体数据可能根本就不能导出一个优美的数学公式。我也许会错过这个发现,不过幸好,如果我错过了这个公式,我的预测就会很不准,天体会告诉我,我犯了个错误。

      8. 从今以后,我还要继续大胆猜测,我只知道重量和速度与力有关,我能有的最简单的猜测就是我今天的发现。

      他们都说我是操纵星辰的人,我不这么看。我现在知道对面部落人人都有100果*苹/滴*滴的力量了,连个小孩子都能在2滴的时间打中我。可我不敢告诉大家这是我最关心的问题,因为他们会嘲笑我:“我不知道星辰是怎么运行的,可是猪都知道你该快跑。”

      点看全图

      外链图片需谨慎,可能会被源头改

      [参考资料]

      http://www.talkcc.com/article/3729441

      http://en.wikipedia.org/wiki/Inertia#cite_note-4

      http://zonalandeducation.com/mstm/physics/mechanics/forces/galileo/galileoInertia.html

      http://physics.stackexchange.com/questions/2644/how-did-newton-discover-his-second-law

      http://galileoandeinstein.physics.virginia.edu/lectures/Newtons2ndLaw1.htm

      通宝推:铁手,
      • 家园 问题还是机器的所谓学习是单个机器孤立的学习,而人不同

        虽然某些定理是归到一个人的账上的,比如说归功于牛顿的那几个定理,但是,那几个定理不是牛顿一个人孤立的发现的。

      • 家园 这个好像跑题了啊

        所谓学习,就是别人告诉你一些规律,你去验证一下,发现很对呀,然后就把它扩大应用到所有可能的地方。

        而更进一步的学习,就是“发现规律,运用规律”。

        我记得有一个经典的故事,是说养鸡场里有一群火鸡,他们中间有一个智者,这个智者火鸡发现,每天早上太阳起来的时候,就会有食物从天而降。智者火鸡把他的发现告诉了众火鸡,火鸡们都很拜服,认为他发现了宇宙真理。日子一天天过去,每天在太阳升起来的时候,都会有食物从天而降,直到有一天,食物没有出现,那一天,是感恩节。

        其实人们所能发现的,也就像那个火鸡一样,是在一定范围内适用的规律。机器学习,也是这样,如果有个一个机器火鸡,他知道那些食物是人投给他们的,而且他也知道人投食物并不像伙计们人为的那样那么准时,但是别的火鸡们并不知道这些,而且他们对时间的认知并不像机器火鸡一样精确到秒,而是误差在一个小时之内对火鸡来说是没有区别的。那么这智者火鸡能够发现的那个规律,这机器火鸡是发现不了的。最终结果这机器火鸡得不到众火鸡的拜服,虽然他知道的比智者火鸡更多更精确。

分页树展主题 · 全看首页 上页
/ 11
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河