西西河

主题:【原创】货币锚定国债,不是建金融防火墙,而是建金融抽水机 -- nobodyknowsI

共:💬222 🌺617 🌵15
全看分页树展 · 主题 跟帖
家园 没什么元规则的演绎,那个在机器学习中叫强化学习

(1)统计学习通常用于各种与人类相关的领域,利用人标注的数据,然后完成人能够完成的任务。

(2)强化学习(对抗学习)在算法中属于强搜(brute-force暴力搜索)的变体启发式搜索。完全可以用最基本算法中的“剪枝”来说明,整个解空间是一个多叉树,然后用一些概率性算法来剪枝——这种概率性算法与统计学习是没有区别的。

--

强化学习和常规的统计学习的区别不是在算法上,而是在输入输出上面:常规的统计学习是需要人为标注的,但对抗学习不需要,就像alpha-zero和alpha-master,两个机器棋手,只需要终盘点目准确,就能判断输赢。强化学习就是这样,没有标注,通过两个机器棋手+最终点目程序,就可以自动不断迭代模型。

严格说来,从第一代狗到第三代狗:

(1)ahpha-go是统计学习,有标注,也就是人类棋谱。

(2)alpha-go是强化学习,无标注。

(3)alpha-master是上述两者的混合,既有人类棋谱,也有两个机器棋手的对抗学习。

最后,所有从deep learning(深度学习)开始都是三拼:拼大模型,拼算力,拼数据——没有任何例外。

即使是alpha-zero顶多是因为强化学习,不需要人工标注数据,用两位机器棋手不断自己对弈产生棋谱,在这个过程中自己就能产生大量的数据,然后用点目给这些棋谱标注胜负,才有一种“没有拼数据”的错觉,但实际上对局数也海了去了。

通宝推:铁手,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河