主题:【原创】围绕脑科学而发生的若干玄想 -- 鸿乾
昨天看到的新闻。
我写了个程序,程序的目的是“学习词语”,我希望它可以达到2岁左右小孩的水平。
每个神经元都是一串字符,例如 0A,10,0A0B等等。
初始的神经元从00-FF,一共256个。
规则只有一个,拼接:就是把两个神经元的字符拼接在一起去形成新的神经元。
我提供一个训练文本,就是把一段文本用二进制方式输入。
——————————————
程序逻辑是
1、按照神经元权重随机激活一个神经元
2、被激活的神经元去拼接一个未拼接过的神经元并形成一个新的神经元
若新神经元在训练文本中存在,则被激活的神经元权重增加,否则不变。
持续重复以上过程。
——————————————
通过各类不同的训练文本的输入,通过大量的迭代,来观察整个程序的运行结果。主要观察形成了哪些神经元及其权重。
所形成的神经元和训练文本密切相关。
一些不完整的经验总结
1、由于汉字是由2个字符组成的,在全随机的情况下,识别出汉字的时候的概率相当低。但是只要教一个文本中有的汉字(就是预先生成一个2个字符的汉字神经元,并且把权重+1),整个程序的汉字识别概率就大幅度上升。
2、先输入一段中文训练文本,10000次迭代后“学会”中文字词,在此基础上输入一段英文训练文本,经过10000次迭代基本很难“学会”英文单词。
如果是直接输入英文训练文本,10000次迭代后可以“学会”若干英文单词。
本帖一共被 1 帖 引用 (帖内工具实现)
我把你的这个放到了我的那个存放链接的文章中,希望有更多的人看到,并且加以评论。
我个人感到你的这个东西,很有意思,就是说通过无监督的输入信息,你的程序学会了若干以前不知道的东西,并且显现出某种生物上才有的特征(学会了某种东西,其他的东西就难以学会了)。
但是,有个问题,你的这个网络必须要不停地增加节点。好像生物的东西,是节点不增加,但是链接增加。总之我感到这里面有东西,但是我现在想不清楚。想想看再说。
他的HTM刚提出的2005年时,对他异议的人很多,但是近年的影响越来越大,这个印象我是看到一篇采访Andrew Ng(就是为谷歌做的认出锚脸的那位)提到自己早先对AI是放弃的态度,后来收到Hawlins理论的印象又重燃希望等等,让我很吃惊。Andrw Ng是学院派里的重量级人物,能这么说,说明Hawkins对学术界的影响已经很大了。
你可以去看我在那个链接网页中给的一个链接,就是计算智能的那个链接,好像其中没有一个人提到Hawkins。当然我也没有看很多。有空了,准备看看那个百科全书,写东西的人,都是当今的学术大佬。这样看来,Hawkins还是在单身奋战。不过他不缺钱用,用自己的钱玩自己喜欢的科学,最好不过。不知什么时候国内的那些大款们也能这样玩。这样的人生还是精彩的。
就是说,你实际上是在学习有价值的时间序列,就是组词,词是有字符组成的,前后两个字符组成一个中文字,前后若干中文字,组成一个中文词,等等。对否?
如果是那样,你应该可以不需要增加神经元,仅增加链接就可以了。我想我们就不讲你执行的细部了。但是,是否请你把你的结果比较完整地讲一下,例如,用了什么中文来训练,训练的时间,训练后的结果,再用英文训练,结果,和没有先训练中文的比较,等。
就是说,你的这个东西可以仅通过观察输入,就可以达到第一步,第二步的理解。这的确是很有趣的。
http://www.quora.com/Is-the-model-for-general-AI-from-On-Intelligence-by-Jeff-Hawkins-reasonable-and-is-it-possible-to-use-it-practically/answer/Yoshua-Bengio
Bengio是现在美国AI顶尖梯队的三人Hinton (google), LeCun(FB)之后最后仍在学术界坚持的最后一位。
有的可以写金融报导,有的可以提炼文章梗概,比如我现在就想做个可以自动生成文档报告的,这个实用性很大。各行各业的人都喜欢看报告要文档,能够把人从文山会海中解脱出来的工具是急需的。
另一个对中国人比较有用的是英文润色,有个国内的网站做这个,但是人工的要收费。比如自己打个草稿,用电脑来把文法造句重新写一遍,这个对老中的国际交流,日常工作都有很大助益。不过这种比较复杂,要用到NLP了。
昨天的头号新闻。
不知道投资是多少?但是,总是够这家公司找很多PhD了。现在的这方面的PhD的行情太好。好多猎头都盯着一些有点名气的大学实验室,盯到了还有两年才毕业的学生身上。这种事情,有若干年没有出现了。一叹。
大概,大家都有些紧迫感,怕被人家挖到宝。
好长一段时间没有来写我的这些东西了。看是否有时间来恢复。不过,现在来参与的人也不多了。
不要为人少而烦恼,AI这类事对人的想像力要求比较高,理工科的一般比较习惯公式推导,文科却只对科幻感兴趣,所以参与人少是正常的。
http://www.theregister.co.uk/2014/03/29/hawkins_ai_feature/
这篇文章比较长,不过把Hawkins与AI界其他门派的区别说的比较清楚。透露的一个消息是DARPA与IBM都在做通过硬件实现Hawkins方法的项目。
不过脸书与Tesla老板刚投资的Hawkins前合伙人的那个公司,说明别人还是更看好数学方法。
这个周末准备把Numenta的那个开源用Python实现一下,主要是对那个sparse memory比较好奇。
看了一下标题,其中有这个:
嘿嘿,这是公然和很多人的饭碗作对啊!
等看你的进一步评论。这里做一个我的简单评论:
恐怕Hawkins的这个记忆机制,是以前的计算技术没有的。例如一个输入数据,就是一串0和1。现有的记忆技术,都是把这串01变换后,还是以01的方式存在某个介质上面。而他的这个记忆机制,是做了学习,理解后,再分散存在神经元链接里面。就是说,他试图用更接近模拟脑的方式来做记忆。这是相当根本的不同。本来应该有很多研究的。但是,为什么学术界对此不加理睬,就费解了。
不过他的意思是比喻深度学习之前夭折的那些“浅度学习”,那么比较Hawkins的方法来说,Hinton的深度学习早晚也是夭折的命。
不去管他,但是google那个找到猫脸的实验,后来看来效果不达人意,主要负责的andrew ng后来回去斯坦福了,说明那个深度学习的办法不太给力。
Sparse memory不是Hawkins最先提出的。
大概是20年前的事情了。他是神经生理的博士,他的观察和研究角度是,必须要稀疏,才能获得低能耗。这个想法慢慢为大家接受了。
但是,Hawkins的做法和其他人的做法很不同。其他人的做法其实就是解不定的大线性方程组,但是加上某些极值条件。Hawkins的方法,根本就是直接只容许某些神经元活动,使之达到稀疏,完全没有数学方法,听起来比较随意。这个恐怕多少是学术界难以接受的原因。而且,Hawkins的做法,我认为,也有其基本弱点,那就是恐怕他也拿不出比较好的结果。如果他有类似于猫脸之类的结果,他肯定全世界嚷嚷了。
但是不管如何讲,用自己的钱做最前沿的科学技术,是任何人的比不了的。这是当今的科技大侠客的行为。