西西河

主题:【原创】谈谈大学的变迁1 -- duhao

共:💬50 🌺39
分页树展主题 · 全看首页 上页
/ 4
下页 末页
                        • 家园 可以去公司

                          也许最近5年或者10年,会有大量的数据出来,做这行的会有很多事情要做,无论公司还是学校。

                          • 家园 我还是比较保守吧

                            总觉得生物信息学其实就是计算机软件学在生物类的应用。说白了,还是工具。遥想80年代后期,90年代早期的分子生物学是多么辉煌啊,现在已经成了常规的实验手段了。

                            生物信息学是沾了生物和信息软件学两方面的光,但是可惜的是两方面都没有学到家。促进科学发展的三要素,观念,科技和新的研究方向或者材料,生物信息学目前勉勉强强的三个都占了一点,但是一旦这批数据处理完毕之后,或者有了优秀的算法引导出的超级好用的软件出现,生物信息学恐怕也会很快的衰落下去的。

                            不过那个好像是很久远以后的事情了。

                            • 家园 信息和软件是内在与表象的东西

                              软件只是实现的工具,而核心是信息的提取,或者说算法

                              一旦这批数据处理完毕之后,或者有了优秀的算法引导出的超级好用的软件出现,生物信息学恐怕也会很快的衰落下去的。

                              CS的核心是算法而不是软件,向来没人以为软件就是CS的全部。BioInfo的kernal是算法,好的算法意味着BioInfo的发展而不是衰落。但是其独特的特点在于这里所说的算法并非纯粹数学上的东西,既然生命科学本身就不成熟,现在看起来成功的算法本身就融入了数学和生物/医学知识的结果。纯粹的依赖数学,其实就是简单的认为BioInfo = Apply pure Algorithm on biological/medical data。 That's definitely wrong.

                              至于数据,正是因为在未来5到10年中会有海量的数据出现,对学校的研究者来讲,要面对从未有过的数据量(普通得case也许是kT,也许是MT),需要新的算法来解决,而对公司的人员来说,则是开发出具有更高信噪比,降低false positive的设备和工艺。等把这一批数据处理完,也许可以说,基于人类的信息处理告一段落,不过一个类似的比喻就是如果我们明白了大脑,神经生物学也走到了尽头,但是这个尽头在可以预见的将来是看不到的。

                              90年代早期的分子生物学是多么辉煌啊,现在已经成了常规的实验手段了。

                              这不正是一门科学成熟的表现,数学,物理,量化的化学学科很多不都变成了常规手段吗?分子生物学/遗传学研究了这么多年,难道我们就真得能回答所有有关基因的问题吗?基因图谱搞出了这么多年,谁能告诉大家所有人类基因是如何表达,调控以及相互作用的?等所有这些问题都能够回答清楚了,生物信息也就可以消失了,不过也许遗传学也就可以消失了。

                              生物信息的目的就是要发展成常规手段,但是基于生物系统的复杂性,这个目的几十年内是很难实现的。所以好的生物信息的分析员必须要有足够的生物/医学系统训练,也许在我们这代人,对于分析结果的最终解释仍然依赖于人脑而非电脑。

                              • 家园 most of the jobs are programmers

                                how many people will be developing algorithm for Google? how many software engineers in Google?

                                • 家园 俺想问一下,金融公司也找很多programmer

                                  可不可以说金融经济就是一程序?

                                  Google公司里也许不多,但是它所使用的系统难道是天上掉下来的?Google不是一个来自火星的公司。你为什么不算算美国大学里CS系有多少教授是给人写程序的?对研究而言,程序不过是工具而已,就像做生物的很多用显微镜,你能说生物学就是做显微镜的吗?

                                  • 家园 how many people will touch the

                                    kernel? I know programmers will use algorithms. But it is not the core of their jobs.

                                    金融公司也找很多programmer?

                                    Do you mean Financial Quant Analysts?

                                    A quant is totally different from a programmer in a financial enterprise.

                                    My point is "how many people will be developing core algorithms for Google? how many software engineers in Google? "

                                    • 家园 俺的意思是说

                                      生物技术公司的programmer的工作就是写程序,但那不是生物信息。

                                      一个很好的比较就是,quant vs bioinfo analyst。a bioinfo analyst is definitely different from a programmer in a bioinfo/biotech company.

                                      所以你的论点就是google=computer science?请问google做计算机吗?google做模拟游戏吗?google做操作系统吗?就像genetech,amgen,affymetrix,454一样,公司不能代表一门学科。你看到是公司的商业行为而并非这里说的学科。

                                      • 家园 hehe

                                        i am talking about jobs, which may be the most important thing for some ppl.

                                        • hehe
                                          家园 大家不在说一个东西

                                          对,这行现在job里bioinfo programmer挺多,大部分是master/senior bachelor level的,至于phd的话,除了研究机构,公司里大约是bioinfo scientist/analyst。这行其实入门挺低的,拿个master学位也挺容易,基本上就是会编程,知道点儿生物/医学知识就行了,甚至都不需要知道,所以才会给大家的印象就是这玩意儿就是写写程序而已。就像CS的PhD不见的都是programming的guru,但是CS的Bachelor/Master的编程一定要好,否则就不是一个好学生了。

                              • 家园 我基本同意你的观点

                                但是不觉得未来的海量信息会对Bio-informatics这门学科有多大的提升作用。原因么,有以下几点,

                                首先,生物学跟所有的科学一样,是追求的事物间的基本联系。而这个基本联系是埋藏在大量的非基本联系之中的。科学的作用,就是把这个基本联系从中给找寻出来,而不是总结所有的非基本联系如何如何。而目前,包括我可以预见的将来,生物信息学的重心,是不可能转移到找寻基本联系上去。原因很简单,找寻基本联系需要的是必须要经过传统的假说》验证》修正假说》进一步验证。。。的循环中去。而生物信息学不可能利用这个传统有效的路径来独立的进行验证的,它所做的,只能是辅助性的整理工作。

                                其次,正如你所提到的,算法才是关键,是生物信息学的真正核心。但是问题是,所有的算法都是以纯数学为基础的,然后套上生物学的角度来考虑的。也就是说,生物信息学是依靠算法的发展作为基础的。所有的海量信息的工作,不可能对生物信息学有着直接的推动作用。他们所起到的作用只可能是间接的。

                                所以说,生物信息学的真正作用,其实是数学在生物里面的应用。就如同化学在生物里面的直接应用,促生了生化一样。但是同生化可以直接的进行假设-验证的过程不同,现代的生物信息学,不可能独立出来成为一门独立的学科,只可能依附于某个特定的方向或者领域,成为一个强有力的工具。就这一点,是远远比不上遗传学,生物化学,分子生物学,细胞生物学,基因组学等传统的生物领域分支的。

                                生物信息的目的就是要发展成常规手段,但是基于生物系统的复杂性,这个目的几十年内是很难实现的。所以好的生物信息的分析员必须要有足够的生物/医学系统训练,也许在我们这代人,对于分析结果的最终解释仍然依赖于人脑而非电脑。

                                最后这个要求已经超出了纯生物的范畴,而成了一个系统工程,就是人工智能的模仿和产生的问题。

                                • 家园 看来这两位基本算是同行

                                  生物信息学在我看来有两个方面,一个是bioinformatics, 一个是computational biology.这两个方向通常都混为一谈。我在做博士后时也觉得差不多,但做了一些项目,自学了一些分子生物学的知识后(本人计算机专业PhD),觉得其实是两回事。

                                  bioinformatics偏重informatics,也就是说,偏重于开发辅助生物研究的软件工具。比如网络数据库(eg genome browser, Pubmed),分子结构三维显示(eg Cn3D),Sequence Alignment (eg Fasta)等等。做bioinformatician,对生物知识的要求并不是太高,基本上就是软件开发: 生物学家提出需求,由bioinformatician 实现。低级一些的bioinformatician甚至只需要熟练应用几个软件就可以了。

                                  而computational biology更偏重于biology。一个computational biologist需要相当的生物学知识,然后针对某个生物学问题提出自己的计算模型再加以应用。一个典型的例子是Eric Lander,人类基因组测序项目的负责人,牛津大学数学专业毕业,哈佛和麻省理工的生物学教授。这样的背景使他能够了解什么是生物学要研究的,什么能够通过现有的计算资源来解决,从而在全局上领导一个大型的生物学项目。

                                  这两个方向其实对应了两种生物学和信息学交叉研究的模式。在传统意义上的模式,是由生物学家提出假设,申请项目,设计实验得到数据,再由bioinformatician来处理数据,最后由生物学家make story。传统模式的缺陷在于生物学家常常无法了解计算机能够做什么,而bioinformatician则不清楚生物学家到底要什么,导致合作的困难。而新的研究模式则是由计算生物学家贯穿并领导整个项目,使项目从头至尾都处于一个可控的状态。第二种研究模式现在已经越来越受重视了。比如Broad Institute近年来在三大杂志发表的很多文章第一作者都是搞计算机出身的。

                                  我个人认为,现在bioinformatician在职场上已经饱和了,而computational biologist的需求远远还没有满足。随着high-throughput生物技术的发展,未来的生物学项目会产生海量的数据,而这些项目往往需要computational biologist 的参与甚至领导。而要培养一个computational biologist比培养一个bioinformatician难得多。一个好的computational biologist必须拥有对生物学发展的敏锐直觉和强大的逻辑分析和数学建模能力,这样的要求,不是一个单纯的生物学博士或者计算机科学博士就能达到的。从职业发展的角度看,搞bioinformatics的除了少数牛人(比如UCSC的Jim Kent)外,多数走程序员到项目经理的路子;而搞computational biology的可以申请自己的生物学研究项目,主动性高得多,甚至在未来得炸药奖都说不定。

                                  • 家园 你的总结说得非常好

                                    的确是在这个领域里面的前辈了。

                                    我觉得除了你所说的这两种模式以外,还有第三种模式,就是学生物的也学习一点计算机编程方面的知识,比如说我;而搞计算的计算机专长的人,也学习一些生物学的知识,比如说您,然后这两者之间进行合作。

                                    我更看好这一类合作方式。比起第一种两者对于对方的领域都是两眼一抹黑,什么都不知道的瞎提要求,然后放鸟枪,撞死耗子的做法,要好得多。第二种固然很好,但是人局限于自己的能力和时间,不可能做到面面俱到的,你所提到的例子,都应该算是天才横溢的那种类型的人物。不是我们所能够比拟的。

                                    我所说的,才算是真正意义上的生物和计算科学的合作。双方各有所长,也各有所短,取长补短,这才是王道。

                                    妖道以前学过一点计算机,包括fortune,c,汇编,数据库处理和单板机。但是我学习的重点,不是去自己编程,而是我知道其中的流程,计算语言的能力所及和能够达到的效果。所以妖道在跟计算机大牛们合作的时候,至少我知道能够提出什么样的要求,并且怯怯的说出一点自己的对于程序方面的主张。(我具体看程序是绝对不行的,但是流程图,以及算法,我还可以多少的插几句话)。

                                    妖道也搞了几个有关计算生物学的合作,得到了一些很有意思的结果。再深究下去,就遇到了一些业界内公认的难题,我合作的那几位都打了退堂鼓。主要是他们觉得这几个课题非常好,但是难度和风险也非常大。有一两个如果真的鼓捣出来了,那么得炸药奖不敢说,但是在三大杂志上发几篇封面还是做得到的。问题是花那么大的时间和力气是不是值得,前面已经有过很多合作的例子了,大批的前辈都死在这些问题上了,最后他们觉得失败的可能性很大,他们都已经比较稳定了,觉得这样做是得不偿失。所以后来就放弃了。

                                    我觉得这其中,主要还是一个积累的问题。这几个课题,如果花上十年去慢慢的摸索,把方方面面的可能性给穷尽了,绝对会有答案的。那个时候,在业界恐怕也就算得上是大拿了。但一是很少有人愿意去吃这个苦头,二是没有足够的基金支持,谁也活不下去(而这种纯基础的课题,尤其是两个实验室合作,很难生存下来的)。

                                    而只有你所说的第二类人,有可能把这些个问题给深入研究下去。所以好多时候,觉得自己真应该埋下心去好好的把编程给拾起来。但现在在自己的领域里面,已经算是在挣扎着生存了,再给自己加这么重的担子,恐怕不等自己把编程给拾起来,自己就先完蛋了。我不是天才,也不是超人,只好叹息一声,乖乖的过生物学家的日子吧。

                                  • 家园 也许,最好的叫法应该是BioComputing

                                    BI/BMI和CB还是有很多重合的地方,例如protein的特性预测,不仅仅是结构,还是binding/function的预测,这东西也算是BI,但也算CB。不仅仅是纯粹的数学算法的应用,还有基于生物知识的融合。如果观察Casp的话,真正好的实验室就那么几个,而他们绝对是二者的融合,没办法,生命现象太复杂,不可能像maxwell的电磁场公式那样,几个数学公式就描述了。真正算是完美描述生命现象的数学公式,据俺的印象,一个是酶动力学的基础的米氏方程,另外一个是计算神经的HH方程。

                                    BI现阶段相当一部分都focus在基因上,可是DNA/RNA不过是一个生命分子,而protein才是功能的行使者。二者之间的研究方法相对来讲也有所不同,前者更侧重于大量的统计分析,而后者则对相对来说单个或者少量的个体感兴趣。进来崛起的BMI还包括了图像处理等侧重信号处理方面,所以很多EE和CS的研究人员也加入这个大家族了。

                                • 家园 看来就是个人理解的不同了

                                  原因很简单,找寻基本联系需要的是必须要经过传统的假说》验证》修正假说》进一步验证。。。的循环中去

                                  第一步假说如何提出?可以说基于研究者自身的知识积累的判断,但是面对海量的信息,大多数研究人员只可能对自己的狭小领域熟悉,而不可能对别的领域涉猎太深。bioinfo,也许biocomputing会更好,则是通过对大量相关信息的处理,发现潜在的联系,而这些联系不仅仅是有统计意义的,更重要的是有非常solid的试验支持的,也就是生物/医学意义的,毕竟生命现象是相互关联的。任何对生命进程的发现都是一个综合多种生物分支的系统应用,而computing技术则是其中的一个部分。正是所谓的“辅助性的整理工作”却能给你一些意想不到的惊喜。这个学科自建立之日起就不是要回答“是什么的”问题,而是“该向什么方向做”的问题,机制细节是试验科学的任务。而来源于试验科学的数据,则会使得计算科学更加完善,方向的准确性会更高。

                                  其次,正如你所提到的,算法才是关键,是生物信息学的真正核心。但是问题是,所有的算法都是以纯数学为基础的,然后套上生物学的角度来考虑的。也就是说,生物信息学是依靠算法的发展作为基础的。所有的海量信息的工作,不可能对生物信息学有着直接的推动作用。他们所起到的作用只可能是间接的

                                  俺也提到纯粹的将数学算法应用于生物现象不是真正意义上的生物计算,充其量只能算应用吧。这门学科的独特在于融合,生物数据所提供的信息与普通数学算法的融合。海量信息数据的处理,不仅是算法效率的问题,更重要的是海量数据结果的分析将会使得对方向的预测更加robust。

                                  现代的生物信息学,不可能独立出来成为一门独立的学科,只可能依附于某个特定的方向或者领域,成为一个强有力的工具。就这一点,是远远比不上遗传学,生物化学,分子生物学,细胞生物学,基因组学等传统的生物领域分支的。

                                  数值分析及其衍生出来的应用数学部分算不算一门独立的学科呢?如果不能真正的融合,确实有人以为生物信息就是数据分析的生物应用。做到现在这个地步,业界都明白融合二字的意义。其实生物科学本身就在融合,几年前火的系统生物,其实就是干湿的融合。

                                  呵呵,还是认为生物计算就是做一个无比好的软件,鼠标一点,结果滚滚而出,那是软件公司的任务。这是一种很典型的方式,在计算科学刚刚开始应用的时候,很多试验人员对它基于厚望,殊不知如果这东西能回答一切,这帮同学们的饭碗可就没了。所以碰见充满信心的同学们,俺一般是打击一下,正告生物系统的多样与复杂性。但是当计算出的结果不符合期望时,就以为是垃圾。对于一门如此年轻的科学,为什么不能给它一些时间呢?俺去年写过一个简单有关搭积木的短文,在回复里俺给了一个例子。

                                  毕竟即使准确率只有20-30%,也比坐那儿干猜强得多。举个极端的例子,假设我可以猜对每个氨基酸相对于另外一个的相对空间位置的概率是99%(事实上是瞎掰,根本做不到),而这个概率是独立的,那么对于101个氨基酸的小蛋白链,准确率就只有(0.99)^100=36%,如果是201个话,准确率就降至13%,可是200个残基的蛋白真得不大。要是一个含501个残基的蛋白质,这个概率是0.65%,就跟没做一样了。所以发展这种方法还是很有意义滴。
                                  要是换成

                                  90%的准确率,可以算一下,指数降低的非常厉害,大概200-300个就接近0了。500个aa的protein真的不算什么,25:0.65。当然你可以说,这个结构如果不能确定,那还是白搭。俺倒想反问一句,近于0%的干猜又有何意义?如果不去尝试,永远是zero。当然可以等新的技术,那东西出现的可能性有多少?

                                  最后这个要求已经超出了纯生物的范畴,而成了一个系统工程,就是人工智能的模仿和产生的问题。

                                  人工智能也没戏,当电脑分析真的达到这个地步之时,就是这门学科,也许是整个生命科学终止之日。

                                  • 家园 的确是出发点的不同所造成的

                                    我个人对于生物信息学,是抱一个乐观的正态度的。在自己的研究过程中,我也跟若干的生物信息学实验室进行过合作。大多数情况下,是我们获得了某个或是一大批的数据,希望能够通过生物信息学的合作来决定下一个有兴趣的方向。

                                    但是实际情况却是屡屡遇到挫折。他们通过分析所得到的结论或者指出的方向,完全在我们的意料当中,甚至包括某些已经被我们所抛弃或者放弃的方向。

                                    现在想来,一是我对于生物信息学的期望过高,二是合作当中,我觉得,我们就是生物学方面的,他们是信息学方面的,两者并没有足够好的融合为一体;三是他们通过完全的数学解释所得到的最符合逻辑的执导,实际上对于我们是完全没有用的,因为这些最显而易见的,都已经被我们或者别人尝试过了。

                                    对于我们的研究来说,我们找寻的,是如何帮助我们的研究突破的方式方法。一切的手段,除了试验设计,都只不过是辅助手段而已。而一旦局限于我们所限定的圈子,生物信息学自身发展的不足就完全的暴露出来了。

                                    而生物信息学所真正引人注目的那些发现,是对于那些我们力所不逮的方面。也就是必须用生物信息学自身的强项,比如说大规模多变量情况下多种处理结果的对比,或者说纯数学的计算类的晶体结构之类的。

                                    目前的生物信息学,说实话,并没有完全摆脱数据分析的生物学应用这个尴尬的地位。虽然我很希望能够看到一个全新的应用方式。

                                    我并不是说生物信息学不好,只是目前的发展还没有达到能够完全的独立存在的地步。而且,也的确是需要给予这个新兴学科一定的时间,来让它能够真正的生根发芽。

                                    我期待着有一天,跟生物信息学者们聊天的时候,他们能够给我一个可以理解的生物学方面的观念惊喜。

分页树展主题 · 全看首页 上页
/ 4
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河