西西河

主题:【整理】说说最近有关biocomputing的事情 -- 喜欢喝冰茶

共:💬27 🌺37 新:
全看树展主题 · 分页首页 上页
/ 2
下页 末页
家园 【整理】说说最近有关biocomputing的事情

主要是两件事, 两三个星期前S上有篇research article文章,里面提到了一个在Computational Biology上常用的计算技术的巨大进步。其实简单来说,也不是什么算法上的,而是一个砸钱的事情,但是是从底层改进。喜欢跟一个或者几个蛋白或者family较劲的朋友们,可以去看看,有些事情以前是望洋兴叹的事儿,现在基本上就是现实了。但是想跟他们合作得先掂量掂量自己玩儿东西的分量,没到NCS级的就不用了,套用国内一句话叫人家“不差钱”。

另外一件事儿是给那些喜欢HTS的同学们玩儿的,去google一下ion torrent,如果真如他们所说的那样,PGM能够两个小时搞定一个individual的genome的话,几年之内SNP和Exome的成本压到100美刀根本就不是问题,因为现在的实验成本也就是200左右,前提是真如它所说,所以搞药的,做遗传的,折腾SNP,CNV或者rare variants的,还是这个seq,那个seq的,methylated的同学们,你们的曙光在前,不过前提是后期处理得能跟上。所以立志于挣钱找工作的bioinfo童鞋们,如果会NGS,你就等工作找你吧,如果不会,赶快学去。其它的那些方面没这个能管饭。

家园 这篇?

Custom-Built Supercomputer Brings Protein Folding Into View

像我一样对NGS感兴趣的可以看这个

http://www.oxfordjournals.org/our_journals/bioinformatics/nextgenerationsequencing.html

家园 恩,进步不是一点半点的

可以说是成千上万倍的。它的一个数据点,几年前就是几十台机器连算一个星期的结果,它只要秒一级的时间就出来了。

想发好paper的看S那篇。想知道那东西具体干吗的童鞋,07年上半年S上有个review专门讲生物上是如何应用的。手上的东西只要热,一合作基本上就是NS级的文章,如果没那么热,怎么着也是PNAS级的。

想找工作挣钱的,有很多可看。这个bioinfo的专辑对于感兴趣算法的可以看看,不过有点老。现在的问题是技术太快,09年的数据量现在看起来太小。2nd NGS的机器可以一天30G seq data,不是图像文件哦,只是fasta,光存储都是问题。一台机器连续工作5天就是150G,假定能工作50周,一年的话,就是8个T,这还是非常保守的估计,像公司里都是不停的跑的,连续工作350天,一台就是10个T左右,要是有个十台八台的,一年就是100个T,这个往linux盒子里塞硬盘显然不是个解决办法。

至于想了解NGS最新的生物应用的童鞋们,查一下N的Methods和Genetics分刊,今年的review都有不少。不过玩儿rare variant的兄弟们最好观望一下,等等新的东西出来。现在的常用算法上有一些问题,特别是variant

家园 还忘了一件事儿

就是S上个月的policy forum上有个德州医学院和法学院的童鞋们写的两页纸的有关对DTC的regulation的问题的讨论。

总得来讲就是实验技术太前,分析技术滞后,特别是数据库匮乏,FDA有点儿迷糊,NIH没什么权利,建议FTC和FDA联合管一下。

家园 Not so fast

生命科学是实验科学

计算生物学的手段再快,也是基于经验事实

没有全新实验证据的引导而做大计算是高速干傻事,or, Garbage in, Garbage out.

家园 补充一点

NGS和这些个high-throughput high-content技术带来的数据首先需要的是存储和序列级别的预处理,更重要的是有效的统计分析(包括实验设计),现在工业界bioinfo主要偏前者,会后者的才会更加吃香。 学会编程要不了多少时间,要学会统计理论和相关的群体遗传数量遗传需要的时间就是O(n^x) x>>2

家园 呵呵,这两个方面

所基于的就是已有的实验数据。前者如果没有结晶结构,很少有人会去做,而后者正是因为第二代NGS技术的高速发展,才会对后期的计算技术提出挑战。所有做计算生物的童鞋们在claim他们的工作之前,手上是有相当多的间接实验证据的。如果连回答算的东西是不是合理的问题都没想过,八成不是真正生物计算出身的。

实验方法如果是万能的话,就不会有Computational Biology这个学科了,两者相辅相成,才有可能更好的解决问题。当实验已经称为不可能任务的时候,计算结果同样可以引导整个研究方向。你看看使用前者的好paper,就知道那种系统的运作思路了。

家园 即使是预处理都有问题

从genetics角度上讲,统计用的多些,但是从整个pipeline来讲,其实是bioinfo和biostat合在一起的结果。

工业界其实重在实验部分,整个数据后期处理部分都弱。厂家邀请的和他们自己都承认这个问题,不过他们仍然把这个事情推出去,因为投入、风险和受益相比不划算。

家园 说得对,后期处理能否跟得不偿上是个大问题

不论是搞好统计分析的大牛还是bioinformatics的小牛,都不认为这是个问题。可谁也没有处理过大规模的sequence数据。我们也不再废话了,赶紧和国内合作,建个数据处理中心。

家园 呵呵,BGI已经在Boston建分舵了

http://www.boston.com/news/science/articles/2010/10/18/bgi_seeks_to_widen_dna_research_options_in_cambridge/

问题是BGI现在还属于人海战术,中坚力量还是比较匮乏的。

家园 难说

BGI肯定有价格优势,但对acadamic user要求共同第一作者。对较小的研究组,这一条还可以接受。对大的研究组,forget it。

难说
家园 所以它得自己弄点东西

那么好的条件,感觉broad都不一定能比得上,要是只沦落为做个service就可惜了。coauthor的话,如果不深入进去,就是小组也不见得搭理它,直接给公司就行了,更省事。

家园 BGI只能做service

它没有样本和相关的epi数据,又没有所需的专业人才。类似的是broad,在技术和方法上有很多重大的贡献,但在疾病方面的研究就很难深入,这几年多在genetics忽悠,是个大泡沫。

家园 看broad的定位了

方法上有不少工作了,至于具体到疾病,它那儿还是有很多机会的,医院、医学院、疾病中心一大票儿,其实要是和sloan联手也不错,不过太强的有时候脾气比较大。

家园 这种合作模式不很成功
全看树展主题 · 分页首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河