主题：【整理】说说最近有关biocomputing的事情 -- 喜欢喝冰茶

共:💬27 🌺37 新:

老大河待整

【整理】说说最近有关biocomputing的事情

主要是两件事, 两三个星期前S上有篇research article文章，里面提到了一个在Computational Biology上常用的计算技术的巨大进步。其实简单来说，也不是什么算法上的，而是一个砸钱的事情，但是是从底层改进。喜欢跟一个或者几个蛋白或者family较劲的朋友们，可以去看看，有些事情以前是望洋兴叹的事儿，现在基本上就是现实了。但是想跟他们合作得先掂量掂量自己玩儿东西的分量，没到NCS级的就不用了，套用国内一句话叫人家“不差钱”。

另外一件事儿是给那些喜欢HTS的同学们玩儿的，去google一下ion torrent，如果真如他们所说的那样，PGM能够两个小时搞定一个individual的genome的话，几年之内SNP和Exome的成本压到100美刀根本就不是问题，因为现在的实验成本也就是200左右，前提是真如它所说，所以搞药的，做遗传的，折腾SNP，CNV或者rare variants的，还是这个seq，那个seq的，methylated的同学们，你们的曙光在前，不过前提是后期处理得能跟上。所以立志于挣钱找工作的bioinfo童鞋们，如果会NGS，你就等工作找你吧，如果不会，赶快学去。其它的那些方面没这个能管饭。

复【整理】说说最近有关biocomputing的事情

家园

这篇？

Custom-Built Supercomputer Brings Protein Folding Into View

像我一样对NGS感兴趣的可以看这个

http://www.oxfordjournals.org/our_journals/bioinformatics/nextgenerationsequencing.html

复这篇？

家园

恩，进步不是一点半点的

可以说是成千上万倍的。它的一个数据点，几年前就是几十台机器连算一个星期的结果，它只要秒一级的时间就出来了。

想发好paper的看S那篇。想知道那东西具体干吗的童鞋，07年上半年S上有个review专门讲生物上是如何应用的。手上的东西只要热，一合作基本上就是NS级的文章，如果没那么热，怎么着也是PNAS级的。

想找工作挣钱的，有很多可看。这个bioinfo的专辑对于感兴趣算法的可以看看，不过有点老。现在的问题是技术太快，09年的数据量现在看起来太小。2nd NGS的机器可以一天30G seq data，不是图像文件哦，只是fasta，光存储都是问题。一台机器连续工作5天就是150G，假定能工作50周，一年的话，就是8个T，这还是非常保守的估计，像公司里都是不停的跑的，连续工作350天，一台就是10个T左右，要是有个十台八台的，一年就是100个T，这个往linux盒子里塞硬盘显然不是个解决办法。

至于想了解NGS最新的生物应用的童鞋们，查一下N的Methods和Genetics分刊，今年的review都有不少。不过玩儿rare variant的兄弟们最好观望一下，等等新的东西出来。现在的常用算法上有一些问题，特别是variant

复【整理】说说最近有关biocomputing的事情

家园

还忘了一件事儿

就是S上个月的policy forum上有个德州医学院和法学院的童鞋们写的两页纸的有关对DTC的regulation的问题的讨论。

总得来讲就是实验技术太前，分析技术滞后，特别是数据库匮乏，FDA有点儿迷糊，NIH没什么权利，建议FTC和FDA联合管一下。

复【整理】说说最近有关biocomputing的事情

家园

Not so fast

生命科学是实验科学。

计算生物学的手段再快，也是基于经验事实。

没有全新实验证据的引导而做大计算是高速干傻事，or, Garbage in, Garbage out.

复【整理】说说最近有关biocomputing的事情

家园

补充一点

NGS和这些个high-throughput high-content技术带来的数据首先需要的是存储和序列级别的预处理，更重要的是有效的统计分析（包括实验设计），现在工业界bioinfo主要偏前者，会后者的才会更加吃香。学会编程要不了多少时间，要学会统计理论和相关的群体遗传数量遗传需要的时间就是O(n^x) x>>2