西西河

主题:挖新坑,占坐位。 -- 关中农民

共:💬302 🌺2625 🌵40
全看分页树展 · 主题 跟帖
家园 主要是虚拟筛选坏了这行业的名声

大部分人是用Docking做虚拟筛选,或是筛完之后用能量函数评估一下药物结合。这种做法从物理原理上看就是有根本性的问题的。这个根本性问题并不是你说的计算机模型的简化。这个根本性的问题是,当你用所谓“能量函数”去计算出一个数值的时候,你做了一个假设,而偏偏绝大多数人,特别是那些做虚拟筛选的人都不知道这个假设:这样的体系处于绝对零度。因为“能量函数”是势能,是只与位置有关与运动无关的项,因此假定的体系中不能有任何运动,而这样的体系就是处于绝对零度。所以你说要“刚性”的结合位点,就是这个原因。有个笑话,说农场的鸡病了,物理学家写了一串方程来分析这个问题,解析得到一个完美的特解,只是这个特解有严格的初始条件和边界条件,那就仅对真空中的球形鸡有效。虚拟筛选是现实版的“真空中的球形鸡”,为了让筛出来的分子有效,我们需要先把病人冷冻到绝对零度再给药。

这个问题的影响有多大呢,如果考虑自由能的方程:

吉布斯自由能变化 = 焓变 - 温度 * 熵变

把温度降到绝对零度就是抹去熵的贡献,只考虑焓变。而单单一般的小分子的振动熵,对自由能变化在体温下就有几到几十个千卡每摩尔的贡献,蛋白的熵的贡献更大。-12千卡每摩尔的自由能变化对1:1结合而言就是1nM的解离常数,就是非常好的抑制剂了。所以能量函数不能计算的熵变部分的贡献直接把其能计算的焓变部分的贡献给全部抹掉了。这是为什么虚拟筛选不靠谱的根本原因:它的那个不完整的物理图像不能解释现实中的问题。

所以计算要在药物化学上成功,主要还是在H2L和LO这两步。H2L和LO两步变化比较小,考虑到化学合成待选的分子数目也有限,用好量子化学和分子动力学可以算得比较准。神经氨酸酶抑制剂家族的发展就是个例子。神经氨酸酶有天然底物Neu5Ac,都不需要做高通量筛选,所以一起手就是计算设计Neu5Ac的类似物,相当于H2L,然后再设计各种修饰改进药物代谢动力学性能,相当于LO。这一家族用计算机辅助设计出来的进临床三期的化合物应该一只手都数不过来了。

要说脱靶效应和药代动力学,高通量筛选其实更不靠谱。高通量筛选我们一般hit rate是千分之二,1000个随机化合物有两个能和靶标蛋白强结合,不同靶标蛋白这个数值差不多。看起来这个数值很低,但实际上一百万个随机化合物中间有一个能直接跳过H2L进LO就可以烧高香了,所以这个数值是极高不是极低。这么高的中靶率,大部分都是非特异结合,十个里面有一个是特异结合就不错了,更不要提药代动力学,这些hits大多死在连细胞膜都穿不过这一点上。所以1000个hits里面能直接用的有1个就不错了。反过来说,盲目的H2L和LO的结果,和这些hits中的分布接近,只会做一大堆无用的化学合成,劳而无获。

虚拟筛选也不能说完全没用,毕竟它能算焓变部分,把这部分做得很好,熵变靠天收,成功的几率会大一点点,就那么一点点。一般我们称这个为富集系数(Enrichment Factor),就是让Docking或是别的方法挑1000个化合物,和随机的1000个化合物比,看看里面hits数量有没有变多。这就像摸彩票,随机是1000张里面中两张,街头术士说有个出千的办法,摸1000张能中十张,这个富集系数就是5。Docking做了这么多年,总体而言,富集系数大概也就到5。所以心态要放对,一个做计算的告诉你这个化合物被计算机挑出来了,言下之意是它比你去随机挑好一些,不是说这个化合物它就能成。这个富集系数倒是靶标蛋白依赖的,“刚性”的可以到50,“不好的”靶标蛋白它就是1,就是说和你去随机挑一张彩票没区别。

但是这个富集系数在实际的高通量筛选中基本没有用。主要是经济性上的问题。单个单个指定地去买化合物和买一大堆随机的化合物组成的文库的价格是不可比的,哪怕就是已经有文库了,从里面单个单个挑出来,所耗费的时间和人力成本都有可能超过直接去做整个文库了。同时,把这个富集系数提高个几倍是很难的事情,但是提高几倍理想状态下也就将筛选成本减少到原来的几分之一。高通量筛选有大把的其他的手段去降低其成本,比如把96孔板换成384孔板成本减少到1/4,把384孔板换成1536孔板又是另一个1/4,更不要提超声移液纳升级反应系统,这个有可能把成本降低到原来的千分之一,按这样的计算与其雇做虚拟筛选的人还不如上设备。

通宝推:盲人摸象,花大熊,北纬42度,红茶冰,关中农民,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河