网站地图
Rosetta@home

Rosetta@home 是一个基于 伯克利开放式网络计算平台( BOINC)的 分布式计算项目。该项目由 华盛顿大学贝克实验室开发和维护,用于蛋白质结构预测、蛋白质-蛋白质对接和 蛋白质设计的研究。截至 2010年11月23日, 全球共有6.8万台 计算机是这一项目的活跃志愿者,平均执行速度达56万亿 FLOPS。 Rosetta@Home还开发了一款 电子游戏 Foldit,目的是通过 众包(crowdsourcing)途径来实现上述研究目标。尽管这个项目很大程度上侧重于进行提高 蛋白质组学方法的精确性和稳固性的 基础研究,它也进行一些关于 艾滋病、 疟疾、 癌症、 阿兹海默病以及其他疾病的 病理学的应用研究。

与其他BOINC项目一样,Rosetta@home使用志愿者的计算机中空闲的 进程资源来执行单独的单元计算。计算结果会被发送到项目的中央 服务器,经验证后存入 数据库中。这个项目是 跨平台的,支持多种不同的 软件和 硬件环境。用户可通过Rosetta@home的 屏幕保护程序观看正在自己计算机上进行的蛋白质结构预测的情况。

除了疾病相关研究,Rosetta@home网络还是 结构生物信息学中新方法的一个测试框架。这些新方法经Rosetta@home庞大且多样的用户群体使用后,若运行效果稳定,将会被用于其他基于Rosetta的应用程序,例如RosettaDock和人类蛋白质组折叠项目。新方法测试中的两个重要项目是蛋白质结构预测技术的关键测试(CASP)和交互作用预测的关键测试(CAPRI)。这两项测试实验分别用于评估蛋白质结构预测和蛋白质-蛋白质对接预测的最前沿技术。Rosetta@home稳居最重要的对接预测器之一,并且是现有最好的蛋白质 三级结构预测器之一。

Rosetta@home 是一个基于 伯克利开放式网络计算平台( BOINC)的 分布式计算项目。该项目由 华盛顿大学贝克实验室开发和维护,用于蛋白质结构预测、蛋白质-蛋白质对接和 蛋白质设计的研究。截至 2010年11月23日, 全球共有6.8万台 计算机是这一项目的活跃志愿者,平均执行速度达56万亿 FLOPS。 Rosetta@Home还开发了一款 电子游戏 Foldit,目的是通过 众包(crowdsourcing)途径来实现上述研究目标。尽管这个项目很大程度上侧重于进行提高 蛋白质组学方法的精确性和稳固性的 基础研究,它也进行一些关于 艾滋病、 疟疾、 癌症、 阿兹海默病以及其他疾病的 病理学的应用研究。

与其他BOINC项目一样,Rosetta@home使用志愿者的计算机中空闲的 进程资源来执行单独的单元计算。计算结果会被发送到项目的中央 服务器,经验证后存入 数据库中。这个项目是 跨平台的,支持多种不同的 软件和 硬件环境。用户可通过Rosetta@home的 屏幕保护程序观看正在自己计算机上进行的蛋白质结构预测的情况。

除了疾病相关研究,Rosetta@home网络还是 结构生物信息学中新方法的一个测试框架。这些新方法经Rosetta@home庞大且多样的用户群体使用后,若运行效果稳定,将会被用于其他基于Rosetta的应用程序,例如RosettaDock和人类蛋白质组折叠项目。新方法测试中的两个重要项目是蛋白质结构预测技术的关键测试(CASP)和交互作用预测的关键测试(CAPRI)。这两项测试实验分别用于评估蛋白质结构预测和蛋白质-蛋白质对接预测的最前沿技术。Rosetta@home稳居最重要的对接预测器之一,并且是现有最好的蛋白质 三级结构预测器之一。

Rosetta@home应用程序和 BOINC均支持 Microsoft Windows、 Linux和 苹果机平台。(BOINC还可在更多平台上运行,如 FreeBSD。)参与 Rosetta@home的客户端计算机需要有一个 时钟频率至少达到500 兆赫的 中央处理器、400 MB空余的 硬盘空间、512MB的 物理内存,以及 因特网截至2011年10月30日,Rosetta应用程序的最新版本号是5.98,Rosetta Mini应用程序的最新版本号是3.17。用户的BOINC客户端与位于华盛顿大学的 Rosetta@home服务器端之间使用标准 HTTP(80 端口)进行通信, HTTPS(443端口)用于密码交换。BOINC客户端使用1043和31416端口进行远程和本地控制,这两个端口可能需要在 防火墙中被设置为“解除封禁”才可被使用。包含蛋白质数据的工作单元由服务器分配给志愿者的计算机(客户端),然后客户端对所分配得到的任务进行蛋白质预测运算。为了避免重复的预测,每个工作单元会得到一个初始的 随机种子。这使得每个预测具有独一无二的沿蛋白质能量图景(energy landscape)的下降轨道。对于给定的蛋白质能量图景, Rosetta@home的结构预测近似为整体极小值。这个整体极小值代表该蛋白质的能量最佳构造,即它的自然态。

Rosetta@home的 图形用户界面是一个 屏幕保护程序,显示了当前工作单元进行 蛋白质折叠模拟的情况。屏幕左上方为当前蛋白质链正在尝试的移动(即搜索的形状)。紧邻其右侧是最新一个被接受的移动。再往右侧分上下两个小图,上图为当前最低能量形状,下图为实验中得到的真实形状(如果已知)。屏幕中部显示的是被接受模型的 自由能变化曲线。屏幕上方最右侧是接受模型的 均方根偏差(RMSD)曲线,体现了被接受模型与实验中真实模型之间的相似度。在自由能变化曲线右侧、RMSD曲线下方,使用这两项结果生成了一个能量/RMSD图,伴随着模型的不断精确。

与所有其他BOINC项目类似,Rosetta@home利用客户端空闲资源,在后台执行。执行过程可能发生在用户登录 操作系统之前或之后。当其他应用程序需要时,Rosetta@home会释放资源,因此不会影响用户对计算机的正常使用。为了使计算机的功耗或者放热降到最低,用户可以自行指定Rosetta@home使用CPU资源的最大比例。此外,Rosetta@home每天最多运行次数,以及更多选项也都可以通过用户的账户选项来进行设置。

Rosetta@home网络所使用的Rosetta软件最早用 Fortran编写,后改用 C++重新编写,以利于进一步的开发。新版本于2008年2月8日发布,实现了 面向对象。Rosetta代码由Rosetta Commons开发这个软件对学术使用免费,对制药公司则收取费用。

通过一系列的 基因组测序计划,科学家能够判定许多种在 细胞内发挥作用的蛋白质的 氨基酸串行或者 一级结构。为了更好地了解蛋白质的功能,以及向合理化药物设计提供辅助,科学家们需要知道蛋白质的 三级结构

蛋白质的三维结构目前主要通过 X射线晶体学或 核磁共振技术来进行实验确定。这个过程十分耗时,例如可能花费数星期或者几个月才能首次研究出如何使一种蛋白质结晶;而成本又非常高,每种蛋白质耗费约10万美元。更重要的是,发现新串行的速度远超确定结构的速度: 美国国家生物技术信息中心非冗余蛋白质数据库中存在的超过740万个蛋白质串行中,仅有不到5.2万已被确定结构并被存入 蛋白质数据库中。Rosetta@home的一个主要目标是在显著降低时间和金钱成本的情况下,预测蛋白质结构,并且达到与现有实验方法同样的精度。Rosetta@home还开发了确定 膜蛋白(如 G蛋白偶联受体)结构和对接的方法。膜蛋白是现代药物设计的主要目标,但通过X射线晶体学、核磁共振等传统技术却极难获得其结构。 蛋白质结构预测的进展通过两年一届的蛋白质结构预测技术的关键测试(CASP)实验来进行评估。在这项实验中,来自全球各地的研究人员尝试从氨基酸串行中得到蛋白质结构。这项实验有时竞争十分激烈,得分高的小组被认为是最高端蛋白质结构预测研究的事实上的标准制定者。Rosetta@home所基于的Rosetta程序,自1998年的CASP3实验上开始被使用。在2004年的CASP6上,Rosetta创造了历史,在它为CASP目标蛋白质T0281提供的模型中,首次生成了接近原子级精度的 蛋白质结构预测。 不使用结构同源的信息,而必须依赖于串行同源信息以及蛋白质内的模拟物理交互,因此被认为是一类特别难以预测的蛋白质结构。 Rosetta@home自2006年CASP7上开始被使用。在CASP7上,它在每个类别的预测中都成为最好的预测器之一。而高质量的预测需要来自 Rosetta@home众多志愿者提供计算资源。不断增多的计算资源使Rosetta@home能够对构象空间(一个蛋白质可以被假设具有的可能的形状)更多的区域进行取样,根据“黎文索尔佯谬”(Levinthal paradox),采样数量会随着蛋白质长度的增长而呈指数增长。

Rosetta@home也被用于蛋白质-蛋白质对接预测。这项预测确定 蛋白质复合体结构或者 四级结构。这一类型的蛋白质交互作用影响到许多细胞功能,包括 抗原- 抗体、 酶- 抑制剂捆绑等。确定这些交互作用在药物设计中十分关键。Rosetta被用于交互作用预测的关键测试(CAPRI)实验。这项实验评估当前最前沿的蛋白质对接技术,评估模式与CASP类似。Rosetta在这项实验中得到的结果属最精确、最完整之一,而志愿者提供的计算资源被认为是Rosetta获得成功的主要因素之一。

2008年初,Rosetta被用来推算设计一种具有在自然界中从未被观察到功能的蛋白质。这个灵感源自2004年一篇引起关注的、被撤稿的论文,那篇论文中描述了一种蛋白质的推算设计,这种蛋白质与天然的蛋白质相比提高了酶活力。2008年,大卫贝克的研究组发表了论文,描述了这种蛋白质的制造过程。论文指出 Rosetta@home为其提供计算资源,作为这种蛋白质设计方法的一项重要的概念论证。这一类型的蛋白质设计将来可能在 药物设计、 绿色化学生物修复等领域得到应用.

除了蛋白质结构预测、对接、设计等基础研究,Rosetta@home也被用在疾病相关研究。大卫·贝克的 Rosetta@home日志上描述了许多附属的研究项目。

阿兹海默病。RosettaDesign一项尚未发表的初步结果设计出了也许可以预防纤维形成的蛋白质,但它能否预防这种疾病尚不得而知。

炭疽病毒素。这个模型精确预测LF与PA之间的对接,帮助确定两种蛋白质分别有哪些 结构域参与到LF-PA复合体的构造中。这项成果最终被应用到改良的炭疽病 疫苗的研制。

免疫球蛋白G)与能够使抗病毒抗体退化的单纯疱疹病毒1型(HSV-1)表面蛋白之间的对接模型。RosettaDock预测的蛋白质复合体与极难得到的实验模型近乎一致。研究人员总结说,这种对接方法可望解决X射线结晶学方法构造蛋白质-蛋白质界面模型所遇到的一些问题。

Rosetta@home被用于设计 人类免疫缺陷病毒(HIV)疫苗。

核酸内切酶蛋白质。这种蛋白质能够根除冈比亚疟蚊或者使这种疟蚊无法传播 疟疾。由于能够构建及改变蛋白质-DNA交互作用模型,特别是归巢核酸内切酶蛋白质等,像Rosetta这一类运算蛋白质设计方法成为 基因治疗中的一个重要角色。

Rosetta最初是作为 蛋白质结构预测方法,在1998年由贝克实验室开发;而到目前,这个项目已经形成多个分支,有各自不同的发展和服务方向。Rosetta平台得名于 罗塞塔石碑(被用于破译 古埃及文字),因为该平台试图破译蛋白质的氨基酸串行的结构“含义”。Rosetta出现7年之后, Rosetta@home项目于2005年10月6日发布。许多参与到Rosetta起步工作的 研究生和研究人员已经搬迁到各个不同的大学和研究机构。这使Rosetta项目的不同分支也得到加强。

科学》杂志上发表的相关论文已被270多篇论文引用。这项研究的显著成果TOP7被选为 蛋白质数据库2005年10月的“月度分子”(Molecule of the Month)。这项预测与其X射线晶体学结构的叠合被包含在Rosetta@home的logo设计中。曾在贝克实验室当 博士后、现任 北卡罗来纳大学教堂山分校助理教授的布赖恩库尔曼提供了RosettaDesign的在线服务。

化脓性链球菌毒素A和T细胞受体β链的对接做出了高精度预测,对一种猪的 α淀粉酶与相应骆驼抗体的复合体做出了中等精度预测。尽管RosettaDock方法只在七种可能中给出两种可接受精度的预测,这已经足以让它在那届CAPRI实验中名列19个预测方法中的第7位。

RosettaDock的基础工作主要是由杰弗里格雷在 华盛顿大学期间完成的。后来他搬到 约翰霍普金斯大学接受另一个工作职位。因此,RosettaDock在这之后的开发出现了两个分支。这两个分支在侧链建模、诱捕选择等方面存在细微差异。尽管存在这些差异,贝克和格雷的方法均在第二次CAPRI实验中表现出色,在30个小组中分列第5位和第7位。

2006年10月,RosettaDock被集成到Rosetta@home中。这一方法首先仅用蛋白质骨架进行快速、粗略的对接建模,然后进行缓慢的全原子优化。在后一阶段中,两个互相作用的蛋白质之间的相对位置以及蛋白质-蛋白质界面的侧链交互作用同时被优化,从而得到最低能量构造。 Rosetta@home网络提供的巨大的运算能力,以及骨架灵活性和连接环建模经修订的折叠树表述,使RosettaDock在第三次CAPRI实验中名列63个预测组中的第6位。

蛋白质结构预测服务,由贝克实验室提供,用于非商业性质的 和比较建模。它自2002年起参加CASP实验,在当届CASP5的自动化服务器预测类别中名列前茅。此后,Robetta又参加了CASP6和CASP7,成绩比自动化服务器和人工预测组的平均水平都高。

到CASP6时为止,Robetta构建蛋白质结构模型时采用的方法是,首先用 BLAST、PSI-BLAST和3D-Jury搜索结构同源体,然后通过串行与Pfam数据库中的结构族的匹配,将目标串行解析为单独的 结构域或者独立的折叠单元。下一步,具有结构同源体的结构域则要遵循一个基于模板的模型(即同源建模)协议。在此处,贝克实验室内部的一个程序K*sync会生成一组串行同源体,其中的每一项由Rosetta的 方法建模,产生诱捕(可能的结构)。然后,由低分辨率Rosetta能量函数确定的最低能量模型被选为最终的结构预测方案。对于未检测到结构同源体的结构域,将根据 协议,选定生成的诱捕中具有最低能量的模型作为最终的结构预测方案。这些结构域预测方案将被连接在一起,用来研究蛋白质内跨结构域、三级结构级别的交互作用。最后,根据一个蒙特卡罗构造搜索协议来构建侧链贡献。

在CASP8中,由于Rosetta高分辨率全原子优化方法的引入,Robetta的性能得到提高。而缺少这一方法被认为是Robetta在CASP7中精度低于 Rosetta@home的主要原因。

Rosetta@home用户关于交互式版本的建议,发布了Foldit。这是一个基于Rosetta平台的在线蛋白质结构预测游戏。截至2009年1月9日,Foldit的注册用户已经接近7.9万名。这个游戏赋予用户一系列的控制功能(如“摇动”、“摆动”、“重建”等),来操纵目标蛋白质的骨架和氨基酸侧链,以获得最佳能量构造。用户能够以单独或者集体的形式来进行游戏,通过改进结构预测方案来获得积分。用户还可以通过“决斗”功能来与其他用户进行竞赛,在20个动作内得到最低能量结构的用户获胜。

目前有多个分布式计算项目与Rosetta@home具有类似的研究方向,但研究方法上存在差异。

斯坦福大学开发的 Folding@home是与蛋白质研究相关的主要分布式计算项目中唯一不使用 BOINC平台的。 Rosetta@home与Folding@home都研究蛋白质错误折叠疾病(如阿兹海默病),但Rosetta@home还进行其他研究,而Folding@home则主要集中于这类研究。Folding@home并不采用基于结构或者基于设计的方法来预测淀粉体行为,而是采用 分子动力学方法来构建蛋白质折叠活动(以及可能的错误折叠和聚合)的模型。换言之,Folding@home的优势在于模拟蛋白质折叠活动,而Rosetta@home的优势则在于蛋白质运算设计以及蛋白质结构和对接的预测。这两个项目在计算资源和主机分布上也存在显著差异。Rosetta@home的主机群体基于 PC,平均执行速度为78万亿 FLOPS;而 Folding@home的主机群体包括了 PlayStation 3和 图形处理器,平均执行速度达4769万亿FLOPS,大约是 Rosetta@home的61倍。

蛋白质组折叠项目(HPF)1期和2期均使用Rosetta程序来为不同的 基因组添加结构和功能注解。人类蛋白质组折叠项目的首席科学家里夏尔博诺在华盛顿大学贝克实验室攻读博士学位期间积极参与了Rosetta的早期开发,但他现在主要使用Rosetta来为生物学家创建数据库。他的个人网站上设置了关于HPF1、HPF2的信息布告板。

Rosetta@home相似,蛋白质结构预测也是Predictor@home的研究重点。Predictor@home还计划在其分布式计算平台上开发蛋白质设计与对接的新研究领域(采用分子动力学的 CHARMM软件包)。这将使它与Rosetta@home更加相似。进行结构预测时,Rosetta@home使用的是Rosetta程序,而Predictor@home则使用dTASSER方法。

蛋白质结构被提交到CASP实验的用户,也在相关的学术出版物中被致谢。而预测出指定工作单元最低能量结构的用户及其所在队伍则会在Rosetta@home的主页上被列为“当日预测者”(Predictor of the Day)。每天还有一名随机选出的用户会被列在主页上,成为“当日用户”(User of the Day)。


相关文章推荐: