MIT的 "FrameDiff" 生成式AI想象出可能改变医学的新蛋白质结构

MIT的"FrameDiff"生成式AI想象出可能改变医学的新蛋白质结构FrameDiff系统在构建单个蛋白质的任务中进行了测试,研究人员发现它可以构建多达500个部分的大蛋白质。与以前的方法不同,它不需要依赖预先存在的蛋白质结构图。图片来源:AlexShipps/MITCSAILviaMidjourney试想一下,如果我们能够加快针对新出现的病原体制造疫苗或药物的进程,那将会怎样?如果我们的基因编辑技术能够自动生成蛋白质,纠正导致癌症的DNA错误,那将会怎样?寻找能够与靶标强结合或加速化学反应的蛋白质对于药物开发、诊断和众多工业应用至关重要,但这往往是一项旷日持久且成本高昂的工作。为了提高我们在蛋白质工程方面的能力,麻省理工学院CSAIL的研究人员发明了"FrameDiff",这是一种用于创建超越自然界的新蛋白质结构的计算工具。这种机器学习方法生成的"框架"符合蛋白质结构的固有特性,使其能够独立于已有的设计构建新型蛋白质,从而实现前所未有的蛋白质结构。在自然界中,蛋白质设计是一个缓慢的过程,需要数百万年的时间。麻省理工学院CSAIL博士生JasonYim说:"我们的技术旨在为解决比自然界发展速度更快的人类问题提供答案。我们的目标是利用这种新的能力生成合成蛋白质结构,从而提高各种能力,例如更好的粘合剂。这意味着工程蛋白质可以更有效、更有选择性地附着在其他分子上,对靶向给药和生物技术有着广泛的影响,它可能发展出更好的生物传感器的开发。它还可能对生物医学领域及其他领域产生影响,如开发更高效的光合作用蛋白、创造更有效的抗体以及用于基因治疗的纳米粒子工程等。"框架结构蛋白质结构复杂,由许多原子通过化学键连接而成。决定蛋白质三维形状的最重要原子被称为"骨架",有点像蛋白质的脊柱。骨架上的每个原子三元组都具有相同的化学键模式和原子类型。研究人员注意到,这种模式可以利用微分几何和概率的思想来构建机器学习算法。这就是框架的作用所在:从数学上讲,这些三元组可以被建模为刚体,称为"框架"(物理学中常见的),在三维空间中具有位置和旋转。这些框架为每个三元组提供了足够的信息,使其能够了解周围的空间环境。机器学习算法的任务是学习如何移动每个框架来构建蛋白质骨架。通过学习构建现有的蛋白质,该算法有望推广并能够创造出自然界中从未见过的新蛋白质。通过"扩散"训练构建蛋白质的模型需要注入噪音,随机移动所有帧,模糊原始蛋白质的样子。算法的工作就是移动和旋转每一帧,直到它看起来像原始蛋白质。虽然简单,但帧上扩散的开发需要黎曼流形上随机微积分的技术。在理论方面,研究人员开发了用于学习概率分布的"SE(3)扩散",它将每个帧的平移和旋转部分非难连接起来。微妙的扩散艺术2021年,DeepMind推出了AlphaFold2,这是一种深度学习算法,用于从序列预测三维蛋白质结构。在创建合成蛋白质时,有两个基本步骤:生成和预测。生成"是指创建新的蛋白质结构和序列,而"预测"是指找出序列的三维结构。AlphaFold2也使用框架来建立蛋白质模型,这并非巧合。SE(3)扩散和FrameDiff的灵感来自于将框架纳入扩散模型,从而进一步发展了框架的概念,这种生成式人工智能技术已经在图像生成领域大受欢迎,例如Midjourney。蛋白质结构生成和预测之间共享的框架和原理意味着两端的最佳模型是兼容的。在与华盛顿大学蛋白质设计研究所的合作中,SE(3)扩散已被用于创建和实验验证新型蛋白质。具体来说,他们将SE(3)扩散与RosettaFold2结合起来,RosettaFold2是一种蛋白质结构预测工具,与AlphaFold2很相似,从而产生了"RFdiffusion"。这一新工具使蛋白质设计人员更接近于解决生物技术中的关键问题,包括开发用于加速疫苗设计的高特异性蛋白质结合剂、用于基因传递的对称蛋白质工程以及用于精确酶设计的稳健主题支架。FrameDiff未来的工作包括提高通用性,以解决药物等生物制剂的多种需求相结合的问题。另一个扩展是将模型推广到包括DNA和小分子在内的所有生物模式。研究小组认为,通过在更多的数据上扩大FrameDiff的训练并加强其优化过程,它可以生成与RFdiffusion具有同等设计能力的基础结构,同时保持FrameDiff固有的简单性。哈佛大学计算生物学家谢尔盖-奥夫钦尼科夫(SergeyOvchinnikov)说:"摒弃[FrameDiff]中的预训练结构预测模型为快速生成大长度结构提供了可能性。研究人员的创新方法为克服当前结构预测模型的局限性迈出了可喜的一步。尽管这仍是一项初步工作,但它在正确的方向上迈出了令人鼓舞的一步。因此,得益于麻省理工学院研究团队的开拓性工作,蛋白质设计在解决人类最紧迫挑战中发挥关键作用的愿景似乎越来越触手可及。"Yim与哥伦比亚大学博士后BrianTrippe、法国巴黎国家科学研究中心数据科学中心研究员ValentinDeBortoli、剑桥大学博士后EmileMathieu、牛津大学统计学教授兼DeepMind高级研究科学家ArnaudDoucet共同撰写了这篇论文。麻省理工学院教授ReginaBarzilay和TommiJaakkola为这项研究提供了建议。该团队的工作部分得到了麻省理工学院AbdulLatifJameelClinicforMachineLearninginHealth、EPSRC基金和微软研究院与剑桥大学之间的繁荣合作项目、美国国家科学基金会研究生研究奖学金项目、美国国家科学基金会Expeditions基金、机器学习促进药物发现和合成联盟、DTRA发现应对新威胁和新兴威胁的医疗对策项目、DARPA加速分子发现项目和赛诺菲计算抗体设计基金的支持。这项研究将在7月举行的国际机器学习大会上发表。...PC版:https://www.cnbeta.com.tw/articles/soft/1370909.htm手机版:https://m.cnbeta.com.tw/view/1370909.htm

相关推荐

封面图片

微软开源新型蛋白质生成人工智能 EvoDiff

微软开源新型蛋白质生成人工智能EvoDiff但是,从计算和人力资源的角度来看,目前在实验室设计蛋白质的过程成本高昂。它需要提出一种能在体内执行特定任务的蛋白质结构,然后找到一种可能"折叠"到该结构中的蛋白质序列(组成蛋白质的氨基酸序列)。(蛋白质必须正确折叠成三维形状,才能实现其预期功能)。其实不一定非要这么复杂。本周,微软公司推出了一个通用框架EvoDiff,该公司声称可以根据蛋白质序列生成"高保真"、"多样化"的蛋白质。与其他蛋白质生成框架不同的是,EvoDiff不需要目标蛋白质的任何结构信息,省去了通常最费力的步骤。微软高级研究员凯文-杨(KevinYang)说,EvoDiff开源后,可用于创建新疗法和给药方法的酶,以及用于工业化学反应的新酶。"我们的设想是,EvoDiff将扩展蛋白质工程的能力,使其超越结构-功能范式,走向可编程、序列优先的设计,"EvoDiff的共同创建者之一杨在接受TechCrunch电子邮件采访时说。"通过EvoDiff,我们证明了我们可能实际上并不需要结构,而是'蛋白质序列就是你所需要的一切',从而可控地设计出新的蛋白质"。EvoDiff框架的核心是一个640参数模型,该模型是根据所有不同物种和功能类别蛋白质的数据训练而成的。(参数"是人工智能模型从训练数据中学到的部分,基本上定义了模型处理问题的技能--在本例中就是生成蛋白质)。训练模型的数据来自序列比对的OpenFold数据集和UniRef50,后者是UniProt数据集的一个子集,UniProt是由UniProt联盟维护的蛋白质序列和功能信息数据库。EvoDiff是一种扩散模型,其结构类似于稳定扩散和DALL-E2等许多现代图像生成模型。EvoDiff可以学习如何从几乎完全由噪声组成的起始蛋白质中逐渐减去噪声,从而使其缓慢地、一步一步地接近蛋白质序列。EvoDiff生成蛋白质的过程。扩散模型已越来越多地应用于图像生成以外的领域,从设计新颖的蛋白质(如EvoDiff),到创作音乐,甚至合成语音。"如果说[从EvoDiff]中能得到什么启发的话,我认为那就是我们可以--也应该--通过序列来生成蛋白质,因为我们能够实现通用性、规模和模块化,"EvoDiff的另一位共同贡献者、微软高级研究员阿瓦-阿米尼(AvaAmini)通过电子邮件说。"我们的扩散框架让我们有能力做到这一点,也让我们能够控制如何设计这些蛋白质,以实现特定的功能目标。"对于阿米尼的观点,EvoDiff不仅能创造新蛋白质,还能填补现有蛋白质设计中的"空白"。例如,如果蛋白质的某一部分与另一种蛋白质结合,该模型就能围绕这一部分生成符合一系列标准的蛋白质氨基酸序列。由于EvoDiff是在"序列空间"而非蛋白质结构中设计蛋白质,因此它还能合成最终无法折叠成最终三维结构的"无序蛋白质"。与正常功能的蛋白质一样,无序蛋白质在生物学和疾病中发挥着重要作用,比如增强或降低其他蛋白质的活性。需要指出的是,EvoDiff背后的研究还没有经过同行评审--至少目前还没有。参与该项目的微软数据科学家萨拉-阿拉姆达里(SarahAlAMDari)承认,在该框架投入商业应用之前,"还有很多扩展工作要做"。阿拉姆达里通过电子邮件说:"这只是一个6.4亿参数的模型,如果我们将其扩展到数十亿参数,我们可能会看到生成质量的提高。虽然我们展示了一些粗粒度策略,但要实现更精细的控制,我们希望EvoDiff以文本、化学信息或其他方式为条件,指定所需的功能。"下一步,EvoDiff团队计划测试该模型在实验室中生成的蛋白质,以确定它们是否可行。如果可行,他们将开始下一代框架的工作。...PC版:https://www.cnbeta.com.tw/articles/soft/1384011.htm手机版:https://m.cnbeta.com.tw/view/1384011.htm

封面图片

诺奖风向标指向AI 谷歌蛋白质结构预测模型获颁医学领域顶级奖项

诺奖风向标指向AI谷歌蛋白质结构预测模型获颁医学领域顶级奖项(来源:拉斯克奖)拉斯克奖也是知名的“诺贝尔奖风向标”。仅在过去20年时间里,包括中国科学家屠呦呦在内,一共有32位拉斯克奖得主随后拿到了诺贝尔奖。所以谷歌DeepMind此番获奖,也点燃了AI领域研究未来斩获诺贝尔奖的希望。今年的得奖者是谁?今年拉斯克奖总共设立了三个奖项,其中谷歌DeepMind的DemisHassabis和JohnJumper凭借预测蛋白质3D形状的人工智能系统AlphaFold拿下了今年的基础研究奖。作为支撑人体基本生命活动的物质,蛋白质由20种氨基酸呈念珠状连接形成三维形状,而形状本身决定了蛋白质的功能,所以研究蛋白质形状一直是医学领域的热门方向。1972年,凭借蛋白质折叠研究荣获诺贝尔奖的美国生物化学家克里斯蒂安·B·安芬森,在发表获奖感言时曾表示,总有一天,我们可以仅凭借氨基酸的序列来预测任意蛋白质的三维结构。而他提出的设想终于在机器学习和人工智能的时代实现了。AlphaFold名字里的Fold,就是取自这里的“折叠”之意。时至今日,过往需要X射线、低温电子显微镜、核磁共振等技术耗费数月、甚至几年的事情,最短只需要几分钟就能得出准确性相当高的结果。拉斯克奖表示,这种变革性的方法正在迅速推进基本生物过程的理解,并促进药物设计。AlphaFold在去年发布了一个包含2亿蛋白质预测结构的数据库,这个数量已经接近人类科学已知的所有蛋白质。与大众更加熟悉的AlphaGo类似,AlphaFold是通过机器学习17万个蛋白质序列,以及科学家在实验室中研究出的结构进行训练,掌握了预测蛋白质结构的诀窍。正因为预测蛋白质形状在医学领域的重要性,所以AlphaFold、以及后续准确率更高的AlphaFold2问世后,一直被媒体称为“有机会冲击诺奖的成就”。除了AlphaFold外,今年的拉斯克临床医学研究奖颁给了麻省理工大学的詹姆斯·藤本和埃里克·斯旺森,以及俄勒冈健康&科学大学的华裔科学家DavidHuang,以表彰他们在光学相干层析成像(OCT成像)领域的突出贡献。与X射线、核磁共振、超声成像等医学成像技术相比,OCT具有成本低、分辨率高、非接触、无损伤等优势。经过近30年的发展,OCT在眼科检查、冠状动脉疾病以及癌症研究领域均均有所建树。行业研究机构Reportlinker在今年4月发布的报告中预期,到2028年全球OCT市场有望达到21亿美元。最后,荷兰癌症研究所的PietBorst获得了今年的拉斯克医学科学特别成就奖,表彰他在医学研究领域超过50年的非凡职业生涯。拉斯克奖表示,Borst在多个领域都取得了开创性的发现:他的研究揭示了人体对癌症治疗的反应、寄生虫如何逃避人体免疫系统,并为导致癌症药物耐受的分子泵提供了深入的见解。他阐明了一个出乎意料的新代谢途径,揭示了一种新的DNA构建模块,并确定了一种遗传性疾病的生化基础。除了科研外,在他的领导下荷兰癌症研究所成为世界一流的机构。另外Borst也在教学、外部机构指导、公众教育等领域取得了卓越的成就。顺便一提,今年已经89岁的Borst,也是荷兰(在他那个年龄段)的顶级网球选手。...PC版:https://www.cnbeta.com.tw/articles/soft/1385537.htm手机版:https://m.cnbeta.com.tw/view/1385537.htm

封面图片

人工智能技术可从零开始生成原始蛋白质

人工智能技术可从零开始生成原始蛋白质该实验表明,最初为阅读和写作语言文本而创建的自然语言处理人工智能可以掌握生物学的某些基本概念。这个被称为ProGen的AI程序是由SalesforceResearch开发的,它采用了下标预测法,从氨基酸序列中构建人工蛋白质。科学家们说,这项新技术可能会变得比定向进化(诺贝尔奖得主的蛋白质设计技术)更强大,它将通过加快开发新的蛋白质来为有50年历史的蛋白质工程领域注入活力,这些蛋白质几乎可以用于从治疗药物到降解塑料的任何用途。加州大学旧金山分校药学院生物工程和治疗科学教授詹姆斯-弗雷泽博士说:"人工设计的性能比受进化过程启发的设计好得多,"他是这项工作的作者之一,该论文最近发表在《自然-生物技术》上。该论文的前一个版本自2021年7月以来一直在预印本服务器BiorXiv上提供,在那里获得了几十次引用,然后才发表在同行评议的期刊上。"语言模型正在学习进化的各个方面,但它与正常的进化过程不同,"弗雷泽说。"我们现在有能力调整这些属性的生成,以达到特定的效果。例如,一种热稳定性极强的酶或喜欢酸性环境或不会与其他蛋白质相互作用的酶。"为了创建这个模型,科学家们只是将2.8亿种不同的蛋白质的氨基酸序列输入机器学习模型,并让它消化了几周的信息。然后,他们用五个溶菌酶家族的56000个序列以及关于这些蛋白质的一些背景信息对该模型进行了微调。该模型迅速生成了一百万个序列,研究小组根据它们与天然蛋白质序列的相似程度,以及人工智能蛋白质的基础氨基酸"语法"和"语义"的自然程度,选择了100个进行测试。在这第一批由TierraBiosciences公司进行体外筛选的100种蛋白质中,研究小组制作了五种人工蛋白质在细胞中进行测试,并将其活性与鸡蛋白中发现的一种酶进行比较,这种酶被称为鸡蛋白溶菌酶(HEWL)。在人类的眼泪、唾液和牛奶中也有类似的溶菌酶,它们在那里抵御细菌和真菌。其中两种人工酶能够分解细菌的细胞壁,其活性与HEWL相当,但它们的序列彼此之间只有大约18%的相同。这两个序列与任何已知的蛋白质都有大约90%和70%的相同。一个天然蛋白质只要有一个突变就能使其停止工作,但在另一轮筛选中,研究小组发现人工智能生成的酶显示出活性,即使其序列中只有31.4%与任何已知的天然蛋白质相似。人工智能甚至能够学习酶的形状,仅仅通过研究原始序列数据。通过X射线晶体学测量,人造蛋白质的原子结构看起来和它们应该的一样,尽管其序列是以前从未见过的。SalesforceResearch在2020年开发了ProGen,基于他们的研究人员最初开发的一种用于生成英语文本的自然语言编程。他们从以前的工作中知道,人工智能系统可以教自己语法和单词的含义,以及其他使写作有条理的基本规则。"当你用大量数据训练基于序列的模型时,它们在学习结构和规则方面真的很强大,"SalesforceResearch的人工智能研究主任、该论文的资深作者NikhilNaik博士说。"它们可以学习哪些词可以共同出现,也可以学习构成性。"对于蛋白质,设计的选择几乎是无限的。就蛋白质而言,溶酶很小,最多有大约300个氨基酸。但是有20个可能的氨基酸,就有大量的(20300)可能的组合。这比古往今来的所有人类,乘以地球上的沙粒数量,再乘以宇宙中的原子数量还要多。考虑到无限的可能性,该模型能够如此容易地产生工作的酶,这一点非常了不起。ProfluentBio公司的创始人、前SalesforceResearch公司的研究科学家、该论文的第一作者AliMadani博士说:"从零开始生成功能性蛋白质的能力表明,我们正在进入一个蛋白质设计的新时代。"这是一个可供蛋白质工程师使用的多功能新工具,我们期待着看到治疗性应用"。完整的作者和资助名单请见该论文。论文中描述的方法的综合代码库可在https://github.com/salesforce/progen上公开获取。...PC版:https://www.cnbeta.com.tw/articles/soft/1346413.htm手机版:https://m.cnbeta.com.tw/view/1346413.htm

封面图片

MIT最新研究:AlphaFold蛋白质预测能力太差 目前利用价值还很低

MIT最新研究:AlphaFold蛋白质预测能力太差目前利用价值还很低2018年,Deepmind首次发布基于深度神经网络的蛋白质结构预测数据库AlphaFold,在蛋白质预测中实现了最先进的性能;去年,AlphaFold2获得了98.5%的蛋白质预测率;前段时间,Deepmind又重磅发布了数据集更新,称目前的AlphaFold已经预测了几乎所有已知的蛋白质。PC版:https://www.cnbeta.com/articles/soft/1316665.htm手机版:https://m.cnbeta.com/view/1316665.htm

封面图片

科学家揭开关键癌症蛋白质的秘密结构

科学家揭开关键癌症蛋白质的秘密结构俄亥俄州立大学的科学家们利用先进的研究技术检测了一种因危险突变而与人类癌症关系密切的蛋白质的隐藏区域,从而为该蛋白质的研究注入了新的活力。这项研究确定了受有害基因改变影响的区域。Ras蛋白家族是启动多种细胞生长、分裂和分化的酶,其基因已被确定为人类最常发生突变的癌症相关基因。这项研究的对象K-Ras蛋白与75%的Ras相关癌症有关。研究人员首次发现了这种蛋白质结构的一部分,而这部分结构以前是标准实验室工具无法观察到的,研究人员揭示了与这种蛋白质突变有关的特征和相互作用,这种突变使细胞处于永久分裂状态--这是一种典型的癌症特征。研究的资深作者、俄亥俄研究学者、俄亥俄州立大学化学与生物化学教授拉斐尔-布吕施韦勒(RafaelBrüschweiler)说:"我们知道这些突变是一个重大问题:它们会导致死亡。我们知道,结构生物学能为了解这些突变的机制提供独特的见解,并能促进寻找潜在的治疗方法。""我们现在对这种蛋白质的作用有了更全面的了解,这意味着我们可以开始考虑如何在它变异后中和它。从这个意义上说,信息就是力量,现在这些信息已经公开,我们和其他研究人员可以利用这些信息开始假设。"这项研究最近发表在《自然-结构与分子生物学》(NatureStructural&MolecularBiology)杂志上。研究方法和结果尽管已有关于K-Ras及其与细胞健康相关分子的关键功能关系的知识,但这种蛋白质一直被认为是"不可药用的",因为它的构型-无论是正常形式还是突变形式都隐藏了其结构中最有希望成为治疗靶点的位点。设计这类药物时需要精确,因为以错误的方式干扰蛋白质可能比突变导致的疾病造成更大的伤害。"K-Ras是癌症研究的圣杯--可能是全世界研究最多的生物分子之一,因为它在许多癌症中发挥着关键作用,"Brüschweiler说。"但这也是一个巨大的挑战。"2019年,Brüschweiler及其同事报告了一种技术,这种技术能够观察到移动速度太慢、标准核磁共振(NMR)光谱无法检测到的蛋白质。一年后,研究小组决定开始将这些发现应用于寻找K-Ras的秘密藏身之处。标准核磁共振可以跟踪快速作用的蛋白质,但在较长的运动和相互作用时间尺度上会遇到困难,而用于确定蛋白质结构的X射线晶体学在运动较少和时间较长的情况下效果更好。Brüschweiler及其同事考虑到了K-Ras的动态特性及其与活性配体(GTP)的相互作用,首先检测到了来自隐藏区域的微弱信号,然后优化核磁共振实验以加强这些信号。这项研究揭示了K-Ras结构中的两个"开关"区域--有趣的是,这两个区域都位于发生最危险突变的蛋白质环附近,这在以前是不可见的。研究小组还确定了蛋白质"骨架"的复杂结构动力学行为,它放大了开关附近的其他特征。Brüschweiler说,骨架对了解蛋白质的结构特性至关重要--从骨架出发,鉴定氨基酸侧链"相对简单"。这些实验还进一步明确了正常蛋白质与其变异形式的区别:在正常情况下,K-Ras与两个伙伴分子中的第一个分子结合时活性更高,并能保持对多种细胞功能的适当控制,包括恢复到非活性状态。如果发生突变,K-Ras就会停留在活跃期,永远不会休息。"我们需要活跃的细胞,但在某些时候,它们必须停下来。否则,就像在汽车上永远不要把脚从油门上移开--在某些时候,你需要把脚从油门上移开,因为车速太快了,"他说。"这就是基本问题所在,这些突变会诱导细胞不停地活动。"有了突变相关开关区域的特征,研究人员就有了新的药物靶点,可以在不妨碍K-Ras基本细胞功能的情况下抑制突变。Brüschweiler说:"开关和开关相互作用的相关区域是新的候选目标,我们现在可以对它们进行前所未有的详细监测。这可能不会在一夜之间改变世界,但这是有可能影响人类健康的基本新知识。"Brüschweiler对下一步工作有自己的想法,比如描述现有药物如何与蛋白质相互作用。他的团队和其他人未来的工作将得到一台磁场为1.2千兆赫的新型NMR仪器的支持,这将是美国最强大的NMR仪器,该仪器刚刚运抵俄亥俄州立大学,Brüschweiler是俄亥俄州立大学国家网关超高场NMR中心的首席研究员。该中心于2019年获得了美国国家科学基金会1760万美元的资助,该基金会也为这项新研究提供了支持。...PC版:https://www.cnbeta.com.tw/articles/soft/1395097.htm手机版:https://m.cnbeta.com.tw/view/1395097.htm

封面图片

科学家用新的无细胞蛋白质结晶方法推进结构生物学的发展

科学家用新的无细胞蛋白质结晶方法推进结构生物学的发展东京理工大学开发了一种新的无细胞蛋白质结晶(CFPC)方法,包括直接的蛋白质结晶,是结构生物学领域的一个重大进步。这项技术将使我们能够分析用传统方法无法研究的不稳定的蛋白质。分析这些将增加我们对细胞过程和功能的了解。PC版:https://www.cnbeta.com/articles/soft/1323455.htm手机版:https://m.cnbeta.com/view/1323455.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人