Skip to content
Go back

目录

2021年以来蛋白质设计领域非商业化开源工具研究进展报告

2021年以来蛋白质设计领域非商业化开源工具研究进展报告

Published:  at  09:30 AM

I. 现代计算蛋白质设计导论

A. 蛋白质工程的演进格局

计算蛋白质设计 (Computational Protein Design, CPD) 作为一个旨在创造具有特定结构和功能的新型蛋白质的领域,经历了显著的演变。历史上,蛋白质工程主要依赖于对现有蛋白质进行改造。然而,近年来,该领域正经历一场范式转变,逐渐走向“从头设计” (de novo design)——即从基本原理出发,创造自然界中不存在的、具有复杂结构和功能的蛋白质。这一转变在很大程度上得益于近期计算方法的突破。

人工智能 (AI),特别是深度学习 (DL) 和生成模型,在推动CPD革命中扮演了核心角色。这些方法通过利用海量的蛋白质序列和结构数据库,实现了前所未有的设计能力。AI与生物学的融合并非简单的技术叠加,而是代表了蛋白质设计方法的根本性变革。例如,RFdiffusion等工具的设计灵感来源于AI图像生成器,展示了AI范式在解决复杂生物学问题上的强大潜力。ProteinMPNN则运用了稳健的深度学习方法进行序列设计。这种趋势表明,成功的AI/ML架构(如图神经网络、Transformer、扩散模型)正被迅速应用于蛋白质特异性任务。大量生物数据(如UniProt的序列数据和PDB及AlphaFoldDB的结构数据)的积累,为这些数据驱动的AI模型的开发提供了燃料。这种融合意味着AI领域的突破可以迅速转化为生物发现的强大新工具,加速蛋白质工程领域的创新步伐,同时也对未来蛋白质设计者提出了生物学和数据科学双重技能的要求。

更值得注意的是,蛋白质科学领域已经从主要关注“根据序列预测结构”(如早期的AlphaFold和RoseTTAFold)发展到能够“生成具有期望特性的新序列和结构”(如ProteinMPNN、RFdiffusion和Protpardelle)。结构预测工具通常作为设计流程的基础或组成部分。例如,ProteinMPNN常与RFdiffusion结合使用,而EvoPro则利用DL模型进行结构预测和序列优化。这一进步是合乎逻辑的,即从理解现有蛋白质(预测)到创造新蛋白质(设计)。高精度的结构预测能力(如AlphaFold2)是这一转变的关键推动因素,它们不仅为设计提供了高质量的结构模板,也为评估设计序列的合理性(通过预测其折叠)提供了手段,并为训练新的生成模型提供了大量的预测结构数据。这意味着研究重心正从理解“已存在什么”转向积极创造“可能存在什么”,为设计具有全新功能的蛋白质、针对“不可成药”靶点的结合剂以及定制生物材料开辟了道路。

B. 开源工具的重要性

开源工具在推动蛋白质设计领域的发展中扮演着至关重要的角色。它们使得先进的蛋白质设计能力不再局限于少数专业实验室,从而实现了技术的普及化。社区驱动的开发和验证模式加速了该领域的进展,促进了知识共享和技术迭代。正如本报告用户所关注的,非商业化工具对于广泛的学术研究和创新尤为关键,它们为科研人员提供了自由探索和不受商业限制的平台。

C. 本报告的范围与目标

本报告旨在全面调研2021年以后发表的、获得广泛认可且非商业化的蛋白质设计工具,以及蛋白质设计流程中不可或缺的辅助工具。报告将详细阐述这些工具的应用场景和使用方法,为相关领域的研究人员提供一份实用的参考指南。

II. 广泛认可的蛋白质设计工具(2021年后,非商业化)

本节将详细介绍主要用于生成新蛋白质序列或结构,或执行特定设计任务(如结合剂设计、D-肽设计)的核心工具。

表1:核心蛋白质设计工具概览(2021年后,非商业化)

工具名称主要功能核心创新/原理主要应用领域可用性 (GitHub/Web服务器)主要出版物 (年份, 期刊)
ProteinMPNN序列设计图神经网络 (GNN)从头设计、蛋白质重设计、序列库生成GitHub: dauparas/ProteinMPNN, Kuhlman-Lab/proteinmpnnDauparas J, et al. Science , 2022
LigandMPNN配体结合位点序列设计GNN,显式建模配体环境酶设计、传感器设计、药物相互作用位点设计、核酸/金属结合蛋白设计GitHub: dauparas/LigandMPNNDauparas J, et al. Nature Methods **, 2025 (预计) /**bioRxiv2023.12.22.573103
ProtFlow序列设计流匹配 (Flow Matching),压缩pLM嵌入多肽、长链蛋白、抗菌肽、抗体从头设计论文描述,代码状态需查证 (arXiv:2504.10983)Kong Z, et al. arXiv:2504.10983 , 2025
TIMED序列设计 (逆向折叠)卷积神经网络 (CNN)目标骨架的序列设计Web工具: pragmaticproteindesign.bio.ed.ac.uk/timedCastorina LV, et al. Protein Eng Des Sel , 2024
RFdiffusion结构生成 (从头)扩散模型 (Diffusion Model)新型折叠设计、功能基序骨架化、对称寡聚体设计、结合剂设计GitHub: RosettaCommons/RFdiffusion, Google ColabWatson JL, et al. Nature , 2023
RFdiffusion All-Atom结构生成 (从头, 全原子)扩散模型,处理蛋白质、核酸、小分子、离子蛋白质-核酸/小分子复合物设计、复杂生物分子组装体设计GitHub: baker-laboratory/rf_diffusion_all_atomKrishna R, et al. Science , 2024 (关联文献)
Protpardelle结构与序列协同生成 (全原子)扩散模型,“叠加态”侧链表示从头全原子设计、功能基序骨架化(无骨架和旋转异构体限制)GitHub: ProteinDesignLab/protpardelleChu AE, et al. PNAS , 2024
EvoPro结合剂优化遗传算法,集成AF2和ProteinMPNN,多状态设计新型蛋白质结合剂设计、亲和力/特异性优化、抗体工程GitHub: Kuhlman-Lab/evopro**Goudy OJ, et al.**bioRxiv(预印本)
DexDesign (OSPREY)D-肽抑制剂设计OSPREY框架 (DEE/A, K),针对D-肽的特定算法**治疗性D-肽抑制剂设计,特别适用于需要蛋白酶解稳定性的靶点GitHub: donaldlab/OSPREY (OSPREY内实现)**Guerin et al. 2024 /**Protein Science2024 (推测) / PMC11099876
PepPrCLIP肽结合剂设计生成算法 (PepPr) + CLIP筛选,基于序列针对“不可成药”靶点(尤其是无序蛋白)的治疗性肽设计Hugging Face: ubiquitx/pepprclip (Colab notebook)Bhat S, et al. Sci Adv , 2025

A. 序列设计工具 (逆向折叠)

这些工具以蛋白质骨架结构为输入,设计出可能折叠成该结构的氨基酸序列,通常被称为“逆向折叠问题”。

1. ProteinMPNN

2. LigandMPNN

3. ProtFlow

4. TIMED (Three-dimensional Inference Method for Efficient Design)

B. 结构生成工具 (从头设计)

这些工具旨在从头开始或在某些基序或特性的条件下生成新的蛋白质骨架结构。扩散模型,如RFdiffusion和Protpardelle,已成为该领域的主导力量,显示出学习蛋白质结构复杂分布的强大能力。

1. RFdiffusion

2. RFdiffusion All-Atom

3. Protpardelle

即使拥有先进的结构生成能力,像RFdiffusion这样的工具生成的骨架通常也需要其他方法(如ProteinMPNN/LigandMPNN)进行后续的序列设计。Protpardelle则尝试协同设计结构和序列。这突出了结构和序列设计之间的相互作用和整合潜力。蛋白质由其序列和结构共同定义,这两者本质上是相互关联的。生成骨架只是问题的一半。因此,开发集成的设计流程,或者像Protpardelle那样更紧密耦合甚至统一这两个过程的方法,将是未来的重要方向。当前工具集的模块化特性也允许研究人员根据需要混合和匹配组件。

C. 专业化蛋白质/肽设计工具

1. EvoPro (Kuhlman Lab)

2. DexDesign (OSPREY D-肽抑制剂扩展)

3. PepPrCLIP (Duke University)

这些专业化工具,如用于增强稳定性的D-肽的DexDesign和针对无序蛋白的PepPrCLIP,正在专门解决传统药物和蛋白质疗法的局限性,将设计范围扩展到具有挑战性的靶点。这反映了从通用蛋白质设计向高度应用集中的设计的转变,可能为目前缺乏有效治疗方法的多种疾病开辟新的治疗途径。

III. 蛋白质设计流程中的基本辅助工具

蛋白质设计很少是一个单一步骤的过程,它依赖于一套辅助工具进行结构预测、模拟、分析和可视化。本节涵盖了支持设计周期的关键非商业化、广泛使用的工具。

表2:蛋白质设计基本辅助工具概览

工具类别工具名称在蛋白质设计流程中的主要作用可用性 (GitHub/Web服务器/平台)主要出版物 (若适用,关注2021年后)
结构预测RoseTTAFold & RFAA预测初始结构、评估设计序列、训练模型;RFAA处理非蛋白元素GitHub: IPD UWBaek et al. Science , 2021; Krishna R, et al. Science , 2024
结构预测ColabFold便捷使用AlphaFold2/ESMFold进行高精度预测Google Colab, GitHub: labdao/colabfoldMirdita M, et al. Nature Methods , 2022; Kim G, et al. Nat Protoc. , 2025
结构预测ESMFold基于pLM的快速单序列结构预测HuggingFace, ColabFold, API, GitHub: facebookresearch/esmLin Z, et al. Science , 2023
结构预测OpenFold可训练的AlphaFold2复现,用于定制模型GitHub: aqlaboratory/openfold(基于AlphaFold2)
分子动力学(MD)模拟GROMACS评估设计蛋白的稳定性、柔性、构象变化、相互作用www.gromacs.org, GitLab(持续更新)
MD模拟OpenMM灵活的MD模拟平台,支持自定义力场/流程;OpenMMDL用于复合物openmm.org, GitHub(持续更新); OpenMMDL: Hosseini et al. J Chem Inf Model , 2025 (推测)
MD模拟NAMD大规模生物分子体系的高性能MD模拟ks.uiuc.edu/Research/namd/(持续更新)
分子对接AutoDock Vina (v1.2.x) & AutoDock-GPU评估设计蛋白与配体的结合模式和亲和力GitHub: ccsb-scrippsEberhardt J, et al. J Chem Inf Model , 2021 (Vina 1.2.0)
分子对接rDock高通量虚拟筛选 (HTVS),结合模式预测rdock.github.io(持续更新)
序列分析/变体效应预测ESM-2相关工具 (如ESM-Effect)分析设计序列特性,预测突变效应,理解序列-功能关系GitHub: facebookresearch/esm, moritzgls/ESM-EffectLin Z, et al. Science , 2023 (ESM2); Glaser M, bioRxiv , 2025 (ESM-Effect)
可视化PyMOL (开源版)检查设计模型、分析相互作用、准备出版图表pymol.org, GitHub: schrodinger/pymol-open-source, Conda(持续更新)
可视化UCSF ChimeraX高级可视化与分析,集成AlphaFold/ESMFold获取等www.rbvi.ucsf.edu/chimerax/(持续更新)
数据库UniProtKB提供序列、功能注释作为设计参考www.uniprot.org**UniProt Consortium,**NARDatabase Issue (年度更新)
数据库ESM Metagenomic Atlas提供大量宏基因组预测结构,启发新骨架设计API (ESMFold, Wolfram)Lin Z, et al. Science **, 2023 (ESMFold);**bioRxiv2025.04.23.650224 (AFESM)

A. 蛋白质结构预测

高精度结构预测工具(如AlphaFold2、RoseTTAFold、ESMFold)是现代蛋白质设计的基础。它们为设计提供起始模型,允许对设计序列进行计算机内的验证,并且它们预测的结构构成了训练新设计算法的庞大数据集。蛋白质设计的“设计-构建-测试-学习”循环严重依赖于了解结构。如果设计的目标是特定的结构或由结构介导的功能,那么预测该结构是关键。AlphaFold2等工具在很大程度上解决了蛋白质折叠问题(至少对于单链和许多复合物而言),这是一个分水岭时刻,消除了基于结构设计的主要瓶颈。因此,蛋白质设计不再受限于实验确定的结构的可用性,研究人员现在几乎可以为任何已知序列或可以假设序列的蛋白质进行设计,极大地扩展了可设计的宇宙。这些预测器的准确性也为设计的序列提供了一个可靠(尽管并非绝对可靠)的过滤器。

1. RoseTTAFold & RoseTTAFold All-Atom (RFAA)

2. ColabFold (用于AlphaFold2 & ESMFold的便捷使用)

3. ESMFold (Meta AI)

4. OpenFold

B. 分子动力学 (MD) 与模拟

MD工具对于评估设计蛋白质的动态行为、稳定性以及与配体或其他蛋白质的相互作用至关重要,从而超越了静态结构模型。一个设计良好的蛋白质在静态模型中可能看起来很好,但在真实(溶剂化、热化)环境中可能不稳定、错误折叠或不表现出期望的动态特性。MD模拟提供了在更真实的条件下探测构象系综、结合/解离事件和整体稳定性的方法,从而在昂贵的实验验证之前帮助筛选候选物,并提供对设计功能机制的更深入理解。

1. GROMACS

2. OpenMM

3. NAMD

C. 分子对接

1. AutoDock Vina (v1.2.x) & AutoDock-GPU

2. rDock

D. 序列分析和变体效应预测

1. 基于ESM-2的工具 (例如,ESM-Effect, 用于特征分类的ESM2微调)

E. 可视化软件

PyMOL和ChimeraX等工具不仅仅用于制作精美的图片;它们是交互式分析平台,对于检查设计、识别缺陷、理解相互作用以及指导进一步的设计迭代至关重要。蛋白质设计涉及复杂的3D数据,视觉检查通常是理解设计是否在结构上合理、配体是否正确对接或突变是否恰当的最直观方法。随着设计工具产生越来越多的候选方案,高效的可视化和分析对于决策变得至关重要。这些工具使研究人员能够将其专业知识和直觉应用于设计过程。

1. PyMOL (开源版本)

2. UCSF ChimeraX

F. 关键数据库和资源

1. UniProtKB (通用蛋白质知识库)

2. ESM Metagenomic Atlas (ESMAtlas)

IV. 集成蛋白质设计工作流程的概念化

A. 迭代设计的一般原则

蛋白质工程中的“设计-构建-测试-学习”循环是核心方法论。计算工具通过在实验验证之前实现计算机内的快速迭代,极大地加速了这一循环。无论是哪种特定工具,成功的蛋白质设计都依赖于一个迭代循环,即生成设计方案,预测其特性(尤其是结构),并验证这些预测(最初是计算机模拟,然后是实验验证)。这种方法反映了科学方法:提出假设(设计)、预测结果、检验预测。计算工具正在加速这个循环的每一步,允许在投入昂贵的实验之前进行更多的迭代。

B. 示例工作流程1:从头酶设计

C. 示例工作流程2:治疗性抗体/结合剂设计

当前蛋白质设计工具生态系统具有高度模块化的特点。研究人员通常可以针对设计工作流程的各个阶段“即插即用”不同的工具,发挥每种工具的优势。许多工具专为特定任务(序列设计、结构生成、预测、模拟)而设计,并具有兼容的输入/输出格式(例如PDB、FASTA)。这种模块化趋势源于蛋白质设计的复杂性,单一工具难以在所有方面都达到最优。专业化使得工具能够进行重点开发和优化,而开源特性和通用文件格式则促进了互操作性。这意味着研究人员可以根据其特定需求和可用资源定制设计流程。这种灵活性非常强大,但也要求用户充分理解每种工具的功能以及如何有效地组合它们。例如,使用RFdiffusionAA、ProteinMPNN、AlphaFold2、LigandMPNN和PyRosetta的血红素结合蛋白设计流程就体现了这种模块化和可组合性。

V. 结论与未来展望

A. 当前格局总结

自2021年以来,开源蛋白质设计工具领域取得了显著进展,尤其受到AI和深度学习的深刻影响。目前,研究人员可以利用一系列强大的非商业化工具进行序列设计、结构生成、特定功能设计、结构预测、动态模拟和结果分析。这些工具的涌现,极大地推动了蛋白质工程领域的发展。

B. 新兴趋势与挑战

C. 未来展望

未来,预计AI将与基于物理的原理进一步融合,计算设计将与高通量自动化实验更紧密地结合。计算蛋白质设计有望在医药、材料科学和可持续发展等领域应对重大的社会挑战。

尽管开源工具普及了技术的使用,但其有效应用仍然需要结构生物学、生物物理学,通常还有计算科学方面的深厚专业知识。例如,ProteinMPNN的许多参数和RFdiffusion的contig字符串的设置,以及MD模拟的复杂流程,都需要用户具备相当的理解。错误应用或错误解读结果是一个潜在的风险。因此,随着工具越来越普及,对健全的培训、清晰的文档和最佳实践指南的需求也日益增长,以确保这些强大的工具被更广泛的社区正确有效地使用。

该领域显然正在从仅仅设计目标折叠,转向设计特定的动态行为、复杂的相互作用,并最终实现新颖的生物或化学功能。LigandMPNN、RFdiffusion All-Atom、Protpardelle、EvoPro、DexDesign 和 PepPrCLIP 等工具都面向功能方面(结合、催化、特定环境下的稳定性)。MD模拟被用于评估动态特性。设计“自然界不存在的功能”和侧链作为“主要的功能效应子”被日益强调。静态结构通常不足以定义功能,功能源于动力学、相互作用和对环境的响应。这标志着该领域从“折叠设计”向“功能设计”的成熟。早期工具和突破使得可靠地设计和预测稳定折叠成为可能,为应对设计功能这一更复杂的挑战铺平了道路。这将需要新型计算模型,能够更准确地预测和优化动态特性、变构调控、催化机制和相互作用特异性,同时也意味着更需要整合与功能(而不仅仅是结构)相关的实验反馈。


✏️ 编辑文章

💬 评论交流

ℹ️
GitHub登录评论
使用GitHub账户登录,支持丰富的Markdown格式,评论将同步到GitHub Discussions。