# Boltz-2

Boltz-2是一种新的生物分子基础模型,超越了AlphaFold3和Boltz-1,通过联合建模复杂结构和结合亲和力,这是实现精确分子设计的关键组成部分。Boltz-2是首个能够接近基于物理的自由能微扰(FEP)方法精度的深度学习模型,同时运行速度快1000倍——使计算机筛查的准确性在早期药物发现中变得切实可行。

# 模块特点

多模态复合物建模:蛋白、DNA、RNA 与小分子共同折叠/配位的三维结构预测。

结合亲和力预测:输出连续亲和力估计与“binder/decoy”概率,用于排序与富集。

# 使用步骤

打开神农量子云平台 (opens new window)【结合自由能-Boltz-2 】模块。

# 步骤1:上传蛋白质序列文件

上传fasta格式蛋白质序列文件

>AAN59974.1 histone H2A [Homo sapiens]
MSGRGKQGGKARAKAKTRSSRAGLQFPVGRVHRLLRKGNYAERVGAGAPVYLAAVLEYLTAEILELAGNAARDNKKTRIIPRHLQLAIRNDEELNKLLGKVTIAQGGVLPNIQAVLLPKKTESHHKAKGK

注意:fasta文件格式可以使用蛋白质格式转换工具转换,例如使用openbabel。

# 步骤2:上传蛋白质序列a3m文件

上传蛋白质的.a3m格式数据文件

a3m文件获取方式见获取a3m

# 步骤3:上传小分子配体文件

输入SMILES

O=C(O[C@@H]1C[C@@H]2C[C@H]3C[C@H](C1)N2CC3=O)c1c[nH]c2ccccc12
CN/C(=C\[N+](=O)[O-])NCCSCc1ccc(CN(C)C)o1
Cc1ccc(cc1)C(=O)Nc1c2ccccc2nc1

文件中每行包含一个小分子的SMILES格式结构。

或上传CSV格式小分子文件

ID SMILES
CHEM_03 C#C[C@]1(OC(C)=O)CC[C@H]2[C@@H]3CCC4=CC@@HCC[C@@H]4[C@H]3CC[C@@]21C
CHEM_04 CCCCC1=NC2(CCCC2)C(=O)N1Cc1ccc(-c2ccccc2-c2nn[nH]n2)cc1
CHEM_05 CC(C)(C)c1ccc(cc1)C(=O)Nc1cccc(c1)c1ccc(cc1)O

csv文件必须包含ID和SMILES列,可以有其他列,其他列不进行计算。

SMILES格式必须是标准的,避免出现符合或未确定原子的表达式。

# 结果说明

  • 文件说明:计算结果生成一个包含对接信息的文件夹压缩tar包,主要内容如下:

    • scores.csv文件记录了各配体的结合亲和力打分。
    • conplex:筛选的复合物三维构象,cif格式。
    # tar 包
    output/
    ├── scores.csv
    └── conplex/
      ├── affinity_ZINC000003876023_model_0.cif
      ├── affinity_ZINC000001530728_model_0.cif
      └── affinity_ZINC000003872931_model_0.cif
    
  • 参数介绍

    • scores.csv文件记录了各配体的亲和力打分数据
    参数名称 参数介绍 备注
    ID 分子标识 计算中唯一,来源多为分子库标识,通过从配体csv文件中读取
    g 能量评分 或模型内部的能量-like 评分,并非物理可解释的自由能(ΔG)
    p 分类概率 复合物形成的置信度
  • 使用指引 根据筛选的结果,可以进一步筛选并优化候选分子,以供药物开发的后续实验验证。


附录:

# 获取a3m

访问工具网站 a3m工具网站 (opens new window) ,点击返回

提交

注意

如果此数据有计算历史,会提示从历史中加载,还是继续计算。

下载

在浏览器下载窗口可查看下载进度,命名如 hhblits_full_{任务ID}.a3m。 建议:将下载文件重命名中加入蛋白质ID,避免忘记对应的蛋白质。