# 药物-靶点相互作用(2D)


分子活性预测是一种通过计算化学、统计学、机器学习和人工智能手段,预测小分子化合物与生物靶标的相互作用及其活性效果的技术。这种预测技术在药物研发过程中尤其重要,能够显著提升候选药物的筛选与优化效率,是决定化合物是否具备潜在药效的关键步骤之一。

该模块基于深度学习框架的亲和力预测模型,融合了多种高性能基线模型的优势,专门用于小分子配体与蛋白质靶标的结合亲和力预测和评分。尽管模型依赖的是分子的二维(2D)分子结构信息而非三维结构,但仍通过对分子拓扑结构、电子性质、功能团等特征的深度学习,准确预测小分子与靶标的相互作用强度。

# 模块特点

  1. 快速性:模型利用深度学习的高效计算能力及自动特征提取功能,在短时间内处理大量潜在的配体分子,进行高效的亲和力打分,为后续药物开发节省宝贵时间。

  2. 准确性:通过集成多种高性能模型并使用大量已知亲和力数据进行训练,该模型在多项实验验证中表现出优异的预测精度。它能够有效地区分高亲和力和低亲和力的分子配体,从而提高筛选的成功率。

  3. 鲁棒性:模型在设计中引入了抗噪声训练策略和数据增强技术,确保在处理来源多样的数据集时依然能保持稳定、可靠的性能,不易受到数据质量差异或批次效应的影响。

该深度学习亲和力预测模型专为药物早期发现中的虚拟筛选工作设计,可极大地加速新药研发进程,提高筛选的成功概率,提升候选分子质量。

# 使用步骤

打开神农量子云平台 (opens new window)【虚拟筛选-药物-靶点相互作用(2D)】模块。

  1. 输入氨基酸序列 上传目标蛋白的氨基酸序列文件(支持.fasta格式的单字母缩写序列文件),系统会自动解析蛋白质的序列信息。

    >AAN59974.1 histone H2A [Homo sapiens]
    MSGRGKQGGKARAKAKTRSSRAGLQFPVGRVHRLLRKGNYAERVGAGAPVYLAAVLEYLTAEILELAGNAARDNKKTRIIPRHLQLAIRNDEELNKLLGKVTIAQGGVLPNIQAVLLPKKTESHHKAKGK
    

    注意:fasta文件格式可以使用蛋白质格式转换工具转换,例如使用openbabel。

  2. 输入小分子

    2.1 输入小分子SMILES表达式

    O=C(O[C@@H]1C[C@@H]2C[C@H]3C[C@H](C1)N2CC3=O)c1c[nH]c2ccccc12
    CN/C(=C\[N+](=O)[O-])NCCSCc1ccc(CN(C)C)o1
    C#C[C@]1(OC(C)=O)CC[C@H]2[C@@H]3CCC4=C[C@@H](OC(C)=O)CC[C@@H]4[C@H]3CC[C@@]21C
    CCCCC1=NC2(CCCC2)C(=O)N1Cc1ccc(-c2ccccc2-c2nn[nH]n2)cc1
    CC(C)(C)c1ccc(cc1)C(=O)Nc1cccc(c1)c1ccc(cc1)O
    Cc1ccc(cc1)C(=O)Nc1c2ccccc2nc1
    

    文件中每行包含一个小分子的SMILES格式结构。

    2.2 上传CSV文件

    配体文件以.csv格式上传,表头为ID,SMILES。以下是CSV实例:

    ID,SMILES
    CHEM_01,O=C(O[C@@H]1C[C@@H]2C[C@H]3C[C@H](C1)N2CC3=O)c1c[nH]c2ccccc12
    CHEM_02,CN/C(=C\[N+](=O)[O-])NCCSCc1ccc(CN(C)C)o1
    CHEM_03,C#C[C@]1(OC(C)=O)CC[C@H]2[C@@H]3CCC4=C[C@@H](OC(C)=O)CC[C@@H]4[C@H]3CC[C@@]21C
    CHEM_04,CCCCC1=NC2(CCCC2)C(=O)N1Cc1ccc(-c2ccccc2-c2nn[nH]n2)cc1
    CHEM_05,CC(C)(C)c1ccc(cc1)C(=O)Nc1cccc(c1)c1ccc(cc1)O
    CHEM_06,Cc1ccc(cc1)C(=O)Nc1c2ccccc2nc1
    

    csv文件必须包含ID和SMILES列,可以有其他列,其他列不进行计算。

    SMILES格式必须是标准的,避免出现符合或未确定原子的表达式。

  3. 点击“提交”按钮 点击【提交】按钮启动亲和力预测。系统将根据上传的蛋白质序列和小分子数据,计算出配体与靶标之间的亲和力打分。

# 结果说明

  • 文件说明:计算结果生成一个包含对接信息的文件夹压缩tar包,主要内容如下:

    • scores.json:包含每个配体的亲和力打分。
    • protein.fasta:蛋白质fasta文件
    • ligands.csv:配体分子筛选结果csv文件
    # tar 包
    output/
    ├── scores.json
    ├── ligands.csv
    └── protein.fasta
    
  • 结果介绍

    • scores.json文件记录了各配体的亲和力打分数据,结合分值越低表示结合更稳定。
    参数名称 参数介绍 备注
    ID 分子标识 计算中唯一,来源多为分子库标识,通过从配体csv文件中读取
    SMILES 分子式 通过从配体csv文件中读取
    affinity 亲和力 pKd,对解离常数的取负对数,表示亲和力。
    Kd 解离常数 预测的解离常数,科学计数法表示
  • 使用引导 分数低的化合物通常为潜在的候选药物分子,值得进一步研究和验证。可以使用平台模块【分子对接】继续药物开发的后续筛选计算。