Inno-Rescoring

1.  Inno-Rescoring概述

Inno-Rescoring模块提供了一些基于机器学习算法的优秀打分函数。为了方便用户可以更直接的使用我们的重打分函数,Rescoring模块支持用户在本地对接后上传相关的文件进行重打分,用户可以选择这些重打分函数重新评估蛋白质-配体结合姿势的结合亲和力。

2. 使用说明

用户只需要四个步骤就可以完成计算:上传预处理后蛋白-上传对接后配体-任务命名(可忽略)-提交任务(必点)。

图1. 上传预处理后蛋白和对接后配体——上传文件/数据中心

(1) 上传预处理后蛋白

平台提供了两种上传预处理蛋白的方式:上传文件和数据中心。

- 上传文件

复选框选中“上传文件”,通过点击下方按钮选择本地文件即可。选择完文件以后,该文件名称将显示在按钮上。

  • 当前支持的文件格式: .pdb

- 数据中心

复选框选中“数据中心”,通过点击下方按钮页面出现弹窗,点击文件名称来选择数据中心的数据,点击完之后弹窗消失。

(2) 上传对接后配体

平台提供了两种上传对接后配体的方式:上传文件和数据中心。

- 上传文件

复选框选中“上传文件”,通过点击下方按钮选择本地文件即可。选择完文件以后,该文件名称将显示在按钮上。

  • 当前支持的文件格式: .sdf

- 数据中心

复选框选中“数据中心”,通过点击下方按钮页面出现弹窗,点击文件名称来选择数据中心的数据,点击完之后弹窗消失。

在确定好所有的参数后,命名任务名称,点击提交即完成任务提交操作。

(3)运行进度和结果查看

提交任务后,页面会自动跳入当前页面的“最近结果”子页面中,您可以在该页面查看当前模块的任务运行状态(进度条),也可在右上角的“运行中“下拉框中查看所有模块正在运行的任务。当数据量较大时,系统会分批计算,因此只要有一批数据算完后(整个任务还在运行中),即可点击“结果详情”按钮进入结果页面,查看当前已完成计算的预测结果列表(未完成计算的分子暂不显示),并且可以在当前页面通过刷新来获取最新算完的数据。

图2. 查看结果

3. 结果分析

结果页面由顶部的筛选区、Summary和中部的结果详情区组成。默认状态下结果详情区展示的是结果列表(还可以切换卡片),此时您可以查看所有得分,并对这些得分进行排序。

图3. 结果页面功能分布

(1) 重打分函数

重打分函数为RTMScore。

(2) 筛选

平台提供了常规筛选和高级筛选以满足用户的使用需求。

- 常规筛选

常规筛选可以显示/隐藏重打分函数。默认的结果列表展示计算的所有重打分函数,此时左边控制栏中为全选的状态。当您不想显示该重打分函数时,取消该重打分函数的选中即可,左边的结果列表将根据控制栏中的选择进行实时显示。在顶部还提供了两个快捷键“全选”和“不选”,方便用户快速选择。

- 高级筛选

在常规筛选的基础上,高级筛选提供了范围筛选,可进一步筛选出得分值指定范围内的分子,以排除不符合预期结果的分子。

(3) 重打分函数解释

把鼠标移入每个重打分函数的名称上,可查看该重打分函数对应的解释。

(4) 排序

点击结果列表中的重打分函数名字可重新排序,如RTMScore,点击一次为升序,再点一次为降序,再点一次即恢复原始排序。

(5) 保存

点击“保存”,系统将弹出下拉框让您选择保存的文件格式(目前仅支持.csv/.sdf)。确定好下载的文件样式后,系统将根据您的显示隐藏列的条件和高级筛选的条件,保存相应的数据为sdf或csv文件至数据中心。

(6) 下载

点击“下载”,系统将弹出下拉框让您选择下载的文件格式(目前仅支持.csv/.sdf)。确定好下载的文件样式后,系统将根据您的显示隐藏列的条件和高级筛选的条件,保存相应的数据为sdf或csv文件至您的本地设备上。

(7) 创建新任务

创建新任务的前提是先保存数据为一个文件,在未执行保存操作之前,该按钮为禁用状态,当基于结果保存了新的文件后,该按钮为可用状态。此时点击该按钮,系统将弹出下拉框让您选择需要计算的新任务种类,点击后页面将立即开一个新的标签页,并将您保存的数据集一并带过去,在调整参数后即可提交新的任务。

(8) 隐藏无效分子

针对SMILES错误或者后台无法解析的分子,算法无法进行正确的计算,在这种情况下,任务不受影响,但分子被定义为无效分子。用户可以通过“隐藏无效分子”的按钮,快速过滤掉该部分的分子。

(9)卡片页面

在卡片页面,我们提供了一个更加简洁的方式查看结果,您能看到该分子的结构及重打分函数RTMScore分值。

图4. 结果的网格页面

4. 相关算法介绍

RTMScore是一种新型的蛋白质-配体结合亲和度预测评分函数,我们通过Graph Transformer提取蛋白质的氨基酸残基以及配体的原子节点特征,并通过混合密度网络(Mixture Density Network, MDN)获取蛋白质各氨基酸残基和配体各原子间距离的概率密度分布,最后将其转化为统计势以用于蛋白-配体间结合强度的评估。结果表明,RTMScore的对接能力和筛选能力在CASF-2016标准数据集上显著超越了当前的其他主流方法,其在有无天然构象的存在下分别可取得97.3%和93.4%的平均top1对接成功率(DeepDock和PIGNet在无天然构象时仅为87.0%);而在筛选能力评估中可取得66.7%的平均top1成功率和28.00的1%富集因子(DeepDock和PIGNet的两项指标分别为55.4%、19.60以及43.9%、16.41)。同时我们进一步在DEKOIS2.0数据集上评估了RTMScore筛选能力,结果表明RTMScore的富集能力明显优于以相似策略构建所得的DeepDock和经典方法Glide SP,详见参考文献[1]。

图5. RTMScore模型框架

表1. RTMScore与其他先进方法在CASF-2016基准测试上的对接能力和筛选能力的比较。

表2. RTMScore在DEKOIS2.0数据集上的筛选能力评估结果

5. 相关文献

[1] Boosting Protein-Ligand Binding Pose Prediction and Virtual Screening Based on Residue−Atom Distance Likelihood Potential and Graph Transformer. Shen C, Zhang X, Deng Y, et al. J Med Chem. 2022. doi:10.1021/acs.jmedchem.2c00991

Edit this page open in new window
最后更新: 2024/3/13 17:12:29