Inno-Docking
1. Inno-Docking 概述
Docking 作为基于结构的药物设计中的常规技术,已被广泛用于识别化合物库中的潜在 Hits,它可以帮助我们理解蛋白质与配体之间的结合方式,并估计其结合亲和力。通常情况下,一个对接程序的可靠性主要取决于构象搜索算法的效率及其打分函数的质量,前者专门用于生成配体构象,后者则用于计算蛋白质-配体结合姿势的结合亲和力。
越来越多的研究发现,对接软件中嵌入的打分函数预测的结合亲和力实验测定的亲和力没有表现出令人满意的相关性,甚至无法有效区分活性和非活性物质。随着计算机技术的快速发展,发现基于机器学习算法的打分函数可以用非线性的方式隐式地学习和捕获蛋白质-配体的结合特征,结果证明无论是评分能力(对结合亲和力进行排序的能力),对接能力(区分原始结合姿势和诱饵结合姿势的能力),还是筛选能力(从诱饵中分辨出活性化合物的能力),基于机器学习算法的打分函数比传统打分函数具有更好的灵活性和更高的性能。
因此,Inno-Docking 模块不仅集成了经典的物理对接程序 AutoDock Vina,还集成了自研的 AI 对接程序 CarsiDock。相对物理方法,CarsiDock 在对接构象精度上有显著优势。此外,Inno-Docking 还提供了完整的蛋白预处理、配体预处理和自动智能化设置对接参数能力,且在结果页面提供了详细的数据分析能力。
2. 使用说明
在对接的创建任务页面,根据功能可将其划分为两个区:3D 蛋白可视化区和对接参数设置区。3D 蛋白可视化区,你可以根据自己的喜欢改变结构的显示形态,长按鼠标左键可对蛋白进行 360 旋转,长按鼠标右键可对蛋白进行平移,滚动鼠标滚轮可放大缩小蛋白。另外,根据对接的内容,我们把对接分成了三大步,分别为蛋白预处理、配体预处理、设置对接参数。
图 1. 对接计算页面介绍
图 2. 对接参数设置
(1) 蛋白预处理
按照常规的蛋白预处理方式,我们提供了相对完善的预处理步骤,包括蛋白链的选择、纠正错误结构/修复缺失的残基、加氢、计算局部电荷以及能量最小化。其面板设置如图 2 所示,页面上默认选择的均为当前最优参数,用户也可根据自己的知识去选择适合的参数。
- 输入蛋白
平台为用户提供了两种上传蛋白文件的方式,分别为从数据库导入以及上传文件。
从 RCSB PDB 数据库导入。 复选框选中“数据库导入”,是在用户已知蛋白 PDB ID 的情况下,可直接在文本框中输入 4 位数的 PDB ID,即可在左边 3D 显示区域显示该蛋白结构。
上传文件。 复选框选中“上传文件”,通过点击下方按钮选择本地文件即可。选择完文件以后,该文件名称将显示在按钮上,右边将显示文件内容。 关于上传的文件只支持.pdb 格式。
数据中心。复选框选中“数据中心”,通过点击下方按钮页面出现弹窗,点击文件名称来选择数据中心的数据,点击完之后弹窗消失,即可提交任务。
注意!当前只有 CarsiDock 支持基于水分子的对接,暂不支持其它辅因子的对接。
- 蛋白预处理
根据你上传的蛋白类型来确定是否进行蛋白预处理。
如果上传的蛋白已经做过蛋白预处理,您可以直接点击下一步。
如果没有,建议您打开开关进行预处理相关的操作。
选择需要保留的蛋白链:此处默认显示上传的.pdb 文件中所有链的信息,默认所有链都被勾选。当某条链被取消勾选后,蛋白可视化区域的内容与将看不到该链。
选择需要保留的小分子和水分子:此处默认展示 pdb 文件中所有的小分子及其 5Å 范围内的水分子。系统会默认删除 5Å 范围外的水,而 5Å 范围内的水由用户自行决定是否删除。其中具有水桥作用的水分子做了特殊标记,你可以通过【快速删除】按钮一步删除没有水桥作用的水分子。
- 蛋白优化
添加缺失的残基和修复错误结构:可选项,默认为勾选状态;
蛋白加氢:必选项;
调整质子化状态:可选项,默认为勾选状态,且 pH 为 7.4;
氢网络的优化:可选项,默认为勾选状态;
能量最小化:可选项,默认为勾选状态,且选择的为 AMBER ff14SB 力场;
AMBER ff14SB(推荐使用). ff14SB 是 AMBER 程序包中的一个蛋白质力场参数集,用于描述生物分子中的原子相互作用。它是 AMBER14 程序包中的一种特别适用于蛋白质体系的力场参数集,包括描述蛋白质中氨基酸侧链和蛋白质折叠中重要残基之间相互作用的额外参数。AMBER ff14SB 在描述蛋白质的构象和动力学性质方面具有较高的精度和可靠性。
AMBER ff15IPQ. ff15ipq 是 AMBER14 程序包中的一种改进的蛋白质力场参数集,相比于 AMBER ff14ipq 具有更高的精度和可靠性。AMBER ff15ipq 包括更多的偏极化效应和氢键参数,可以更准确地描述蛋白质的电子结构。
AMBER96. AMBER96 是 AMBER 程序包中的早期版本,经过多年的发展和优化,现在已有更新的版本,如 AMBER14 和 AMBER18 等。但是,AMBER96 仍然被广泛应用于生物分子模拟领域,特别是对于早期的研究和一些经典案例的模拟。
AMBER99SB. AMBER99sb 是 AMBER99 力场的一个改进版本,包括了描述蛋白质中氨基酸侧链和蛋白质折叠中重要残基之间相互作用的额外参数。AMBER 在描述蛋白质的构象和动力学性质方面具有较高的精度和可靠性。
CHARMM36. CHARMM36 在描述蛋白质的构象和动力学性质方面具有较高的精度和可靠性。它在蛋白质和蛋白质-配体相互作用等领域的研究中被广泛应用,是生物分子模拟领域中常用的力场参数集之一。
(2) 配体预处理
平台提供了常规的小分子预处理方式,包括去除未连接的基团(包括金属离子、盐离子)、保留最大的分子碎片、生成异构体(离子状态、同分异构体、立体异构体)和加氢、能量最小化。在我们平台上配体预处理的面板设置如图 2 所示。页面上默认选择的均为当前最优参数,用户也可根据自己的知识去选择适合的参数。此处参数与“配体预处理”模块一致。
- 输入配体
平台目前只支持以上传文件的方式上传配体。
上传文件。 复选框选中“上传文件”,通过点击下方按钮选择本地文件即可。选择完文件以后,该文件名称将显示在按钮上,右边将显示文件内容。 关于上传的文件只支持.pdb 格式。
数据中心。复选框选中“数据中心”,通过点击下方按钮页面出现弹窗,点击文件名称来选择数据中心的数据,点击完之后弹窗消失,即可提交任务。
- 异构体
当前平台默认对上传的分子进行枚举【开关状态为“开”】,以生成更多的异构体,包括离子异构,同分异构和立体异构。当开关状态为“关”时,系统将不对分子做其他处理,保留分子的原始构型。
离子异构。通过调整 pH 值范围,生成可能的离子化状态;
同分异构体。根据离子化状态,生成可能的同分异构体;
立体异构体。基于分子的手性特征,生成可能的同分异构体,也可以保留原有的状态。
异构体数量。 平台默认最多输出 5 个异构体。用户可以根据自己需要调整。
- 力场选择
MMFF94. MMFF 是 Merck Molecular Force Field 的缩写,它是一个专业的小分子力场,是由 Hagler 开发的第二代分子力场,是目前最准确的力场之一。
UFF. UFF 是 Universal Force Field 的缩写,它是一个涵盖整个元素周期表的通用力场,该力场计算结构、结合能的计算结果精度一般,仅在找不到适合的力场时凑合用。
(3) 对接参数设置
在该步骤,用户需要先选择对接方法,然后再基于选择的对接方式去做相应的参数设置。
- 选择对接方法
CarsiDock 是碳硅智慧自研的 AI 对接算法,速度快,精度高。而 AutoDock Vina 则是开源的软件,在此基础上我们做了一个优化,速度和精度比初始版本的要更好。
- 对接位点
CarsiDock 和 AutoDock Vina 均支持两种方式定义对接位点,分别为选择复合物中的配体和自定义对接位点。默认看到的坐标是系统随机分配,长宽高为系统默认值为 15Å,这几个参数代表了结合口袋的位置和大小。
选择复合物中的配体为对接位点。 该选项只适用于复合物中自带配体的情况。当复合物中有多个配体的时候,系统默认显示分子质量最大的配体,用户可以在下拉框中切换其他配体。根据选择的配体,系统会根据配体的大小计算出其几何中心(XYZ 坐标),并在配体最边缘原子上+5Å。
自定义对接位点。 在自定义模式下,用户可直接把鼠标放入 3D 显示区,当你单击某残基后,参数面板上才会显示出该残基相应的坐标信息,同时系统也给了一个默认 15Å 的长宽高。但是,口袋具体的大小需要用户在了解蛋白口袋的情况下自行设置,口袋太小会导致计算结果不准确,口袋太大将会增加计算的时间。
- 对接模式
CarsiDock 和 AutoDock Vina 均只支持半柔性对接的方法,即受体构象不变,允许配体在一定范围内进行变化;
- 输出构象
默认 1 个分子输出 1 个对接构象,用户可通过输入框自行调整输出的数量,最多输出 100 个。
(4) 运行进度和结果查看
提交任务后,页面会自动跳入当前页面的“最近结果”子页面中,你可以在该页面查看当前模块的任务运行状态(进度条),也可在右上角的“运行中“下拉框中查看所有模块正在运行的任务。当数据量较大时,系统会分批计算,因此只要有一批数据算完后(整个任务还在运行中),即可点击“结果详情”按钮进入结果页面,查看当前已完成计算的预测结果列表(未完成计算的分子暂不显示),并且可以在当前页面通过刷新来获取最新算完的数据。
图 3. 查看结果
3. 结果分析
结果页面由顶部的 Summary、左边的分子列表和右边的蛋白可视化区域组成。默认状态下,左边的结果详情区展示的是列表页面,可以切换至网格页面。其中,网格页面提供了一个简洁的查看分子结构的页面,而列表页面则提供了详细的计算结果,方便你分析当前的数据。 蛋白可视化区域是一个固定的内容,无论左边在什么子页面,蛋白可视化区域都将展示蛋白-配体的对接模式,用户可通过右下角的“上一个”、“下一个”快速浏览分子间的相互作用。
图 4. 结果页面功能分布
(1) 表格中 ID 的含义
ID 是根据原始文件的分子顺序分配的。如任务不生成异构体的情况下,ID 为 1-N 的连续值;如任务选择生成异构体,则 ID 将为 X-Y-Z 的组合,X 表示分子的顺序,Y 表示分子的异构体数量,Z 表示输出的构象数量,其中 Y 值越小,代表这个异构体存在的可能性越大。
(2) 高级筛选
高级筛选提供了范围筛选,可进一步筛选出某性质指定范围内的分子,以排除不符合预期结果的分子。进行高级筛选后,页面上只会显示符合过滤条件的分子。
(3) 显示/隐藏上传列
默认的结果列表不展示上传文件中的信息,此时左边控制栏中为不选中的状态。当你不想显示该性质时,取消该性质的选中即可,左边的结果列表将根据控制栏中的选择进行实时显示。在顶部还提供了两个快捷键“全选”和“不选”,方便用户快速选择。
(4) 收藏
该功能主要用于帮助用户标记喜欢的分子。当你点击收藏某个分子后,该图标将会被点亮,意味着该分子被标记为收藏分子。点击收藏的勾选框之后,页面将只会显示被收藏的分子。点击收藏以后,可以再次点击该图表取消收藏。
(5) 属性解释
把鼠标移入每个性质的名称上,可查看该属性对应的解释。
(6) 排序
点击结果列表中的性质名字可重新排序,如 F(20%),点击一次为升序,再点一次为降序,再点一次即恢复原始排序。
(7) 保存
点击“保存”,系统将弹出下拉框让你选择保存的文件格式(目前仅支持.csv/.sdf)。确定好保存的文件样式后,保存相应的数据为 sdf 或 csv 文件至数据中心。保存的内容是页面展示的有效数量的分子,而这些分子通常是根据你的显示隐藏列的条件、高级筛选的条件、收藏或者是不喜欢来获取的。
(8)下载
点击“下载”,系统将弹出下拉框让你选择下载的文件格式(目前仅支持.csv/.sdf)。确定好下载的文件样式后,系统将下载相应的数据为 sdf 或 csv 文件至本地设备上。下载的内容与保存的方式一致,也是下载的页面展示的有效数量的分子,而这些分子通常是根据你的显示隐藏列的条件、高级筛选的条件、收藏或者是不喜欢来获取的。
(9) 创建新任务
创建新任务的前提是先保存数据为一个文件,在未执行保存操作之前,该按钮为禁用状态,当机遇结果保存了新的文件后,该按钮为可用状态。此时点击该按钮,系统将弹出下拉框让你选择需要计算的工,点击后页面将立即开一个新的标签页,并将你保存的数据集一并带过去,在调整参数后即可提交新的任务。
4. 相关算法介绍
CarsiDock 是由碳硅智慧研发的半柔性 AI 对接方法,其首创了刚性对接指导的自蒸馏方法,并基于大规模物理模拟数据进行预训练。CarsiDock 该方法受启发于 BERT/ChatGPT 等预训练方法,对物理对接与 AI 对接方法进行了有效结合:首先使用 AI 方法预测蛋白与小分子的结合模式,再使用梯度下降快速得到对接构象。且使用物理对接方法生成大量的对接数据,这些物理模拟数据包括分子的结构、作用力模式、结合亲和力等重要信息,基于这些数据进行预训练,为 AI 对接提供了一个泛化能力强的底座模型,并利用晶体数据微调进一步提升 AI 预测的准确性。结果表明,CarsiDock 不仅可以保证结合姿态的拓扑可靠性,还可以成功地再现结晶结构中的关键相互作用,突出了其优越的适用性,具有优秀的对接能力和筛选能力。
图 5. CarsiDock 模型框架
图 6. 多种方法在 DEKOIS2.0 数据集上的筛选性能
表 1. PDBBind CoreSet 及分时数据集的 Top1 成功率与 RMSD 平均值比较
5. 相关文献
【1】CarsiDock: a deep learning paradigm for accurate protein-ligand docking and screening based on large-scale pre-training. In Submit