配体预处理
1. 配体预处理概述
配体预处理模块主要用于帮助用户清洗小分子。该模块提供了常规的小分子预处理方式,包括去除未连接的基团(包括金属离子、盐离子)、保留最大的分子碎片、质子化(中性或离子状态)和加氢、生成异构体(包括离子异构体、同分异构体和立体异构体),以及能量最小化。在我们平台上配体预处理的页面上,默认选择的均为当前最优参数,用户也可根据自己的知识去选择适合的参数。
2. 使用说明
用户只需要四个步骤就可以完成计算:确定输入方式(默认为上传文件)-确定预处理参数-任务命名(可忽略)-提交任务(必点)。
(1) 输入方式
平台提供了两种数据输入方式:上传文件和数据中心。
- 上传文件
复选框选中“上传文件”,通过点击下方按钮选择本地文件即可。选择完文件以后,该文件名称将显示在按钮上,右边将显示文件内容。
当前支持的文件格式: .sdf/.csv;如上传 sdf 文件,则可直接进入下一步,如上传 csv 文件,则需指定 smiles 列。
文件大小不超过 10MB。
- 数据中心
复选框选中“数据中心”,通过点击下方按钮页面出现弹窗,点击文件名称来选择数据中心的数据,点击完之后弹窗消失,即可提交任务。
图 1. 输入方式——上传文件/数据中心
(2) 确定预处理参数
- 结构清洗
该步骤主要用于去除未连接的基团(包括金属离子、盐离子)、保留最大的分子碎片。默认情况下是勾选的。
- 生成异构体
当前平台默认对上传的分子进行枚举【开关状态为“开”】,以生成更多的异构体,包括离子异构,同分异构和立体异构。当开关状态为“关”时,系统将不对分子做其他处理,保留分子的原始构型。
离子异构。通过调整 pH 值范围,生成可能的离子化状态;
同分异构体。根据离子化状态,生成可能的同分异构体;
立体异构体。基于分子的手性特征,生成可能的同分异构体,也可以保留原有的状态。
异构体数量。 平台默认最多输出 5 个异构体。用户可以根据自己需要调整。
图 2. 异构体参数设置
- 力场选择
MMFF94. MMFF 是 Merck Molecular Force Field 的缩写,它是一个专业的小分子力场,是由 Hagler 开发的第二代分子力场,是目前最准确的力场之一。
UFF. UFF 是 Universal Force Field 的缩写,它是一个涵盖整个元素周期表的通用力场,该力场计算结构、结合能的计算结果精度一般,仅在找不到适合的力场时凑合用。
(3) 运行进度和结果查看
提交任务后,页面会自动跳入当前页面的“最近结果”子页面中,你可以在该页面查看当前模块的任务运行状态(进度条),也可在右上角的“运行中“下拉框中查看所有模块正在运行的任务。当数据量较大时,系统会分批计算,因此只要有一批数据算完后(整个任务还在运行中),即可点击“结果详情”按钮进入结果页面,查看当前已完成计算的预测结果列表(未完成计算的分子暂不显示),并且可以在当前页面通过刷新来获取最新算完的数据。
图 3. 查看运行状态和结果
3. 结果分析
结果页面由顶部的 Summary、中部的列表组成。该结果页面相对比较简单,默认显示的为 2 列数据,分别为 ID 和结构。
图 4. 结果页面功能分布
(1) 表格中 ID 的含义
ID 是根据原始文件的分子顺序分配的。如任务不生成异构体的情况下,ID 为 1-N 的连续值;如任务选择生成异构体,则 ID 将为 X-Y 的组合,X 表示分子的顺序,Y 表示分子的异构体数量。Y 值越小,代表这个异构体存在的可能性越大。
(2) 显示/隐藏上传列
为平台的常规筛选。如果您上传的文件中还有其他信息,针对生成的异构体,我们将保留该分子的原始信息,你可通过【显示/隐藏上传列】的按钮来控制这些信息是否显示在列表中,默认情况下我们是不显示的,如果您想显示该信息,则只需勾选该信息前的复选框即可。
(3) 保存
点击“保存”,系统将弹出下拉框让你选择保存的文件格式(目前仅支持.csv/.sdf)。确定好保存的文件样式后,保存相应的数据为 sdf 或 csv 文件至数据中心。
(4)下载
点击“下载”,系统将弹出下拉框让你选择下载的文件格式(目前仅支持.csv/.sdf)。确定好下载的文件样式后,系统将下载相应的数据为 sdf 或 csv 文件至本地设备上。
(5) 创建新任务
创建新任务的前提是先保存数据为一个文件,在未执行保存操作之前,该按钮为禁用状态,当机遇结果保存了新的文件后,该按钮为可用状态。此时点击该按钮,系统将弹出下拉框让你选择需要计算的工,点击后页面将立即开一个新的标签页,并将你保存的数据集一并带过去,在调整参数后即可提交新的任务。
(6) 隐藏无效分子
针对 SMILES 错误或者后台无法解析的分子,算法无法进行正确的计算,在这种情况下,任务不受影响,但分子被定义为无效分子。用户可以通过“隐藏无效分子”的按钮,快速过滤掉该部分的分子。