ChemFH
1. ChemFH 概述
ChemFH 是 Chemical Frequent Hitter 的缩写,ChemFH 模块主要用于识别出在检测试验结果中的频繁命中化合物,包括聚集物、Fluc 抑制剂、混乱化合物、化学反应性化合物、蓝/绿荧光化合物、其他检测干扰化合物。这些化合物严重干扰了研究者发现潜在活性化合物,从而导致时间和资源的浪费。基于海量优质数据库的收集和 Graph Neural Networks 架构的应用,ChemFH 具有可靠的化学频繁命中化合物的检测能力,从而提高药物研发效率。
表 1. 建模数据和模型评估结果

2. 使用说明
用户只需要三个步骤就可以完成计算:确定输入方式(输入 smiles)-任务命名(可忽略)-提交任务(必点)。
(1) 输入方式
平台提供了四种数据输入方式:输入 SMILES、绘制分子、上传文件和数据中心。
- 输入 SMILES
复选框选中“输入 SMILES”,在文本框中输入一个或多个 SMILES 表达式(用换行的方式输入多个 SMILES),该文本框中最多可输入 500 个 SMILES(超出上限可通过上传文件的形式提交任务)。

图 1. 输入方式——输入 SMILES
- 绘制分子
复选框选中“绘制分子”,在右边的分子编辑器中画出分子结构,画好以后点击右下角的“确认”后即可。该模式下只支持画一个分子。

图 2. 输入方式——绘制分子
- 上传文件
复选框选中“上传文件”,通过点击下方按钮选择本地文件即可。选择完文件以后,该文件名称将显示在按钮上,右边将显示文件内容。 关于上传的文件:
当前支持的文件格式: .sdf/.csv;如上传 sdf 文件,则可直接提交任务,如上传 csv 文件,则需指定 smiles 列后方能提交任务。
文件大小不超过 10MB。
- 数据中心
复选框选中“数据中心”,通过点击下方按钮页面出现弹窗,点击文件名称来选择数据中心的数据,点击完之后弹窗消失。

图 3. 输入方式——上传文件/数据中心
在确定好所有的参数后,命名任务名称,点击提交即完成任务提交操作。
(2) 运行进度和结果查看
提交任务后,页面会自动跳入当前页面的“最近结果”子页面中,您可以在该页面查看当前模块的任务运行状态(进度条),也可在右上角的“运行中“下拉框中查看所有模块正在运行的任务。当数据量较大时,系统会分批计算,因此只要有一批数据算完后(整个任务还在运行中),即可点击“结果详情”按钮进入结果页面,查看当前已完成计算的预测结果列表(未完成计算的分子暂不显示),并且可以在当前页面通过刷新来获取最新算完的数据。

图 4. 查看结果
3. 结果分析
结果页面由顶部的筛选区、Summary 和中部的结果详情区组成。默认状态下结果详情区展示的是结果列表(还可以切换卡片和图表子页面),此时您可以查看预测的所有性质,并对这些性质进行排序、筛选;同时为了方便用户直观的分析数据,我们给预测结果分配了一个颜色,并基于预测结果给出综合评分

图 6. 结果页面功能分布
(1) 颜色定义
我们通过颜色对预测结果做了直观的评估,以此帮助用户更直观的了解分子的评价结果。绿色背景越多,说明分子为相应类别频繁命中化合物的可能性越小。颜色设置的规则如下:
P≤0.5,数值的底色为绿色,代表化合物不属于该类别的化合物;
0.5<P<0.7,数值的底色为黄色,代表化合物有可能属于该类化合物;
P≥0.7,数值的底色为红色,代表化合物很有可能为该类化合物。
(2) 综合评分
- 通过。当化合物的预测值均在 P≤0.5 的范围内时(底色均为绿色);
- 低风险。 当化合物有 3 个以下的预测值处于 0.5< P< 0.7 时(≤3 个黄色);
- 中风险。当化合物有 4 个以上的预测值处于 0.5< P< 0.7(≥4 个黄色),或者是化合物有 3 个以下的预测值处于 0.5< P< 0.7,且 ≤2 个以下的预测值在 P≥0.7 的范围内时(≤3 个黄色且 ≤2 个红色);
- 高风险。当化合物有 3 个以上的预测值在 P≥0.7 的范围内时(≥3 个红色)。
(3) 筛选
平台提供了常规筛选和高级筛选以满足用户的使用需求。
- 常规筛选
常规筛选可以显示/隐藏性质。默认的结果列表展示计算的所有性质,此时左边控制栏中为全选的状态。当你不想显示该性质时,取消该性质的选中即可,左边的结果列表将根据控制栏中的选择进行实时显示。在顶部还提供了两个快捷键“全选”和“不选”,方便用户快速选择。
- 高级筛选
在常规筛选的基础上,高级筛选提供了范围筛选,可进一步筛选出某性质指定范围内的分子,以排除不符合预期结果的分子。
(4) 类别解释
把鼠标移入每个类别的名称上,可查看该类别对应的解释。
(5) 排序
点击结果列表中的类别名字可重新排序,如 Aggregates,点击一次为升序,再点一次为降序,再点一次即恢复原始排序。
(6) 保存
点击“保存”,系统将弹出下拉框让您选择保存的文件格式(目前仅支持.csv/.sdf)。确定好下载的文件样式后,系统将根据您的显示隐藏列的条件和高级筛选的条件,保存相应的数据为 sdf 或 csv 文件至数据中心。
(7)下载
点击“下载”,系统将弹出下拉框让您选择下载的文件格式(目前仅支持.csv/.sdf)。确定好下载的文件样式后,系统将根据您的显示隐藏列的条件和高级筛选的条件,保存相应的数据为 sdf 或 csv 文件至您的本地设备上。
(8) 创建新任务
创建新任务的前提是先保存数据为一个文件,在未执行保存操作之前,该按钮为禁用状态,当基于结果保存了新的文件后,该按钮为可用状态。此时点击该按钮,系统将弹出下拉框让您选择需要计算的新任务种类,点击后页面将立即开一个新的标签页,并将您保存的数据集一并带过去,在调整参数后即可提交新的任务。
(9) 隐藏无效分子
针对 SMILES 错误或者后台无法解析的分子,算法无法进行正确的计算,在这种情况下,任务不受影响,但分子被定义为无效分子。用户可以通过“隐藏无效分子”的按钮,快速过滤掉该部分的分子。
(10) 卡片页面
在卡片页面,我们提供了一个更加简洁的方式查看结果,您能看到该分子的结构及其为相应类别频繁命中化合物的概率值。
(11) 图表页面
在该图表页面,我们提供了上传化合物为频繁命中化合物的风险等级分布饼状图。

图 7. 图表页面
4. 相关文献
暂无