结构提取及表格识别
1. 结构提取及表格识别概述
结构提取及表格识别是一个能从专利、文献及各类图片中把化学结构和表格快速转换成可编辑格式的工具。众所周知,专利数据的挖掘和分析对于药物研发至关重要,但传统方法依赖药化专家手动整理大量专利,使用化学结构绘制工具手动绘制大量化学结构并标记活性数据,这个过程少则几天,多则数周。面对这一挑战,碳硅智慧开发了分子结构提取及表格识别模块,药物研发人员只需要将论文或专利的 PDF 文件上传,即可得到文件中的分子结构及表格数据。这个功能可以帮助药物研发人员解决“画结构式时,耗时长且易出错”、 “批量收集专利或文献中化学结构信息时,耗时长且易漏分析”的难题,节省绘制化学结构时间和人力、提高批量处理化学结构数据效率、快速搭建自有数据库。
2. 使用说明
用户只需要三个步骤就可以完成计算:上传文件(PDF 或者图片)-选择提取范围-提交任务(必点)。
(1) 上传文件
平台提供了 2 种方式上传文件:本地文件和数据中心。
- 本地文件
复选框默认选中“本地文件”,通过点击下方按钮选择本地文件即可。选择完文件以后,该文件名称将显示在按钮上,右边将显示文件内容。 关于上传的文件,当前支持的文件格式有.pdb、.jpg、.jpeg、.png、.bpm
- 数据中心
复选框选中“数据中心”,通过点击下方按钮页面出现弹窗,点击文件名称来选择数据中心的数据,点击完之后弹窗消失,右边即可展示文件内容。
图 1. 上传文件——本地文件/数据中心
(2) 选择提取范围
此处需指出您希望系统提取的文档页面范围。针对您上传的 pdf 文件,系统会解析文件的页数,并且在下方展示页面内容截图,您可通过手动勾选页面截图的方式选择提取范围,也可以勾选右上角的【全选】按钮,一键选中该文件中的所有页面。
图 2. 选择提取范围——手动勾选页面
(3) 运行进度和结果查看
提交任务后,系统会立即进入结果页面,并逐页返回解析的分子和表格。对于已经解析的分子,您可以先校对结构和内容的准确性。或者您想等所有页面解析完成后你再分析时,您也可以跳转至其他页面,如跳转到其他模块或者当前模块的计算页面发起新的任务,此操作不会影响已提交任务的正常进行。您可以随时进入正在运行中的任务查看已解析的分子。
图 3. 查看结果——提交任务后跳转至结果页面的状态
图 4. 查看结果——返回了 2 页分子的结果页面,此时任务还在运行中
3. 结果分析
结果页面的展示,主要用于快速校对结构的准确性以及内容的准确性,我们提供了一系列功能帮助您进行校对和修改。左边是默认展示的 pdf 文件内容,在 pdf 查看器中,该结构周围会有一个浅蓝色定位框。点击该定位框,颜色从浅蓝色变成深蓝色,边框加粗,定位框下方会提供相关按钮(删除、编辑定位框、以及溯源的功能)。右边的内容,系统默认展示的是分子列表,此页面展示的是分子结构信息以及一些辅助信息,您也可以切换到图表页面,该页面主要展示图表的内容,您可以根据需求自行切换,通常情况下,这两个页面是相辅相成的,搭配使用会有更好的体验。
3.1 分子列表页面
分子列表页面展示的是所有被系统识别出来的分子,包括分子结构周围的信息以及定位信息。
图 5. 结果页面——分子列表
3.1.1 操作
操作列提供一些快捷图标,包括收藏、删除、复制、新增定位,可以帮助大家更好的标记分子
收藏。给分子打个标签,可以结合【收藏】功能,快速过滤出被收藏的分子。
复制。点击复制图标后,页面上会以下方气泡的形式进行二次确认,确认是复制 Smiles 还是复制条目,点击相应文字后,系统进行相应的提示。如您点击【复制 smiles】,若复制成功,页面上则提示用户复制成功,用户点击【复制条目】,则系统会在列表的最后复制相同的行,并立即跳转到复制的行,您可以修改调整该条目的信息。
删除。点击删除按钮后页面上会以下方气泡的形式进行二次确认。提示您“该操作不能恢复,确认删除该分子吗?“ 。
新增定位。在当这个分子在文章中出现了多次, 但是系统只识别出来一次时,可以使用该功能,将相同的分子归位这一个分子里面。
3.1.2 分子结构编辑
化学结构列主要展示的是识别的分子结构。对于识别的错误结构,您可以点击分子结构中右上角的编辑按钮,进入分子编辑页面。
当系统把一个片段结构识别成了一个完整结构时,您可以在编辑器中,鼠标悬浮在是断点的原子上-右键选择 Edit 进入编辑状态-在 Alias 里面,输入"星号",以此来校正结构信息。有时候针对一些 Markush 结构,系统会把 R1,R2 等结构识别成其他内容,当出现类似错误时,也可以通过类似的方式,在 Alias 里面输入 R1、R2 进行修改。
图 6. 分子编辑器
3.1.3 编号
编号列是根据结构附近的信息自动识别出来的编号。当识别的编号信息有误时,您可以双击该单元格进入编辑状态,点击其他地方即可退出编辑状态且系统会提示修改成功。由于编号在系统中是唯一的,当您修改的编号与已有编号重复时,系统会提示,并且拒绝修改。
3.1.4 溯源
溯源列是为了帮助大家更好的对分子进行归类。当同一个分子可能会在文件中多次出现时,我们就可以该列信息知道该分子在文中出现了几次,并且点击 PX,可以快读定位到该分子所在的页面。
3.1.5 其他属性
其他属性列也是根据结构附近的信息自动识别出来的信息,此处不会与表格中的信息进行自动关联,如果您想查看表格中的信息,可以进入图表页面查看。当识别的信息有误时,您可以双击该单元格进入编辑状态,点击其他地方即可退出编辑状态且系统会提示修改成功。
3.1.6 删除无编号分子
点击该按钮后,表格中所有没有编号的分子都会被删除。点击该按钮后会以气泡框的形式进行二次确认,提示:该操作不能恢复,确认删除所有没有编号的分子吗?
3.1.7 批量删除分子
每个分子的前面都有一个复选框,当您同时勾选 2 个以上的分子,此时【批量删除】的按钮可用。点击该按钮后会以气泡框的形式进行二次确认,提示:该操作不能恢复,确认删除所选分子吗?
3.1.8 添加分子
当您发现系统有漏检的分子时,您可以点击【添加分子】按钮来解析该分子。点击该按钮后,页面上有【请在原文中框选分子结构或名称】或【退出】的提示。此时您可以滑动 pdf 文件,在漏检的分子上面画一个大小合适的定位框后,即可点击确认。此时系统将进入分析解析的过渡状态,当分子解析完成后页面将弹出分子编辑器,您可校对解析结构的准确性,如有错误可以在编辑器内修改,修改无误后点击确认后,该新增的分子将出现在表格的最后一行。
3.1.9 编辑定位框
当您发现检测的分子结构定位框出现偏移,导致结构识别不准时,您可以点击该分子结构的定位框,然后点击下方的编辑图标进入定位框大小的编辑页面,当您将定位框调整成合适大小后,即可点击确认。此时系统将进入分析解析的过渡状态,当分子解析完成后页面将弹出分子编辑器,您可校对解析结构的准确性,如有错误可以在编辑器内修改,修改无误后点击确认后,该新增的分子将出现在表格的最后一行。
3.2 图表页面
图表页面列举了所有识别的表格,并将解析到内容转换成了可编辑的格式,方便您的校对和修改。此外,系统还提供了一些高级功能来提升您的效率。如编号关联功能、拼接母核结构和 R 基。
图 7. 结果页面-图表
3.2.1 切换表格
该区域展示的是系统解析到的所有表格截图。系统默认选中并展示识别到的第一个表格。当您想看其他表格内容时,点击该表格截图,系统将快速定位到 pdf 中该表格的位置,并在右侧展示解析的表格内容。当发现存在误检的情况时,鼠标放在该截图上,图片的下方会出现删除图标,点击删除即可删除该错误信息。
3.2.2 展开/收起表格截图
该功能的设置主要方便您聚焦表格内容,并提供更多的空间展示表格的内容。
3.2.3 关联编号
系统中的编号是唯一的。当表格中只有编号没有结构,结构在其他地方显示的情况下,您可以选中表格中代表编号的那列,然后点击关联编号按钮,系统会搜索分子列表中与该编号一致的分子,搜到一样的编号则意味着是同一个分子,那么在表格页面也会展示这个分子的结构信息。关联到结构信息后,系统默认展示该分子结构的 smiles,用户可以通过【2D 结构】按钮来实现显示/隐藏 2D 结构。当您发现关联失败时,大概率是是表格中的编号与分子列表中的编号不一致,此时您可以修改任意编号做到编号一摸一样时,再次使用关联功能,可以成功关联上。
3.2.4 插入行/插入列
当您选中某一个单元格以后,该插入行/插入列可用。系统会根据您的选择插入空的行和列,由用户手动填写表格中的信息。
3.2.5 删除
当您选中某一个单元格以后,该删除按钮可用,系统会根据您的操作来删除某一行或者某一列。此操作不可恢复,需慎重使用。
3.2.6 拼接
该功能支持拼接母核结构和 R 基。用户点击拼接按钮后,系统会用弹窗的方式提示用户选择需要拼接的母核信息和 R 基列,之后系统就会根据输入去拼接结构,并在 R 基列后面新增一个 structure 列,以此来显示拼接后的完整分子结构。需要注意的是,根据母核结构的不同,系统的拼接标准也不一样。
当母核结构上只有一个 R 基,也就是一个断点时,无论您指定的 R 基列叫什么名字,系统会基于该列的信息去做拼接,此时的要求相对宽松;
当母核结构上有多个 R 基,也就是多个断点时,解析的母核上的 R 基名称与拼接列的 R 基名称需要一一对应(不区分上下角标,母核 R1 对应列名 R1,母核 R2 对应列名 R2),否则会拼接失败。
3.2.7 新增表格
当系统漏检了表格时,可使用该功能新增表格。
当您发现系统有漏检的表格时,您可以点击【新增表格】按钮来解析该表格。点击该按钮后,页面上有【请在原文中框选表格】或【退出】的提示。此时您可以滑动 pdf 文件,在漏检的表格上面画一个大小合适的定位框后,即可点击确认。此时系统将进入分析解析的过渡状态,当表格解析完成后页面将提示解析成功或者解析失败。
3.2.8 新增母核结构
当表格中的分子是片段结构时,此时应该有一个母核分子与之相对应。当系统没有识别到母核结构时,您可以通过该按钮新增母核结构,继而再使用拼接功能。
3.2.9 2D 结构
全称为显示/隐藏 2D 结构。当表格中没有可显示的 2D 结构时,该按钮不可用。当表格有可显示的 2D 结构时,系统默认显示 smiles 的信息,选中 2D 结构后,系统将 smiles 转换成 2D 结构。
3.2.10 表格编辑
您可以双击该单元格进入编辑状态,点击其他地方即可退出编辑状态且系统会提示修改成功。
3.3 保存
点击“保存”,系统将弹出下拉框让你选择保存的文件格式(目前仅支持.csv)。在分子列表页面,系统保存的是当前条件下的分子。如在未勾选收藏时,将下载分子列表中所有的分子,如勾选了收藏进行保存时,则系统只会保存收藏的分子。在图表页面,点击保存会保存当前表格的内容到数据中心
3.4 下载
点击“下载”,系统将弹出下拉框让你选择下载的文件格式(目前仅支持.csv)。在分子列表页面,系统下载当前条件下的所有分子。如在未勾选收藏时,将下载分子列表中所有的分子,如勾选了收藏按钮,则系统只会下载收藏的分子。在图表页面,点击下载则会下载当前表格的内容至您的本地设备上。
点击“下载”,系统将弹出下拉框让你选择下载的文件格式(目前仅支持.csv/.sdf)。确定好下载的文件样式后,系统将根据你的显示隐藏列的条件和高级筛选的条件,保存相应的数据为 sdf 或 csv 文件至你的本地设备上。
3.5 创建新任务
创建新任务的前提是先保存数据为一个文件,在未执行保存操作之前,该按钮为禁用状态,当将结果保存成新的文件后,该按钮为可用状态。此时点击该按钮,系统将弹出下拉框让你选择需要计算的模块,点击后系统将立即开一个新的标签页,并将你保存的数据集一并带过去,在调整参数后即可提交新的任务。
4. 相关文献
暂无