专利智能全文检索系统是拓尔思具有自主知识产权的智能全文检索引擎系统。他采用了自然语言处理与智能检索技术,实现了结构化与非结构化数据的统一管理、实时动态索引、中文字词混合索引、分布式与负载均衡和快速返回结果等,可满足海量专利和非专利文献复杂检索需求的智能全文检索引擎系统。
主要特点
1) 全方位检索手段:提供了多达40多种检索运算符。包括外部特征与文本内容的各种逻辑组合检索、位置检索、二次检索(检索历史引用)、词根检索、大小写敏感检索。
2) 多种检索入口:属性字段检索(如分类检索)、关键词检索、位置检索(如同段检索)、多字段“与或非”组合检索、二次检索(渐进检索)、大小写敏感检索、中文简繁体扩展检索、支持超长检索表达式等。
3) 知识扩展检索:检索时能够应用同义词典、反义词典和主题词典进行自动或函数式的扩展检索。
4) 基于成本优化的查询算法:高效的索引压缩技术、SKIP索引跳跃式扫描技术、多库并行检索技术、表达式优化技术、结果共享技术、CACHE技术。CACHE技术支持更多的并发用户访问,大大提高了综合查询速度。
5) 支持对检索结果的各种排序:检索结果与检索词的相关度排序;基于字段的排序;后进先出的快速排序。同时对多库检索结果可以进行混排。LIFO(后进先出的快速排序)对实际运行系统的性能提高有很大作用。TOP N排序可通过结果记录数的裁减以减少检索历史的存储来提高检索速度。
6) 支持检索结果的分类统计,支持用正则表达式来筛选分类统计的目标字段值,并支持抽取部分子串组成新的类别。
7) 支持短语级别(INCLUDE函数)和词级别(LIKE函数)的“相似性”检索,INCLUDE函数支持CHAR字段的运算。支持英文的同根词检索。在没有词根索引的情况下,也能检索与输入的词具有相同词根的其它词。支持拼写组合的检索,允许基于“连接规则”、“排除规则”与“选择规则”的三种拼写组合。
8) 支持基于BIT字段的虚拟逻辑字段的检索,并支持其实体字段之间的逻辑关系与排序加权。
9) 实现 “同字段”的限定运算,支持复杂条件下的检索需求。
TRS Image Retrieval System (TRS IRS) 是由拓尔思推出的新一代图像检索系统,实现了图像数据的有效管理,提供基于内容的图像检索功能,实现基于颜色、纹理、形状、结构、图元等底层特征的图像检索,同时结合SQL检索,实现了元数据和图像数据的统一管理,结合了传统基于文本检索和目前基于内容检索的优势:
1) 高智能性:多种特征自由组合,适用不同场景;
2) 高命中率:一次检索范围内90%相同相似图像出现在结果集的前15%中;
3) 大数据量:单台检索引擎可装载亿级的图像数据;
4) 并行计算:具有并行计算能力,充分利用多核CPU资源;
5) 易扩展性:具有易扩展的体系架构设计,可满足大数据量及用户的处理
6) 快速响应:99%的检索请求都可以在2秒内完成;
给定检索图像,最理想的检索结果是满足要求的对比设计在所有图像中与检索图像的相似度最高,但是由于图像属性的复杂性,这种理想的结果往往不能实现,因此,准确性主要反映在对比设计出现在相似度排序的位置占所有图像的比例。衡量该比例有两个因素,一个是平均值,另一个是方差。平均值反映排序的精度,方差反映不同检索图像的检索精度的稳定性。另外,由于用户可以对部分检索结果进行正负样本标定,系统可以根据标定结果进行重排序,重排序后是否能够对系统性能带来改善也是准确性的指标之一。目前,系统可以保证90%的对比文件出现在检索结果的前15%。
计算机在执行检索,实际上就是图像特征相似度的计算。因此图像特征能否准确表征图像,就成为影响图像检索准确性的关键。TRS IRS拥有完善的特征算法库,包括:
1) 颜色特征可以描述图像的颜色构成及其分布,在所有的特征中具有最优的鲁棒性;
2) 纹理特征反映图像中同质现象的视觉特征,与物体的位置,走向尺寸和形状有关;
3) 形状特征以图像中物体或区域的外轮廓为基础,满足对旋转和缩放的无关性;
4) 结构特征反映的是图像的轮廓分布情况,与轮廓中填充的颜色无关;
5) 图元特征是一种基于图像分割思想的图像描述算法。颜色、纹理、形状、结构特征属于图像的全局特征,基于图像的整体来描述图像,无法满足图像局部细节检索的要求,图元特征则能很好的解决这一问题。
6) 语义特征由图像的语义标签生成,也就是以关键词作为语义特征,它可以充分利用传统的图像检索系统的标注信息;
7) 深度特征是基于深度卷积神经网络(CNN)训练出来的特征,由于CNN具有良好的跨域特性(或通用性),从预训练的CNN提取的特征可以被广泛应用到各个领域的各种数据集。基于卷积神经网络的深度学习得到的特征不仅保持了一定的不变性,而且还包含了更多的高层语义信息,可以有效地缩小底层特征与高层语义之间的鸿沟。
TRS深度文本挖掘软件是基于深度神经网络技术的新一代文本挖掘软件,集成了开源深度神经网络框架TensorFlow,通过对行业大数据的深度学习,实现自动分类、语义相似度计算、文本摘要、自动校对、词典挖掘等功能的优化。
DL-CKM使用的深度模型包括卷积神经网络(CNN)、长短时记忆网络(LSTM)、词嵌入(Word Embedding)、循环神经网络(RNN)等。
主要特点
1) 融合了自然语言处理、机器学习、数据挖掘、深度神经网络等技术,并持续追踪最新的前沿技术,不断更新产品。
2) 丰富的语言学知识,包含分词词典、多行业主题词词典、语义词典、多语翻译词典等多种词典。
3) 完备的文本挖掘功能模块:包括文本分类、文本聚类、文本摘要、相似文本检索、信息抽取、语义关系抽取、情感分析、智能问答、机器新闻写作、热点发现、文种识别、拼音检索、相关短语检索、(政治)常识校对 、数据比对、高速串匹配、跨语言查询翻译、语义词典挖掘、新闻短标题生成等功能。
4) 高效的文本处理速度:对多数功能模块而言,单文本挖掘服务器平均能达到每秒几百条文本的处理能力。
5) 支持Kubernetes集群,提供docker部署,保证集群以高可用的、可伸缩和容错的方式进行部署和运行。
6) 提供国产化介质,支持Intel、NV、飞腾和龙芯等不同体系结构的国产化硬件环境。
TRS企业搜索应用适配器(TRS Search Adapter)软件是一款由TRS自主设计研发,具有强大数据集成能力的数据集成平台。TRS Search Adapter能帮助企业修正数据质量、汇集多数据源、转换数据形态,提升数据的利用价值。
主要特点
降低成本
1) 统一数据处理框架适应任意数据处理需求
2) 强大的数据处理能力
提高效率
1) 基于图形化的数据流程定义
2) 支持多线程数据处理
扩展性高
1) 可扩展远程执行引擎实现多机部署
2) 插件式数据处理节点可以适应多种数据集成背景
专利智能全文检索系统是拓尔思具有自主知识产权的智能全文检索引擎系统。他采用了自然语言处理与智能检索技术,实现了结构化与非结构化数据的统一管理、实时动态索引、中文字词混合索引、分布式与负载均衡和快速返回结果等,可满足海量专利和非专利文献复杂检索需求的智能全文检索引擎系统。
主要特点
1) 全方位检索手段:提供了多达40多种检索运算符。包括外部特征与文本内容的各种逻辑组合检索、位置检索、二次检索(检索历史引用)、词根检索、大小写敏感检索。
2) 多种检索入口:属性字段检索(如分类检索)、关键词检索、位置检索(如同段检索)、多字段“与或非”组合检索、二次检索(渐进检索)、大小写敏感检索、中文简繁体扩展检索、支持超长检索表达式等。
3) 知识扩展检索:检索时能够应用同义词典、反义词典和主题词典进行自动或函数式的扩展检索。
4) 基于成本优化的查询算法:高效的索引压缩技术、SKIP索引跳跃式扫描技术、多库并行检索技术、表达式优化技术、结果共享技术、CACHE技术。CACHE技术支持更多的并发用户访问,大大提高了综合查询速度。
5) 支持对检索结果的各种排序:检索结果与检索词的相关度排序;基于字段的排序;后进先出的快速排序。同时对多库检索结果可以进行混排。LIFO(后进先出的快速排序)对实际运行系统的性能提高有很大作用。TOP N排序可通过结果记录数的裁减以减少检索历史的存储来提高检索速度。
6) 支持检索结果的分类统计,支持用正则表达式来筛选分类统计的目标字段值,并支持抽取部分子串组成新的类别。
7) 支持短语级别(INCLUDE函数)和词级别(LIKE函数)的“相似性”检索,INCLUDE函数支持CHAR字段的运算。支持英文的同根词检索。在没有词根索引的情况下,也能检索与输入的词具有相同词根的其它词。支持拼写组合的检索,允许基于“连接规则”、“排除规则”与“选择规则”的三种拼写组合。
8) 支持基于BIT字段的虚拟逻辑字段的检索,并支持其实体字段之间的逻辑关系与排序加权。
9) 实现 “同字段”的限定运算,支持复杂条件下的检索需求。
TRS Image Retrieval System (TRS IRS) 是由拓尔思推出的新一代图像检索系统,实现了图像数据的有效管理,提供基于内容的图像检索功能,实现基于颜色、纹理、形状、结构、图元等底层特征的图像检索,同时结合SQL检索,实现了元数据和图像数据的统一管理,结合了传统基于文本检索和目前基于内容检索的优势:
1) 高智能性:多种特征自由组合,适用不同场景;
2) 高命中率:一次检索范围内90%相同相似图像出现在结果集的前15%中;
3) 大数据量:单台检索引擎可装载亿级的图像数据;
4) 并行计算:具有并行计算能力,充分利用多核CPU资源;
5) 易扩展性:具有易扩展的体系架构设计,可满足大数据量及用户的处理
6) 快速响应:99%的检索请求都可以在2秒内完成;
给定检索图像,最理想的检索结果是满足要求的对比设计在所有图像中与检索图像的相似度最高,但是由于图像属性的复杂性,这种理想的结果往往不能实现,因此,准确性主要反映在对比设计出现在相似度排序的位置占所有图像的比例。衡量该比例有两个因素,一个是平均值,另一个是方差。平均值反映排序的精度,方差反映不同检索图像的检索精度的稳定性。另外,由于用户可以对部分检索结果进行正负样本标定,系统可以根据标定结果进行重排序,重排序后是否能够对系统性能带来改善也是准确性的指标之一。目前,系统可以保证90%的对比文件出现在检索结果的前15%。
计算机在执行检索,实际上就是图像特征相似度的计算。因此图像特征能否准确表征图像,就成为影响图像检索准确性的关键。TRS IRS拥有完善的特征算法库,包括:
1) 颜色特征可以描述图像的颜色构成及其分布,在所有的特征中具有最优的鲁棒性;
2) 纹理特征反映图像中同质现象的视觉特征,与物体的位置,走向尺寸和形状有关;
3) 形状特征以图像中物体或区域的外轮廓为基础,满足对旋转和缩放的无关性;
4) 结构特征反映的是图像的轮廓分布情况,与轮廓中填充的颜色无关;
5) 图元特征是一种基于图像分割思想的图像描述算法。颜色、纹理、形状、结构特征属于图像的全局特征,基于图像的整体来描述图像,无法满足图像局部细节检索的要求,图元特征则能很好的解决这一问题。
6) 语义特征由图像的语义标签生成,也就是以关键词作为语义特征,它可以充分利用传统的图像检索系统的标注信息;
7) 深度特征是基于深度卷积神经网络(CNN)训练出来的特征,由于CNN具有良好的跨域特性(或通用性),从预训练的CNN提取的特征可以被广泛应用到各个领域的各种数据集。基于卷积神经网络的深度学习得到的特征不仅保持了一定的不变性,而且还包含了更多的高层语义信息,可以有效地缩小底层特征与高层语义之间的鸿沟。
TRS深度文本挖掘软件是基于深度神经网络技术的新一代文本挖掘软件,集成了开源深度神经网络框架TensorFlow,通过对行业大数据的深度学习,实现自动分类、语义相似度计算、文本摘要、自动校对、词典挖掘等功能的优化。
DL-CKM使用的深度模型包括卷积神经网络(CNN)、长短时记忆网络(LSTM)、词嵌入(Word Embedding)、循环神经网络(RNN)等。
主要特点
1) 融合了自然语言处理、机器学习、数据挖掘、深度神经网络等技术,并持续追踪最新的前沿技术,不断更新产品。
2) 丰富的语言学知识,包含分词词典、多行业主题词词典、语义词典、多语翻译词典等多种词典。
3) 完备的文本挖掘功能模块:包括文本分类、文本聚类、文本摘要、相似文本检索、信息抽取、语义关系抽取、情感分析、智能问答、机器新闻写作、热点发现、文种识别、拼音检索、相关短语检索、(政治)常识校对 、数据比对、高速串匹配、跨语言查询翻译、语义词典挖掘、新闻短标题生成等功能。
4) 高效的文本处理速度:对多数功能模块而言,单文本挖掘服务器平均能达到每秒几百条文本的处理能力。
5) 支持Kubernetes集群,提供docker部署,保证集群以高可用的、可伸缩和容错的方式进行部署和运行。
6) 提供国产化介质,支持Intel、NV、飞腾和龙芯等不同体系结构的国产化硬件环境。
TRS企业搜索应用适配器(TRS Search Adapter)软件是一款由TRS自主设计研发,具有强大数据集成能力的数据集成平台。TRS Search Adapter能帮助企业修正数据质量、汇集多数据源、转换数据形态,提升数据的利用价值。
主要特点
降低成本
1) 统一数据处理框架适应任意数据处理需求
2) 强大的数据处理能力
提高效率
1) 基于图形化的数据流程定义
2) 支持多线程数据处理
扩展性高
1) 可扩展远程执行引擎实现多机部署
2) 插件式数据处理节点可以适应多种数据集成背景
TRS检索引擎作为S系统的发动机,提供专利各类数据的索引和检索服务,包括专利分类号、公告日、申请人、设计人等结构化数据的元数据检索,以及专利名称、摘要、权利要求书、说明书等非结构化数据的全文检索。
搜索引擎功能实现了91个索引库、23.1亿条索引记录、超20T的数据量,日均访问量2500万次,总请求平均响应时间低于60毫秒,记录读取平均响应时间低于50毫秒。
特点:
支持跨语言检索
支持数值范围检索
提供查询和统计分析功能
支持文本搜索,支持机械附图搜索
支持关键词检索,支持语义检索
目前,已经处理了近大几百万件实用新型申请。其中有10%左右的申请被判定为存在高相似度(四五星)文献,高相似度文献识别的准确率基本是100%。
发明机检报告系统也已经上线,累计已处理发明申请几百万万件(含历史申请),其中有超过10%以上的申请被判定为四五级,即确定为抄袭。四五级识别的准确率基本是100%。
时间 | 申请件数(万件) | 四五星文献检出量(件) | 四五星文献检出率 |
2013 | 83 | 72464 | 8.7% |
2014 | 101 | 48147 | 4.8% |
2015 | 109 | 121993 | 11% |
2016 | 138 | 247962 | 17% |
2017 | 157 | 118115 | 7.5% |
2018.1~11 | 198 | 275844 | 13.8% |
机检报告系统为专利审查工作提供了强有力的智能支持,降低审查开销,促进审查资源的有效利用,切实推动专利审查质量的提升。
D系统基于计算机图形图像识别与检索技术,依据一定的规则通过对外观设计专利的图形图像进行自动识别和基本判断,快速做出相同/相近似的初步判断,准确过滤无价值的设计,将有价值的检出对象框定在最小范围内,使审查员对检索系统检出的有限数目对象进行相同/相近似的人工判断。
外观设计专利数据具有数据量大,数据类型复杂、图像没有统一标准等特征,因此在外观设计专利数据上进行图像检索有很大的技术难度。D系统二期虽具备图形检索的功能,但存在检索效率慢、检索规模受限和检索效果欠佳等问题。
拓尔思经过多年的研究实践,实现前沿的图形比对和图像检索技术,通过基于图形内容的检索,满足了审查用户对检索效率和准确率需求;结合审查员检索报告的汇总、分析和总结,形成了新的检索模式进而提高检索效率;并集成同近义词扩展、跨语言扩展等辅助技术,进一步提升了检索体验。目前图像检索系统的D系统三期,支持包括中国、美国、日本、韩国、德国、WIPO、中国香港、中国澳门、中国台湾等十多个国家、组织和地区的外观设计专利数据检索。
图像检索系统中在库专利文献数超过900万件,视图数量在4500万幅以上,数据容量达5T以上,实现了“90%的图形检索任务都在5秒内完成检索响应”的性能指标,超越了“90%以上的对比文件出现在检索结果的前15%”的准确率指标。
DI Inspiro充分借鉴了国内外著名信息检索系统的先进功能,并且针对国内用户的使用习惯进行了改良性设计。具有数据全面可靠、功能专业、检索效率高、用户界面友好等特点,是企事业单位研发工程师、专利管理人员和专利咨询师等相关人员进行技术调研、竞争性分析和法律风险预警的有力工具。
DI Inspiro提供了快捷检索、表格检索、号单检索、可视化检索、化学结构检索和生物序列检索等多种检索方式。此外,DI Inspiro还配备了功能强大的辅助查询工具,可实现IPC、专利权人、同义词、国别代码、省市代码、号码等字段的扩展检索。用户可以对检索结果进行导出、收藏、统计筛选和在线分析,还可以对检索策略和结果在线自建数据库导航树,实现保存和预警。
系统主要提供如下服务:
近似检索:在申请商标前,检索被申请商标是否有相同近似,避免申请人的时间和经济损失;
综合检索:用户检索商标的基本信息及其他业务信息;
状态检索:检索商标的业务流程;
公告检索:检索公告信息;
错误反馈:如果发现商标信息有误,可以通过填写反馈单,商标局进行核实后会进行更正。
商标网上检索自动化系统提供五种检索服务及错误信息反馈功能,检索服务包括:商标近似检索、商标综合信息检索、商标状态检索、商标公告检索和商品/服务项目检索。
商标网上检索系统将采用国产化、自主化为主的可扩展、动态配置技术路线。
专利导航分析系统实现了专利信息资源整合,依据规则粗加工和自动标引,从产业发展方向、城市产业定位、产业发展路径三个维度提供决策参考。专利导航分析系统主要由数据交换系统、智能辅助标引系统和导航分析系统构成。
数据交换系统通过WEB Service接口定期从国家平台获取中外文专利题录文摘数据,同时调用智能辅助标引系统获取技术分支,根据来源EXCEL历史标引数据标引技术分支,以及提取城市、发明人等导航分析关键属性后,写入发布分析库,完成数据交换。
智能辅助标引系统在基于规则(检索表达式),完成技术分支标引;
导航分析系统基于现有专利数据分析,分析维度为技术分支表、IPC分类、城市、申请人等相关属性。
导航分析分为产业发展方向、城市产业定位、产业发展路径三大模块。每个模块细分为若干子分析,分别生成图表及表格。用户可以对相应的分析进行单项及多项下载操作。