300229 拓尔思
产品功能

智语自然语言处理引擎V9是一款支持云计算架构的自然语言处理引擎,主要提供以下三大类功能:

非结构化数据结构化
赋能语义智能分析
支持构建知识图谱或本体知识库

对大数据文本进行智能分析和深度语义处理,通过分类、聚类、关键词抽取、摘要、信息抽取等技术,将非结构化文本数据转化、提取和标注为半结构化或结构化的多种类型数据。

提供情感分析、文本比对、信息过滤、智能检索、深度语义比对、智能问答、自动写作、人物画像、新闻专题分析等基于语义智能的大数据分析能力。

提供实体识别、关系及事件自动抽取、实体消岐与对齐、属性抽取与消岐对齐、融合与推理等功能,为各种行业知识图谱应用提供自动构建服务;自动提炼知识概念及层次关系,辅助人工实现快速建模。

非结构化数据结构化

对大数据文本进行智能分析和深度语义处理,通过分类、聚类、关键词抽取、摘要、信息抽取等技术,将非结构化文本数据转化、提取和标注为半结构化或结构化的多种类型数据。

赋能语义智能分析

提供情感分析、文本比对、信息过滤、智能检索、深度语义比对、智能问答、自动写作、人物画像、新闻专题分析等基于语义智能的大数据分析能力。

支持构建知识图谱或本体知识库

提供实体识别、关系及事件自动抽取、实体消岐与对齐、属性抽取与消岐对齐、融合与推理等功能,为各种行业知识图谱应用提供自动构建服务;自动提炼知识概念及层次关系,辅助人工实现快速建模。

>
产品优势
功能更加完备,应用效果显著
目前,TRS DL- CKM V9已提供数十个功能组件、数百个调用接口,具备了较为完整的NLP服务能力,基于深度学习模型的应用效果显著提升。 新增功能主要包括:新增多语种实体识别、实体链接、句法分析、事件抽取、机器翻译等功能接口。 功能升级方面,新增了一批基于深度学习的接口,主要包括:自动分类、情感分析、文本纠错、自动摘要、深度特征提取、短文本相似度、文本改写等。并通过引入Bert等预训练模型以及知识图谱的融合等技术,应用效果比对应的机器学习接口均有不同程度的提升。
接口易用性与吞吐量大幅提升
TRS DL- CKM V9的接口由SOAP接口升级为RESTful接口,只需通过标准的HTTP客户端即可调用,且自带web版演示程序,安装后即可通过浏览器进行测试和使用,方便用户使用。新升级的Rest服务器接口性能有了较大提升,多并发吞吐量比V8版本平均提升50%以上。
快速实现行业化、个性化的人工智能模型开发和构建
作为构建在TRS智拓语义智能技术平台上的核心组件,“智语”可以帮助用户快速实现行业化、个性化的人工智能模型开发和构建。其自带一批预训练AI模型,包括基于BERT、GPT等预训练模型,CNN、RNN、LSTM、Transformer、GCN等神经网络模型……用户可直接使用;若用户需要基于自有数据进行AI模型的定制开发,还可利用“智拓”平台中的智能数据标注服务来构建个性化数据标注集,使用“智拓”平台中的模型训练服务进行AI模型训练,并将定制模型布署到TRS DL-CKM V9上运行。与智拓平台的无缝集成,使”智语”具备了完整的NLP AI开发和服务能力。
实现知识驱动的语义智能
智语”的知识驱动体现在两方面: 1)融入行业语义知识,将行业知识图谱等语义知识应用于深度学习中,包括融合知识图谱的预训练语言模型、基于知识图谱的图神经网络模型、基于知识图谱的图表学习模型等,通过知识驱动+大数据驱动,实现AI学习效果提升。 2)在支持知识图谱自动构建基础上,提供基于知识图谱的智能搜索、自动写作、智能问答、语义比对等语义智能功能,实现从大数据到知识图谱再到智能化业务的应用闭环。
快速构建和管理知识图谱
“智语”能够基于行业大数据快速构建和管理知识图谱,具体包括: 动态本体智能构建工具:基于信息抽取、关系发现、数据聚合、短标题生成等技术,自动提炼知识概念及层次关系,辅助人工实现快速建模,动态跟踪本体语义变化,并主要对标开源本体构建工具Protégé。 知识图谱构建工具:以NLP技术为基础,通过优化提升实体识别、关系及事件自动抽取、实体消岐与对齐、属性抽取与消岐对齐、融合与推理等技术,为各种行业知识图谱应用提供自动构建服务。尤其是事件分析方面,研发了独具特色的事件分析与挖掘工具,并主要对标全球事件库Gdelt。
多模态融合的深度语义匹配
“智语”可与拓尔思自主研发的视频检索系统配合使用,实现图像与文本的多模态融合的深度语义匹配。具体包括: 1)基于深度学习、NLP、图像处理等技术,应用Bert、GCN、Resnet等算法模型,对文本及视频建立深度语义索引,实现了OCR识别、以图搜文、以文搜图等功能,实现图像与文本之间的跨模态语义检索。 2)提供深度语义索引的高效编码与索引计算技术,实现知识图谱与深度语义索引的融合。提供基于深度语义索引并融合知识图谱的新一代语义检索服务,进一步提升语义检索效果。
提升多语言分析质量,更好服务于多语言信息处理应用
“智语”在多语言分析技术方面取得了长足的进展,支持常用多语种及特定小语种的分析技术,实现实体识别、信息抽取、语义计算、机器翻译等功能,有效地提升多语言分析的质量,更好地服务于多语言信息处理应用。
应用场景
南方电网:人工智能平台+NLP AI组件,赋能自有AI开发
中国日报:多模态AI交互的智能问答机器人
国家知识产权局:多模态特征编码与深度语义比对,提升专利申请质量
TRS CKM V9为南方电网提供基于深度学习框架的NLP多模型训练工具,和一站式模型训练及研发能力,解决了南方电网以往人工智能应用算力资源缺乏、算法积累不足、数据样本分散等问题。建设内容主要包括,应用数十个核心NLP组件提供智能数据分析服务;构建面向电力行业的语义模型定制优化平台,通过智能数据标注工具构建自有的行业标注数据和NLP模型智能训练服务实现自有AI模型的开发。
项目基于已有的政务大数据平台的资源和成果,设计交互服务场景,通过引入人工智能技术,主动感知用户需求;基于语音、图像和文本的智能识别,以及智能语义分析技术实现多种政务服务交互方式,进一步提高政府信息化服务工作效率,加快推进对外政务服务体系建设。建设内容主要包括:政务服务场景设计、数据资源整合和补充、政务服务知识库建设、政务服务智能分析引擎建设、政务服务应用开发和集成、智能问答模型构建及训练等。
为解决专利申请中存在的恶意抄袭、低质量申请等问题,提高专利审查质量和公信度,国家知识产权局上线了机检报告推送项目,在审查员介入审查阶段之前,应用智能分析技术自动发现存在明显瑕疵的专利,并自动推送给审查员。 该项目采用语义智能技术,具体包括深度文本相似度计算、图像特征检索、以文搜图等功能,通过机器自动比对,识别不具备新颖性的专利申请,并生成机器检索报告,有效地提升专利申请质量。系统每年处理发明和实用新型申请300万件,约5%专利被识别为抄袭,涉嫌抄袭申请识别准确率超过99%。