- 发布时间:2022 -04-08
近年来,在深度学习、大数据和高计算力三驾马车的驱动下,人工智能技术在计算机视觉和语音处理等感知智能领域已经接近或达到了人类的准确率水平,取得了显著的成果并获得大范围的应用。当前,AI技术的发展正由感知智能快速向更高层面的以自然语言处理(NLP)为核心的认知智能领域迈进。AI从能听会看,走向能思考和回答问题,走向能推理和决策。例如,搜索引擎得益于预训练模型及阅读理解等NLP技术成果,搜索相关度大幅提升,智能客服系统已经广泛普及,知识图谱在金融、安全等领域得到快速应用.......自然语言处理(NLP)技术作为人工智能皇冠上的明珠是认知智能的核心,其正在深刻推动AI产业的发展。
作为数字经济时代国内语义智能的领航者和A股第一家上市的大数据技术企业,拓尔思是国内自然语言处理技术研发的先行者,自2000年开始NLP相关技术的研发,先后突破了融合大规模语料库和语言学知识的统计机器学习、基于大数据的深度学习、知识驱动的深度学习等关键技术。经过多年的积累和发展,拓尔思相关技术已处于国内领先行列,具备完备的自然语言处理能力,承担了数十项国家级课题,在知识图谱、自然语言处理和大数据等领域申请和获得多项国家发明专利及软件著作权成果,并多次在技术评测中取得佳绩。
历经多个版本的升级后,今天,拓尔思新一代语义智能技术平台的核心组件:TRS海文自然语言处理引擎V9.0版本(TRS DL- CKM V9)正式发布。该引擎吸收了拓尔思在自然语言处理和信息检索领域多年的技术积累,围绕深度学习、知识图谱等核心技术,依托TRS智拓语义智能技术平台等技术成果,面向智慧专利、智慧公安、智慧政务、智慧金融、开源情报分析等应用场景,以先进的NLP技术为用户的业务应用赋智赋能。
TRS海文自然语言处理引擎V9是一款支持云计算架构的自然语言处理引擎,主要提供以下三大类功能:
1)非结构化数据结构化:对大数据文本进行智能分析和深度语义处理,通过分类、聚类、关键词抽取、摘要、信息抽取等技术,将非结构化文本数据转化、提取和标注为半结构化或结构化的多种类型数据;
2)赋能语义智能分析:提供情感分析、文本比对、信息过滤、智能检索、深度语义比对、智能问答、自动写作、人物画像、新闻专题分析等基于语义智能的大数据分析能力。
3)支持构建知识图谱或本体知识库。
01 功能更加完备,应用效果显著
目前,TRS DL- CKM V9已提供数十个功能组件、数百个调用接口,具备了较为完整的NLP服务能力,基于深度学习模型的应用效果显著提升。
新增功能主要包括:新增多语种实体识别、实体链接、句法分析、事件抽取、机器翻译等功能接口。
功能升级方面,新增了一批基于深度学习的接口,主要包括:自动分类、情感分析、文本纠错、自动摘要、深度特征提取、短文本相似度、文本改写等。并通过引入Bert等预训练模型以及知识图谱的融合等技术,应用效果比对应的机器学习接口均有不同程度的提升。
这里,以智能校对为例,通过采用SoftMask Bert GCN模型的智能校对算法比Bert基准模型提升了约两个百分点。
以自动分类为例,VGCN+BERT的分类方法比传统分类方法有大幅度提升。
02 接口易用性与吞吐量大幅提升
TRS DL- CKM V9的接口由SOAP接口升级为RESTful接口,只需通过标准的HTTP客户端即可调用,且自带web版演示程序,安装后即可通过浏览器进行测试和使用,方便用户使用。新升级的Rest服务器接口性能有了较大提升,多并发吞吐量比V8版本平均提升50%以上。
03 快速实现行业化、个性化的人工智能模型开发和构建
TRS DL-CKM V9作为构建在TRS智拓语义智能技术平台上的核心组件,可以帮助用户快速实现行业化、个性化的人工智能模型开发和构建。其自带一批预训练AI模型,包括基于BERT、XLNet、ALBERT等预训练模型,CNN、RNN、LSTM、Transformer、GCN等神经网络模型……用户可直接使用;若用户需要基于自有数据进行AI模型的定制开发,还可利用“智拓”平台中的智能数据标注服务来构建个性化数据标注集,使用“智拓”平台中的模型训练服务进行AI模型训练,并将定制模型布署到TRS DL-CKM V9上运行。与智拓平台的无缝集成,使TRS DL-CKM V9具备了完整的NLP AI开发和服务能力。
04 实现知识驱动的语义智能
TRS DL-CKM V9的知识驱动体现在两方面:
1)融入行业语义知识,将行业知识图谱等语义知识应用于深度学习中,包括融合知识图谱的预训练语言模型、基于知识图谱的图神经网络模型、基于知识图谱的图表学习模型等,通过知识驱动+大数据驱动,实现AI学习效果提升。
2)在支持知识图谱自动构建基础上,提供了基于知识图谱的智能搜索、自动写作、智能问答、语义比对等语义智能功能,实现了从大数据到知识图谱再到智能化业务的应用闭环。
05 快速构建和管理知识图谱
TRS DL-CKM V9能够基于行业大数据快速构建和管理知识图谱,具体包括:动态本体智能构建工具:基于信息抽取、关系发现、数据聚合、短标题生成等技术,自动提炼知识概念及层次关系,辅助人工实现快速建模,动态跟踪本体语义变化,并主要对标开源本体构建工具Protégé。
知识图谱构建工具:以NLP技术为基础,通过优化提升实体识别、关系及事件自动抽取、实体消岐与对齐、属性抽取与消岐对齐、融合与推理等技术,为各种行业知识图谱应用提供自动构建服务。尤其是事件分析方面,研发了独具特色的事件分析与挖掘工具,并主要对标全球事件库Gdelt。
06 多模态融合的深度语义匹配
TRS DL-CKM V9可与拓尔思自主研发的视频检索系统配合使用,实现图像与文本的多模态融合的深度语义匹配。具体包括:
1)基于深度学习、NLP、图像处理等技术,应用Bert、GCN、Resnet等算法模型,对文本及视频建立深度语义索引,实现了OCR识别、以图搜文、以文搜图等功能,实现图像与文本之间的跨模态语义检索。
2)提供深度语义索引的高效编码与索引计算技术,实现知识图谱与深度语义索引的融合。提供基于深度语义索引并融合知识图谱的新一代语义检索服务,进一步提升语义检索效果。
07 提升多语言分析质量,更好服务于多语言信息处理应用
TRS DL-CKM V9在多语言分析技术方面取得了长足的进展,支持常用多语种及特定小语种的分析技术,实现实体识别、信息抽取、语义计算、机器翻译等功能,有效地提升多语言分析的质量,更好地服务于多语言信息处理应用。
目前,TRS海文自然语言处理引擎已服务超过1000+企业级用户,在众多应用场景中得到了广泛的成功应用。
南方电网:人工智能平台+NLP AI组件,赋能自有AI开发
TRS DL-CKM V9为南方电网提供基于深度学习框架的NLP多模型训练工具,和一站式模型训练及研发能力,解决了南方电网以往人工智能应用算力资源缺乏、算法积累不足、数据样本分散等问题。建设内容主要包括,应用数十个核心NLP组件提供智能数据分析服务;构建面向电力行业的语义模型定制优化平台,通过智能数据标注工具构建自有的行业标注数据和NLP模型智能训练服务,实现自有AI模型的开发。
中国日报:多模态AI交互的智能问答机器人
该项目基于已有的政务大数据平台的资源和成果,设计交互服务场景,基于语音、图像和文本的智能识别,以及智能语义分析技术实现多种政务服务交互方式,进一步提高政府信息化服务工作效率,加快推进对外政务服务体系建设。建设内容主要包括:政务服务场景设计、数据资源整合和补充、政务服务知识库建设、政务服务智能分析引擎建设、政务服务应用开发和集成、智能问答模型构建及训练等。
国家知识产权局:多模态特征编码与深度语义比对,提升专利申请质量
为解决专利申请中存在的恶意抄袭、低质量申请等问题,提高专利审查质量和公信度,国家知识产权局上线了机检报告推送项目,在审查员介入审查阶段之前,应用智能分析技术自动发现存在明显瑕疵的专利,并自动推送给审查员。
该项目采用语义智能技术,具体包括深度文本相似度计算、图像特征检索、以文搜图等功能,通过机器自动比对,识别不具备新颖性的专利申请,并生成机器检索报告,有效地提升专利申请质量。系统每年处理发明和实用新型申请300万件,约5%专利被识别为抄袭,涉嫌抄袭申请识别准确率超过99%。
从数据到智慧,人工智能和大数据的探索之旅没有终点,拓尔思始终不断突破,用创新与坚持去挖掘海量数据中蕴含的丰富知识,为用户创造价值。