300229 拓尔思
202104-30
《电力技术情报》刊文推介拓尔思新技术
发布时间:2021 -04-30
分享至:
分享
近日,由中国南方电网有限责任公司(简称“南方电网”)主管,南方电网生产技术部、创新管理部及南方电网科学研究院有限责任公司主办的内部刊物《电力技术情报》,刊发一篇题为“拓尔思语义智能技术在数字南网的实践场景”的文章,向系统内部推介拓尔思新技术。
 
01前言
当前我国新一轮科技革命和产业变革正在迅猛发展。2020年国家新基建战略正在以技术创新为驱动,推动数万亿数字经济产业转型升级。推进企业数字化转型升级,即是要加快企业“上云用数赋智”进程。“上云”——用互联网的模式来改造我们的传统产业;“用数”——用大数据来提升效率,改善管理;“赋智”——用人工智能的技术为各行各业提供赋能。
 
近年来,基于神经网络的深度学习算法,在海量大数据和不断倍增的高性能计算力支撑下,获得了广泛的应用并取得惊人的突破。人工智能作为“新基建”的重要建设内容,是新一轮产业变革的核心驱动力量,也是新一轮科技竞赛的制高点。
 
语义智能在人工智能领域属于认知智能技术,而大家所熟知的对语音、图像、视频等符号数据的智能处理和分析则属于感知智能范畴。感知智能解决从符号数据到显性信息的发现和识别,用机器替代人类的感觉器官;认知智能则注重对信息及信息间的逻辑、关联、背景的发掘,完成从信息到知识的推理、推断过程,让机器更接近人类大脑的思考。
 
下一波人工智能技术的发展将由知识驱动的认知智能来引领,而语义智能居于核心。语义智能是基于语义理解的认知智能技术,涵盖自然语言处理、知识图谱、及图像/视频等多媒体内容深度分析和理解等子领域,都是人工智能当下最值得期待的领域,是一种强人工智能。
 
随着语义智能的技术发展和应用普及,人工智能产业进入新的发展阶段,在全社会数字化转型和数字经济中发挥关键的赋能作用。
 
拓尔思在语义智能领域深耕细作,专注自研核心产品与开源技术深度融合,致力将语义智能技术和重点行业市场相结合,在创新的场景应用中实现技术的市场价值,协助企业用户实现整体数字化转型。
 
02拓尔思数字化转型技术与方法
数字化转型核心技术:语义智能
拓尔思围绕自然语言处理、知识图谱、机器视觉等核心技术,研发推出了TRS智拓语义智能技术平台(简称“TRS智拓”)。该平台提供数据标注、模型训练、模型评估、模型部署一站式NLP定制能力,让用户更简单、高效地定制NLP模型,以满足企业在智能化转型过程中,处理各种机器文本的需求,并逐步扩展到图像和音视频处理。
 
TRS智拓可作为基础设施用于构建大规模智能服务。针对企业亟需的算法模型提供“数据标引、数据管理、模型训练、模型优化、模型发布、模型调用”等全生命周期管理服务,推动企业将业务逻辑不断下沉为算法模型,达到复用、组合创新、规模化构建智能服务的目的。
 
TRS智拓是一个基于分布式计算框架的开发服务平台,包括硬件适配层、分布式计算框架、开放服务平台三部分。最底层是硬件适配层,作为一个高性能的计算平台,支持CPU、GPU、FPGA等计算设备;分布式计算框架的最底层是兼容Spark/Hadoop的分布式计算调度平台,中层是深度学习计算框架\各种算法库\各种知识图谱资源,上层是自然语言处理、图像、视频的处理模型层;开放服务平台部分提供模型的设计、训练、管理、调用等服务。
TRS智拓语义智能技术平台
 
TRS智拓主要包括如下四个子平台:
1)基础支撑子平台:平台底层服务支撑,包括IDC数据中心,服务集群,以及虛拟化容器和弹性调度等。在一台或者多台物理机上,利用虚拟化技术实现多服务复用部署,并做到相互隔离,节省资源,提高集群利用率。
 
2)大数据管理子平台:将分布式算法管理子平台和开放服务子平台中产生的训练数据、日志数据和业务上传的内容数据等作为数据源,进行高效的收集、存储、分析和挖掘。
 
3)分布式算法管理子平台:训练数据集通过自主深度学习框架和多种开源深度学习框架( Tensorflow、PyTorch等),并基于不同的深度学习算法(如CNN、DNN、RNN等),利用不同的数据集进行训练,完成模型训练、评估,选择更优效果的模型。
 
4)开放服务子平台:对分布式算法管理子平台训练生成的模型文件进行存储和管理,方便用户查看调用,并支持用户录入和提取模型。同时提供数据标注服务和知识图谱分析服务。
 
基于该平台的行业化应用包括:数星智能风控大数据平台、数家媒体大数据服务平台、网察大数据分析服务平台、网脉用户行为分析服务平台、小思智能问答服务平台等。
 
数字化转型实现方法 - “AI+行业”
人工智能在新基建中成功落地的抓手不是算法或算力,而是创新的行业应用。TRS智拓面向媒体融合、智慧专利、智慧公安、智慧政务、智慧金融、开源情报分析等应用场景,帮助用户快速构建人工智能基础设施,驱动行业创新发展,提升服务能力和水平。
配图来源于网络
 
场景1:AI+媒体融合
基于“大数据+人工智能+场景服务”的融媒体解决方案,将语义关联、自动标签、主题延展等NLP技术,运用于智能策划、智能生产、智能分发、智能评价等多个环节,聚焦应用场景,重构新闻生产流程,助力企业新闻宣传领域的媒体内容传播与服务变现。
 
场景2:AI+金融科技
以“自然语言处理+深度学习算法”作为技术突破路径,实现冒烟指数模型(多场景金融风控模型)的优化,最终对企业进行金融风险评价,助力政府监管部门打击非法集资。
 
场景3:AI+智慧公检法
在智慧公检法领域,公司基于OCR识别、NLP和知识图谱等AI技术能力,以执法规范化监督为核心,助力公、检、法推进“以审判为中心的诉讼制度改革”。在某局禁毒辅助办案系统中,用户通过NLP和知识图谱技术实现对禁毒卷宗的智能分析。其中,文字识别准确率超过99%,证据瑕疵校验准确率超过95%,并可以解放80%以上的体力劳动。
 
03拓尔思核心技术应用领域及典型案例
2019年5月南方电网公司发布数字化转型战略和“数字南网”建设行动方案,提出“以公司发展战略纲要为引领,深度应用基于云平台的互联网、人工智能、大数据、物联网等新技术,实施‘4321’建设”。最终实现“电网状态全感知、企业管理全在线、运营数据全管控、客户服务全新体验、能源发展合作共赢”的数字南网。
 
在数字南网的战略指引下,拓尔思与南方电网建立起深度合作的伙伴关系,先后与南方电网签订了外部数据统一接入管理、企业搜索、人工智能平台自然语言处理组件和融媒体共享数字平台等项目的合作协议,全力协助南方电网提升核心架构的自主研发水平,为业务数字化创新提供高效数据及一体化服务支撑。
 
• 企业搜索项目
企业搜索项目一期建设了全网集中统一入口的搜索引擎,通过采用成熟稳定的大数据技术架构,融合业界先进的搜索引擎技术,以云数一体模式统一部署,对南方电网公司全域数据逐步开展统一接入,对多源异构数据开展统一存储,对数据仓库模型开展统一设计,对数据分析应用提供统一支撑,充分挖掘公司全业务数据价值,通过数字化技术的融合应用,落实公司数字化转型目标。
配图来源于网络
 
• 自然语言处理组件项目
该项目利用拓尔思自研的自然语言技术,为南方电网公司构建自然语言处理应用组件,形成公司自然语言处理应用组件接入规范,支撑公司总部及下属9个分子公司各业务领域人工智能的研究与创新应用,通过与人工智能平台集成输出自然语言处理接口,并提供二次开发能力和扩展能力,为业务应用提供各项自然语言处理服务。
 
通过本项目,拓尔思为南方电网用户提供基于深度学习框架的多模型训练工具,以及一站式模型训练和研发能力,解决以往人工智能应用算力资源缺乏、算法积累不足、数据样本分散等问题。
 
该项目将完成自然语言处理服务组件的部署、无缝接入人工智能平台为外部应用提供统一的接口服务,构建集中、开放、共享的人工智能组件服务体系。同时,实现标注和训练工具(含训练算法和测试语料包)与人工智能平台的无缝接入,对外提供统一的语义训练环境。
 
• 融媒体共享数字平台
融媒体共享数字平台定位为南方电网公司新闻宣传领域的生产调度指挥中心,主要面向南方电网全系统,以数据为核心重构南方电网新闻业务流程,融合报、刊、网、端、微、视等多渠道内容,实现“策、采、编、发、评”全流程一体化运作,支持形成南网总部、分子公司、地市及县级供电局多层级、一体化、多租户的媒体融合一张网。
 
在媒体业务生产方面,该项目利用自然语言处理、音视频内容分析、知识图谱等人工智能前沿技术,为资源匹配、素材整合、稿件撰写、投稿发布等稿件创作环节提供智能辅助写作工具,辅助用户进行稿件生产创作,大大提高用户的稿件创作效率,将智能写作效率与人工的创造性、深度性相结合,打造人机协作的内容生产平台。
 
该项目一期建设主要依托信息提取等NLP技术,实现了资源匹配、敏感词检验、自动标签、背景识别等功能。二期将继续扩展辅助写作工具集,利用行业语料库,构建针对电力行业的深度学习模型,完善智能审校和质量检测等功能。
 
同时聚焦标签体系的设计和利用,基于拓尔思在事件分析和语义检索方面的技术研究进展,构建行业主题图谱,优化资源检索和推荐,并将其延展到选题策划,逐步实现业务生产的全流程智能化。
 
04结语
拓尔思(300229),2011 年 6 月在创业板上市,是拥有自主核心技术的人工智能、大数据技术和数据服务提供商,成立以来,一直围绕自然语言处理,以语义智能为技术主线,研发相关人工智能、大数据和内容管理技术,并将语义智能技术和重点行业市场相结合,获得业内广泛认可。作为国家规划布局内的重点软件企业和国家级的高新技术企业,拓尔思将继续坚持语义智能技术的研发和应用,以人工智能和大数据技术赋能用户的数字化转型。