300229 拓尔思
202204-06
中国数字出版博览会|拓尔思语义智能助力文化大数据资源建设
发布时间:2022 -04-06
分享至:
分享

近日,第十一届中国数字出版博览会在北京国家会议中心举行。本届数博会以“落实数字化战略 开启十四五新篇”为主题,由国家新闻出版署与北京市人民政府共同指导,中国新闻出版研究院与北京市新闻出版局、中国邮政集团有限公司报刊发行局联合主办。线下60多家、线上300多家书报刊出版机构、数字技术服务、数字内容服务机构、技术企业和相关展商参展。

作为数字经济时代国内语义智能的领航者,拓尔思信息技术股份有限公司受邀参加数博会重要平行论坛“2021数字资源建设高峰论坛”,并向与会代表分享了拓尔思在赋能数字文化产业不断创新、推进文化产业加快发展方面的技术理念;及推动出版和文博行业信息化、网络化、数字化、智能化发展的相关解决方案。

 

会上,拓尔思行业销售总监白涛以《语义智能助力文化大数据资源建设》为题发表主题演讲。他表示,拓尔思应用一系列先进技术为数字资源建设赋能。

拓尔思的OCR技术能让文字识别去场景化,如污损文字、手写体、表格文字等均能被准确识别。拓尔思的NLP技术能让文本处理智能化,在知识加工、知识发现中有着重要的价值。例如,智能比对技术帮助人民出版社的用户将“拟引用的文章片段”与“经典著作中的原文”进行比对,错误一目了然,原文一键复制;机器写作技术可完成专利说明书的自动概述和标题重构;图像识别技术帮助知识产权出版社的用户对外观专利和近似商标进行检索。


拓尔思的ETL技术能让文本加工流程化,文件抽取、格式解析、数据清洗、校验、转换等工作都已预置在软件功能中,即使面对PB级海量、复杂的数据处理工作,用户也只需通过拖拽即可像搭积木一样构建“数据处理流水线”。另外,拓尔思的RPA技术能让数字劳动机器化,知识图谱技术能让隐形知识显性化等等,这些技术在数字资源建设中发挥着重要的作用。


数字资源建设的趋势之一是围绕特定的业务场景、对文本数据进行深度的加工。拓尔思的AI数据中台堪称最佳实践。它由基础数据平台、知识模型平台和知识生产平台三部分组成。通过将文本数据结构化、数值化、信号化和图谱化,使满足条件的文本规模不断缩小,文本精准性不断提高。目前,该平台已在金融风控、消费者投诉、智能招商等领域得到了成功的应用。


当前正处在人工智能带来的数字科技革命的展开期,借助语义智能技术将沉睡在数字资源中的人类经验规模化,把它变成“最小输入、最准输出、场景导引、结果直给”的服务,对于出版社是门大生意,对于图书馆和博物馆是门大事业。在此过程中,拓尔思将进一步发挥自己的优势,助力出版和文博行业成功实现数字化转型。