300229 拓尔思
202306-05
百模大战中,高质量数据才是大模型价值跃迁的制胜法宝
发布时间:2023 -06-05
分享至:
分享

自2022年11月ChatGPT发布以来,国内大模型如雨后春笋般,层出不穷。据智东西统计,截止至2023年5月29日,国内至少有55个类GPT大模型已经推出或马上面世。互联网/云服务大厂、AI企业、传统行业公司、大数据公司以及算法公司几乎全部入局。

 

在这场百模大战中,大模型的发展已从“通用”迈入“垂类”。

 

一、垂类大模型加速发展对数据服务能力带来新挑战

从演进路径上看,垂类模型是在通用大模型基础上训练而来的。垂类模型强调垂直领域的Know-How,需要增强该领域的知识数据以及针对特定任务的微调。行业不同,场景不同,指令微调的区别也极大。比如传媒更关注新闻生产的真实性、实时性及知识服务的内容安全、主流意识形态;金融领域更关注风控、可信以及研报生成的效果等。因此,垂类大模型对数据的权威性、质量、规模、多样性、及时性、安全性等要求提出了更高的挑战。例如,要求领域知识具有权威性;在质量方面,要求能够提高模型精度与可解释性,帮助减少收敛到最优解的时间,即减少训练时长;在规模方面,要求保证质量的前提下,训练数据量越大,大模型的推理能力就越强;在多样性方面,要求训练数据集尽可能丰富、全面,能够提高模型泛化能力,过于单一的数据会非常容易让模型过于拟合训练数据;在及时性方面,要求实时更新的数据尽快得到利用;在安全性方面,绝大部分机构是要本地化部署,以避免类似三星使用ChatGPT遭遇商业泄密事件的再次发生,同时还要考虑数据分级与合规。

 

二、高质量数据是大模型不断优化的稀缺要素

在大模型“百花齐放”的背景下,民生证券在研报中指出,“单纯发布一个大模型的门槛没有市场想象中的那么高”,“有大模型不难,难的是有一个能持续迭代,性能不断提升的优质大模型”。一些观点也提到,高质量数据才是垂大模型发展的稀缺要素:

 

●  训练大模型需要高质量、大规模、多样性的数据集。

 

●  优质中文数据集稀缺,数字中国战略将促进数据要素市场完善,助力数据集发展。近期欧洲议会议员《人工智能法案》提案、网信办《生成式人工智能服务管理办法(征求意见稿)》、《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》对大模型训练数据的版权披露、合法性、高质量数据要素供给提出要求。 

 

我们常见的数据质量评估维度有规范性、完整性、准确性、一致性、时效性和可访问性。什么样的数据才是高质量数据?我们先通过AI会话场景来简单了解一下,高质量的数据都具备哪些特点。

 

问题要求

问题上下文表达尽量清晰明确,不要有歧义,做好场景,角色等多方面的考虑和设定。

 

答案要求: 

(1)相关性:回答是否和问题相关,避免答非所问。

(2)准确性:是否准确,事实性回答要求完全一致,开放性问答要求语义相近。

(3)完备性:是否涵盖了所有要点、有总结、有分析、有扩展等。

(4)连贯性:是否表达流畅、有条理、有逻辑性。

(5)安全性:是否包含粗鲁、侮辱性等词汇。

(6)专业性:不口水话,不啰嗦,书面用语,专业表达。

(7)敏感性:是否涉及到国家领导人、政治领域、党政领域、敏感事件等负面信息。

 

不同用户在不同场景下对数据服务的要求是不同的。我们认为数据质量水平高低取决于使用数据的场景和数据消费者的需求。如果数据满足数据消费者应用需求的目的就是高质量的;反之,如果不满足消费者应用需求的目的,就是低质量的。

 

三、拓尔思千亿级优质另类数据助力垂类大模型实现价值跃迁

——海量全域公开实时数据,赋能垂类大模型高质量训练

目前,拓尔思拥有规模及质量均位列业界前茅的网络公开数据,具有以下高质量特点:

 

01  全

●  数据规模大:数据总量超1500亿。

●  采集范围全:覆盖1100+家数字报,40万+境内网站采集点,3000+APP客户端,涵盖微信公众号、微博账号、头条号、百家号、企鹅号、抖音号、快手号、视频号、梨视频等数十个第三方平台,采集渠道覆盖网站、微信、微博、头条、抖音、快手、小红书等主流信息发布与传播渠道。

●  数据类型多:采集类型包含文字、图片、音视频等多种模态数据。

●  数据积累期长:重点数据可回溯达10年以上。


02  准

●  信源权威可靠:重点数据主要采集主流官方机构可公开访问的数据,涵盖各级政府部门、主流媒体、出版社等,这些机构所有对外公开的信息均严格履行“三审三校”制度。所有采集源由人工整理配置,保证了数据源头的“纯净”和完整性。

●  内容价值观对齐:采用专家规范化标引+机器自动标引相结合的方式,对采集的内容资讯进行“精加工”,包括低噪、去重、数据结构化、数据归一化、内容标签化、属性知识化、安全合规核查等,实现数据与主流价值观对齐。

●  专业领域知识:配备了专家级的知识标引团队,对行业知识进行梳理。积累了30+领域知识库、31000+知识标引规则,保证数据标签的多维度和精准度,更适配高信源数据在各行业领域的应用场景。利用NLP技术实现内容智能化标引的核心功能,保证数据全部具备智能化知识属性,为行业应用夯实基础数据。 

 

03  新

重点数据源分钟级更新数据,日均采集增长过亿条。

 

千亿规模的高质量数据可帮助垂类大模型实现中文特性增强,也可显著提升在媒体、政务、金融、舆情等专业领域方面的上下文和生成连续文本的能力。不仅可用于拓尔思自研的拓天大模型在媒体、政务、金融三个领域的基础知识注入,也可为其他广大的MaaS服务商提供训练数据集服务。

 

所有公开采集的数据经过加工处理后,被推送到三大数据资产平台(数家-媒体资讯、网察-舆情、数星-产业大脑),通过不同专业模型转化成不同领域的知识数据,实现数据从资源性到经营性的数据资产变现。

 

——高质量另类数据与专业数据融合,与用户开启共创模式

大模型训练需要优质且合法的数据资源,而新闻单位、传媒出版业作为版权保护要求严密的内容生产行业,其文本数据资源无疑具备稀缺性。

 

在媒体领域,对于媒体领域的编辑、记者来说,一篇好文章是需要通过深入调研、持续求证才能获得的,而媒体自身的新闻数据库和历史资料库就是其中可求证的重要途径之一。实际工作中,由于一个主题的内容可能分布在不同系统,且以文字、语音、视频等不同的内容形式呈现,资料收集过程需要耗费大量时间。我们可基于自身的网络媒体资讯数据能力、垂类大模型能力与媒体用户合作,将媒体的新闻数据库和历史资料录入大模型做预训练,基于高针对性交互,形成权威且高效的内容输出,打造供媒体内部使用的知识型搜索引擎。知识搜索引擎可实现对媒体资料库的高维搜索,承担采访助手、辅助创作的角色。如找出与习近平总书记谈读书相关的报道或者总书记讲话、文稿资料,并把相关句子段落整理到一个文档里,知识搜索引擎可自动整理相关内容给予完整呈现,为编辑人员提供充分的信息输入。不久前,拓尔思与人民日报社已经深入探索了共创人民专属大模型落地应用的有关问题。同时公司也已经与传播大脑公司签署了关于共同打造领先媒体行业大模型及应用生态的战略合作协议。

 

在传媒出版领域,拓尔思长期服务了人民出版社、人民教育出版社、知识产权出版社、化学工业出版社等23家出版单位,主要为传媒出版用户提供大数据资源管理、知识图谱等技术服务。各家出版社主攻的内容细分赛道不一样,但都积累了很多各自领域的优质稀缺资产。大多数出版社不具备自己训练垂类大模型的技术与资源,若把这些信息数据交给MaaS服务商去训练,又担心这些数据被获取后,因数据泄露,削弱了出版公司的核心内容价值。拓尔思公司正是出版业理想的合作伙伴,一是信赖,双方建立了长期友好的伙伴关系,项目成功,合作愉快;二是熟悉,拓尔思承建的大数据资源管理、知识图谱等平台正是出版业运行优质稀缺数据资产的主要系统,熟悉出版业IT环境与数据特点;三是安全,拓尔思有自主研发的拓天专业大模型,支持私有化部署,并且支持信创,做了中文特性加强、内容安全、价值观对齐等训练;四是互补,出版业拥有各自内容细分的独特领域数据,拓尔思拥有媒体资讯数据、产业数据、政策数据、企业数据、舆情数据、风控数据等全域另类数据,这两类数据按不同专业维度进行融合训练就可以打造出不同专业领域的垂直类知识助手;五是共赢,为保护双方各自利益,并发挥各自所长,双方共同打造的垂类知识助手以合作分成的方式进行联合共创运营,可面向不同行业的从业人员、高校师生、研究机构、产业链企业等提供专业的付费知识服务。目前,拓尔思正在和数家合作出版用户积极推进联合共创垂类知识大模型的事宜。

 

面向人工智能历史新机遇,拓尔思作为国内领先的人工智能、大数据和数据安全产品及服务提供商,将为产业界提供更全面更优质的数智赋能服务,持续助推人工智能数据领域高质量发展,助力数字经济腾飞。