300229 拓尔思
201811-02
CCL2018 | 载誉而归,我们的AI夺冠之旅
发布时间:2018 -11-02
分享至:
分享
10月31日下午,中共中央政治局就人工智能发展现状和趋势举行第九次集体学习。中共中央总书记习近平在主持学习时强调,人工智能是新一轮科技革命和产业变革的重要驱动力量,加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题。作为国内优秀的人工智能和大数据技术及数据服务提供商,拓尔思一直致力于人工智能和大数据核心尖端技术的研发工作。
 
就在前不久召开的CCL2018上,拓尔思AI技术团队捧回两座重量级奖杯——中文文本蕴含识别评测一等奖和中文幽默计算评测第一名,再次验证拓尔思在AI领域前沿技术研发的强劲实力,展现了高超的技术水平。本文将独家解密拓尔思在CCL2018的AI夺冠历程。
 
CCL2018·初体验
行业盛会,高手如云
CCL,即中国计算语言学大会,国内最大的自然语言处理领域社团组织——中国中文信息学会(CIPS)的旗舰会议。
 
CCL经过20余年的发展历程,已形成了十分广泛的学术影响,成为国内自然语言处理领域权威性最高、口碑最好、规模最大的学术会议。
 
2018年,CCL确定客服领域用户意图分类、中文隐喻识别与情感分析、中文文本蕴含识别、中文幽默计算以及中文机器阅读理解等五项评测任务比赛。吸引了清华大学、北京大学、百度、阿里巴巴等国内众多知名高校和IT公司总计451支队伍的参与。
 
面对国内一流大学和IT公司的技术大牛们,拓尔思技术团队将采取什么战略战术赢得这场比赛?
 
拓尔思如何在CCL2018评测中取胜?
面对高手如云的参赛选手,拓尔思人工智能技术团队,经过仔细分析,确定参加中文文本蕴含识别和中文幽默计算比赛,因为这两项任务与拓尔思研发中心当前所从事的人工智能技术研究,特别是自然语言处理技术研发密切相关。
 
拓尔思在中文文本蕴含识别评测中的绝杀
小知识:
中文文本蕴含识别(Recognizing Textual Entailment,RTE),也被称为自然语言推断(Natural Language Inference,NLI),是自然语言处理领域中的一项基础研究,也可以看作一种单向关系的识别问题。中文文本蕴含给定两个文本分别标记为T(Text)和H(Hypothesis),如果能从T推断出H为正确的话,则称T蕴含H。

准确来说,蕴含关系分三种:

1)T推出H为真,称T和H的关系为蕴含关系(Entailment)。如:T(穿红衬衫的男人和拿着白色袋子的女人正在交谈。)与H(两个人在交谈。)

2)T推出H为假,称T和H的关系为矛盾关系(Contradiction)。如:T(四名男子坐在屋里正在用笔记本电脑工作。)与H(四名男子正在打篮球。)

3)T和H没有任何关系,则称T和H的关系为中性关系(Neutral)。如:T(一个人站在人行道上,而其他人正在观看。)与H(一个男人为了钱而表演。)

中文文本蕴含识别可以很好地辅助自然语言处理的其他领域,具有丰富的应用场景:

在机器翻译领域,可以用来对比翻译的文本和标准答案之间的匹配程度,从而评价翻译质量;

在问答系统中,可以运用文本蕴含技术对语料库句子进行简单推理直接生成答案或对答案进行筛选排序进而提高回答的正确率;

在信息检索中,可以运用文本蕴含技术生成与检索词语相关的候选信息;

在文本摘要中,可以运用文本蕴含技术辅助精简文本;

中文文本蕴含识别还可以应用于句法分析评价、个人智能助理等领域。
 
中文文本蕴含识别评测标准是系统推理的准确度越高,评测得分越高,反之,则评测得分越低。
 
在这项任务的比赛前期,主办方发布语料的同时也发布两个baseline作为参考,并提供这两个参考模型在验证数据集上的准确率。
 
拓尔思技术团队拿到数据后,通过对数据的预处理和对baseline的研究,最终决定以深度学习中的卷积神经网络为基础来搭建自己的系统,在用卷积神经网络对文本提取特征的基础上,并结合多种特征匹配与融合的方法来完成比赛。
 
拓尔思在中文文本蕴含识别评测任务中最终排名第一,拿下了这项比赛的冠军。
 
拓尔思在中文幽默计算评测中的逆袭
小知识:
中文幽默计算旨在赋予计算机识别、生成幽默的能力,它涉及信息科学、认知语言学、心理学等多个学科的交叉,在人类语言的理解乃至世界文化的交流反面,都具有重要的理论和应用价值。

幽默无处不在,是我们日常生活中沟通交流的重要组成部分,也是人类智慧与创造力的结晶,能理解各种幽默形式,将在极大程度上提高人机交互系统的能力。由于幽默特征与主观因素关系密切,“可笑或有趣”对于不同的人具有不同的理解与诠释,即不同的幽默往往存在着不同的幽默等级。
 
中文幽默计算评测标准是系统对人类幽默语言的识别能力越强,评测得分越高,识别能力越低,得分越低。
 
比赛过程中,主办方只发布了训练数据,拓尔思技术团队通过对数据的预处理,根据数据的句式、语法等特征,最终决定先用深度学习中循环神经网络来构建基础模型,并检验效果以及在比赛中的排名情况。
 
拓尔思技术团队创造性地引入分层添加注意力机制,并且为了减少外界因子对模型的影响设置多种规则条件,通过训练多个模型和给各个模型赋予不同的权重进行合并以得到最终结果。
 
经过一系列的努力,最终,拓尔思在中文幽默计算评测中,排名第一,拿下了征战CCL2018的第二个冠军。
 
本次参赛CCL2018,拓尔思在人工智能自然语言处理技术测试中取得了双料冠军,充分验证了公司在人工智能领域前沿技术研发的雄厚实力,展现了领先的技术水平。
 
古人云“纸上得来终觉浅,绝知此事要躬行。”在实战中摸索,在实践中历练,在比赛中成长,拓尔思AI技术团队用实力和经验赢得了最后胜利,未来,我们预期还会取得更多成果,并不断转化为各行业落地的创新应用。