"智能短信问系统"的主要功能是向手机和小灵通用户提供短信查询服务,用户通过发送口语化的短信内容到智能短信服务系统,系统通过语义分析用户的短信内容,按照预先制定的业务流程与用户进行交互式问答,确认用户需求,最后通过检索系统搜索后台信息数据库后,提供相应的反馈信息。
随着移动通信技术的飞速发展和手机各种业务的普及,移动运营商和广大用户对于短信问答这一新型业务都充满了浓厚的兴趣。目前,3G网络的建设以及第三代移动通信技术在中国全面铺开,智能短信问答等业务系统将会发挥越来越大的作用。据某移动增值服务公司的相关数据显示,用户使用智能短信问答系统的目的主要有两方面:一是查询实用资讯,例如餐饮信息、交通出行等信息;二是倾诉心声,解决心理诉求,例如询问如何解决工作和婚恋中遇到的一些问题。
从用户愿意使用短信问答来查询一些生活中常见的问题,我们可以看出智能短信问答系统具有较好的市场应用前景.但另一方面我们也看到,要解决用户的这些需求,智能短信问答系统的建设还面临很大的挑战,主要体现在以下几方面:
※ 用户的提问五花八门,涉及的领域多种多样,如何开发和维护一个知识库系统,满足用户的各种查询需求?由于单一的知识库无法满足用户的需求,因此,必须考虑互联网这一知识库。
※ 由于短信输入方式的限制,用户的提问比较简单和口语化,如何将用户的口语化输入转化为准确而有效的数据库查询?
※ 由于目前技术水平的限制,包括知识库的规模以及智能处理的局限性,总有一部分短信问题得不到满意的回答,如何处理这种情况,提高用户的满意度?
TRS智能短信问答系统
知识库的构建
考虑到短信用户的查询目的多种多样,系统采用了用户自有数据与互联网数据相结合的方法,以有效解决知识库的构建问题:
※ 电信公司的114系统有一个庞大的电话号码和地址数据库,这是一个非常有效的知识库,可以满足用户的很多查询请求。
※ 使用TRS公司的互联网信息采集工具——TRS网络信息雷达系统(TRS InfoRadar)从互联网上采集各个地区的餐饮、天气、交通出行、旅游等信息,然后形成结构化数据存储到数据库中。这种方法,可以针对各个具体领域,分别构造领域知识库。
※ 通过TRS InfoRadar从百度知道、新浪爱问、雅虎知识堂、腾讯问问等地采集用户常用的问题集,形成一个较为宽泛的多领域知识库。
※ 通过专门渠道获取飞机和火车班次、公交换乘的准确信息,构建一个较为准确的交通信息数据库。
通过以上手段,TRS能够构建出一个多领域的、可持续更新的知识库,该知识库可以满足大多数短信用户的查询请求。
短信查询处理

问题场景分类
系统接到用户短信后,首先分析用户的查询意图,是要查询餐饮信息、飞机或火车班次、公交换乘,还是其他领域的信息,然后根据需求将用户的提问归入不同的类别,从而能够针对不同的问题类型给出不同类型的答案。简单地说,就是确定问题场景。
这种将问题按照餐饮、娱乐、住宿等主题进行分类的方法,可以减小系统的搜索范围,有效地去除噪声答案的干扰,从而进一步提高答案的准确性。
问题场景分类主要是在一定规模的问题库上通过基于自动分类的机器学习方法实现,其主要步骤包括:
首先,收集和整理用户短信问题的集合,标注问题类别,形成问题库。
然后,通过机器学习方法,学习问题分类知识,得到问题分类模板。
最后,可以根据问题分类模板对实际的问题进行查询场景分类。
该问题库可以随着系统运营,根据实际用户的短信查询,不断丰富和积累。
问题转换为检索表达式
由于短信息的输入方式所限,用户提出的问题是采用自然语言的表达方式,而且非常口语化,检索时如果检索系统直接利用自然语言的问题进行输入,往往无法找到相关文档,因此在短信问答系统中需要将自然语言表述的问题转换为检索表达式,目的是为了将自然语言表述的问题转换为检索系统所能识别的检索关键词。
※ 转换方式1:基于问题模式匹配的方法
判断用户的问题是否满足特定的问题模式,如果满足则直接根据问题模式生成检索表达式。例如:亚运村 烤鸭店(问题模式仿照生活搜索引擎的输入模式,前面输入地点,后面输入关键词。);亚运村附近的烤鸭店有哪些?(问题模式为:某某地点附近的某某机构有哪些?)。这两种模式,均可提取出检索关键词:亚运村(地点),烤鸭店(机构名)。
※ 转换方式2:基于关键词抽取的方法
在问题转换为检索式过程中,主要采用分词、命名实体识别等技术,去除停用词,抽取出问题中有意义的词汇(地点,单位名称等),形成检索表达式。例如:鸟巢附近的西餐厅有哪些?经过关键词抽取后,得到如下关键词:鸟巢(地点),西餐厅(机构名)。
关键词扩展
在检索结果中某些词常常不是原来问题的关键词,而是这些关键词的同义扩展。例如:用户查询“烧烤店”,答案包括:“烤肉店、烤翅、烤鱼、烧烤店、串吧”等。如果直接用问题关键词检索,就会造成关键词查询失败,因此需要对关键词做适当的扩展。
关键词扩展虽然提高了系统的召回率,但如果扩展不适当会极大地损害检索的正确率,因此必须对关键词的扩展有严格的限制。本系统采用了两种方式对关键词进行扩展,一种是同义词扩展,另外是根据问题类型扩展。
※ 同义词扩展:
同义词扩展一般只对名词进行扩展(例如“火锅”可以扩展为“涮肉”),和意义用法完全相同的词汇进行扩展,这样出现歧义的可能性会很小。
我们把两部语义词典<知网>和<同义词词林>合到一起,构造了一部更完整的语义词典,使用这部词典来进行同义词扩展。未来还可以根据实际情况,使用领域词条对该词典进行完善和补充,构造一部适合短信问答应用的领域语义词典(Ontology)。
※ 问题类型扩展:
问题类型扩展就需要根据问题类型制定不同的扩展规则,如查询餐饮信息,就需要在检索条件中增加一个领域限制,如“领域=餐饮”,限制用户的查询范围为餐饮数据库,这样也可以提高检索的精度。
※ 检索排序及检索结果输出
系统生成检索表达式后,将检索表达式提交TRS Server(信息检索服务器)。TRS Server支持基于内容的相关度排序,把与检索表达式最相关的检索结果排前,不相关的检索结果排后。得到检索结果后,系统选择相关度值最高的两个结果,生成短信答案,确保答案结果不超过70个汉字的短信长度限制。
交互式设计
本系统设计了如下场景的交互设计:当提取关键词语进行检索后的结果集过大,或者用户发送的短信所能提取出来的关键词语过少,系统则根据预先设定的规则,通过场景问答模式(发送问题,用户回复)获取更多的检索关键词,最终缩小检索结果。
结果集过大
提示用户缩小检索范围。首先判断用户的问题场景(餐饮、旅游......),然后再确定抽取的关键词语中是否有该场景查询所必须的餐饮类别,地点、价位等关键词,如果缺少这些词语,根据预设的问题场景,不断提问,帮助用户缩小检索范围。
检索集过小
使用同音检索技术对用户输入进行纠错,提示用户正确的输入词。如果判断不出用户的问题场景,则询问用户正确的查询意图。
其他处理
对于用户在一条短信里同时询问了多个问题的情况,本系统进行如下处理:识别用户是否询问了多个问题(这里限制用户在一条短信里最多问两个问题);对用户输入的问题进行切分,切成多个问题后单独进行处理。
TRS智能短信问答系统为TRS开拓移动通信领域提供了技术保障,相信不久的将来,以这些技术为依托的成熟产品将走向市场。 |