过去在科技情报领域有一个术语——文献分析(情报分析的一种),它处理的也是非结构化数据,采用的主要方法是检索。可今天,这种检索方式已经远远不能满足用户的需求,于是文本挖掘技术逐步发展起来,它也被称为“文本驱动的商业智能”。
文本挖掘技术涵盖的功能很多,如:自动分类、自动文摘、自动排重、自动聚类和信息抽取等,自动分类、自动文摘、自动排重已大量应用于企业竞争情报信息“初加工”中,信息聚类和信息抽取也逐步应用到情报的可视化分析中。
如TRS 最新推出的CIS3.1产品,通过聚类技术与搜索的结合给我们提供了更好的产品体验,我们提交检索请求后,CIS自动地将检索结果,根据各情报文档的特征进行聚类,并以图形化的形式展现出来。这样我们可以概览每类文章的主题词,符合个人搜索目标的一些文档,再进去具体的某个类别中浏览检索结果。这种方式,可以协助情报分布人员从杂乱无章的数据结构中,挖掘一些规律和相关的文档。
相对于文本聚类,信息抽取更加偏向于“定量分析”,具有更强的实用性,通俗的讲信息抽取技术就是面向海量的非结构化文档信息,通过信息抽取技术完成从非结构信息到结构化数据的飞跃,促使知识精细化、条目化,并通过建立关联发现事物发展的趋势。例如从公安领域文本中抽取相关案件情况:案件名称、案件时间、案件地点、作案者、受害者等;从经济新闻中抽取出公司发布新产品的情况:公司名称、产品名称、发布时间、产品性能等。
无论那一种文本挖掘技术,都要强调和具体业务的紧密结合,否则在实际工作中发挥不了实质性的作用,如:自动分类需要用户积累行业分类关键词和素材,可视化分析技术(自动聚类和信息抽取)更强调与具体的行业应用环境和应用分析模型的结合。同时,在目前发展阶段,情报分析主体是“人”,过度依赖智能技术,注定会导致情报工作的失败。 |