300229 拓尔思
201011-10
创新的企业搜索平台TRS Database Server 6.8 发布
发布时间:2010 -11-10
分享至:
分享

        日前, TRS Database Server 的全新版本6.8对外发布。TRS Database Server系列产品作为为企业提供搜索功能的数据库搜索引擎软件,其具有的在海量全文信息中快速、准确查找所需信息的强大功能一直广受用户的好评。


        创新的TRS Database Server 6.8融合了目前最新的检索技术,多方面均衡了各种相关度排序因素,将为用户带去更准、更快的检索体验。


        企业搜索面临的问题


        这是一个信息爆炸的时代,人们对快速、方便、准确的获取到自己需要的信息的要求也越来越高,信息检索在我们的工作和生活中变得越来越不可或缺。如何从海量数据中迅速获得用户最需要的信息,成为迫切需要解决的问题。因此,在企业的大量信息面前,我们需要一个检索工具,人们对这个工具的要求可以用很简单的两个词来形容:快速、准确。


        快速就是要在海量数据库中,检索一个主题的返回时间要尽可能小。随着信息量的不断增加,对于快速的要求越来越高,容忍度基本上在几百毫秒以内。


       准确就是在非常多的检索结果中,要将最相关的那几条排在前几位。


       而就是这样简单的两个词,成为摆在搜索引擎面前的最大难题。


        快速准确 –TRS Database Server 6.8 的目标


        TRS Database Server系列产品是TRS公司一直以来专注开发的核心产品,多年来在合作伙伴们的支持下,得到快速发展并越来越成熟。6.8版本作为TRS新近推出的升级版检索引擎,特点就是快速、准确。

        快速:除了从索引和检索技术上不断进步, 6.8版本还从策略上来尽可能保证检索返回的速度。为此提供了“快速返回”的机制,使得检索动作不必执行完,即可将部分结果返回给用户,从而省略了很多不必要的工作,让“检索响应时间与数据量没有直接关系”成为可能。

        准确:无论命中多少数据,请将我最需要的那10 条数据列在最前面,这样我可以忽略其他结果,只要关注第一页所返回的 10 条即可。而这对于一个只会计算的机器,是非常难以实现的。TRS Database Server 6.8改进了算法,对各种重要性影响因子科学合理加权,综合考虑各种因素的影响(包括词频、命中覆盖率、标题的重要性、词的区别、词之间的距离和顺序等等因素),得到一个合理的相关度值,来实现用户对于“准确”的要求。


        脚踏实地,不断创新


         TRS Database Server 6.8在保持原有技术优势的同时,不断探索新的功能和应用,为用户提供更好的检索体验。


        全新索引策略,提升检索速度


         TRS Database Server 6.8对索引策略做了调整,从索引的角度来改善检索的响应速度。当进行相关度排序、只提取前N个命中数据、检索词为多个时,例如:北京 * 上海 * 中国 * 人民 * 历史,新索引结构可明显地提升检索性能。


        支持快速返回和估算检索,检索结果更新更准


        我们在进行新闻类数据的检索时,经常有这样一种期望:我只希望得到最近一段时间发生的与我所提供的检索词最相关的新闻。而三年前发生的事情,就算是十分相关,也并不是我所期待的。TRS Database Server 6.8所提供的快速返回和逻辑分段检索就是为实现这样的功能而提供的。


        实体词自动识别,增强检索精确度


        当用户给出检索词是一个长句子时,其中的虚词不应该参与检索。例如“身份管理工作集中和简化”,其中的“和”便是一个虚词,不应该参与检索。TRS Database Server 6.8继承了TRS CKM 模块,将其中的虚词自动去掉,有效减少了对检索精确度的影响。


        支持拼音/笔画排序,检索范围更加广泛


        TRS Database Server 6.8除了支持内码排序,还提供了以汉语拼音和汉字笔画为基础的中文排序方法,并且支持多音字的分辨。拼音排序:系统自动对汉字进行注音(支持多音字分辨),按汉字的拼音序进行排序;笔画排序:系统自动识别汉字的笔画数,按汉字的笔画数进行排序。如果两个汉字的笔画数相同,则比较拼音序。


        英文同根词检索,满足多种需求


        TRS Database Server 6.8支持英文的同根词检索,即检索英文词“bug”时,应能检索出包含“bugs”的记录。以前在指定“同根词”的方式有限制,无法两全,有时同一个数据库既要求某一场景下实现词根区别检索(即检索“looks”时,不希望检索出“looked”),又要在另一场景下实现不区别词根(即检索“looks”时,希望同时检索出“looked”)。6.8 版本所提供的“英文同根词检索”功能就可以突破这种矛盾,实现同一数据库在不同场景下的需求。


        完善全面的相关度排序


        对命中记录的相关度计算过程是一个综合权衡的过程,算法中需要考虑到词频、命中覆盖率、标题的重要性、词的区别、词之间的距离和顺序等等。TRS Database Server 6.8通过对相关度排序中各种因素的综合考虑,从而大大提高检索的准确率。


         TRS Database Server 6.8作为领先业界的新一代企业搜索平台,将为企业搜索、垂直搜索、内容管理和知识管理等提供强大的全文检索和信息检索能力,并为广大用户带去更加完美的搜索体验。