300229 拓尔思12.11 0.29 (2.34%)

新闻中心

自主创新 | TRS海贝大数据管理系统V9 正式发布

2022年02月14日

【字体:

2022年02月14日

拓尔思信息技术股份有限公司作为中文全文检索技术的开创者,一直致力于高性能搜索引擎的研发。早期开发的全文检索系统TRS Database Server曾获国家科技进步二等奖。随着大数据时代的到来,拓尔思创新研发了以检索为核心的TRS海贝大数据管理系统,一经推出就获得了市场的高度认可。


今天,海贝经历了多个版本的升级后,发布TRS海贝大数据管理系统V9.0版本。该系统吸收了拓尔思在信息检索和NLP领域多年的技术积累,不仅高效、安全,还集成了众多开源检索系统不具备的企业级功能,能够有效降低用户的系统建设成本、开发成本和运维成本。


01  面临的挑战


数字经济时代,数据已然成为组织机构能否数字化转型成功的关键。但伴随着大数据的蓬勃发展,我们却面临着以下诸多挑战:


非结构化数据爆发式增长

当下,非结构化数据已占据数据总量的90%,且保持高速增长,这导致大量数据因无法或来不及处理,而处于未被利用、价值不明的状态。随着数据资产越来越被重视,对非结构化数据处理的实时性和系统扩容的要求越来越高,因此能对非结构化数据等进行统一处理、能应用集群解决灵活扩展问题的大数据平台建设成为大势所趋。


服务器硬件不断升级

当前,服务器硬件升级快主要体现在CPU主频不断提高、核数不断增加;内存价格不断下降、单机内存容量越来越大;高性能SSD存储已经逐渐成为检索系统的标配,数据库作为数据处理的关键一环如何设计来充分发挥硬件的性能?


新技术不断涌现

面对各种新技术层出不穷的现状,例如:压缩算法:LZ4和Snappy、开源大数据技术:HDFS、MapReduce、Hbase…及虚拟化、内存计算,如何整合这些技术提高软件运行效率?


数据类型丰富多样

网络上数据类型繁多,不仅包括传统的格式化数据,还包括来自互联网的网络日志、视频、图片、地理位置等,如何对这些数据进行一体化处理,打破数据孤岛?


数据安全是重中之重

过去几年,数据库服务器被黑客入侵导致数据泄漏或删除的事件不断发生。大数据的不断快速增长,对数据的物理安全性要求越来越高,从而对数据的多副本与容灾机制也提出更高的要求,解决数据安全的机密性问题刻不容缓。


面对以上挑战,我们能够发现随着数字化、智能化时代的到来,数据存储并不是大数据发展的最终目的,存储数据是为了能更好的进行数据检索和数据分析,从而充分挖掘非结构化数据的价值。基于此,TRS海贝大数据管理系统V9作为安全、高效、专业的搜索引擎重磅发布。


02  六大产品亮点


单一分词实现跨语种检索

分词是检索系统的核心技术,虽然ES、Solr等开源检索系统针对大部分的语言也提供了不同的分词器。但是,海贝自带的TRS分词器,不仅可以支持中日韩等方块文字,也能处理英法德等拉丁语系,还可以处理藏文、蒙文、维文等少数民族语言,真正可以做到单一分词器处理全部语种,大大简化了系统的开发和运维工作。


这里以某专利项目为例,该项目收录了全球专利2.5亿条,包含中文专利、英文专利、日文专利等多国专利。如用Solr或ElasticSearch等开源项目去构建,则需要针对每个语种分别加工,分别入库,分别检索。那么,无论是在数据处理、应用开发还是在后期的运维,工作量都将随着语种的增加而成倍增长。而采用海贝大数据管理系统的知识产权大数据与智慧服务系统仅用一个数据库就可以处理全部语种。


自主可控的创新技术确保数据安全

海贝从设计之初就非常重视数据安全,系统采用多副本机制解决数据的可用性问题,通过数据校验以及WAL技术解决数据的完整性问题,通过完善的权限管理机制、HTTPS、加密存储等机制解决数据访问和数据存储的机密性问题。


海贝还具有其他同类产品不具备的独有安全特性,如用户隔离:系统支持用户数据的物理隔离和逻辑隔离,既可以解决多租户之间的访问安全,又可以防止用户之间相互影响,提高系统的可用性。


作为自主可控的国产化加密数据引擎,海贝支持数据与索引的完全加密,支持国产加密卡,金融级数据安全。


先进的性能实现最高效的大数据管理

目前,大部分的数据分析是通过各式各样的查询和统计来实现的,也就是说只要能够做到快速的查询和统计,就已经可以满足90%以上的数据分析业务。而以全文检索技术为核心构建的海贝,不仅能够做到全字段索引,支持任意维度的组合查询,在数据查询和分析的效率上,大大高于其他的大数据管理系统。同时,海贝引入了内存索引、列存储、索引分片等技术,进一步提高了数据存储、检索和分析的效率。


海贝自带的分时归档视图,不仅可以实现冷热数据自动分区,同时还支持多种存储混合使用以提供高效的检索服务;通过镜像数据库,用户可以通过简单的配置就实现读写分离、大小库以及访问隔离等,大大降低了数据加工和查询之间的CPU、内存、IO等冲突,避免了数据入库导致的检索卡顿问题;通过超大规模集群建设,降低系统架构资源消耗;通过对各类型服务器硬件的匹配支持,能够充分发挥出硬件的优良性能。


专业的非结构化数据及跨数据类型检索

海贝大数据管理系统不仅吸收了拓尔思在信息检索和NLP领域多年的积累,还集成了众多开源检索系统不具备的企业级功能,能够有效降低用户的系统建设成本、开发成本和运维成本。


另外,在检索能力方面,经过研发团队的不断努力,海贝已经不再是一个简单的文本检索系统,除了常规的数值、日期、文本类型、地理位置信息数据等,海贝还支持IP地址检索,二进制检索,以及图像特征检索等多种数据类型的检索。


智能的深度学习引擎提高网络空间治理能力

随着互联网审查的愈发严格,一些不法分子经常将一些敏感词转成同音词或同义词进行发布,或将非法文章通过图片的形式对外发布,企图躲避监管。针对这种情况,海贝集成了深度学习引擎,可以对图像中的文字进行OCR识别,也可以提取图像或文本的特征数据,通过基因编码存储到海贝数据库里,成功实现图像相似性检索功能。并配合拼音检索、同义词检索等功能,让不法分子无处遁形。


聚产品生态联接更多可能

海贝可以与拓尔思的各款产品进行深度应用集成,打造强大的数据服务能力。如在数据导入方面,对接TRS ETL、结合TRS CKM是数据加工流转利器;数据展现方面,对接TRS WAS,可以实现快速发布数据、RESTFUL接口、权限管理和流量控制;全新的数据监控系统,可进行数据监控、进程监控、服务监控、日志分析、安装部署等;数据分析方面,对接TRS水晶球分析师、TRS网察大数据分析平台和TRS海融智媒平台等形成行业应用解决方案,为用户提供便捷高效的服务。


03  典型行业应用


当前,TRS海贝大数据管理系统已经广泛应用于安全大数据、媒体大数据、政府大数据等众多细分行业,公安部、新华社、市场监督管理局、海关总署、专利局、商标局等一系列重量级客户都选择了海贝产品;国家重大基础数据库,如企业信用信息公示系统、专利检索系统等都构建在TRS海贝大数据管理系统之上。


某网安项目:数据量巨大、数据类型丰富,单集群每日新增数据超过60亿

该项目采用海贝大数据管理系统用于网络数据安全管理,特点主要为集群规模大,单集群从数十个节点到数百个节点不等;数据量巨大,单集群每日新增数据超过60亿,每天处理超过20T数据,总记录数超过万亿,存储总数据量PB级别;项目分布范围广,已经在全国多个省市展开。项目经过一段时间的运行,在多个同类产品对比中,用户对海贝大数据管理系统赞不绝口。


某项目:超大规模集群,大大降低资源消耗

在某项目系统建设中,单集群的服务器数量达到了600台。众所周知,在分布式系统里,单集群机器的数量越多,系统在机器之间协调通讯的工作也就会成倍增长。我们通过架构的调整和系统的优化,大大降低了这部分的资源消耗,让超大规模集群成为了可能。


信用中国项目:并发访问量大,日检索量突破10亿

“信用中国”网站由国家发展改革委、人民银行指导,国家信息中心主办,是政府褒扬诚信、惩戒失信的总窗口。网站提供全国企业(一亿多家)信用信息、信用代码、以及相关站内文章的公开查询服务。2018年底“信用中国”的搜索服务迁移到TRS海贝大数据管理平台。在信用中国项目中,海贝单集群日检索量突破10亿。其中,单台服务器的每秒并发检索突破1K。


人工智能和大数据的探索之旅没有终点

拓尔思始终不断突破

用创新与坚持去释放海量非结构化数据潜能

打开别有洞天之门,奔向星辰大海

服务热线:4006 300229

010-64848899

trs@trs.com.cn

complaint@trs.com.cn

©️拓尔思信息技术股份有限公司 版权所有 京ICP备11022871号-7