- 发布时间:2022 -03-25
20多天前东欧大地上的一场战争,在科技领域再一次掀起了新一轮欧美制裁潮。其中最让人意想不到的是有媒体报道,在号称“开源无国界“的开源社区中,世界第一开源软件平台GitHub正在考虑限制俄罗斯软件开发者访问开源软件源代码储存库。
在大众认知里,开源是无国界的、是自由使用的。但深入探究就会发现,开源协议仍然存在而且内含部分限制,比如禁止受制裁国家的居民使用免费贴出的代码等。当前,世界范围内许多国家和企业的软件平台都是基于开源代码搭建,这些代码又大多来自欧美企业,一旦出现被限制使用的情况,后果不堪设想。
这次的GitHub风波将开源软件的自由使用及安全问题推到了风口浪尖,也让我们再次深刻意识到软件国产化的重要性,特别是作为软件行业基石的数据库软件的国产替代尤为重要。相比于关系数据库国产化百花齐放的局面,数据库的另外一个重要分支“全文检索数据库”(也称搜索引擎)的现状也非常值得关注。
全文检索数据库是以倒排索引为核心构建的新一代数据库。经过几十年的发展,当前,全文检索技术已演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的复合技术。尤其进入大数据时代,全文检索数据库作为数据库的一个重要分支,凭借在数据查询效率方面的优势使其在数据处理方面的地位越来越高,如果其一旦出现问题,将会为我国数字经济发展带来诸多不确定因素。
那么,当下我国全文检索数据库的现状到底如何?全文检索数据库实现国产化替代是杞人忧天还是未雨绸缪?这里我们不妨对其真实面貌进行梳理。
全文检索数据库应用扫描
当今的全文检索数据库市场,基本上处于开源软件ElasticSearch一家独大的局面。Elasticsearch是一款基于Lucene的搜索服务器,可以提供分布式多用户能力的全文搜索引擎。ElasticSearch自发布以来,凭借高效的性能,开放的架构,以及开源免费的商业模式迅速占领了全文检索的市场。目前国内外很多企业已放弃自主研发全文检索数据库,逐渐转投ElasticSearch阵营,而还在坚持全文检索数据库自主研发并保持技术领先的企业凤毛麟角。
安全问题不可小觑
随着ElasticSearch的市场占有率越来越高,暴露出的安全问题也逐渐增多。2019年底发生的用户隐私泄漏事件,致使超过27亿个电邮地址(有10亿个密码是简单的明文)被盗,其中不乏我国的互联网大牌供应商;2020年初,又爆出黑客入侵超过1.5W台ElasticSearch服务器事件,以上问题对用户信息安全造成了极大的威胁。
专业的检索能力是王道
数字时代,数据检索在数据管理中的重要性大大提高,没有高效的检索,大数据几乎无法可用;没有准确的检索,大数据的分析挖掘手段也难以施展;特别是互联网搜索引擎普及应用以后,在一个基于大数据的应用系统里,没有便捷的搜索引擎更是无法想象的。从原理上讲,作为一款大数据管理系统,数据存储并不是目的,存储数据的目的是通过数据分析来挖掘数据价值。
不可否认,ElasticSearch是一款非常优秀的搜索引擎,它拥有开放的架构和灵活的接口,但因其主要侧重大众市场,所以产品功能在某些方面存在一定的局限。其一,在数据规模要求较高的应用中,会随着集群规模的不断变大而集群效率大大降低;其二,由于定位于通用检索,因此在特定领域缺乏专业功能,如中文检索中常用到的段、句、位检索等;其三,缺乏在企业级应用中常用的多租户、读写分离、冷热分区等功能。
国产替代势在必行
面对以上种种,我们不难发现,全文检索数据库的国产化替代势在必行。那么是否有一款国产全文数据库可以实现这种替代呢?答案是肯定的。
人工智能和大数据上市公司拓尔思信息技术股份有限公司推出的TRS海贝大数据管理系统就是一款从内核到系统完全国产自研的全文检索数据库,其定位为大数据应用支撑软件,为大数据应用提供高效的数据存储、全文检索、分类统计等数据管理服务,支持几乎所有类型的数据,包括文本、数字、地理空间、图片等各种结构化、半结构化和非结构化数据。
拓尔思作为中文全文检索技术的创始者与引领者,早在上世纪90年代,就推出了第一代全文检索系统TRS Database Server,并服务于新华社、专利出版社等用户。随着大数据时代的到来,拓尔思又顺势推出了功能更加强大的TRS海贝大数据管理系统,服务用户已覆盖公安大数据、媒体大数据、政府大数据以及专利大数据等众多细分行业。
在安全方面,海贝从设计之初就非常重视数据安全,系统采用多副本机制解决数据的可用性问题,通过数据校验以及WAL技术解决数据的完整性问题,通过完善的权限管理机制、HTTPS、加密存储等机制解决数据访问和数据存储的机密性问题。海贝还具有其他同类产品不具备的独有安全特性,如用户隔离等。作为自主可控的国产化加密数据引擎,海贝支持数据与索引的完全加密,支持国产加密卡,金融级数据安全。同时,海贝还已完成与龙芯、海光、飞腾以及鲲鹏等国产芯片,中标麒麟、统信UOS等国产操作系统的适配工作。
在检索能力方面,海贝不仅能够做到全字段索引,支持任意维度的组合查询,在数据查询和分析的效率上,大大高于其他的大数据管理系统。同时,海贝引入了内存索引、列存储、索引分片等技术,进一步提高了数据存储、检索和分析的效率。海贝自带的分时归档视图,不仅可以实现冷热数据自动分区,同时还支持多种存储混合使用以提供高效的检索服务;通过镜像数据库,用户可以通过简单的配置就实现读写分离、大小库以及访问隔离等;通过超大规模集群建设,降低系统架构资源消耗;通过对各类型服务器硬件的匹配支持,能够充分发挥出硬件的优良性能。
世上没有免费的午餐,国家、行业、企业和个人都深知:“高水平科技自立自强”势在必行。目前,我国已有很多企事业单位启动了全文检索数据库的国产替代工作。这里就以提供全国企业(亿级)信用信息、信用代码、以及相关站内文章公开查询服务的“信用中国“网站为例,2018年底“信用中国”的搜索服务就由ElasticSearch迁移到TRS海贝大数据管理平台,当下“信用中国”已实现单集群日检索量突破10亿次,单台服务器的每秒并发检索突破1K。
“自主研发”是一条艰辛难走并与孤独相伴的道路。面对“自主可控”的国家战略,拓尔思将义无反顾地坚持自主创新,为构建我国安全自主的信息基础设施助力赋能。