拓尔思新品海贝大数据管理系统V9六问六答

近日，拓尔思最新推出了TRS海贝大数据管理系统V9.0版本（简称：海贝V9），其作为安全、高效、专业的大数据搜索引擎，汇聚了拓尔思在大数据搜索引擎和自然语言智能处理领域多年的技术积累，补足了开源检索系统欠缺的企业级功能，可快速有效地管理、检索和分析大数据，赋能组织机构成功数字化转型。

这里，小编整理出大家最关心的六个问题，并请海贝V9的产品负责人进行提纲挈领的清晰解答。

Q1：众所周知，拓尔思最擅长的技术是以自然语言处理为核心的非结构化大数据搜索，它在海贝V9里是如何体现的？

答：海贝V9最主要的创新点之一是面向自然语言和非结构数据的一体化检索引擎，其采用单一分词器覆盖全语种分词，而且除了文本以外不仅支持数字、日期等常用格式的搜索，也支持地理位置信息、图像、二进制文件等多种数据格式的搜索；系统利用基于深度学习的基因编码计算技术，从训练得到的深度神经网络模型中提取深度图像特征，利用深度基因编码和倒排索引技术构建图文混合索引，不仅可以实现图像检索，还可以实现图像和文本一起混合检索，从而进一步提高系统检索的精度。效率方面，以搜索为核心构建的海贝V9，通过倒排索引技术，可以在PB级别的数据里实现毫秒级响应，主要解决大数据场景下海量非结构化数据的存储、检索、统计问题，为用户在海量数据里快速挖掘有价值的信息提供技术支撑。

Q2：国外开源的大数据搜索引擎ElasticSearch可以说是龙头标杆，那么海贝V9与ElasticSearch等同类产品相比，主要差异在哪里？

答：海贝和ElasticSearch都是技术非常优秀的大数据检索系统，但两个系统在定位上还是有一定的差异的。作为开源软件，ElasticSearch的总体架构更加开放，主要面向大数据系统开发使用，需要具备较高技术资质和技术储备的人员才能掌握；海贝作为一款企业级产品，为支撑上层应用的快速开发，应用功能集成度更高，而且直接提供更多企业级特性，更加简单易用，方便用于大数据应用和系统集成项目中。

具体来说，ElasticSearch开放源码，拥有完善的插件管理机制和开放架构，为开发者提供了更多的定制选择，同时对开发者的专业技术也提出了更高的要求，学习成本较高。而海贝作为一款企业级商用软件，拥有较高的功能集成度和耦合效率，同时提供大量诸如权限控制、统一的分词器、冷热分区、读写分离等的企业级功能，形成了闭环完整的一体化商用软件系统。并且，海贝作为拓尔思自主研发的产品，系统的安全性更高，易用性更强，可以提供可信赖的高质量服务。

两者主要对比

Q3：海贝V9与其他类型的大数据管理系统相比，主要差异在哪里？

答：大数据时代，数据检索在数据管理中的重要性大大提高，没有高效的检索，大数据几乎无法可用；没有准确的检索，大数据的分析挖掘手段也难以施展；特别是互联网搜索引擎普及应用以后，在一个基于大数据的应用系统里，没有便捷的搜索引擎更是无法想象的。从原理上讲，作为一款大数据管理系统，数据存储并不是目的，存储数据的目的是通过数据分析来挖掘数据价值。而目前，大部分的数据分析是通过各式各样的查询和统计来实现的。也就是说，数据查询和统计的效率才是决定一个系统是否高效的决定因素。以搜索为核心构建的海贝V9是众多大数据软件中，搜索效率非常突出的大数据管理系统。

对比一下其他类型的主流大数据管理系统：作为大数据的基石，Hadoop包含分布式文件系统HDFS和分布式计算框架MapReduce，HDFS作为分布式文件系统，能提供高吞吐量的流式数据访问，适合大规模的数据存储；Hive是基于Hadoop的一款数据仓库工具，其能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，同时能将SQL语句转变成MapReduce任务来执行，主要适合批处理；HBase是一款分布式的、面向列的开源数据库，其在HDFS之上提供键值对的存储能力，并只提供主键索引，比较适合做文档数据库；Impala是Cloudera公司主导开发的新型查询系统，其提供交互式SQL语句，能查询存储在HDFS和HBase中的PB级大数据，Impala的查询主要依赖于底层的存储，比较适合结构化数据的查询。

海贝V9不仅能支持结构化数据的存储和查询，也能支持非结构化数据的处理。系统能够做到全字段索引，支持任意字段的组合查询，在数据查询和分析的效率上，要大大高于其他的大数据管理系统。

Q4：海贝V9与海贝V8相比，性能改进与提升主要体现在哪些方面？

海贝V9相对于海贝V8做了很多的优化，首先在性能方面，优化了海贝集群节点之间的通讯效率，通过裁减和数据压缩等方法，将节点之间的交互数据降低到了原来的十分之一。通讯效率的提升也意味着可以支撑更大的集群，目前海贝单集群的节点数突破了600台的限制。

其次在功能方面，除了上文提到的图文检索功能，海贝V9还增加了拼音检索、同义词检索以及负载均衡视图等新功能；另外，海贝V9还针对一些特定应用场景，例如：同乘车、同乘机人员分析等典型检索场景进行了专门的优化，提供了一系列优化访问接口，使这类检索的效率有了大幅的提升（4倍以上）。例如某典型检索场景下，两种检索接口的对比测试结果如下表：

Q5：面对国家加强数据安全的迫切要求，海贝V9的优势体现在哪些方面？

答：《数据安全法》的正式实施，标志着我国数据安全已正式步入法治时代，加强数据安全是当前我国维护国家安全和提升国家竞争力的战略需要。而随着大数据管理系统逐步成为数据存储和数字化应用的重要支撑，与此同时其也成为外部网络攻击、关键信息盗取的目标。大数据管理系统的安全已成为数字化转型不可逾越的底线，因此在建设和应用大数据管理系统的同时，必须要考虑安全防护技术，通过相应的技术和管理措施，提升防止信息泄漏等方面的安全保障能力。

海贝从设计之初就非常重视数据安全，其针对数据安全需要解决的数据可用性问题、数据完整性问题以及数据的机密性问题，都配有相应的解决方案。

1、针对数据的机密性问题

海贝V9利用数据加密确保数据存储的机密性问题。同时，不仅支持数据加密，其索引也可以加密存储，并且支持国产加密卡，其加密等级完全可以媲美金融系统。另外，海贝支持完善的权限管理机制以及HTTPS加密访问，确保了数据授权访问的机密性以及数据访问的跟踪审计，及时发现安全问题。

2、针对数据的可用性和完整性问题

海贝V9采用了多副本机制，当任何一个副本出现问题的时候，其他副本都仍然可以提供服务，确保了数据的可用性。海贝索引增加了很多的数据校验，并且提供预写日志（WAL）功能，确保即使出现服务器异常也可以完全恢复数据。

海贝V9还特别适用于信创应用的搭建。大数据管理系统与《科技日报》报道的制约我国发展的35项“卡脖子”关键技术之一的数据库管理系统同属于数据管理技术，且位处互联网和数字经济时代更加前沿的领域，也是人工智能技术进一步发展的基础。拓尔思作为国内自主软件领军企业，始终坚持基于自主创新的技术研发，海贝V9是拓尔思在大数据管理领域的主打产品。海贝V9对国内主流信创厂商相关产品全面兼容适配，已支持包括x86平台的海光、arm的鲲鹏和飞腾及龙芯等国产芯片和统信UOS、中标麒麟、银河麒麟等国产操作系统，并获得相应的兼容性证书，可适用于基于信创软硬件平台搭建的完全自主可控的大数据应用，全面保障大数据系统的安全性。

Q6：海贝的典型应用领域和场景是什么？请以三个典型项目为例，介绍海贝的产品亮点。

答：海贝是一款基础产品，理论上只要有数据存储和检索需求的地方，都可以用得到。目前，海贝已经广泛应用于公安大数据、媒体大数据、政府大数据以及专利大数据等众多细分行业。海贝不仅可以支持海量数据的存储和检索，还可以支持高并发的检索访问。

1、某安全项目

该项目应用海贝大数据管理系统用于网络数据安全管理。项目特点主要体现在：项目分布范围广，已经在全国多个省市展开；集群规模大，单机集群从数十个节点到数百个节点不等；数据量巨大，单系统每日新增数据超过60亿，每天处理超过20T数据，存储总数据量接近万亿，存储容量突破PB。项目成功实施后，用户对海贝大数据管理系统赞不绝口，称赞海贝为“国际大数据存储超一流产品”。

2、信用中国项目

“信用中国”网站由国家发展改革委、中国人民银行指导，国家信息中心主办，是政府褒扬诚信、惩戒失信的总窗口。网站提供全国企业（一亿多家）信用信息、信用代码，以及相关站内文章的公开查询服务。2018年底“信用中国”网站迁移到TRS海贝大数据管理平台后，采用高效的全文索引机制提供高并发检索，并利用SSD的高性能和HDFS的高可靠副本冗余，保证海量数据安全存储的同时提升检索速度。在“信用中国”项目中，拓尔思利用12台服务器支撑每秒1.2万次的高并发检索，且运行稳定，得到了国家公共信用信息中心的高度认可。

3、知识产权大数据与智慧服务系统

知识产权出版社为实现对全球103个国家和地区，上百个国外专利网站60亿份专利资源的收录，及中、英、日之间多语言无差别、无障碍的智能扩展检索和及时统计分析，打造知识产权大数据与智慧服务系统，以便轻松获取全球专利信息，提供高效精确检索。TRS海贝凭借自身在检索性能、可扩展性、可靠性、易用性和安全性等方面的优势，获选承建此项目。项目中，海贝独特的单一分词器既支持中文、日文、韩文等方块文字，也支持英文、法文、德文等，还支持藏文、蒙文、维吾尔文等少数民族语言，实现全语种数据统一处理，大大降低系统在多语种情况下的数据处理难度。其中，英文词根准确率99%以上。针对中文，海贝不仅仅提供按字切分、按词切分两种模式，还提供字词组合模式，兼顾查全和查准；支持表达式的模糊检索、短语模糊检索、复杂位置检索等。该项目充分利用了TRS海贝在自然语言处理方面的优势，针对1.3亿件全球专利，实现了通过单一分词器处理全语种数据和跨语种检索服务，大大简化了系统的构建，提升了检索的性能。