TRS海贝搜索（向量）数据库

“海贝”是一款从内核到系统完全国产自研的搜索型数据库，其定位为大数据应用支撑软件，为大数据应用提供高效的数据存储、信息检索、统计分析等数据管理服务，支持几乎所有类型的数据，包括文本、数字、地理空间、图片等各种结构化、半结构化和非结构化数据。该系统吸收了拓尔思在信息检索和NLP领域多年的技术积累，不仅安全、高效、专业，还集成了众多开源检索系统不具备的企业级功能，能够有效降低用户的系统建设成本、开发成本和运维成本。

产品功能产品优势应用行业最佳实践

产品功能

全语种分词器

用户隔离

冷热分区

镜像数据库

深度检索

向量搜索

检索增强生成

海贝自带的TRS分词器，不仅可以支持中日韩等方块文字，也能处理英法德等拉丁语系，还可以处理藏文、蒙文、维文等少数民族语言，真正可以做到单一分词器处理全部语种，大大简化了系统的开发和运维工作。

海贝还具有其他同类产品不具备的用户隔离安全特性，系统支持用户数据的物理隔离和逻辑隔离，如图所示，模式1与模式2实现逻辑隔离，模式1与模式3实现物理隔离，这样既可以解决多租户之间的访问安全，又可以防止用户之间的相互影响，提高系统的可用性。

海贝自带的分时归档视图，不仅可以实现冷热数据自动分区，同时还支持多种存储混合使用以提供高效的检索服务。

用户可以通过简单的配置实现读写分离、大小库以及访问隔离等，大大降低了数据加工和查询之间的CPU、内存、IO等冲突，避免了数据入库导致的检索卡顿问题。

随着互联网审查的愈发严格，一些不法分子经常将一些敏感词转成同音词或者同义词进行发布，或将非法文章通过图片的形式对外发布，企图躲避监管。针对这种情况，海贝集成了深度学习引擎，支持以文搜图、以图搜图、图文融合搜索，可以对图像中的文字进行OCR识别，也可以提取图像或者文本的特征数据，通过基因编码存储到海贝数据库里，成功实现图像相似性检索功能，并配合拼音检索、同音词检索等功能，让不法分子无处遁形。

海贝搜索（向量）数据库引入了最小世界导航图（Hierarchical Navigable Small World，HNSW），实现向量数据的高效检索。得益于这种高效的图索引结构，海贝搜索数据库在单机可以支持亿级向量，并且达到毫秒级响应。

检索增强生成（Retrieval-Augmented Generation，RAG）被认为是当下解决大模型幻觉的最有效手段之一。基于拓尔思海聚数据整合系统（TRS ETL）、拓天大模型以及TRS海贝搜索（向量）数据库构建的检索增强生成解决方案，具有集成度高，生成效果好等特点。

采用TRS海贝搜索（向量）数据库和RAG解决方案，可以快速搭建智能问答系统，利用索引和搜索算法来快速匹配问题与知识库中的相关内容，从而提供更准确的答案。

全语种分词器

用户隔离

冷热分区

海贝自带的分时归档视图，不仅可以实现冷热数据自动分区，同时还支持多种存储混合使用以提供高效的检索服务。

镜像数据库

深度检索

向量搜索

检索增强生成

产品优势

自主可控

目前，国内厂商基本上都以开源的ElasticSearch作为他们的搜索引擎数据库；还有一小部分厂商在开源Lucene引擎的基础上进行封装；而TRS海贝搜索（向量）数据库是目前国内唯一一款从底层分词算法，到核心引擎以及上层系统都完全自研的纯国产搜索引擎数据库。系统已完成与龙芯、海光、飞腾、鲲鹏等国产芯片以及中标麒麟、统信UOS等国产操作系统的适配工作。

数据安全

系统采用多副本机制解决数据的可用性问题，通过数据校验以及WAL技术解决数据的完整性问题，通过完善的权限管理机制、HTTPS、加密存储等机制解决数据访问和数据存储的机密性问题。作为自主可控的国产化加密数据引擎，海贝支持数据与索引的完全加密。加密算法方面采用了更加安全的国产加密算法，更可以配合国产加密卡可以达到金融级数据安全。另外，海贝还具有其他同类产品不具备的独有安全特性，如黑白名单、用户隔离、删除保护等机制。

高性能检索

海贝不仅能够做到全字段索引，支持任意维度的组合查询，在数据查询和分析的效率上，大大高于其他的大数据管理系统。同时，海贝引入了内存索引、列存储、索引分片等技术，进一步提高了数据存储、检索和分析的效率。海贝自带的分时归档视图，不仅可以实现冷热数据自动分区，同时还支持多种存储混合使用以提供高效的检索服务；通过镜像数据库，用户可以通过简单的配置就实现读写分离、大小库以及访问隔离等；通过超大规模集群建设，降低系统架构资源消耗；通过对各类型服务器硬件的匹配支持，能够充分发挥出硬件的优良性能。

易用性

全中文可视化系统管理台，支持自动化部署和自动化更新。

聚焦生态链

海贝可以与拓尔思的各款产品进行深度应用集成，打造强大的数据服务能力。如在数据导入方面，对接TRS 海聚数据融合平台、结合TRS人工智能平台是数据加工流转利器；数据展现方面，对接TRS API Gateway，可以实现快速发布数据，Restful接口、权限管理和流量控制；全新的数据监控系统，可以进行数据监控、进程监控、服务监控、日志分析、安装部署等；数据分析方面，对接TRS水晶球分析师平台、TRS网察大数据分析平台和TRS数家媒体大数据平台，提供行业应用解决方案，为用户提供便捷高效的在线服务。

兼容性

目前，TRS海贝搜索（向量）数据库已经完成ElasticSearch绝大部分功能的支持，并且在API访问上做了兼容性处理，用户仅需对系统进行少量的改动，即可迁移到海贝搜索引擎数据库中来，为国产替代扫清了最后一道障碍。

应用行业

公共安全

政务公开

媒体融合

该系统广泛应用公共安全大数据行业，数据量大、实时更新各类信息，提供一键搜索、数据分析等功能，提高工作效率。

面向政府网站，比如海关总署、工商总局、专利局、商标局等。利用单一分词器处理全语种数据，大大简化了系统的构建，提供跨语种检索服务。

面向媒体网站，比如新华社、浙报、重报等。支撑高并发检索。

最佳实践

信用中国

信用中国”网站由国家发展改革委、人民银行指导，国家信息中心主办，百度公司提供技术支持和运维，是政府褒扬诚信、惩戒失信的总窗口。网站提供全国企业信用信息、信用代码、以及相关站内文章的公开查询服务。2018年底“信用中国”网站从百度云迁移部署到国家电子政务外网机房，将原来由ElasticSearch提供搜索的服务，开始迁移到TRS海贝搜索（向量）数据库。系统采用12台高配PC服务器搭建检索集群，平均每秒提供约1.2W次检索服务，日均检索量突破10亿。

中国知识产权大数据与智慧服务系统

中国知识产权大数据与智慧服务系统（DI Inspiro™）是由知识产权出版社有限责任公司开发建设的国内第一个知识产权大数据应用服务系统。DI Inspiro™已经整合了国内外专利、商标、法律文书、标准和科技期刊等知识产权数据资源，实现了数据检索、分析、关联、预警和项目管理等多种功能。该系统充分利用了TRS海贝搜索（向量）数据库在多语言处理方面的优势，实现了中、英、日之间多语种无差别、无障碍的智能扩展检索和及时统计分析。