海聚（数据整合系统）

TRS海聚数据融合平台（TRS ETL）是一款由TRS自主设计研发，具有强大数据集成能力的流批一体数据融合平台。TRS ETL采用分布式架构，以flink作为数据处理引擎，可拖拽式数据流程开发，提供几百种常用功能组件，支持对任务的进度实时监控和多维度统计分析，并提供了全功能RESTfulAPI。TRS ETL能帮助企业打破数据孤岛、修正数据质量、汇集多数据源、转换数据形态，提升数据的利用价值。

产品功能产品优势应用场景用户价值最佳实践

产品功能

任务管理

调度计划管理

资源管理

集群管理和引擎管理

统计监控分析

操作历史审计

海聚支持多种任务类型，包括批任务、流任务、SQL任务、JAR任务。对数据融合来说，SQL任务是一个全新的处理形态，它能把数据的融合逻辑，转为一个简单的SQL语句来完成。

调度计划用于配置任务的定时运行策略，合理的给任务分配调度计划可以使得多个任务协同运行并且合理使用服务器资源，避免出现过多任务争抢线程和数据库等资源以及大量任务排队等待等现象，为服务器稳定运行提供保障。

海聚支持集中管理任务中使用的所有外部连接的资源，并生成相应的血缘图谱。

海聚支持分布式架构部署，以及flink执行引擎的热插拔和自动分配，包括flink standalone模式和yarn session模式。

海聚支持任务的执行统计分析、资源的统计分析、错误分析等多维度运行分析。

海聚还支持对全息操作行为进行审计分析功能，包括任务的增删改运行、资源的增删改、用户管理行为等等。

任务管理

调度计划管理

资源管理

海聚支持集中管理任务中使用的所有外部连接的资源，并生成相应的血缘图谱。

集群管理和引擎管理

海聚支持分布式架构部署，以及flink执行引擎的热插拔和自动分配，包括flink standalone模式和yarn session模式。

统计监控分析

海聚支持任务的执行统计分析、资源的统计分析、错误分析等多维度运行分析。

操作历史审计

海聚还支持对全息操作行为进行审计分析功能，包括任务的增删改运行、资源的增删改、用户管理行为等等。

产品优势

易用性

1.纯B/S架构，前后端分离，提供全功能RESTful API。
2.基于图形化的数据流程定义，通过简单拖拽相关系统组件进行组合即可设计指定的ETL规则。
3.客户端内置了常用的任务定义模板，用户可选择指定的模板快速创建任务；
4.把常用的配置信息定义为资源，从而在多个流程中复用该配置信息，减轻了配置工作量。
5.系统提供了多种监控视图，可以方便的监控流程的运行状态以及统计信息，帮助分析性能瓶颈。

分布式架构

1.服务器采用分布式集群架构，增加了系统的稳定性，避免了系统的单点故障。
2.集群支持弹性扩展，任务可分裂为多个子任务，分别调度运行到不同的集群节点，从而提升系统数据处理能力。
3.与k8s、Yarn、Mesos紧密集成，快速故障恢复，动态扩缩容作业。

处理功能强大

1.系统提供了丰富的ETL组件，以支持常见的ETL数据处理需求：支持企业内部常见数据源的抽取；提供了丰富的数据加工转换功能。
2.支持if-else、switch-case、while等多种处理逻辑。
3.任务之间支持相互调用，以及依赖等多种关联方式，以实现复杂的ETL处理逻辑。
4.高度灵活的窗口机制，支持对乱序事件的处理。

高性能

1.多线程运行和多机分布式运行，能大大提升数据处理性能。
2.与主流大数据计算框架的集成，可以将复杂的业务逻辑提交到计算平台进行处理。
3.采用Apache Flink作为数据处理内核，支持流批处理，具有高吞吐、低延迟的特点。

扩展性

1.统一的数据处理框架和插件框架，通过插件接口的二次开发，可以适应多种数据集成背景。
2.提供常用功能的API，方便的与业务应用集成。

安全性

1.自主可控，分级权限安全策略，支持不同权限的操作人员对系统的控制。
2.数据处理任务的审计功能，增加了数据处理任务的可溯性。
3.异常数据的集中查看和管理功能。
4.自动识别背压点，方便快速定位任务性能瓶颈。

应用场景

全文检索场景

数据治理场景

数据迁移场景

数据整合场景

数据共享交换场景

抽取、清洗、整合海量信息数据，为全文检索功能的重要组成部分——全文数据库提供优质数据。

帮助组织建立数据质量管理体系，提升数据的完整性、规范性、及时性、一致性、逻辑性。

实现新旧系统与数据库切换的数据接入与数据格式匹配，确保应用系统顺利割接。

实现多源异构数据整合，加强数据管控能力，消除信息孤岛，更好的为上层应用提供服务。

用于构建、运行和管理分布式应用系统间、云环境下应用系统之间等数据交换共享任务，以满足各种大型应用、各种复杂的网络环境下的业务需求，尤其适用于跨部门、跨地域、跨层级的数据交换共享应用。

用户价值

高度安全

自主可控，分级权限安全策略。

零编程

零代码编程快速建立任务降低用户使用门槛。

图形化

简单拖拽组合图形进行设计，5分钟建立一条数据通道。

大规模处理

采用分布式架构，任务并发调度降低80%成本，效率提升5倍。

N种数据源

支持几十种数据源，配置简便快捷。

实时融合

7*24小时快速抽取，让延迟不再是问题。

轻量部署

一键安装部署，开箱即用。

最佳实践

生态环保部-二污普数据清洗项目

本项目通过获取国家统计局、国家工商总局、国家质检总局、国家税务总局、国家电网和南方电网等部门提供的数据，结合环境保护部相关业务部门的环境业务数据，按照第二次全国污染源普查对象和范围要求，通过TRS海聚对部外和部内数据进行前期预处理，最终建立了一套标准的符合第二次全国污染源普查需求的基本单位名录库数据集合。

中国石油-网站群全文检索项目

中石油站点众多，外部网站群包括集团公司主站及特色子站、专业公司、油气田企业、炼化企业、销售企业、天然气与管道储运企业及海外业务企业；内网部署了上千个子站点，在数据同步时，子站点的数据通过TRS海聚自动化整合到搜索引擎系统中。最终，能够实现网站群数据统一检索与展示，有效地提高网站服务质量。

中国标准出版社-数字内容计算平台

中国标准出版社以自身数据的权威性为基础，为增强知识生产和服务能力，推动传统出版与数字出版融合发展，通过TRS海聚对标准、法规数据的分类、标签、关联、指标、属性等数据加工、知识抽取和知识融合，实现了数据加工到知识生产的转变，为社会公众和国内外企业提供标准查询和知识服务。通过TRS海聚对非结构化数据的加工处理、建立相关标准、法规知识库，实现了基于知识图谱的关联检索和图谱检索。