在金融领域中,数据处理一直是IT系统中非常重要的一部分,证券发行、登记、托管、交易、结算的各个环节都有大量的数据产生。Hadoop作为海量数据处理的关键技术框架,自诞生以来就改变了企业对数据的存储、处理和分析的过程,因具备开源低成本、高可靠等特性,在证券行业得到了广泛的应用。
某综合类证券机构,早年以Hadoop平台为基础,结合多种大数据处理技术,构建了大数据专用存储与处理系统。但随着实际应用的加深,系统也暴露出一系列亟需解决的问题。
为了能快速构建高质量的新大数据处理平台,支撑业务灵活发展,且保证系统在安全性、合规性、稳定性、网络质量等方面符合监管的严格要求,该证券机构选择了在金融行业有丰富实践经验,且在大数据运维领域有成熟解决方案的运维服务商——云掣科技为其完成新平台的规划设计和原平台到新平台的数据迁移。
由于初期采用开源Apache Hadoop框架建设的分布式计算平台已运行2年之久,集群性能每况愈下。需要基于Cloudera的Hadoop发行版CDH(Cloudera’s Distribution Including Apache Hadoop)构建新平台,迁移核心业务,逐步替代老旧Apache Hadoop。
● 跨大版本
从Apache Hadoop迁移到CDH,涉及到Hadoop生态圈多个组件的升级,由于Hadoop组件的版本跨度较大,面临组件兼容性及数据准确性的挑战。
● 组件集成
因业务需要,除了要根据选定的Hadoop版本安装匹配的组件,还需要额外集成Elasticsearch、Presto、Flink、SparkSQL,按照CDH的集群管理规范,定制组件包。
● 安全访问控制
虽然CDH自带授权管理工具Sentry实现数据安全访问控制,但没有管理后台,维护成本较高,且Cloudera已官方宣布不再维护Sentry,推出的商业收费版CDP也改为集成Ranger。因此现需要在免费开源发行版CDH中也集成Ranger,做到全局配置联动,实现对Hadoop生态组件如HDFS、Yarn、Hive、HBase等进行集中式安全管理。在这个方案中对CDH底层脚本做适配改造是一大难点。
深入了解该证券机构的需求后,云掣大数据运维团队按照标准的流程分步完成调研评估、规划设计、迁移实施、持续优化各个阶段的迁移任务。
● 架构设计
根据可用的基础计算资源,规划CDH集群规模和数据节点容量,新集群组件组合部署方案。新集群根据节点功能角色,划分为日志分析平台和大数据平台2个集群。新老集群之间万兆网络互通,进行数据同步传输。
● 数据迁移
盘点待迁移的数据资产,根据数据的类型和体量,采用Hive元数据迁移、HDFS DistCp(分布式拷贝)数据迁移、HBase快照迁移等多种迁移方式,同时做好全面的数据迁移性能压测。
使用DistCp方式迁移自带校验会出现诸多报错,云掣大数据运维专家采用WebHDFS协议迁移,效果较优,最终通过CRC校验。
针对大版本迁移对数据准确性带来的不确定性,成立专门数据校验小组,由云掣大数据运维团队与证券机构工作人员共同完成精确到Hive表、字段的PB级全量数据校验。
● 平台建设
盘点生产环境各组件部署节点IP、应用服务端口、应用日志信息、组件监控指标、API接口规范、安全端口范围、系统启停维护标准等信息,进行新平台建设细节规划。
● 组件集成
在CDH中集成Flink、Presto SQL、ElasticSearch等第三方组件,根据CDH规范,将组件源码包编译为parcel包,此外通过csd脚本实现组件启停逻辑和可调参数暴露。Hive组件虽然迁移前后版本一致,但也做了向上兼容的改造,支持语法规则收敛、字段隐式检验禁止等特性。
● 安全访问控制
将Ranger权限开启的相关配置植入到CDH各组件对应的服务目录,实现Ranger与CDH各组件集成,做到HDFS、HBase、Kafka、PrestoSQL的数据安全访问限制,结合YARN的自定义资源池、Elasticsearch自带的安全控制来进行整个权限体系的补充,满足大数据主要数据存储场景的数据安全管理。
● 资源管理
开启节点Cgroup机制,限制、记录、隔离各应用服务对应进程组所使用的物理资源。定义Yarn的动态资源池管理,根据业务划分资源队列,指定项目可用的资源,达到资源分配,任务管控的目的。配置PrestoSQL的资源组,从资源分配的角度来控制集群的整体查询负载,保障重要任务优先获取资源。
● 系统调优
集群升级过程中及试运行阶段,对集群运行进行多场景测试,针对性优化中文乱码、数组越界、查询报错、通信超时、字段转换失败、任务提交卡顿、元数据异常、参数解析异常等问题。
● 监控完善
从集群资源、组件性能、角色状态等多个维度梳理监控指标,在ClouderaManager控制台配置需暴露的端口和API,通过Open-Falcon监控平台采集CDH集群的监控数据,实现统一的监控告警,使用ELK架构采集日志数据,实现日志查询,完成整个监控架构。
历时3个多月,云掣顺利帮助该证券机构完成完成跨大版本的Hadoop平台升级和数据迁移。新集群能够兼容常见的开源组件,有丰富API接口,充分满足业务灵活发展的需求,为提供交易、投融资、财富管理等全方位的优质金融服务打下了稳定的基础。且通过运维平台管理集群,实现统一监控预警,自动扩容,相比升级前,维护成本大大降低。
云掣大数据运维团队在项目实施过程中的技术实力得到了该证券机构的高度认可,将继续为该证券机构提供新集群后续的扩容方案以及持续的专业技术保障服务。
更多技术信息请查看云掣官网https://yunche.pro/?t=yrgw