知名证券机构核心大数据平台升级之路

俊达1年前客户案例427

项目背景

    在金融领域中,数据处理一直是IT系统中非常重要的一部分,证券发行、登记、托管、交易、结算的各个环节都有大量的数据产生。Hadoop作为海量数据处理的关键技术框架,自诞生以来就改变了企业对数据的存储、处理和分析的过程,因具备开源低成本、高可靠等特性,在证券行业得到了广泛的应用。

    某综合类证券机构,早年以Hadoop平台为基础,结合多种大数据处理技术,构建了大数据专用存储与处理系统。但随着实际应用的加深,系统也暴露出一系列亟须解决的问题。

11.png

    为了能快速构建高质量的新大数据处理平台,支撑业务灵活发展,且保证系统在安全性、合规性、稳定性、网络质量等方面符合监管的严格要求,该证券机构选择了在金融行业有丰富实践经验,且在大数据运维领域有成熟解决方案的运维服务商—云掣科技为其完成新平台的规划设计和原平台到新平台的数据迁移。


核心需求

    由于初期采用开源Apache Hadoop框架建设的分布式计算平台已运行2年之久,集群性能每况愈下。需要基于Cloudera的Hadoop发行版CDH(Cloudera’s Distribution Including Apache Hadoop)构建新平台,迁移核心业务,逐步替代老旧Apache Hadoop。

主要难点

    跨大版本

    从Apache Hadoop迁移到CDH,涉及Hadoop生态圈多个组件的升级,由于Hadoop组件的版本跨度较大,面临组件兼容性及数据准确性的挑战。

2.png


    组件集成

    因业务需要,除了要根据选定的Hadoop版本安装匹配的组件,还需要额外集成Elasticsearch、Presto、Flink、SparkSQL,按照CDH的集群管理规范,定制组件包。

3.png

    安全访问控制

    虽然CDH自带授权管理工具Sentry实现数据安全访问控制,但没有管理后台,维护成本较高,且Cloudera已官方宣布不再维护Sentry,推出的商业收费版CDP也改为集成Ranger。因此现需要在免费开源发行版CDH中也集成Ranger,做到全局配置联动,实现对Hadoop生态组件如HDFS、Yarn、Hive、HBase等进行集中式安全管理。在这个方案中对CDH底层脚本做适配改造是一大难点。

 解决方案

    深入了解该证券机构的需求后,云掣大数据运维团队按照标准的流程分步完成调研评估、规划设计、迁移实施、持续优化各个阶段的迁移任务。


4.png


    架构设计

    根据可用的基础计算资源,规划CDH集群规模和数据节点容量,新集群组件组合部署方案。新集群根据节点功能角色,划分为日志分析平台和大数据平台2个集群。新老集群之间万兆网络互通,进行数据同步传输。

5.png

    数据迁移

    盘点待迁移的数据资产,根据数据的类型和体量,采用Hive元数据迁移、HDFS DistCp(分布式拷贝)数据迁移、HBase快照迁移等多种迁移方式,同时做好全面的数据迁移性能压测。

    使用DistCp方式迁移自带校验会出现诸多报错,云掣大数据运维专家采用WebHDFS协议迁移,效果较优,最终通过CRC校验。

    针对大版本迁移对数据准确性带来的不确定性,成立专门数据校验小组,由云掣大数据运维团队与证券机构工作人员共同完成精确到Hive表、字段的PB级全量数据校验。


    平台建设

    盘点生产环境各组件部署节点IP、应用服务端口、应用日志信息、组件监控指标、API接口规范、安全端口范围、系统启停维护标准等信息,进行新平台建设细节规划。

    组件集成

    在CDH中集成Flink、Presto SQL、ElasticSearch等第三方组件,根据CDH规范,将组件源码包编译为parcel包,此外通过csd脚本实现组件启停逻辑和可调参数暴露。Hive组件虽然迁移前后版本一致,但也做了向上兼容的改造,支持语法规则收敛、字段隐式检验禁止等特性。

    安全访问控制

    将Ranger权限开启的相关配置植入到CDH各组件对应的服务目录,实现Ranger与CDH各组件集成,做到HDFS、HBase、Kafka、PrestoSQL的数据安全访问限制,结合YARN的自定义资源池、Elasticsearch自带的安全控制来进行整个权限体系的补充,满足大数据主要数据存储场景的数据安全管理。


6.png

    资源管理

    开启节点Cgroup机制,限制、记录、隔离各应用服务对应进程组所使用的物理资源。定义Yarn的动态资源池管理,根据业务划分资源队列,指定项目可用的资源,达到资源分配,任务管控的目的。配置PrestoSQL的资源组,从资源分配的角度来控制集群的整体查询负载,保障重要任务优先获取资源。

    系统调优

    集群升级过程中及试运行阶段,对集群运行进行多场景测试,针对性优化中文乱码、数组越界、查询报错、通信超时、字段转换失败、任务提交卡顿、元数据异常、参数解析异常等问题。

    监控完善

    从集群资源、组件性能、角色状态等多个维度梳理监控指标,在ClouderaManager控制台配置需暴露的端口和API,通过Open-Falcon监控平台采集CDH集群的监控数据,实现统一的监控告警,使用ELK架构采集日志数据,实现日志查询,完成整个监控架构。

项目成果

    历时3个多月,云掣顺利帮助该证券机构完成跨大版本的Hadoop平台升级和数据迁移。新集群能够兼容常见的开源组件,有丰富API接口,充分满足业务灵活发展的需求,为提供交易、投融资、财富管理等全方位的优质金融服务打下了稳定的基础。且通过运维平台管理集群,实现统一监控预警,自动扩容,相比升级前,维护成本大大降低。

7.png

    云掣大数据运维团队在项目实施过程中的技术实力得到了该证券机构的高度认可,将继续为该证券机构提供新集群后续的扩容方案以及持续的专业技术保障服务。

相关文章

CK集群迁云实施方案

背景与需求某企业大数据业务需迁至阿里云环境,其中涉及多套CK集群,业务要求停机切换时间尽可能短,需对数据进行增量迁移;需迁移的业务,有多个CK集群,总共几百多张表,最大的表占用空间10T左右,另外源端...

技术实践分享|用友NC财务系统上云

技术实践分享|用友NC财务系统上云

本文分享一次成功将用友NC财务系统上云的经验,主要涉及阿里云上Oracle ASM存储扩容,阿里云ESC RAC服务器扩容,阿里云上Oracle RAC数据库迁移等相关技术,一起来看看吧!1 客户数据...

ACOS统一监控-医保交付案例

ACOS统一监控-医保交付案例

1.项目背景目前某省会级医保信息系统全面上线,系统采用医疗保障应用框架HSAF,该框架推动平台从集中式走向分布式,统一了应用框架。医保信息系统正式上线后,需要服务医保定点机构,市民医保结算及大量的业务...

知名房企数据化可观测运维实践

知名房企数据化可观测运维实践

项目背景    伴随着“云+”时代的到来,通过上云实现企业数字化转型已经成为众多行业的共识。工信部发布的《推动企业上云实施指南(2018—2020年)》一文中提出了企业上云的工作目...

可观测运维作战实践-ACOS全链路监控案例

可观测运维作战实践-ACOS全链路监控案例

在时间十分紧迫前提下为客户建设一套监控体系实践就是一次作战!下面问题怎么解呢?1、客户现状痛点?2、适合客户全链路监控怎么搭建?3、故障突袭应急筹备方案?4、acos团队面临内外夹击挑战?5、作战结果...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。