nkj2021
作者nkj2021·2021-12-14 15:31
系统架构师·某证券企业

券商大数据平台如何基于容器云实现经济业务和投行业务等加速智能化和数字化活动总结

字数 8450阅读 11331评论 0赞 1

导读:

当前券商智能化和数字化的转型主要是通过券商自建金融科技业务系统或与金融科技企业开展战略合作,提升数字化服务能力,重塑经纪业务、投行业务、资产管理、自营业务等行业生态。如经纪业务由发展通道向理财业务和信用中介终端转变,在业务链条拓展、风险定价实施、资产证券化等方面开辟新的盈利模式,应用场景也从传统的智能投顾、智能客户向客户画像、交易轨迹、量化方案等方向拓展。这些业务创新应用都需要借助大数据技术。基于容器云支撑大数据平台,目前也受到很多券商的关注。

天好是2021容器云职业技能大赛联合创新合作伙伴,针对证券企业互联网渠道及个性化管理应用敏捷开发实现的典型挑战,天好基于用户需求与红帽协作打造《证券行业大数据平台容器云解决方案》,使证券公司在不同业务领域实践和探索与新技术的结合,在稳扎稳打的基础上实现证券公司的数字化转型。

邀请的专家来自: 红帽、上海天好信息技术股份有限公司、苏宁消费金融有限公司等企业的技术专家参与到本次交流,针对券商大数据平台如何基于容器云实现经济业务和投行业务等加速智能化和数字化,参会专家积极发表了自己的看法,最终就券商大数据平台与容器云的结合达成了一致共识。本期的重点从:容器技术的发展与容器云平台的规划、券商大数据平台与容器云平台的结合、基于容器云支撑大数据平台的部署等三个方面11交流主题进行总结,希望给大家在基于容器云的大数据平台建设提供一定的参考和帮助。

一、容器技术的发展与容器云平台的规划

容器云平台作为基础设施平台,可以实现资源共享,实现了共享,就能适应快速的业务变化,容器轻量化PaaS平台可以利用容器技术的特点,其技术特点非常适合互联网化应用的快速迭代开发、弹性伸缩部署。

1、容器技术的发展是否能替代vmware等虚拟化呢?

嘉宾:顾黄亮 技术总监 , 苏宁消费金融有限公司
准确说,容器是一个技术,vmware是一个品牌,如果将vmware替换成虚拟化,这将是一个很好的话题。
先从概念开始说起,容器技术是否可以取代虚拟机技术,这个命题是错误的。容器技术其实也是一种虚拟化技术, 容器在操作系统至上,与虚拟机相比少了操作系统,不同容器之间能共享操作系统,因此更轻量,启动更快,效率更好。即使如此,也不能说容器技术能够覆盖所有的场景。
1、即使云原生现在如火如荼,工具迭出,从目前看,云原生工具依旧不如虚拟化工具丰富成熟,这是技术断代所决定的。
2、 虚拟机相比容器的隔离性要差,安全性不如虚拟机,这是容器的优势,同样也是劣势,需要通过额外的技术手段进行解决,在某些场景下,可能很难解决。
3、场景的高度重叠已经不能判断二者的优劣,总的来说,不谈资源利用率,虚拟化的场景更多、更全。
最主要的,vmware也有容器技术。

李永剑 技术经理 , 上海天好信息技术股份有限公司
有这个趋势,但目前不能完全替代Vmware。

嘉宾:JanXC 系统架构师 , nec
有可能。但是也有可能容器技术的进一步发展会成虚拟机的样子。
数据库、AI、大数据等都逐渐有了容器的方案,所以容器完全代替虚拟机是时间的问题。但是能够替代VMware,我觉得比较难,特别是VMware的一些新产品,如Tanzu等,还是很好的结合了容器和虚拟机的两方优势的,还有VMware贡献的Harbor,NSX-T等技术解决方案,都不错。

嘉宾:沈天真
如果你单指的是传统vmware虚拟机这一层,目前看,在使用容器的场景下,越来越多的有在裸机上直接部署容器平台的趋势,不像以前流行部署在虚拟机上。

嘉宾:liujian0122 工程师
两个有overlap的地方,但是不完全重合,比如,我也可以先部署vmware虚机,在虚机上部署k8s,
目前公有云都是这种解决方案。
公有云上,用户少则10个节点,多则200个节点,如果全用实体机,请问,可能吗? 当然都是虚机啊,当然这些虚机不一定是vmware的esx

嘉宾:xylonxiang 运维经理 , 湖南高阳通联
vmware虚拟化有强大的产品技术服务,这是很多企业所需要的。因此容器技术会不断蚕食虚拟化的市场,直至达到一个平衡。

嘉宾:热心冰块 项目经理
Vmware 是从硬件层-软件层之间做文章,docker 是从操作系统-应用之间做文章,的看应用场景,就像手机里的app和轻app一样

感觉谁也干不死谁,或者市场有了新方向,大家一起死掉。看看SOL HPUX AIX结局是结伴上路的,因为都没有颠覆性的创新,只是切入点不一样,解决的还同一个问题

嘉宾:chaohui 院长 , 天好
容器上承应用,下接资源;资源有可能是物理机,也有可能是VM;总体来看,各自的定位不同,但具体项目建设选型时可以只选容器或者VM;但是个人认为,容器的应用场景会越来越不依赖于 Vmware .

嘉宾:
根据IDC报告,容器将逐步蚕食虚拟化市场份额。预计2025年,容器市场份额与虚拟化市场份额相当。
从大趋势看,容器作为新技术会逐步替代虚拟化技术,但短期内不会替代虚拟化。
从1989年,X86服务器出现;到1999年,VMware诞生;再到2013年,docker出现;2018年,K8s统治容器引擎。技术在进步,但并不是所有就的技术都会被淘汰,很多老旧技术依然有其存在的应用场景。

嘉宾:gdong 资深解决方案架构师 , 红帽企业级开源解决方案中心
最近一两年,以容器为代表的的云原生技术非常热门,越来越多的企业选择直接在物理机上部署容器平台,而跳过中间的虚拟化 IaaS 层,而且红帽的 OpenShift 也推出了虚拟化功能。即支持在容器里部署虚机,这也让大家逐渐有了这个疑问。

总体而言,从容器和虚拟机的使用场景来说,它们有着各自的应用场景,虽然会有一些重叠,两者区别还是比较明显的。比如,虚拟机更适合比较重或庞大的单体应用和场景,对操作系统资源要求多,使用虚拟机更为合适。而容器更适合轻量级的应用,迭代较多,如微服务,在服务器上运行更多的应用,适合在云环境快速迁移。

从底层硬件的管理角度来说, IaaS 层是对硬件资源的池化管理,目前容器平台关注的还是对容器编排的支撑,对硬件层面的管控相对较弱,容器平台可以借助 Iaas 管理能力增加额外的功能,比如红帽 OpenShift 在支持物理机直接部署的情况下,也提供了对 VMware 、 AWS 、 Azure 、阿里云等私有云、公有云环境的部署,而且对于私有云 IaaS 和公有云 IaaS , OpenShift 平台还可以利用底层 IaaS 的资源调度能力,实现全自动安装、物理节点的动态伸缩管理等等,扩充 Kubernetes 的功能。

所以目前来看,只要企业还有 IaaS 的实际需求,容器和虚拟化应当会在相当长时间内共存,至于将来是否会替代,还要看企业的实际需求。

2、docker容器如何保障mysql 数据库高可用性呢?

嘉宾:李永剑 技术经理 , 上海天好信息技术股份有限公司
容器化应用都基于k8s或openshift管理,给一组mysql打标签让它固定在不同的node节点即可实现。

嘉宾:liujian0122 工程师
两个方面:
(1)docker的话,目前也有docker集群,但和k8s一样,如果不改进,mysql集群是不可能跑在k8s里的,比如,master down了,是重启master,还是立刻重新调度,这些都是问题,目前我看到的
爱可生有解决方案,就是不重新调度。
(2)cncf有解决的方案,应该已经毕业了,《Kubernetes助力CNCF Vitess实现MySQL扩展》,
vitess可以看做是在k8s中架设了一个mycat

3、容器云平台作为一个基础平台,规划、建设的注意点是什么?

不觉间容器云平台已成为一个热点词汇,容器云平台作为一个基础平台,规划、建设的注意点是什么?

嘉宾:李永剑 技术经理 , 上海天好信息技术股份有限公司
1, 立足本单位,评估一下技术储备,如不足需要第三方来支持。
2, 小规模进行双形态并行(传统和容器),看看业务运行情况,验证方案。
3,规划建设,先易后难,从外围到核心。

嘉宾:JanXC 系统架构师 , nec
我觉得有如下几个点吧:
1,平台的容量规划,计算、存储都什么配置级别,什么样的容量规划;
2,性能规划,对于普通的性能有什么期望,通过压测给出准确数值,以备性能问题的处理;
3,管理的便捷性,要有简便、易用的管理平台,功能要全面
4,监控方面要体系化和明确每一个监控阈值
5,平台的管理以及维护,包括部署、扩容、运维等内容。

嘉宾:gdong 资深解决方案架构师 , 红帽企业级开源解决方案中心
人、组织流程与技术是落地容器云平台的核心三要素。
一、人员的技术能准备是首要任务,容器与相关的技术领域如 DevOps, 微服务等都涉及相当多新的开源技术,而且这些技术变化周期比以往传统虚拟化和闭源技术都增加了相当多的路线选择和学习要求,因此人员对于新技术的掌握是能够顺利转向容器云的开端;
二、组织流程,对于使用容器云的实现,更多落地在企业的运维部门,可是这一平台的用户和场景更多在开发侧甚至是业务部门。与传统的模式不同,新的现代化应用开发需要敏捷的组织和流程,特别是微服务体系的应用架构更需要按产品组织的全功能小团队,无论从虚拟还是物理上,团队的转型是落地容器云必然发生的结果和驱动力;
三、技术,工具和技术是加速这一进程的催化剂,容器云平台涉及千百种开源技术的集成与使用,没有一家企业或者一个团队能对其中所有的技术都掌握和精通,不重复造车轮,更好的利用成熟的企业级开源软件帮助加速建设期,且后续自有团队可以在开源的基础上进行自己的定制,实现自主可控的技术路线,这是当前容器云平台技术路线选择的最佳方式。

二、券商大数据平台与容器云平台的结合

容器云和大数据有着各自不同的适用场景,大数据技术主要用于处理 5V ( Volume, Variety , Value , Velocity , Veracity )特征的数据,容器云提供了高效的资源管理能力。随着容器编排技术的日渐成熟,使两者架构融合,充分发挥各自优势,取长补短成为了可能。

1、如果券商生产系统的数据是实时同步给大数据库平台的,采用的什么架构和技术? 例如湖仓一体?

如果券商生产系统的数据是实时同步给大数据库平台的,
1、生产系统各种类型数据库采用的什么技术实现同步的?=
2、数据汇集是采用类似KAFKA的流技术保存的么?
3、现在业务对实时性要求越来越高,该方案在湖仓一体方面 有何布局?

嘉宾:JanXC 系统架构师 , nec
有如下几个方案吧:
首推FlinkCDC
其次就是比较典型的:
mysql的binlog -> Canal -> Kafka -> Flink/Spark -> Hive/Kudu
Oracle的redolog -> Ogg -> Kafka -> Flink/Spark -> Hive/Kudu

嘉宾:chaohui 院长 , 天好
hudi 在实时计算、流批分析等架构集成上做的很好。虽然目前还未到1.0版本,可以关注。

2、券商生产系统的数据是如何同步给大数据库平台的? 数据延时是多少?

嘉宾:liujian0122 工程师
如果是做数据湖,大概是flink+hudi同步出来的,过去是etl出来的,可能用nifi等等,现在都是流批一体了

嘉宾:chaohui 院长 , 天好
目前 Flink SQL CDC 在实时、并发方面是首推的,数据时延在同等情况下能够做到最小;另外,由于天然的采集、计算一体化架构,数据生产的效能、质量都较其他架构优秀。

3、天好大数据平台与红帽的OpenShift平台是如何结合起来的?

天好大数据平台与红帽的OpenShift平台之间如何整合,OpenShift平台对天好大数据平台提供了怎样的底层技术支持。

嘉宾:李永剑 技术经理 , 上海天好信息技术股份有限公司
天好在前期选型容器平台的时候,考察了社区版K8s和其他一些发行版,最终选择OpenShift主要看中以下几点:
1、 路线稳定,K8s很多功能和组件都是OpenShift反馈给社区,技术路线演进得到保证。OpenShift的迭代升级也会有明确的长期规划,对于我们的技术投入来说比较可靠,也比较有前瞻性。
2、 开放兼容,OpenShift的核心是基于K8s,所以开放性得到保证,我们的大数据平台基于OpenShift开发,也可以很好地兼容K8s,没有锁定风险。
3、 功能完备,红帽的整合能力非常强,把K8s所需开源组件整合进OpenShift,形成统一交付平台,降低了最终用户的使用门槛。对机器学习、AI等GPU运算场景也有很好地支持。
天好大数据平台是完全自研的一款产品,覆盖数据的全生命周期管理和应用,包含众多功能模块,基于微服务、DevOps、持续交付等理念研发。在研发过程中充分利用了OpenShift提供的组件和功能,比如研发过程中DevOps流水线就是基于OpenShift内置的流水线和源码到镜像搭建,应用上线部署方式也很灵活,蓝绿发布等模式在OpenShift里实现非常便捷。很多数据组件如kafka、redis、机器学习框架等在OpenShift的Operator Hub里很容易部署,对我们整个研发都是一种提速,节省了大量人力学习成本。

4、天好的大数据平台哪些组件可以使用容器?哪些需要用物理机?

在解决方案白皮书里面没看到更详细的的说明,需要能给予比较清晰的指引。
天好的大数据平台里面是否也包含了ETL、调度、分析等一系列功能? 还是说只有底层的数据基础平台? 类似teradata、CDH、TDH一样?

嘉宾:chaohui 院长 , 天好
天好大数据平台提供多源异构的数据处理、数据治理、数据资产管理、数据质量管理、 数据分析平台、API 管理平台、AI 人工智能平台等功能,为政府机构、企业、科研机构、第三方软件服务商等客户,提供大数据管理、开发和计算的能力。

天好信息提供的整体解决方案、大数据支撑软件等软件产品和相关运维技术服务如下:大数据清洗、ETL工具、大数据质量工具、元数据系统、主数据系统、可视化分析工具、天好AI人工智能平台,天好商业智能BI工具。

三、基于容器云支撑大数据平台的部署

大数据平台基本都是基于 Hadoop 生态,主要存在资源利用率低、隔离差、弹性不足、管理困难等问题。容器云的自动资源管理,安全隔离等特点可以很好地解决大数据这些弊端,而针对于大容量、高 IO 、资源消耗大等特点,在容器平台如红帽 OpenShift 中,可以通过 CPU 、内存资源限定、隔离、物理节点亲和等方式来满足要求。

1、大数据平台下容器如果选型存储架构?

大数据平台容器云下,存储选择是选择传统的高性能的集中存储好还是比较热的分布式存储好?分布式存储选择商业的还是开源的?利弊是什么?

嘉宾:李永剑 技术经理 , 上海天好信息技术股份有限公司
大数据平台容器存储肯定是分布式的,可以使用rook+ceph 方案,rook是个存储编排工具,可以管理ceph存储,可以做到ceph的部署,配置,扩容,迁移,存储资源管理,监控等等的。

2、大数据平台下容器云解决方案如何实现双中心的部署?

嘉宾:匿名用户
您这个问题其实就是容器云的容灾多活方案,跟大数据平台关系不大。
商用容器云产品,一般都会提供完善的双活、主备或两地三中心方案。
以双活为例:
1、每个中心部署一套容器云平台(2套),采用高可用部署
2、两套平台的管理端要能访问自己和对方的资源集群
3、前端通过全局负载均衡调度管理端
4、平台的数据库/ETCD要做好同步

上面是容器云的大体部署策略,具体要根据实际情况去匹配。
容器云一般是做自身的多中心部署,应用侧的多中心部署需要应用配合。主要是应用的数据同步问题。

嘉宾:JAGXU 存储运维管理 , 中泰证券
参考公有云,用多可用区的概念行不,分开部署,把风险降低到最低。

3、大数据平台和容器云平台如何取长补短,发挥出1+1>2的优势?

大数据平台的特点是模块化,而容器云平台特色的动态化、临时化,两个不同的平台如何取长补短,发挥出1+1>2的优势?

嘉宾:gdong 资深解决方案架构师 , 红帽企业级开源解决方案中心
容器云和大数据有着各自不同的适用场景,大数据技术主要用于处理 5V ( Volume, Variety , Value , Velocity , Veracity )特征的数据,容器云提供了高效的资源管理能力。随着容器编排技术的日渐成熟,使两者架构融合,充分发挥各自优势,取长补短成为了可能。
目前来看,容器云与大数据的结合主要是以下两个方面:
1、 大数据基础服务容器化
大数据平台基本都是基于 Hadoop 生态,主要存在资源利用率低、隔离差、弹性不足、管理困难等问题。容器云的自动资源管理,安全隔离等特点可以很好地解决大数据这些弊端,虽然大数据组件众多,包括文件存储系统,计算框架,消息处理,查询分析等,但是现在一般都有对应的开源项目来支持它们部署到 Kubernetes 上。而针对于大容量、高 IO 、资源消耗大等特点,在容器平台如红帽 OpenShift 中,可以通过 CPU 、内存资源限定、隔离、物理节点亲和等方式来满足要求。此外,红帽还与很多生态伙伴如英伟达、路坦力等有着密切的合作,比如对 GPU 使用要求高的机器学习场景可以做到非常精确的分配和控制 GPU 线程。

2、 PaaS 能力容器化
数据 PaaS ,也可以称为数据中台,是在大数据基础服务之上搭建的数据服务平台,提供了包括数据集成、中间件、各种数据库服务、深度学习等等数据处理和应用相关的能力,支撑了大数据的各种使用场景。通过容器化部署这些工具,可以快速搭建数据服务,并实现业务快速迭代。红帽 OpenShift 内置的 Operator Hub 也和众多原厂和社区合作提供了绝大多数工具的官方镜像,并提供官方支持,部署简便,融合了最佳实践经验等等,为搭建大数据 PaaS 提供了便捷可靠的途径。

4、在大数据平台场景下,OpenShift相比开源K8S等平台有哪些优势?

嘉宾:gdong 资深解决方案架构师 , 红帽企业级开源解决方案中心
除了对K8S基础平台增强了很多企业级功能之外,针对大数据场景, OpenShift 还主要在以下 3 个方面进行了增强:
1、 大数据基础服务容器化
针对于大容量、高 IO 、资源消耗大等特点,在容器平台如红帽 OpenShift 中,可以通过 CPU 、内存资源限定、隔离、物理节点亲和等方式来满足要求。此外,红帽还与很多生态伙伴如英伟达、路坦力等有着密切的合作,比如对 GPU 使用要求高的机器学习场景可以做到非常精确的分配和控制 GPU 线程。

2、 PaaS 能力容器化
红帽 OpenShift 内置的 Operator Hub 和众多厂商和社区合作提供了大数据工具的官方镜像,并具有官方支持,部署简便,融合了最佳实践经验等等,为搭建大数据 PaaS 提供了便捷可靠的途径。 通过 OpenShift ,企业还可以通过 Operators 和 Helm 获得自动化操作,在不同的云和应用程序开发生命周期的所有部分中获得一致性和可移植性。

3、 OpenShift 的大数据生态圈
红帽与众多数据库和数据分析厂商建立了深厚的合作关系和战略整合,以确保企业在构建数据类型负载时可以得到官方的有力支持。

只有当数据能够被安全地存储,并且能够被敏捷地使用、分析和用于商业洞察力时,它才是有价值的。企业可以通过红帽 OpenShift 为他们的数据提供动力 !

四、交流达成的共识总结

通过本场交流活动达成了一些交流共识如下,仅供参考:
(1)虚拟机更适合比较重或庞大的单体应用和场景,对操作系统资源要求多,使用虚拟机更为合适。而容器更适合轻量级的应用,迭代较多,如微服务,在服务器上运行更多的应用,适合在云环境快速迁移。

(2)容器云平台的部署要结合本单位的实际情况,小规模进行测试(传统架构与容器云并存),结合业务情况验证方案的可行性,按照先易后难,从外围到核心的原则建设容器云。

(3)天好大数据平台提供多源异构的数据处理、数据治理、数据资产管理、数据质量管理、 数据分析平台、API 管理平台、AI 人工智能平台等功能,为政府、企业、科研机构等客户提供大数据管理、开发和计算的能力。
(4)容器云和大数据有着各自不同的适用场景,大数据技术主要用于处理规模性、多样性、高速性、价值性、以及真实性特征的数据,容器云提供了高效的资源管理能力。随着容器编排技术的日渐成熟,使两者架构融合,充分发挥各自优势,取长补短成为了可能。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

1

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

活动总结
活动总结是社区交流活动内容的总结及延伸,为大家提供了社区专家们丰富且高水平的理论知识、实践经验以及常见问题的最佳解决方法,非常值得大家收藏学习。

作者其他文章

相关文章

相关问题

相关资料

X社区推广