关于用于建模和机器学习的技术方案?

目前是技术方案选择的问题

我们目前拥有离线区块链交易数据

数据体量:30亿条交易数据,每条交易包含10个字段(主要的字段:发送地址、收款地址、交易类型、交易金额)

我们想做的:

根据业务需求提出分析策略,利用机器学习建立模型输出分析结果,为交易地址打上标签

策略比如:

实体聚集:多个账号行为、交易路径 相似度高的

路径符合:在有商品上架后,在限定的时间内进行了购买的地址。然后卖出,又买入了同一个其他商品的地址。

(几百万种商品在不同的时间上架)

整体工作包含

1,数据获取(完成)》

2,建设大数据平台〉导入数据》数据清洗〉

3,基础数据建模分析(抽象化分析)

4,机器学习算法分析

我们的疑问是:想要完成能够适配这个数据量的大数据分析(能够用于建模和机器学习),用什么大数据平台方案

我们现在打算使用hadoop和spark来完成此事

是一个好的选择吗

参与5

2同行回答

jinhaibojinhaibo课题专家组技术管理昆仑银行
根据需求,主要是处理30亿条交易数据,并利用机器学习为交易地址打上标签,使用Hadoop和Spark是一个合适的大数据平台方案。数据量:Hadoop适合存储海量的数据,并提供了多种技术组件用于查询和分析,由于本需求是30亿条数据进行存储和处理,所以选择Hadoop是合适的。Spark是基于内存的...显示全部

根据需求,主要是处理30亿条交易数据,并利用机器学习为交易地址打上标签,使用Hadoop和Spark是一个合适的大数据平台方案。
数据量:Hadoop适合存储海量的数据,并提供了多种技术组件用于查询和分析,由于本需求是30亿条数据进行存储和处理,所以选择Hadoop是合适的。Spark是基于内存的计算框架,擅长于大量数据的计算,适合本场景的需求。
容量扩展性:Hadoop和Spark在集群扩展上支持很好,物理上可以稳定支持数百台服务器的扩展,比较适合后续数据量的增长。
计算性能:Spark是一个基于内存的计算框架,适用于迭代计算和机器学习算法,可以显著提高处理速度和效率。
社区支持:这两个项目都有庞大的社区支持,可以方便地获取帮助和解决问题。技术选型上属于主流技术,能够较容易获得市场上的技术支持。

收起
银行 · 2024-03-11
浏览174
hym38hym38软件架构设计师某银行
30亿的数据量不算太大,用spark就可以搞定清洗,加工和必要一些特征工程的的工作了。从建模的角度来说,如果对分布式有要求pyspark挺好的。否则,直接用python灵活度会更高。显示全部

30亿的数据量不算太大,用spark就可以搞定清洗,加工和必要一些特征工程的的工作了。从建模的角度来说,如果对分布式有要求pyspark挺好的。否则,直接用python灵活度会更高。

收起
银行 · 2024-03-10
浏览160

ChatGPT 回答

针对您的需求,使用Hadoop和Spark来完成大数据分析是一个不错的选择。Hadoop是一个分布式计算框架,可以处理大规模数据,而Spark则是一个快速的数据处理引擎,可以在内存中进行数据处理,提高处理速度。

对于您的数据量,使用Hadoop和Spark可以帮助您快速地进行数据清洗、建模和机器学习算法分析。同时,您也可以考虑使用Hive或Impala来进行SQL查询,以便更好地处理数据。

另外,您还可以考虑使用云计算平台,如阿里云、腾讯云等,来搭建大数据平台。这些云计算平台提供了强大的计算和存储能力,可以帮助您更好地管理和处理数据。

总之,使用Hadoop和Spark来完成大数据分析是一个不错的选择,但具体方案还需要根据您的具体需求和预算来进行选择。

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2024-03-08
  • 关注会员:3 人
  • 问题浏览:947
  • 最近回答:2024-03-11
  • X社区推广