关于用于建模和机器学习的技术方案?

目前是技术方案选择的问题我们目前拥有离线区块链交易数据数据体量:30亿条交易数据,每条交易包含10个字段(主要的字段:发送地址、收款地址、交易类型、交易金额)我们想做的:根据业务需求提出分析策略,利用机器学习建立模型输出分析结果,为交易地址打上标签策略比如:实体聚集:多个账...显示全部

目前是技术方案选择的问题

我们目前拥有离线区块链交易数据

数据体量:30亿条交易数据,每条交易包含10个字段(主要的字段:发送地址、收款地址、交易类型、交易金额)

我们想做的:

根据业务需求提出分析策略,利用机器学习建立模型输出分析结果,为交易地址打上标签

策略比如:

实体聚集:多个账号行为、交易路径 相似度高的

路径符合:在有商品上架后,在限定的时间内进行了购买的地址。然后卖出,又买入了同一个其他商品的地址。

(几百万种商品在不同的时间上架)

整体工作包含

1,数据获取(完成)》

2,建设大数据平台〉导入数据》数据清洗〉

3,基础数据建模分析(抽象化分析)

4,机器学习算法分析

我们的疑问是:想要完成能够适配这个数据量的大数据分析(能够用于建模和机器学习),用什么大数据平台方案

我们现在打算使用hadoop和spark来完成此事

是一个好的选择吗

收起
参与5

查看其它 1 个回答hym38的回答

hym38hym38软件架构设计师某银行

30亿的数据量不算太大,用spark就可以搞定清洗,加工和必要一些特征工程的的工作了。从建模的角度来说,如果对分布式有要求pyspark挺好的。否则,直接用python灵活度会更高。

银行 · 2024-03-10
浏览161

回答者

hym38
hym380314
软件架构设计师某银行
擅长领域: 大数据人工智能安全

hym38 最近回答过的问题

回答状态

  • 发布时间:2024-03-10
  • 关注会员:3 人
  • 回答浏览:161
  • X社区推广