根据需求,主要是处理30亿条交易数据,并利用机器学习为交易地址打上标签,使用Hadoop和Spark是一个合适的大数据平台方案。
数据量:Hadoop适合存储海量的数据,并提供了多种技术组件用于查询和分析,由于本需求是30亿条数据进行存储和处理,所以选择Hadoop是合适的。Spark是基于内存的计算框架,擅长于大量数据的计算,适合本场景的需求。
容量扩展性:Hadoop和Spark在集群扩展上支持很好,物理上可以稳定支持数百台服务器的扩展,比较适合后续数据量的增长。
计算性能:Spark是一个基于内存的计算框架,适用于迭代计算和机器学习算法,可以显著提高处理速度和效率。
社区支持:这两个项目都有庞大的社区支持,可以方便地获取帮助和解决问题。技术选型上属于主流技术,能够较容易获得市场上的技术支持。