spark - 主题 - twt企业IT交流平台

spark

spark

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不...(more)

378 会员关注

135 会员贡献

23 关系主题

动态

动态

机器学习· 2024-03-11

关于用于建模和机器学习的技术方案？xxx

课题专家组

昆仑银行擅长领域：人工智能, 数据库, 大数据

4 会员关注

根据需求，主要是处理30亿条交易数据，并利用机器学习为交易地址打上标签，使用Hadoop和Spark是一个合适的大数据平台方案。数据量：Hadoop适合存储海量的数据，并提供了多种技术组件用于查询和分析，由于本需求是30亿条数据进行存储和处理，所以选择Hadoop是合适的。Spark是基于内存的...(more)

浏览926

描述

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不...(more)

378 会员关注

135 会员贡献

23 关系主题

主题组织结构热门关系主题

关注330 大数据分析

关注585 大数据产品

关注分布式数据库产品

关注大数据平台涉及产品

关注 Informatic

关于TWT 使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们
© 2024talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30

X社区推广

关注主题378