数据湖的概念可以这样理解,数据湖是将结构化数据与非结构化数据,统一放在一个数据池里,大数据平台提供数据服务,大数据分析软件会根据数据使用频率分级存储,底层采用SSD固态硬盘来提供10%的热数据计算和利用,使用SATA硬盘,提供10-20%的温数据相当于近1-2年重复使用的数据,采用磁带或蓝光光盘等形式提供80%的近线+离线数据,采用分级存储可满足数据的全生命周期管理的需求和法律法规、档案相关的规定和要求。
收起数据湖个人看来本质就是一个大的存储库,结合了很多相关的技术
以下基于aws咨询:
根据要求,典型的组织将需要数据仓库和数据湖,因为它们可满足不同的需求和使用案例。
数据仓库是一个优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据。事先定义数据结构和 Schema 以优化快速 SQL 查询,其中结果通常用于操作报告和分析。数据经过了清理、丰富和转换,因此可以充当用户可信任的“单一信息源”。
数据湖有所不同,因为它存储来自业务线应用程序的关系数据,以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。捕获数据时,未定义数据结构或 Schema。这意味着您可以存储所有数据,而不需要精心设计也无需知道将来您可能需要哪些问题的答案。您可以对数据使用不同类型的分析(如 SQL 查询、大数据分析、全文搜索、实时分析和机器学习)来获得见解。
随着使用数据仓库的组织看到数据湖的优势,他们正在改进其仓库以包括数据湖,并启用各种查询功能、数据科学使用案例和用于发现新信息模型的高级功能。Gartner 将此演变称为“分析型数据管理解决方案”或“DMSA”。
收起