数据本身是具备生命周期的特性的,其原理为:随着时间的积累,数据访问频次变化和数据量累积变化成反比。对数据根据访问频次进行数据价值评估,然后再对大量低价值的数据采取低成本保存手段,使得数据价值和存储技术与管理相匹配,进而大幅度降低整体数据存储成本。
针对上面的情况,不同节点的数据对性能、可用性、可靠性的要求也不尽相同。我们只需要根据这些需求对存储进行分级,再把对应的数据存放至对应的存储层即可,
按照我们的实践,数据生命周期分为
1)在线热数据:最近一段实践业务经常用到的数据,比如最近三个月
2)在线温数据:一段时间内有访问需求但不频繁的数据,比如最近两年
3)离线冷数据:因为其他原因导致的对一些数据偶尔查询,对查询时间无要求,比如为法律案件或者审计提供依据等。
按照这个依据,我们会将热数据存储在SSD等高性能设备,将温数据存储在性能相对差点的设备,并且日终将热数据转储到温数据,这样能够保证最近热数据的访问和效率,而冷数据则转储到更廉价的设备,同时专门搭建历史查询系统用于查询,在这种情况下这些业务数据不会有修改需求,只有查询