企业运营过程中有非常多的日志产生,一直以来只是被当做系统报错之后的问题定位,但实际上,日志(不仅仅是日志文件,还有页面访问,app访问日志等)中存在着很多有价值的信息有待开发,我们在尝试对日志进行分析,这是个共性问题,大家可以分享下使用经验。
日志包含的信息:
1、日志包含了IT的系统信息,比如:服务器的信息,网络设备的信息,操作系统的信息,应用软件的信息;
2、日志也包括用户的信息,用户的行为信息;
3、也可能包括业务的信息。
过去使用数据库处理日志无法支持大数据量。后来出现了使用Hadoop/Storm/SparkStreaming等开发框架来处理日志,及最新的使用实时搜索分析引擎来对日志进行实时处理。现如今使用Hadoop/Storm/SparkStreaming等开发框架来处理日志已经在各大公司被广泛的运用。
越来越多的公司也意识到日志需要统一来管。实现日志集中管理后,不同业务部门的日志全部交给一个部门来负责,他们会成立大数据部来统一处理日志,把不同业务系统的日志对照着来看,就会更加协调,更加统一,数据更加对得上号。
收起通常我们所指的“日志信息”与交易最终结果(多以交易记录信息为准)无关,仅仅是交互过程信息的记录,包括人机交互、应用间交互、网络/存储等底层基础设施的交互等。但随着数据分析的深入,对这些交互行为的关注,已经成为创新性的热点应用。人们希望通过分析这些交互行为与最终的交易结果间的联系,预测未来的结果,甚至提前给予针对性的干预,促进(营销)或者避免(反欺诈、安全防护、系统运维)最终结果的发生。达到这样的目标,一方面依赖于海量数据的支持,另一方面需要数据挖据等分析手段的支持。前者又可以分为两个点,一是需要考虑对多点日志信息的整合,力求更充分反映用户(或其他分析对象)的行为意图;二是与内外部交易信息的整合,不同的交易间也存在着相关性,交易信息更具确定性,应该充分使用。后者即数据挖掘等分析手段,依赖于对专业人员知识技能和对业务领域的理解。后者是科研问题,前者是工程问题,前者为后者提供研究基础,后者的成果指导最终的工程实施。
收起系统运行过程中产生的日志有几个作用: