永洪科技
作者永洪科技·2016-08-11 18:30
网站运营经理·永洪科技

更灵活更稳定!永洪科技新产品Yonghong Z-Suite 6.1新功能曝光

字数 1810阅读 1295评论 0赞 0

2016年3月,我们正式发布了Yonghong Z-Suite新版本V6.0,在产品层面上初步形成了大数据分析全链。V6.0可以更好地支持自服务数据准备工作,提供了全新的自服务深度分析功能,进一步提升了大数据分析的性能和稳定性,全新定义了企业级管理的功能界面,极大地增强了易用性。

7月,我们发布了V6.1,在这个版本里我们继续优化提升了产品性能及稳定性,同时增加了一些灵活易用的小功能来更好地为企业用户服务。下面我就为大家介绍一些重要的新功能。
 

1.自服务数据准备

    自服务数据准备是将来自企业各系统的原始数据,通过简单的加工处理和轻度建模转变为可使用的分析数据。这里我们支持了数据的选择、类型的转换、格式的设定、过滤、多源数据的融合、自循环列转换等功能。

    多源数据融合:企业用户的数据来源是多源的,很多往往来自于各业务系统或各类数据报表中,那么如何将这些数据融合,进行统一的分析是企业用户最为关注的。永洪的多源数据融合技术是通过抽取多种异构数据库、其它的数据源如Excel、数据仓库等的数据,并对各来源数据进行清洗、转换、建立结构并将数据组合,最终建立数据集,从而为探索式分析做数据准备。

    自循环列转换功能:在企业用户中部门结构存在层级关系,这些层级关系往往是依靠关系ID来解读的,无法直接作为维度使用。以前我们只能通过IT人员拼写SQL语句对数据进行转变。在V6.0中我们提供了自循环列转换功能,通过界面简单地设置关系ID及分层列,即可得到部门关系的分层结果,设置过程极为简单易用。

2.深度分析功能  

    什么是深度分析呢?客户面对的往往都是一些未知数据,它们的特征不明显或者我们无法从诸多的维度中判断哪些是有必要关系的,这个时候探索式分析就不能满足客户的需求。此时永洪的深度分析,可以帮助您获得更多的数据洞察力。

    我们提供多种主流机器学习算法,并支持基于R语言的扩充。在数据的准备过程中,用户可以通过我们提供的机器学习算法或定制R脚本对数据进行深度分析,利用深度分析结果和描述性分析结果进一步实施可视化展示,即可得到一份可进行交互分析的深度分析报告。

3.数据集市支持Map Side Join功能

在分布式系统中,通常是将需要连接的表,先在源端连接好后将结果存成宽表,然后针对宽表进行分析处理。然而,宽表事实上是将数据进行固化,限制了数据变化的灵活性。但如果进行实时连接运算,又存在运算并行度不高、处理速度慢等问题,永洪MPP的Map Side Join就解决了星形数据模型遇到的上述问题。我们可以通过测试案例来看:事实表有一亿条数据,维度表为一万五千条,通过建立Map Side Join的查询,在表格中绑定5个维度一个度量,计算刷新结果只需10秒,而通过普通查询所建立的表格,同样的绑定刷新数据所需要的时间往往要大于半小时。从这个案例中,我们可以看到采用Map Side Join处理能力的高效性。

    MPP Map Side Join的原理:

    由于当前很多业务系统依然采用关系模型,表连接属于非常普遍的操作。但当数据量达到一定级别,数据表之间的连接操作变得非常难以计算处理。在分布式系统中,可对不同的数据模型进行有针对性的处理,以达到最佳的处理效果。比如在业务系统中普遍存在的星形数据模型,事实表数据量相当大;而维度表通常较小,并且都是些码表数据。我们将事实表数据按块分布在各个Data Node上,而将维度表在每个Data Node上保存一份完整拷贝。这样就能够在各个Data Node上进行连接操作,并把各个连接结果进行归并,形成最终计算结果。这就是Map Side Join,采用分布式并行处理连接运算,达到了最优的处理性能。

    目前,永洪MPP开始支持分布式连接运算,在V6.1中主要支持了Map Side Join的处理。预计后续版本将全面支持分布式连接运算,以解决大数据场景下,客户对于表实时连接运算的需求。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关问题

相关资料

X社区推广