虽然Pentaho的数据集成技术仍不具备数据质量和数据清洗功能,但是程序剖析服务器(一种专为执行剖析任务的服务器,用以帮助用户发现数据偏差;详情请参见 提取数据精华:商业智能系统中数据质量的重要性 )技术的提高似乎已迫在眉睫。 在这种情况下,当软件供应商无法支持某些功能时,用...
显示全部虽然Pentaho的数据集成技术仍不具备数据质量和数据清洗功能,但是程序剖析服务器(一种专为执行剖析任务的服务器,用以帮助用户发现数据偏差;详情请参见 提取数据精华:商业智能系统中数据质量的重要性 )技术的提高似乎已迫在眉睫。 在这种情况下,当软件供应商无法支持某些功能时,用户可转向互补性开源软件解决方案。例如,eobjects.org 的 DataCleaner应用系统 可支持数据剖析和数据质量监控。 这也显示了开源软件的一个重要的优势: 开源软件的“民治、民享”特性使共享软件创新更容易、更迅速、更流畅。
Mondrian分析工具企业商业活动的结构通常是多维度的。 这是因为人们一般从可量化或可衡量的(如:销售、库存或企业捐款等)以及可定性的(如:学生、客户或产品等)属性角度来定义企业运营。 每个商业活动都是多个可量化和可定性因素的结合体。 尽管企业可通过关系格式保存最新的活动信息,但是他们仍需要一个反应灵敏、多维度的企业系统环境,以便能够全面分析和了解企业的运营情况。
从研发角度上说,联机分析处理(OLAP)技术仍处于发展期。这是一种跨多个维度存储和查询大容量数据的技术。 现在,多维度OLAP技术(MOLAP)与基于关系型数据库的ROLAP技术(relational OLAP)之间的差别仍可引发业界人士激烈的争论。 不论选择哪种技术,这完全取决于数据、潜在因素和资源(硬件和软件资源)的种类。 例如,基于关系型数据库的ROLAP技术(relational OLAP)适用于维度密集型或潜在因素比率很低(近实时)的环境。 而多维度OLAP技术(MOLAP)则更适用于大型数据聚集集合和更宽松的潜伏要求环境。 不论如何,秉持完美的设计理念是开发成功的OLAP解决方案的基础。
Pentaho应对多维度分析的解决方案是被称之为 Mondrian 的ROLAP引擎。 OLAP的核心技术是如何以及在何处存储数据聚集。 在ROLAP环境(如:Mondrian)中,数据和数据聚集被存储在关系型数据库中。 预先计算的数据聚集被存储于基础事实表(fact tables)及其相关表中。 当进行查询时,这种聚集结构十分重要。它可避免计算成千上万个事实记录。 分析引擎不包括上述这些表;用户需通过ETL过程来搭建表。 Pentaho的 Aggregation Designer 工具可用于生成和维护聚集表。 Mondrian分析工具还包括一个内存聚集缓存。当第一次访问多维结果集时,该缓存会保存该结果集,以便在以后的计算中使用。 扩展 CacheContrel 应用程序接口(API)可用于Mondrian缓存的细粒度访问。
企业可从多个方法中选择一种,以作为多维分析的客户端工具。 一个名为 JPivot 的互补性开源项目可提供数据透视表客户端工具。该开源项目基于JSP技术,用于浏览通过Mondrian工具生成的立方体。 Mondrian工具还可提供多维表达式(MDX)接口(注:这与微软的MDX实施不完全一样)。 程序开发人员可使用 olap4j(OLAP for Java)来编写企业内部的应用系统。olap4j 是由多个开源软件公司(Pentaho,JasperSoft,和 LucidEra 等)共同开发的开源规范。
报告,仪表盘,以及相关技术所有的BI环境都需要提供一整套工具,以创建、发布、散布和调度富报告内容。 Pentaho的 Classic Engine 基于带状报告设计。 带状版面设计把报告分成多个部分,报告引擎横贯数据,并把数据分配到预定义的部分中。 在经典的带状引擎中,发送给报告的数据决定报告的版面。 多个报告工具都已经并将继续使用这个模式。 与此同时,一个相对较新的模式越来越受欢迎。该模式不基于驱动报告处理的数据,而是基于输出。 尚在开发中的 Flow Engine 通过使用文档对象模型(DOM)来进行报告定义,并通过合并定义和输入数据来生成最终输出。 Report Designer 可支持多种数据源和不同的格式化选项,并可生成不同输出格式(HTML,PDF,Excel等)、多语言的报告。 Pentaho报告套件中还包括基于异步JavaScript和XML和瘦客户端的即席报告工具。 可使用元数据层来设计即席工具中的报告;除了元数据层,报告设计器还可直接与数据源关联。
Pentaho的仪表盘可用于定义对于企业来说至关重要的指标,以及通过各种用户界面特性来部署这些指标: 电子表格式网格,与Google地图集成,交叉标签报告,钻取报告或多维分析。 还可通过框架或AJAX组件与其他Web内容集成。 由Pentaho社区资深成员开发的社区仪表盘框架(CDF)使新仪表盘的开发更容易。在无需编制接口程序的情况下,该框架通过十分简单明了的语法即可定义不同的组件。 一些在线讨论显示,Pentaho有可能把CDF技术整合到它的产品中。
结论虽然开源商业智能(BI)解决方案还不具备传统BI解决方案的资历或成熟度,但是随着它的信用度和行业关联性的增加,开源商业智能(BI)解决方案的发展正在获得里程碑式的进步。 在几乎没有风险的情况下,企业就可通过搭建应用系统蓝本来判断开源商业智能(BI)解决方案是否适合他们。 企业还可把开源商业智能(BI)解决方案的组件与现有的BI系统集成在一起,以获得更多的功能。 从技术和产品路线图角度说,开源商业智能(BI)解决方案的透明度很高。 开源软件供应商之间正在不断地搭建协作和合作伙伴关系。 精诚合作的用户社区使跨企业和平台的经验共享成为可能。
收起