报表工具调研报告

申请报告


1   背景资料

在企业信息系统开发中,开发各种报表所占的工作量越来越高。据统计,对一个应用系统,开发报表所占的工作量在10%-20%之间。

报表开发主要有以下几种模式:

1.   根据项目直接定制报表,即纯手工编码。

2.   自行开发简单模版系统,或改造免费的开源报表工具,以支持报表开发。

3.   购买一款商业报表工具进行报表开发。

2   购买需求

软件产品开发部当前承接的项目以及开发中的产品中,也涉及到很多报表开发的需求。当前的解决方案是以模式2为主。即在一套开源报表软件BIRT基础上进行二次开发,以支持各项目的报表需求。实际经验表明,虽然这种方式比纯手工方式好,但面对越来越复杂的报表需求,此方案的局限性越来越明显。

3   参考标准

选择一款商业报表软件,需要从以下4个方面考察:复杂格式报表制作能力,填报能力, 采购成本,技术支持和服务。复杂格式报表制作能力。以下是各条标准简介,以及国内外厂商的对比。

3.1       报表制作能力

相对于国外报表,国内报表对格式的需求相对复杂。一个好的报表工具至少要有以下特性:

l  支持多数据源:即同一报表中的数据来自不同的数据源

l  支持分片关联:即看似形式统一的报表中,其实各块有着不同的数据产生规则;

l  支持跨行跨组计算:即可以跨行以及跨数据组进行数据关联计算。

以上三条中,除了第1条各报表工具能支持,其它两条国外报表工具表现很差。

3.2       填报能力

在已生成的报表上填写和修改数据,再回填至数据库,是国内对报表的常见需求。当前的OA项目中也遇到了这种需求。但是,多数国外报表软件都不支持此功能。在这一点上,国内的报表软件表现不凡,基本解决了报表填报需求。

3.3       采购成本

多数商业报表工具的许可需要按服务器购买,有些还更具并发访问数区分报价。也就是说,一般对每个项目都需支付使用费。因此,应当根据具体项目中对报表需求的高低,决定是否采用商业工具,以及采用哪种工具。

一般而言,国外商用报表工具主要面向国外用户,许可费用要高出国内的很多。

3.4       技术支持和服务

选择商业软件的一个重要原因是可以享受技术支持,以减少在遇到问题时不必要的摸索,提高工作效率。因此厂商提供的技术支持和培训服务是重要的考察因素。同时,对由于软件缺陷引起的使用问题,厂商是否能迅速提供补丁也是很重要的考察因素。

由于缺少相关信息,无法评价国外厂商的服务。但通过对国内厂商产品的试用,其技术支持以及研发人员对问题的反馈速度都相当令人满意。

3.5       结论

从以上对比中,可以看出,在国内的报表软件市场,国内厂商有着绝对优势,因此,在近一步厂商对比中,只需考虑国内厂商的产品。

4   供应商对比

基于上一章节分析,国内的报表软件市场,国内厂商不论在功能还是价格上都有着绝对优势,因此我们只考虑国内厂商的产品。通过市场调研以及从行业内其它报表客户处的了解,目前国内市场上主流产品能够处理复杂报表的主要有FineReport和润乾,有着“南帆软、北润乾”的说法。因此我们详细调研了这两家厂商,下面是从公司情况、产品功能、技术支持和报价几方面进行对比。

4.1       供应商介绍

1.帆软软件公司

帆软软件公司成立于20##年初,公司创始团队来自美国硅谷,研发中心位于风景秀丽的六朝古都南京,目前在北京、南京、成都都设有销售服务中心。公司员工均拥有本科以上学历,其中核心成员拥有硕士、博士学位。帆软的客户有IBM,电信,人民银行,神州数码,方正,同方,软通动力,许继等数百家,遍及金融,电信,电力,公安,烟草,税务,政府,钢铁,航空,外贸等各个行业。

FineReport软件是帆软自主研发的报表软件产品,操作简单易用,却能够制作复杂的报表,特别适合制中国式报表设计的需求。自推出市场以来,FineReport得到多方用户的认可和赞誉,同时也在不断的改良与升级中变得更加易用,功能更加强大,也将会给用户带来更新更好的体验。自成立起,帆软在积极发展专业技术、优化产品性能的同时,也孕育出丰富且意义深远的企业理念,并随着企业的发展而日臻成熟。

2.北京润乾软件技术有限公司

润乾公司成立于20##年6月,是北京市海淀高科技园区内的高新技术企业、软件企业,主要从事企业级BI产品的研发和推广。润乾公司一直致力于在企业级BI产品领域的探索,经过几个版本的积累和努力,于20##年2月推出润乾报表3.0,其自主独创的数据统计模型是迄今为止唯一能零编码处理复杂非线性报表的软件,配合以类EXCEL的绘制方式,润乾报表的制表效率数倍于以国外产品为代表的传统工具,且在展现输出、填报、集成性等细节方面也有全面超越,成为BI展现工具领域里新一代的革命性产品。

经过不懈的努力,润乾报表产品得到了大批用户的认可和应用,表现出强大的生命力。润乾报表已经成为企业级报表工具市场的领导者之一。我们将一如既往地秉承“创新技术推动应用进步”的理念,不断改进和完善我们的产品体系,认真做好每一个细节,为开发商和用户提供更强有力的支持,用我们的经验、努力与热情,提供最好的BI展现工具。

4.2       对比评价

4.2.1        技术评价

4.2.2        商务评价

经过功能上详细的对比,FineReport的报表设计相对方便,易用性更高,整体功能更加全面细致,,比较符合我们公司产品的需求。

4.3       技术服务对比

1.帆软

2.润乾

经过对比,首年的技术服务两家公司都基本免费,第二年开始润乾的收费相对高一些。

4.4       产品价格具体对比

5   供应商选择

综合以上各种信息和价格的对比,帆软的FineReport在功能和价格都比较有优势,建议采购。

 

第二篇:BI工具调研报告

BI工具调研报告

(来源于网络)

1. 数据分析 ...................................................................................................................................... 1

1.1 四种前端工具 .................................................................................................................... 1

1.2 C/S vs B/S ........................................................................................................................... 2

1.3各家产品简介 ..................................................................................................................... 2

1.3.1 IBM .......................................................................................................................... 2

1.3.2 Oracle ....................................................................................................................... 3

1.3.3 Sybase ...................................................................................................................... 3

1.3.4 Informix ................................................................................................................... 4

1.3.5 CA ............................................................................................................................ 4

1.3.6 NCR ......................................................................................................................... 4

1.3.7 Microsoft .................................................................................................................. 5

1.3.8 SAS .......................................................................................................................... 5

1.3.9 BO ............................................................................................................................ 5

1.3.10 Hyperion ................................................................................................................. 5

1.4各家产品比较 ..................................................................................................................... 6

1.4.1 特色工具 ................................................................................................................. 6

1.4.2 成本比较 ................................................................................................................. 6

1.4.3 市场份额比较 ......................................................................................................... 6

1.4.4 简单与复杂 ............................................................................................................. 7

1.4.5 数据存储方式 ......................................................................................................... 7

1.4.6 系统开放性 ............................................................................................................. 8

2. 数据挖掘 ...................................................................................................................................... 8

2.1 主要功能 ............................................................................................................................ 8

2.2 常见算法及模型 ................................................................................................................ 9

2.3 各厂家产品对比 ................................................................................................................ 9

2.4 一般实施步骤 .................................................................................................................. 11

2.5 统一模型 .......................................................................................................................... 11

2.6 应用现状 .......................................................................................................................... 12

2.7 可能存在的问题 .............................................................................................................. 12

1. 数据分析

1.1 四种前端工具

BI前端应用主要为报表、OLAP以及仪表盘、Portal四种。

(1)报表

报表的前端主要是面向设计者和浏览者,因此一般报表产品也都会将设计器和浏览器分

开。Crystal Report、Cognos ReportNet、Hyperion Brio莫不如此。业界一直流行一个观点——国内的报表非常复杂。国外的报表工具在前些年似乎并不适应这种中国式报表,因此也就有了中国本土报表工具的生存之地,诸如润乾、华表等。当然,随着国内企业管理的完善,决策层面对报表的需求也在规范,因此,不论是国外或是国内报表工具,其架构都在趋同。

(2)OLAP

如果说报表还称不上BI的典型应用的话,那么OLAP就当仁不让了。OLAP的前端主要是将用户的多维分析请求提交给OLAP服务器,并展现返回的数据。这里的多维分析请求主要包括钻取、切片、旋转等操作。在电信行业大规模展开经营分析系统的建设初期,曾经对这项应用寄予很大期望的,不过似乎它不怎么争气。目前已经有标准化组织或企业在定义OLAP前端与服务器数据交换的标准,例如微软、Hyperion、SAS推进的XML,还有基于JAVA API的JOLAP。因此,微软刚收购的ProClarity工具和Hyperion的Brio在OLAP展现上朝这种开放式体系发展也就顺理成章了。

(3)仪表盘

仪表盘这种前端展现形式随着绩效管理软件的兴起正在流行起来,其界面非常简单,非常适合决策者一目了然了解宏观信息。目前主流的BI厂商BO、Cognos、Hyperion、SAS都有自己的CPM(Corporate Performance Management)产品,当然还有称BPM或EPM的(Business/Enterprise Performance Management)。这种应用主要是向用户展示绩效指标的状态、进度完成情况,提供异常告警等功能。可以说这些前端功能都不复杂,主要的难点还是在于绩效指标的定义以及管理流程的规范上面。

(4)Portal

1.2 C/S vs B/S

在早期PC机功能尚弱的年代,服务器的计算能力强大,客户端只能做很少的事情;后来,PC机功能逐渐强大,桌面系统的应用变得丰富起来,C/S体系也逐渐成熟;到了90年代,三层结构又逐步取代C/S结构,Web应用大行其道,因为其“零客户端”的部署而备受宠爱;最近几年, AJAX技术出现,应用计算似乎又重新偏向客户端。在整个软件体系的变迁中,BI产品的前端也跟随这个大趋势。如今,几乎每个产品都有自己的Web应用,甚至有些产品出现了将所有的应用前端都转成Web界面的趋势。例如BO,它的报表设计器可以就可以实现在Web上设计报表。

当然,并非所有人都欢迎这种趋势,因为对于决策者,他们希望看到结果,并不需要太多交互,就比较看重界面的简洁;而对于分析师、设计师来说,他们需要的是功能丰富的客户端,方便操纵数据,定制提供给决策者的界面,因此对于报表设计师来说,Web应用倒觉得有些不爽,因为不如传统C/S客户端那样便捷。

1.3各家产品简介

1.3.1 IBM

IBM公司提供了一套基于可视数据仓库的商业智能(BI)解决方案,包括:Visual Warehou(VW)、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及来自第三方的前端数据展现工具(如BO)和数据挖掘工具(如SAS)。Sybase提供的数据仓库解决方案称为Warehouse

Studio,包括数据仓库的建模、数据抽取与转换、数据存储与管理、元数据管理以及可视化数据分析等工具。IBM公司提供了一套基于可视数据仓库的商业智能(BI)解决方案,包括:Visual Warehouse(VW)、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及来自第三方的前端数据展现工具(如BO)和数据挖掘工具(如SAS)。其中,VW是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。Essbase/DB2 OLAP Server支持“维”的定义和数据装载。Essbase/DB2 OLAP Server不是ROLAP(Relational OLAP)服务器,而是一个(ROLAP和MOLAP)混合的HOLAP服务器,在Essbase完成数据装载后,数据存放在系统指定的DB2 UDB数据库中。严格说来,IBM自己并没有提供完整的数据仓库解决方案,该公司采取的是合作伙伴战略。例如,它的前端数据展现工具可以是Business Objects的BO、Lotus的Approach、Cognos的Impromptu或IBM的Query Management Facility;多维分析工具支持Arbor Software的Essbase和IBM(与Arbor联合开发)的DB2 OLAP服务器;统计分析工具采用SAS系统。

1.3.2 Oracle

Oracle数据仓库解决方案主要包括Oracle Express和Oracle Discoverer两个部分。Oracle Express由四个工具组成:Oracle Express Server是一个MOLAP (多维OLAP)服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能够访问多种关系数据库;Oracle Express Web Agent通过CGI或Web插件支持基于Web的动态多维数据展现;Oracle Express Objects前端数据分析工具(目前仅支持Windows平台)提供了图形化建模和假设分析功能,支持可视化开发和事件驱动编程技术,提供了兼容 Visual Basic语法的语言,支持OCX和OLE;Oracle Express Analyzer是通用的、面向最终用户的报告和分析工具(目前仅支持Windows平台)。Oracle Discoverer即席查询工具是专门为最终用户设计的,分为最终用户版和管理员版。在Oracle数据仓库解决方案实施过程中,通常把汇总数据存储在Express多维数据库中,而将详细数据存储在Oracle关系数据库中,当需要详细数据时,Express Server通过构造SQL语句访问关系数据库。但目前的Express还不够灵活,数据仓库设计的一个变化往往导致数据库的重构。另外,目前的 Oracle 8i和Express 之间集成度还不够高,Oracle 8i和Express之间需要复制元数据,如果Oracle Discoverer(或BO)需要访问汇总数据,则需要将汇总数据同时存放在Oracle和Express中,系统维护比较困难。值得注意的是,刚刚问世的Oracle 9i把OLAP和数据挖掘作为重要特点。

1.3.3 Sybase

Sybase提供的数据仓库解决方案称为Warehouse Studio,包括数据仓库的建模、数据抽取与转换、数据存储与管理、元数据管理以及可视化数据分析等工具。其中,Warehouse Architect是PowerDesigner中的一个设计模块,它支持星形模型、雪花模型和ER模型;数据抽取与转换工具包括PowerStage、 Replication Server、Carleton PASSPORT,PowerStage是Sybase提供的可视化数据迁移工具。 Adaptive Server Enterprise是Sybase企业级关系数据库,Adaptive Server IQ是Sybase公司专为数据仓库设计的关系数据库,它为高性能决策支持系统和数据仓库的建立作了优化处理,Sybase IQ支持各种流行的前端展现工具(如Cognos Impromptu、Business Objects、Brio Query等);数据分析与展现工具包括PowerDimensions、EnglishWizard、InfoMaker、PowerDynamo等, PowerDimensions是图形化的OLAP分析工具,它支持SMP和多维缓存技术,能够集成异构的关系型数据仓库

和分布式数据集市,从而形成单一的、新型的多维模式;数据仓库的维护与管理工具包括Warehouse Control Center、Sybase Central、Distribution Director,其中Warehouse Control Center是为数据仓库开发人员提供的元数据管理工具。 Sybase提供了完整的数据仓库解决方案Quick Start DataMart,具有良好的性能,并支持第三方数据展现工具。从Quick Start DataMart的名称不难看出,它尤其适合于数据集市应用。另外,Sybase可以提供面向电信、金融、保险、医疗保健这4个行业的客户关系管理(CRM)产品,在这4个产品中,有80%的功能是共性的,有20%的功能需要Sybase与合作伙伴针对不同需求共同开发。

1.3.4 Informix

Informix于1998和19xx年相继收购了国际上享有盛誉的数据仓库供应商Red Brick System和数据管理软件供应商Ardent,并提供了完整、集成的数据仓库解决方案。该解决方案还包括一个“快速启动”咨询服务,能够帮助用户快速完成数据仓库或数据集市的开发。Informix产品能够集成Microsoft IIS或Netscape Enterprise/FastTrack服务器,从而支持基于Web的数据仓库应用。 Informix没有提供自己的报表和数据挖掘工具,但他们与Brio和SAS公司建立了战略联盟,并推出了“Informix商务智能联盟计划”。该计划以Informix为主,结合Brio的前端数据分析和报表功能,以及SAS的数据挖掘功能,形成了一个“BI中心”打包方案。(今年4月Informix Software已被IBM公司收购,此举将给IBM公司数据库及数据仓库产品,从技术和市场占有率上带来极大的提升。)

1.3.5 CA

CA于19xx年收购了Platinum Technology公司后,得到了完整的数据仓库解决方案,包括:Erwin数据仓库设计工具、InfoPump数据转换与抽取工具、 InfoBeacon ROLAP服务器、Forest&Trees前端数据展现工具、Provision系统监视与作业调度工具和DecisionBase元数据管理工具等。与Informix 解决方案相似,CA解决方案也提供了数据仓库建模、元数据管理、数据抽取与转换、基于关系数据库的在线分析服务器、系统监视与作业调度、前端数据展现等功能,同时还支持Web应用。不同之处是Informix提供了专门为数据仓库设计的高性能目标数据库(Red Birck),而CA解决方案则提供ODBC接口,并将数据存储在第三方关系数据库(如Oracle、Sybase、SQL Server、Informix和IBM DB2等)中,其性能要打一些折扣,但开放性要好些。另外,CA的OLAP服务器目前只能与Microsoft的IIS Web服务器集成。

1.3.6 NCR

NCR Teradata是高端数据仓库市场最有力的竞争者,主要运行在NCR WorldMark SMP硬件的Unix操作系统平台上。19xx年,该公司也提供了基于Windows NT的Teradata,试图开拓数据集市(Data Mart)市场。总的来看,NCR的产品性能很好,Teradata数据仓库在100GB、300GB、1TB和3TB级的TPCD指标测试中均创世界纪录。但是,NCR产品的价格相对较高,中小企业用户难以接受。

1.3.7 Microsoft

Microsoft将OLAP功能集成到Microsoft SQL Server 7.0中,提供可扩充的基于COM的OLAP接口。它通过一系列服务程序支持数据仓库应用。数据传输服务DTS(Data Transformation Services)提供数据输入/输出和自动调度功能,在数据传输过程中可以完成数据的验证、清洗和转换等操作,通过与Microsoft Repository集成,共享有关的元数据;Microsoft Repository存储包括元数据在内的所有中间数据;SQL Server OLAP Services支持在线分析处理;PivotTable Services提供客户端OLAP数据访问功能,通过这一服务,开发人员可以用VB或其他语言开发用户前端数据展现程序,PivotTable Services还允许在本地客户机上存储数据;MMC(Microsoft Management Console)提供日程安排、存储管理、性能监测、报警和通知的核心管理服务;Microsoft Office 2000套件中的Access和Excel可以作为数据展现工具,另外SQL Server还支持第三方数据展现工具。

1.3.8 SAS

SAS公司在20世纪70年代以“统计分析”和“线性数学模型”而享誉业界,90年代以后,SAS公司也加入了数据仓库市场的竞争,并提供了特点鲜明的数据仓库解决方案,包括30多个专用模块。其中,SAS/WA(Warehouse Administrator)是建立数据仓库的集成管理工具,包括定义主题、数据转换与汇总、更新汇总数据、元数据管理、数据集市的实现等; SAS/MDDB是SAS用于在线分析的多维数据库服务器;SAS/AF提供了屏幕设计功能和用于开发的SCL(屏幕控制语言);SAS/ITSV(IT Service Vision)是IT服务的性能评估和管理的软件,这些IT服务包括计算机系统、网络系统、Web服务器和电话系统等。SAS系统的优点是功能强、性能高、特长突出,缺点是系统比较复杂。

1.3.9 BO

Business Objects(BO)是集查询、报表和OLAP技术为一身的智能决策支持系统。它使用独特的“语义层”技术和“动态微立方”技术来表示数据库中的多维数据,具有较好的查询和报表功能,提供钻取(Drill)等多维分析技术,支持多种数据库,同时它还支持基于Web浏览器的查询、报表和分析决策。虽然BO 在不断增加新的功能,但从严格意义上说,BO只能算是一个前端工具。也许正因为如此,几乎所有的数据仓库解决方案都把BO作为可选的数据展现工具。虽然国内有很多大学和研究机构从事数据仓库技术的研究,但到目前为止,国内基本上没有成熟的数据仓库解决方案。

1.3.10 Hyperion

Hyperion Essbase OLAP Server,在上面有超过100个的应用程序,有300多个用Essbase作为平台的开发商。具有几百个计算公式,支持过程的脚本预言,及统计和基于维的计算。 强大的OLAP查询能力,利用Essbase Query Designer,商业用户可以不用IT人员的帮助自己构件复杂的查询。广泛的应用支持,可以扩展数据仓库和ERP系统的价值,建立对电子商务、CRM、金融、制造业、零售和CPG(consumer packaged goods)等应用的分析程序。 Speed-of-Thought的响应时间,支持多用户同时读写Web-Enabled的,以服务器为中心的体系结构,支持SMP强大的合作伙伴提供完整的解决方案,60多个包装好的解决方案,300

多个咨询和实施公司。丰富的前端工具,有30多个前端工具可供选择,其中包括Hyperion自己的Wired for OLAP、Spider-Man Web Application、Objects、Essbase Spreadsheet Add-In、Web Gateway 、 Reporting 。

Hyperion Enterprise,为跨国公司提供的财务整合、报告和分析的解决方案。有3000多家组织在使用此套系统。功能丰富:支持多种财务标准US GAAP,Canadian GAAP,UK GAAP,国际会计标准(ISA),FASB,HGB。分公司间交易的自动平帐。FAS52货币转换。FAS94。易用:可通过Excel,Lotus 1-2-3和各种浏览器访问系统。支持公司结构的调整。跨国公司的支持:同时支持6种语言及各个不同国家的法律和税收要求。完整的过程控制和审计跟踪,及安全等级的设置。能与ERP或其他数据源集成

Hyperion Pillar,预算和计划工具。全球用户超过1500家,提供基于活动的预算,基于项目的计划,集中式计划,销售预测和综合计划。分布式体系结构。详细计划的制订,允许一线经理制订详细的计划。复杂的建模和分析能力

1.4各家产品比较

1.4.1 特色工具

(1)Cognos & Microstratagy

在评比中我们发现Cognos与Microstratagy的产品线较齐全,既有前端展示功能,又有后端数据分析与挖掘功能,二者都能够提供比较集成化的方案。Cognos数据处理速度更快一些,且在预算与规划方面造诣颇深;而Microstratagy在OLAP Server上的优势使其在处理大数据量数据方面更出色。由于Cognos早在19xx年就已成立,比其他3家都要早20年,这也决定了他们在技术架构上的差异。不过,Cognos最新的Series7 Version2系列产品是三层构架的BPM和BI工具系统。它的OLAP分析工具PowerPlay,报表制作工具ReportNET以及门户工具Upfront都是完全支持B/S构架的,可以在浏览器里面进行报表定义、Drill Up、Drill Down等操作,而且客户端无须安装任何控件。服务器软件支持.NET和J2EE两个版本,具有良好的跨平台特性。

(2) BO & Brio

BO与Brio都是在前端展现方面比较突出,用户接受程度较高。但二者均无OLAP Server,导致数据监控功能较弱,虽然也可以与微软或Oracle的OLAP Server挂接,但这样毕竟受制于人,给客户提供的方案也不是最集成的。正是因为这个原因,海波龙才认为对Brio的收购是前端与后端的最完美的结合(不过由于缺少数据挖掘这部分功能,他们所谓的完美似乎也有些牵强)。

1.4.2 成本比较

单纯从成本角度考虑,微软的产品算是最能节省成本的,Cognos和MicroStrategy则在同一水平线,都比微软贵一些。而Hyperion (Essbase)产品比较独立,也曾占有美国OLAP市场最大的份额,其产品价格又要更高一些。

1.4.3 市场份额比较

从市场份额来看,就国外的市场报告分析,微软、Cognos、Hyerion三家占据主流。在

国内,目前还没有权威的市场报告,如果仅从所接触到的项目来看的话,用Cognos的很多,买Essbase的也不少。这些年都是一些大企业建设BI项目,有足够的预算,多选用Cognos、Essbase;而Microstrategy,进入中国不算早,这几年在政府、金融行业也颇有建树。

若论开发应用,微软的产品向来以友好的用户界面著称,上手迅速。在OLAP产品上,微软依然发扬了这一优良传统,并有进一步标准化的趋势,开发了OLE DB for OLAP以及MDX(Multi-Dimensional Express多维表达式);参与XMLA(XML for Analysis)规范制定,也是想作为OLAP服务器和前端分析应用的数据传输标准。

1.4.4 简单与复杂

而Cognos以桌面OLAP开始,一直以轻便、快捷的操作闻名。所谓桌面OLAP,是可以用客户端将cube下载到本地进行访问。虽然Poweplay早已演变成C/S结构的OLAP服务器,但其轻便的特点还是延续下来,而且提供可以简洁部署且具有交互性的PowerPlay Web Explorer界面。从互联网上,我们可以很快搜索出许多基于PowerPlay Web的分析应用。

Essbase作为老牌的OLAP服务器,是一个比较复杂的产品。所谓复杂,有两层意思,一是提供了丰富的API,让你可以充分定制开发;二是开发的难度较大,部署起来不容易。这也是国内很多用户难以将这个产品用好的一大原因。

比较Essbase和Powerplay,会发现截然相反的两个特点:Essbase的复杂和Powerplay的简洁。对于这两者,单独说哪一种更好都不够客观,因为当你抱怨Essbase繁杂的接口时,也有人在抱怨Powerplay的定制功能怎么如此之少。这种情形其实跟这两种产品的定位有关,Essbase比较专注于高性能的多维存储服务,而Powerplay则更专注于快捷的多维访问。换句话讲,Essbase之于Powerplay正像专业相机之于傻瓜相机,在选哪一个更好的问题上,不同的人肯定有不一样的答案。当然,如果你想在找复杂和简洁之间找一个中间者,我想微软的 Analysis Service就是这样的产品。不过要注意的是,这个产品和SQL Server绑定得比较紧,这是微软的一贯策略。

1.4.5 数据存储方式

根据多维数据存储的位置,OLAP一般分为MOLAP(Multi-Dimensional OLAP)和ROLAP(Relational OLAP)两种,此外,还有混合的HOLAP(Hybrid OLAP)。其中, Cognos的Powerplay、Hyperion 的Essbase和微软的Analysis Service这些产品都是MOLAP产品。.这类产品将数据从关系数据库(甚至是文本文件、Excel文件)中抽取出来,存储在自己的数据库中。这种数据库跟平常我们所见的Oracle、DB2这类关系数据库不同之处在于,它是专有格式的,且没有标准的访问接口。因此,这些产品如何实现多维存储也都不尽相同,大致的原理是以编程语言中多维数组的方式存放数据。度量值存放在数组的单元格中,而数组每个维就对应一个维度,其中,维元素就维的坐标。可以想象,多维数据库的单元格跟维度、维元素的多少有莫大关系,而随着维度增加,数据库也迅速膨胀。因此,对于MLOAP产品,多维存储的存储空间、性能自然是比较关键的。Essbase在这方面提供很多优化工作,但有时候也会显得过于复杂。Powerplay也提供某些选项,诸如cube分区等,这是比较简单的优化方法。

1.4.6 系统开放性

OLAP产品的核心功能是提供多维存储,另外就是能够将OLAP访问操作转换为对数据的请求并返回,这些OLAP访问操作大多是用户通过前端发出的,因此要考虑OLAP产品能够和哪些前端工具对接。

Cognos Powerplay是个相对封闭的产品,它有自己的客户端和Web Explorer,你也甭想着用其他前端来访问它。Hyperion和微软都采用开放式接口,提供丰富的访问API,第三方可以用这些API访问其数据库。上文曾提到微软开发的MDX和参与的XMLA(XML for Analysis)规范,事实上,一些第三方的前端工具正是基于这样的标准和OLAP产品对接,比如可以用BO WebI连接Essbase。更有甚者,微软的服务器还提供用MDX来查询多维数据,就像用SQL来访问关系数据库一样。诚然,这看起来的确比较酷,但有一点也要明确:目前虽然有XMLA、MDX这样的标准,但还不是非常成熟,且并非唯一标准。所以即使有第三方前端工具访问这些OLAP服务器,但只能说是多了一些选择,真正在前端功能上,并不能保证比封闭结构更丰富。

2. 数据挖掘

近十几年,随着科学技术飞速的发展,经济和社会都取得了极大的进步,与此同时,在各个领域产生了大量的数据,如人类对太空的探索,银行每天的巨额交易数据。显然在这些数据中丰富的信息,如何处理这些数据得到有益的信息,人们进行了有益的探索。计算机技术的迅速发展使得处理数据成为可能,这就推动了数据库技术的极大发展,但是面对不断增加如潮水般的数据,人们不再满足于数据库的查询功能,提出了深层次问题:能不能从数据中提取信息或者知识为决策服务。就数据库技术而言已经显得无能为力了,同样,传统的统计技术也面临了极大的挑战。这就急需有新的方法来处理这些海量般的数据。于是,人们结合统计学、数据库、机器学习等技术,提出数据挖掘来解决这一难题。

数据挖掘的历史虽然较短,但从20世纪90年代以来,它的发展速度很快,加之它是多学科综合的产物,目前还没有一个完整的定义,人们提出了多种数据挖掘的定义,例如: SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。

Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。

Hand et al(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。 我们认为:数据挖掘就是从海量的数据中挖掘出可能有潜在价值的信息的技术。这些信息是可能有潜在价值的,支持决策,可以为企业带来利益,或者为科学研究寻找突破口。 现今资料流通量之巨大已到了令人咂舌地步,就实际限制而言,便遇到了诸如巨量的纪录,高维的资料增加的传统分析技术上的困难,搜集到的资料仅有5%至10%用来分析,以及资料搜集过程中并不探讨特性等问题,这就让我们不得不利用Data Mining技术。

2.1 主要功能

数据挖掘综合了各个学科技术,有很多的功能,当前的主要功能如下:

1.分类:按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以

前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。

2.聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。例如:将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。

3.关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。与关联不同,序列是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。

4.预测:把握分析对象发展的规律,对未来的趋势做出预见。例如:对未来经济发展的判断。

5.偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。

2.2 常见算法及模型

作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,维数大。最后,数据挖掘是许多学科的交叉,运用了统计学,计算机,数学等学科的技术。以下是常见和应用最广泛的算法和模型:

(1) 传统统计方法:① 抽样技术:我们面对的是大量的数据,对所有的数据进行分析是不可能的也是没有必要的,就要在理论的指导下进行合理的抽样。② 多元统计分析:因子分析,聚类分析等。③ 统计预测方法,如回归分析,时间序列分析等。

(2) 可视化技术:用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。

(3) 决策树:利用一系列规则划分,建立树状图,可用于分类和预测。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。

(4) 神经网络:模拟人的神经元功能,经过输入层,隐藏层,输出层等,对数据进行调整,计算,最后得到结果,用于分类和回归。

(5) 遗传算法:基于自然进化理论,模拟基因联合、突变、选择等过程的一种优化技术。

(6) 关联规则挖掘算法:关联规则是描述数据之间存在关系的规则,形式为“A1∧A2∧?An→B1∧B2∧?Bn”。一般分为两个步骤:① 求出大数据项集。② 用大数据项集产生关联规则。

2.3 各厂家产品对比

由于数据挖掘一开始就是面向应用的,是为决策服务,而决策者又不一定具备太多的技术的知识,现许多公司和研究机构开发了一系列的工具用于数据挖掘,见下表。

BI工具调研报告

说明: NN=Neural Net(神经网络); DT=Decision Tree(决策树);B=Bayes(贝叶斯方法); kM=k-Means(动态聚类); kNN=k-Nearest Neighbor(最邻近算法); S=Traditional Statistical Techniques(传统统计技术); P=Prediction(预测); TS=Time Series(时间序列); C=Clustering(聚类方法); A=Association(关联方法); W32=Windows 95/98/NT; U=UNIX; P=Parallel Scalability (in at least one

OS)(并行方式); A-S=API or SDK available(API或SDK方法可用); SQL=Uses Special SQL Extensions

2.4 一般实施步骤

前面讨论了数据挖掘的定义,方法和工具,现在关键的问题是如何实施,其一般的步骤如下:

问题理解和提出 —> 数据准备 —> 数据整理 —> 建立模型 —> 评价和解释

1.问题理解和提出:在开始数据挖掘之前最基础的就是理解数据和实际的业务问题,在这个基础之上提出问题,对目标有明确的定义。

2.数据准备:获取原始的数据,并从中抽取一定数量的子集,建立数据挖掘库,其中一个问题是如果企业原来的数据仓库满足数据挖掘的要求,就可以将数据仓库作为数据挖掘库。

3.数据整理:由于数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,就要对数据进行初步的整理,清洗不完全的数据,做初步的描述分析,选择与数据挖掘有关的变量,或者转变变量。

4.建立模型:根据数据挖掘的目标和数据的特征,选择合适的模型。

5.评价和解释:对数据挖掘的结果进行评价,选择最优的模型,作出评价,运用于实际问题,并且要和专业知识结合对结果进行解释。

以上的步骤不是一次完成的,可能其中某些步骤或者全部要反复进行。

2.5 统一模型

许多研究结构和公司结合自己的数据挖掘软件,提出数据挖掘过程模型,值得借鉴的是SAS研究所和SPSS公司提出的方案。

SAS研究所认为数据挖掘是对数据进行选择,探索,调整和建模来揭示数据中未知的模式,开发了图形界面的SAS/EM来进行数据挖掘:

(1)Sample —— 抽样:从大量的数据中抽取与探索问题有关的数据子集,这个样本应该包含足够的信息,又易于处理。

(2)Explore —— 探索:对数据子集进行探索,寻找出与期望的关系和未知的模式

(3)Modify —— 调整:对数据进行探索后,有了初步的了解,就必须对数据进行增减,选择,转化,量化,保证有效进行

(4)Model —— 建模:应用分析工具,建立模型,进行预测

(5)Assess —— 评价:评价数据挖掘结果的有效性和可靠性

SPSS公司提出了5A的模型,进行数据挖掘,认为任何数据挖掘方法学都由5个基本元素组成:

(1)Assess —— 正确、彻底的了解业务需求及数据

(2)Access —— 获取数据,做适当的调整

(3)Analyze —— 选择适当的分析、验证方法和工具

(4)Act —— 推荐性、有说服力的原型演示

(5)Automate —— 提供优秀的自动化软件。

2.6 应用现状

数据挖掘所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,获取有意义的信息,归纳出有用的结构,作为企业进行决策的依据。其应用非常广泛,只要该产业有分析价值与需求的数据库,皆可利用Mining工具进行有目的的发掘分析。常见的应用案例多发生在零售业、制造业、财务金融保险、通讯及医疗服务:

(1)商家从顾客购买商品中发现一定的关系,提供打折购物券等,提高销售额

(2)保险公司通过数据挖掘建立预测模型,辨别出可能的欺诈行为,避免道德风险,减少成本,提高利润

(3)在制造业中,半导体的生产和测试中都产生大量的数据,就必须对这些数据进行分析,找出存在的问题,提高质量

(4)电子商务的作用越来越大,可以用数据挖掘对网站进行分析,识别用户的行为模式,保留客户,提供个性化服务,优化网站设计

一些公司运用数据挖掘的成功案例,显示了数据挖掘的强大生命力:

美国AutoTrader.com是世界上对大的汽车销售站点,每天都会有大量的用户对网站上的信息点击,寻求信息,其运用了SAS软件进行数据挖掘,每天对数据进行分析,找出用户的访问模式,对产品的喜欢程度进行判断,并设特定服务娶,取得了成功。

Reuteres是世界著名的金融信息服务公司,其利用的数据大都是外部的数据,这样数据的质量就是公司生存的关键所在,必须从数据中检测出错误的成分。Reuteres用SPSS的数据挖掘工具SPSS/Clementine,建立数据挖掘模型,极大地提高了错误的检测,保证了信息的正确和权威性。

Bass Export是世界最大的啤酒进出口商之一,在海外80多个市场从事交易,每个星期传送23000份定单,这就需要了解每个客户的习惯,如品牌的喜好等,Bass Export用IBM的Ineelligent Miner很好的解决了上述问题。

2.7 可能存在的问题

尽管数据挖掘有如此多的优点,但数据挖掘也面临着许多的问题,这也为数据挖掘的未来的发展提供了更大的空间。

1.数据挖掘的基本问题就在于数据的数量和维数,数据结构也因此显的非常复杂,如何进行探索,选择分析变量,也就成为首先要解决的问题。

2.面对如此大的数据,现有的统计方法等都遇到了问题,我们直接的想法就是对数据进行抽样,那么怎么抽样,抽取多大的样本,又怎样评价抽样的效果,这些都是值得研究的难题。

3.既然数据是海量的,那么数据中就会隐含一定的变化趋势,在数据挖掘中也要对这个趋势做应有的考虑和评价。

4.各种不同的模型如何应用,其效果如何评价。不同的人对同样的数据进行挖掘,可能产生不同的结果,甚至差异很大,这就涉及到可靠性的问题。

5.当前互联网的发展迅速,如何进行互联网的的数据挖掘,还有文本等非标准数据的挖掘,都引起了极大的兴趣。

6.数据挖掘涉及到数据也就碰到了数据的私有性和安全性。

7.数据挖掘的结果是不确定的,要和专业知识相结合才能对其做出判断。

总之,数据挖掘只是一个工具,不是万能的,它可以发现一些潜在的用户,但是不会告

诉你为什么,也不能保证这些潜在的用户成为现实。数据挖掘的成功要求对期望解决问题的领域有深刻的了解,理解数据,了解其过程,才能对数据挖掘的结果找出合理的解释。例如曾经用数据挖掘找出的啤酒和尿布的例子,如何去解释这种现象,是应该将两者放在一起还是分开销售,这还需要对消费心理学有所研究才能做出决定,而不是数据挖掘能力所及的了。

相关推荐