您的当前位置:首页BI工具调研报告[1]

BI工具调研报告[1]

2023-07-13 来源:乌哈旅游
BI工具调研报告

(来源于网络)

1. 数据分析 ...................................................................................................................................... 1

1.1 四种前端工具 .................................................................................................................... 1 1.2 C/S vs B/S ........................................................................................................................... 2 1.3各家产品简介 ..................................................................................................................... 2

1.3.1 IBM .......................................................................................................................... 2 1.3.2 Oracle ....................................................................................................................... 3 1.3.3 Sybase ...................................................................................................................... 3 1.3.4 Informix ................................................................................................................... 4 1.3.5 CA ............................................................................................................................ 4 1.3.6 NCR ......................................................................................................................... 4 1.3.7 Microsoft .................................................................................................................. 5 1.3.8 SAS .......................................................................................................................... 5 1.3.9 BO ............................................................................................................................ 5 1.3.10 Hyperion ................................................................................................................. 5 1.4各家产品比较 ..................................................................................................................... 6

1.4.1 特色工具 ................................................................................................................. 6 1.4.2 成本比较 ................................................................................................................. 6 1.4.3 市场份额比较 ......................................................................................................... 6 1.4.4 简单与复杂 ............................................................................................................. 7 1.4.5 数据存储方式 ......................................................................................................... 7 1.4.6 系统开放性 ............................................................................................................. 8

2. 数据挖掘 ...................................................................................................................................... 8

2.1 主要功能 ............................................................................................................................ 8 2.2 常见算法及模型 ................................................................................................................ 9 2.3 各厂家产品对比 ................................................................................................................ 9 2.4 一般实施步骤 .................................................................................................................. 11 2.5 统一模型 .......................................................................................................................... 11 2.6 应用现状 .......................................................................................................................... 12 2.7 可能存在的问题 .............................................................................................................. 12

1. 数据分析

1.1 四种前端工具

BI前端应用主要为报表、OLAP以及仪表盘、Portal四种。 (1)报表

报表的前端主要是面向设计者和浏览者,因此一般报表产品也都会将设计器和浏览器分

开。Crystal Report、Cognos ReportNet、Hyperion Brio莫不如此。业界一直流行一个观点——国内的报表非常复杂。国外的报表工具在前些年似乎并不适应这种中国式报表,因此也就有了中国本土报表工具的生存之地,诸如润乾、华表等。当然,随着国内企业管理的完善,决策层面对报表的需求也在规范,因此,不论是国外或是国内报表工具,其架构都在趋同。

(2)OLAP

如果说报表还称不上BI的典型应用的话,那么OLAP就当仁不让了。OLAP的前端主要是将用户的多维分析请求提交给OLAP服务器,并展现返回的数据。这里的多维分析请求主要包括钻取、切片、旋转等操作。在电信行业大规模展开经营分析系统的建设初期,曾经对这项应用寄予很大期望的,不过似乎它不怎么争气。目前已经有标准化组织或企业在定义OLAP前端与服务器数据交换的标准,例如微软、Hyperion、SAS推进的XML,还有基于JAVA API的JOLAP。因此,微软刚收购的ProClarity工具和Hyperion的Brio在OLAP展现上朝这种开放式体系发展也就顺理成章了。 (3)仪表盘

仪表盘这种前端展现形式随着绩效管理软件的兴起正在流行起来,其界面非常简单,非常适合决策者一目了然了解宏观信息。目前主流的BI厂商BO、Cognos、Hyperion、SAS都有自己的CPM(Corporate Performance Management)产品,当然还有称BPM或EPM的(Business/Enterprise Performance Management)。这种应用主要是向用户展示绩效指标的状态、进度完成情况,提供异常告警等功能。可以说这些前端功能都不复杂,主要的难点还是在于绩效指标的定义以及管理流程的规范上面。 (4)Portal

1.2 C/S vs B/S

在早期PC机功能尚弱的年代,服务器的计算能力强大,客户端只能做很少的事情;后来,PC机功能逐渐强大,桌面系统的应用变得丰富起来,C/S体系也逐渐成熟;到了90年代,三层结构又逐步取代C/S结构,Web应用大行其道,因为其“零客户端”的部署而备受宠爱;最近几年, AJAX技术出现,应用计算似乎又重新偏向客户端。在整个软件体系的变迁中,BI产品的前端也跟随这个大趋势。如今,几乎每个产品都有自己的Web应用,甚至有些产品出现了将所有的应用前端都转成Web界面的趋势。例如BO,它的报表设计器可以就可以实现在Web上设计报表。

当然,并非所有人都欢迎这种趋势,因为对于决策者,他们希望看到结果,并不需要太多交互,就比较看重界面的简洁;而对于分析师、设计师来说,他们需要的是功能丰富的客户端,方便操纵数据,定制提供给决策者的界面,因此对于报表设计师来说,Web应用倒觉得有些不爽,因为不如传统C/S客户端那样便捷。

1.3各家产品简介 1.3.1 IBM

IBM公司提供了一套基于可视数据仓库的商业智能(BI)解决方案,包括:Visual Warehou(VW)、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及来自第三方的前端数据展现工具(如BO)和数据挖掘工具(如SAS)。Sybase提供的数据仓库解决方案称为Warehouse

Studio,包括数据仓库的建模、数据抽取与转换、数据存储与管理、元数据管理以及可视化数据分析等工具。IBM公司提供了一套基于可视数据仓库的商业智能(BI)解决方案,包括:Visual Warehouse(VW)、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及来自第三方的前端数据展现工具(如BO)和数据挖掘工具(如SAS)。其中,VW是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。Essbase/DB2 OLAP Server支持“维”的定义和数据装载。Essbase/DB2 OLAP Server不是ROLAP(Relational OLAP)服务器,而是一个(ROLAP和MOLAP)混合的HOLAP服务器,在Essbase完成数据装载后,数据存放在系统指定的DB2 UDB数据库中。严格说来,IBM自己并没有提供完整的数据仓库解决方案,该公司采取的是合作伙伴战略。例如,它的前端数据展现工具可以是Business Objects的BO、Lotus的Approach、Cognos的Impromptu或IBM的Query Management Facility;多维分析工具支持Arbor Software的Essbase和IBM(与Arbor联合开发)的DB2 OLAP服务器;统计分析工具采用SAS系统。

1.3.2 Oracle

Oracle数据仓库解决方案主要包括Oracle Express和Oracle Discoverer两个部分。Oracle Express由四个工具组成:Oracle Express Server是一个MOLAP (多维OLAP)服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能够访问多种关系数据库;Oracle Express Web Agent通过CGI或Web插件支持基于Web的动态多维数据展现;Oracle Express Objects前端数据分析工具(目前仅支持Windows平台)提供了图形化建模和假设分析功能,支持可视化开发和事件驱动编程技术,提供了兼容 Visual Basic语法的语言,支持OCX和OLE;Oracle Express Analyzer是通用的、面向最终用户的报告和分析工具(目前仅支持Windows平台)。Oracle Discoverer即席查询工具是专门为最终用户设计的,分为最终用户版和管理员版。在Oracle数据仓库解决方案实施过程中,通常把汇总数据存储在Express多维数据库中,而将详细数据存储在Oracle关系数据库中,当需要详细数据时,Express Server通过构造SQL语句访问关系数据库。但目前的Express还不够灵活,数据仓库设计的一个变化往往导致数据库的重构。另外,目前的 Oracle 8i和Express 之间集成度还不够高,Oracle 8i和Express之间需要复制元数据,如果Oracle Discoverer(或BO)需要访问汇总数据,则需要将汇总数据同时存放在Oracle和Express中,系统维护比较困难。值得注意的是,刚刚问世的Oracle 9i把OLAP和数据挖掘作为重要特点。

1.3.3 Sybase

Sybase提供的数据仓库解决方案称为Warehouse Studio,包括数据仓库的建模、数据抽取与转换、数据存储与管理、元数据管理以及可视化数据分析等工具。其中,Warehouse Architect是PowerDesigner中的一个设计模块,它支持星形模型、雪花模型和ER模型;数据抽取与转换工具包括PowerStage、 Replication Server、Carleton PASSPORT,PowerStage是Sybase提供的可视化数据迁移工具。 Adaptive Server Enterprise是Sybase企业级关系数据库,Adaptive Server IQ是Sybase公司专为数据仓库设计的关系数据库,它为高性能决策支持系统和数据仓库的建立作了优化处理,Sybase IQ支持各种流行的前端展现工具(如Cognos Impromptu、Business Objects、Brio Query等);数据分析与展现工具包括PowerDimensions、EnglishWizard、InfoMaker、PowerDynamo等, PowerDimensions是图形化的OLAP分析工具,它支持SMP和多维缓存技术,能够集成异构的关系型数据仓库

和分布式数据集市,从而形成单一的、新型的多维模式;数据仓库的维护与管理工具包括Warehouse Control Center、Sybase Central、Distribution Director,其中Warehouse Control Center是为数据仓库开发人员提供的元数据管理工具。 Sybase提供了完整的数据仓库解决方案Quick Start DataMart,具有良好的性能,并支持第三方数据展现工具。从Quick Start DataMart的名称不难看出,它尤其适合于数据集市应用。另外,Sybase可以提供面向电信、金融、保险、医疗保健这4个行业的客户关系管理(CRM)产品,在这4个产品中,有80%的功能是共性的,有20%的功能需要Sybase与合作伙伴针对不同需求共同开发。

1.3.4 Informix

Informix于1998和1999年相继收购了国际上享有盛誉的数据仓库供应商Red Brick System和数据管理软件供应商Ardent,并提供了完整、集成的数据仓库解决方案。该解决方案还包括一个“快速启动”咨询服务,能够帮助用户快速完成数据仓库或数据集市的开发。Informix产品能够集成Microsoft IIS或Netscape Enterprise/FastTrack服务器,从而支持基于Web的数据仓库应用。 Informix没有提供自己的报表和数据挖掘工具,但他们与Brio和SAS公司建立了战略联盟,并推出了“Informix商务智能联盟计划”。该计划以Informix为主,结合Brio的前端数据分析和报表功能,以及SAS的数据挖掘功能,形成了一个“BI中心”打包方案。(今年4月Informix Software已被IBM公司收购,此举将给IBM公司数据库及数据仓库产品,从技术和市场占有率上带来极大的提升。)

1.3.5 CA

CA于1999年收购了Platinum Technology公司后,得到了完整的数据仓库解决方案,包括:Erwin数据仓库设计工具、InfoPump数据转换与抽取工具、 InfoBeacon ROLAP服务器、Forest&Trees前端数据展现工具、Provision系统监视与作业调度工具和DecisionBase元数据管理工具等。与Informix 解决方案相似,CA解决方案也提供了数据仓库建模、元数据管理、数据抽取与转换、基于关系数据库的在线分析服务器、系统监视与作业调度、前端数据展现等功能,同时还支持Web应用。不同之处是Informix提供了专门为数据仓库设计的高性能目标数据库(Red Birck),而CA解决方案则提供ODBC接口,并将数据存储在第三方关系数据库(如Oracle、Sybase、SQL Server、Informix和IBM DB2等)中,其性能要打一些折扣,但开放性要好些。另外,CA的OLAP服务器目前只能与Microsoft的IIS Web服务器集成。

1.3.6 NCR

NCR Teradata是高端数据仓库市场最有力的竞争者,主要运行在NCR WorldMark SMP硬件的Unix操作系统平台上。1998年,该公司也提供了基于Windows NT的Teradata,试图开拓数据集市(Data Mart)市场。总的来看,NCR的产品性能很好,Teradata数据仓库在100GB、300GB、1TB和3TB级的TPCD指标测试中均创世界纪录。但是,NCR产品的价格相对较高,中小企业用户难以接受。

1.3.7 Microsoft

Microsoft将OLAP功能集成到Microsoft SQL Server 7.0中,提供可扩充的基于COM的OLAP接口。它通过一系列服务程序支持数据仓库应用。数据传输服务DTS(Data Transformation Services)提供数据输入/输出和自动调度功能,在数据传输过程中可以完成数据的验证、清洗和转换等操作,通过与Microsoft Repository集成,共享有关的元数据;Microsoft Repository存储包括元数据在内的所有中间数据;SQL Server OLAP Services支持在线分析处理;PivotTable Services提供客户端OLAP数据访问功能,通过这一服务,开发人员可以用VB或其他语言开发用户前端数据展现程序,PivotTable Services还允许在本地客户机上存储数据;MMC(Microsoft Management Console)提供日程安排、存储管理、性能监测、报警和通知的核心管理服务;Microsoft Office 2000套件中的Access和Excel可以作为数据展现工具,另外SQL Server还支持第三方数据展现工具。

1.3.8 SAS

SAS公司在20世纪70年代以“统计分析”和“线性数学模型”而享誉业界,90年代以后,SAS公司也加入了数据仓库市场的竞争,并提供了特点鲜明的数据仓库解决方案,包括30多个专用模块。其中,SAS/WA(Warehouse Administrator)是建立数据仓库的集成管理工具,包括定义主题、数据转换与汇总、更新汇总数据、元数据管理、数据集市的实现等; SAS/MDDB是SAS用于在线分析的多维数据库服务器;SAS/AF提供了屏幕设计功能和用于开发的SCL(屏幕控制语言);SAS/ITSV(IT Service Vision)是IT服务的性能评估和管理的软件,这些IT服务包括计算机系统、网络系统、Web服务器和电话系统等。SAS系统的优点是功能强、性能高、特长突出,缺点是系统比较复杂。

1.3.9 BO

Business Objects(BO)是集查询、报表和OLAP技术为一身的智能决策支持系统。它使用独特的“语义层”技术和“动态微立方”技术来表示数据库中的多维数据,具有较好的查询和报表功能,提供钻取(Drill)等多维分析技术,支持多种数据库,同时它还支持基于Web浏览器的查询、报表和分析决策。虽然BO 在不断增加新的功能,但从严格意义上说,BO只能算是一个前端工具。也许正因为如此,几乎所有的数据仓库解决方案都把BO作为可选的数据展现工具。虽然国内有很多大学和研究机构从事数据仓库技术的研究,但到目前为止,国内基本上没有成熟的数据仓库解决方案。

1.3.10 Hyperion

Hyperion Essbase OLAP Server,在上面有超过100个的应用程序,有300多个用Essbase

作为平台的开发商。具有几百个计算公式,支持过程的脚本预言,及统计和基于维的计算。 强大的OLAP查询能力,利用Essbase Query Designer,商业用户可以不用IT人员的帮助自己构件复杂的查询。广泛的应用支持,可以扩展数据仓库和ERP系统的价值,建立对电子商务、CRM、金融、制造业、零售和CPG(consumer packaged goods)等应用的分析程序。 Speed-of-Thought的响应时间,支持多用户同时读写Web-Enabled的,以服务器为中心的体系结构,支持SMP强大的合作伙伴提供完整的解决方案,60多个包装好的解决方案,300

多个咨询和实施公司。丰富的前端工具,有30多个前端工具可供选择,其中包括Hyperion自己的Wired for OLAP、Spider-Man Web Application、Objects、Essbase Spreadsheet Add-In、Web Gateway 、 Reporting 。

Hyperion Enterprise,为跨国公司提供的财务整合、报告和分析的解决方案。有3000多家组织在使用此套系统。功能丰富:支持多种财务标准US GAAP,Canadian GAAP,UK GAAP,国际会计标准(ISA),FASB,HGB。分公司间交易的自动平帐。FAS52货币转换。FAS94。易用:可通过Excel,Lotus 1-2-3和各种浏览器访问系统。支持公司结构的调整。跨国公司的支持:同时支持6种语言及各个不同国家的法律和税收要求。完整的过程控制和审计跟踪,及安全等级的设置。能与ERP或其他数据源集成

Hyperion Pillar,预算和计划工具。全球用户超过1500家,提供基于活动的预算,基于项目的计划,集中式计划,销售预测和综合计划。分布式体系结构。详细计划的制订,允许一线经理制订详细的计划。复杂的建模和分析能力

1.4各家产品比较 1.4.1 特色工具

(1)Cognos & Microstratagy

在评比中我们发现Cognos与Microstratagy的产品线较齐全,既有前端展示功能,又有后端数据分析与挖掘功能,二者都能够提供比较集成化的方案。Cognos数据处理速度更快一些,且在预算与规划方面造诣颇深;而Microstratagy在OLAP Server上的优势使其在处理大数据量数据方面更出色。由于Cognos早在1969年就已成立,比其他3家都要早20年,这也决定了他们在技术架构上的差异。不过,Cognos最新的Series7 Version2系列产品是三层构架的BPM和BI工具系统。它的OLAP分析工具PowerPlay,报表制作工具ReportNET以及门户工具Upfront都是完全支持B/S构架的,可以在浏览器里面进行报表定义、Drill Up、Drill Down等操作,而且客户端无须安装任何控件。服务器软件支持.NET和J2EE两个版本,具有良好的跨平台特性。 (2) BO & Brio

BO与Brio都是在前端展现方面比较突出,用户接受程度较高。但二者均无OLAP Server,导致数据监控功能较弱,虽然也可以与微软或Oracle的OLAP Server挂接,但这样毕竟受制于人,给客户提供的方案也不是最集成的。正是因为这个原因,海波龙才认为对Brio的收购是前端与后端的最完美的结合(不过由于缺少数据挖掘这部分功能,他们所谓的完美似乎也有些牵强)。

1.4.2 成本比较

单纯从成本角度考虑,微软的产品算是最能节省成本的,Cognos和MicroStrategy则在同一水平线,都比微软贵一些。而Hyperion (Essbase)产品比较独立,也曾占有美国OLAP市场最大的份额,其产品价格又要更高一些。

1.4.3 市场份额比较

从市场份额来看,就国外的市场报告分析,微软、Cognos、Hyerion三家占据主流。在

国内,目前还没有权威的市场报告,如果仅从所接触到的项目来看的话,用Cognos的很多,买Essbase的也不少。这些年都是一些大企业建设BI项目,有足够的预算,多选用Cognos、Essbase;而Microstrategy,进入中国不算早,这几年在政府、金融行业也颇有建树。

若论开发应用,微软的产品向来以友好的用户界面著称,上手迅速。在OLAP产品上,微软依然发扬了这一优良传统,并有进一步标准化的趋势,开发了OLE DB for OLAP以及MDX(Multi-Dimensional Express多维表达式);参与XMLA(XML for Analysis)规范制定,也是想作为OLAP服务器和前端分析应用的数据传输标准。

1.4.4 简单与复杂

而Cognos以桌面OLAP开始,一直以轻便、快捷的操作闻名。所谓桌面OLAP,是可以用客户端将cube下载到本地进行访问。虽然Poweplay早已演变成C/S结构的OLAP服务器,但其轻便的特点还是延续下来,而且提供可以简洁部署且具有交互性的PowerPlay Web Explorer界面。从互联网上,我们可以很快搜索出许多基于PowerPlay Web的分析应用。

Essbase作为老牌的OLAP服务器,是一个比较复杂的产品。所谓复杂,有两层意思,一是提供了丰富的API,让你可以充分定制开发;二是开发的难度较大,部署起来不容易。这也是国内很多用户难以将这个产品用好的一大原因。

比较Essbase和Powerplay,会发现截然相反的两个特点:Essbase的复杂和Powerplay的简洁。对于这两者,单独说哪一种更好都不够客观,因为当你抱怨Essbase繁杂的接口时,也有人在抱怨Powerplay的定制功能怎么如此之少。这种情形其实跟这两种产品的定位有关,Essbase比较专注于高性能的多维存储服务,而Powerplay则更专注于快捷的多维访问。换句话讲,Essbase之于Powerplay正像专业相机之于傻瓜相机,在选哪一个更好的问题上,不同的人肯定有不一样的答案。当然,如果你想在找复杂和简洁之间找一个中间者,我想微软的 Analysis Service就是这样的产品。不过要注意的是,这个产品和SQL Server绑定得比较紧,这是微软的一贯策略。

1.4.5 数据存储方式

根据多维数据存储的位置,OLAP一般分为MOLAP(Multi-Dimensional OLAP)和ROLAP(Relational OLAP)两种,此外,还有混合的HOLAP(Hybrid OLAP)。其中, Cognos的Powerplay、Hyperion 的Essbase和微软的Analysis Service这些产品都是MOLAP产品。.这类产品将数据从关系数据库(甚至是文本文件、Excel文件)中抽取出来,存储在自己的数据库中。这种数据库跟平常我们所见的Oracle、DB2这类关系数据库不同之处在于,它是专有格式的,且没有标准的访问接口。因此,这些产品如何实现多维存储也都不尽相同,大致的原理是以编程语言中多维数组的方式存放数据。度量值存放在数组的单元格中,而数组每个维就对应一个维度,其中,维元素就维的坐标。可以想象,多维数据库的单元格跟维度、维元素的多少有莫大关系,而随着维度增加,数据库也迅速膨胀。因此,对于MLOAP产品,多维存储的存储空间、性能自然是比较关键的。Essbase在这方面提供很多优化工作,但有时候也会显得过于复杂。Powerplay也提供某些选项,诸如cube分区等,这是比较简单的优化方法。

1.4.6 系统开放性

OLAP产品的核心功能是提供多维存储,另外就是能够将OLAP访问操作转换为对数据的请求并返回,这些OLAP访问操作大多是用户通过前端发出的,因此要考虑OLAP产品能够和哪些前端工具对接。

Cognos Powerplay是个相对封闭的产品,它有自己的客户端和Web Explorer,你也甭想着用其他前端来访问它。Hyperion和微软都采用开放式接口,提供丰富的访问API,第三方可以用这些API访问其数据库。上文曾提到微软开发的MDX和参与的XMLA(XML for Analysis)规范,事实上,一些第三方的前端工具正是基于这样的标准和OLAP产品对接,比如可以用BO WebI连接Essbase。更有甚者,微软的服务器还提供用MDX来查询多维数据,就像用SQL来访问关系数据库一样。诚然,这看起来的确比较酷,但有一点也要明确:目前虽然有XMLA、MDX这样的标准,但还不是非常成熟,且并非唯一标准。所以即使有第三方前端工具访问这些OLAP服务器,但只能说是多了一些选择,真正在前端功能上,并不能保证比封闭结构更丰富。

2. 数据挖掘

近十几年,随着科学技术飞速的发展,经济和社会都取得了极大的进步,与此同时,在各个领域产生了大量的数据,如人类对太空的探索,银行每天的巨额交易数据。显然在这些数据中丰富的信息,如何处理这些数据得到有益的信息,人们进行了有益的探索。计算机技术的迅速发展使得处理数据成为可能,这就推动了数据库技术的极大发展,但是面对不断增加如潮水般的数据,人们不再满足于数据库的查询功能,提出了深层次问题:能不能从数据中提取信息或者知识为决策服务。就数据库技术而言已经显得无能为力了,同样,传统的统计技术也面临了极大的挑战。这就急需有新的方法来处理这些海量般的数据。于是,人们结合统计学、数据库、机器学习等技术,提出数据挖掘来解决这一难题。

数据挖掘的历史虽然较短,但从20世纪90年代以来,它的发展速度很快,加之它是多学科综合的产物,目前还没有一个完整的定义,人们提出了多种数据挖掘的定义,例如: SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。

Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。 Hand et al(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。 我们认为:数据挖掘就是从海量的数据中挖掘出可能有潜在价值的信息的技术。这些信息是可能有潜在价值的,支持决策,可以为企业带来利益,或者为科学研究寻找突破口。 现今资料流通量之巨大已到了令人咂舌地步,就实际限制而言,便遇到了诸如巨量的纪录,高维的资料增加的传统分析技术上的困难,搜集到的资料仅有5%至10%用来分析,以及资料搜集过程中并不探讨特性等问题,这就让我们不得不利用Data Mining技术。

2.1 主要功能

数据挖掘综合了各个学科技术,有很多的功能,当前的主要功能如下:

1.分类:按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以

前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。

2.聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。例如:将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。

3.关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。与关联不同,序列是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。

4.预测:把握分析对象发展的规律,对未来的趋势做出预见。例如:对未来经济发展的判断。

5.偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。

2.2 常见算法及模型

作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,维数大。最后,数据挖掘是许多学科的交叉,运用了统计学,计算机,数学等学科的技术。以下是常见和应用最广泛的算法和模型:

(1) 传统统计方法:① 抽样技术:我们面对的是大量的数据,对所有的数据进行分析是不可能的也是没有必要的,就要在理论的指导下进行合理的抽样。② 多元统计分析:因子分析,聚类分析等。③ 统计预测方法,如回归分析,时间序列分析等。

(2) 可视化技术:用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。 (3) 决策树:利用一系列规则划分,建立树状图,可用于分类和预测。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。

(4) 神经网络:模拟人的神经元功能,经过输入层,隐藏层,输出层等,对数据进行调整,计算,最后得到结果,用于分类和回归。

(5) 遗传算法:基于自然进化理论,模拟基因联合、突变、选择等过程的一种优化技术。 (6) 关联规则挖掘算法:关联规则是描述数据之间存在关系的规则,形式为“A1∧A2∧„An→B1∧B2∧„Bn”。一般分为两个步骤:① 求出大数据项集。② 用大数据项集产生关联规则。

2.3 各厂家产品对比

由于数据挖掘一开始就是面向应用的,是为决策服务,而决策者又不一定具备太多的技术的知识,现许多公司和研究机构开发了一系列的工具用于数据挖掘,见下表。

说明: NN=Neural Net(神经网络); DT=Decision Tree(决策树);B=Bayes(贝叶斯方法); kM=k-Means(动态聚类); kNN=k-Nearest Neighbor(最邻近算法); S=Traditional Statistical Techniques(传统统计技术); P=Prediction(预测); TS=Time Series(时间序列); C=Clustering(聚类方法); A=Association(关联方法); W32=Windows 95/98/NT; U=UNIX; P=Parallel Scalability (in at least one

OS)(并行方式); A-S=API or SDK available(API或SDK方法可用); SQL=Uses Special SQL Extensions

2.4 一般实施步骤

前面讨论了数据挖掘的定义,方法和工具,现在关键的问题是如何实施,其一般的步骤如下:

问题理解和提出 —> 数据准备 —> 数据整理 —> 建立模型 —> 评价和解释 1.问题理解和提出:在开始数据挖掘之前最基础的就是理解数据和实际的业务问题,在这个基础之上提出问题,对目标有明确的定义。

2.数据准备:获取原始的数据,并从中抽取一定数量的子集,建立数据挖掘库,其中一个问题是如果企业原来的数据仓库满足数据挖掘的要求,就可以将数据仓库作为数据挖掘库。

3.数据整理:由于数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,就要对数据进行初步的整理,清洗不完全的数据,做初步的描述分析,选择与数据挖掘有关的变量,或者转变变量。

4.建立模型:根据数据挖掘的目标和数据的特征,选择合适的模型。

5.评价和解释:对数据挖掘的结果进行评价,选择最优的模型,作出评价,运用于实际问题,并且要和专业知识结合对结果进行解释。

以上的步骤不是一次完成的,可能其中某些步骤或者全部要反复进行。

2.5 统一模型

许多研究结构和公司结合自己的数据挖掘软件,提出数据挖掘过程模型,值得借鉴的是SAS研究所和SPSS公司提出的方案。

SAS研究所认为数据挖掘是对数据进行选择,探索,调整和建模来揭示数据中未知的模式,开发了图形界面的SAS/EM来进行数据挖掘:

(1)Sample —— 抽样:从大量的数据中抽取与探索问题有关的数据子集,这个样本应该包含足够的信息,又易于处理。

(2)Explore —— 探索:对数据子集进行探索,寻找出与期望的关系和未知的模式 (3)Modify —— 调整:对数据进行探索后,有了初步的了解,就必须对数据进行增减,选择,转化,量化,保证有效进行

(4)Model —— 建模:应用分析工具,建立模型,进行预测 (5)Assess —— 评价:评价数据挖掘结果的有效性和可靠性

SPSS公司提出了5A的模型,进行数据挖掘,认为任何数据挖掘方法学都由5个基本元素组成:

(1)Assess —— 正确、彻底的了解业务需求及数据

(2)Access —— 获取数据,做适当的调整

(3)Analyze —— 选择适当的分析、验证方法和工具 (4)Act —— 推荐性、有说服力的原型演示 (5)Automate —— 提供优秀的自动化软件。

2.6 应用现状

数据挖掘所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,获取有意义的信息,归纳出有用的结构,作为企业进行决策的依据。其应用非常广泛,只要该产业有分析价值与需求的数据库,皆可利用Mining工具进行有目的的发掘分析。常见的应用案例多发生在零售业、制造业、财务金融保险、通讯及医疗服务:

(1)商家从顾客购买商品中发现一定的关系,提供打折购物券等,提高销售额

(2)保险公司通过数据挖掘建立预测模型,辨别出可能的欺诈行为,避免道德风险,减少成本,提高利润

(3)在制造业中,半导体的生产和测试中都产生大量的数据,就必须对这些数据进行分析,找出存在的问题,提高质量 (4)电子商务的作用越来越大,可以用数据挖掘对网站进行分析,识别用户的行为模式,保留客户,提供个性化服务,优化网站设计

一些公司运用数据挖掘的成功案例,显示了数据挖掘的强大生命力:

美国AutoTrader.com是世界上对大的汽车销售站点,每天都会有大量的用户对网站上的信息点击,寻求信息,其运用了SAS软件进行数据挖掘,每天对数据进行分析,找出用户的访问模式,对产品的喜欢程度进行判断,并设特定服务娶,取得了成功。

Reuteres是世界著名的金融信息服务公司,其利用的数据大都是外部的数据,这样数据的质量就是公司生存的关键所在,必须从数据中检测出错误的成分。Reuteres用SPSS的数据挖掘工具SPSS/Clementine,建立数据挖掘模型,极大地提高了错误的检测,保证了信息的正确和权威性。

Bass Export是世界最大的啤酒进出口商之一,在海外80多个市场从事交易,每个星期传送23000份定单,这就需要了解每个客户的习惯,如品牌的喜好等,Bass Export用IBM的Ineelligent Miner很好的解决了上述问题。

2.7 可能存在的问题

尽管数据挖掘有如此多的优点,但数据挖掘也面临着许多的问题,这也为数据挖掘的未来的发展提供了更大的空间。

1.数据挖掘的基本问题就在于数据的数量和维数,数据结构也因此显的非常复杂,如何进行探索,选择分析变量,也就成为首先要解决的问题。 2.面对如此大的数据,现有的统计方法等都遇到了问题,我们直接的想法就是对数据进行抽样,那么怎么抽样,抽取多大的样本,又怎样评价抽样的效果,这些都是值得研究的难题。

3.既然数据是海量的,那么数据中就会隐含一定的变化趋势,在数据挖掘中也要对这个趋势做应有的考虑和评价。

4.各种不同的模型如何应用,其效果如何评价。不同的人对同样的数据进行挖掘,可能产生不同的结果,甚至差异很大,这就涉及到可靠性的问题。 5.当前互联网的发展迅速,如何进行互联网的的数据挖掘,还有文本等非标准数据的挖掘,都引起了极大的兴趣。

6.数据挖掘涉及到数据也就碰到了数据的私有性和安全性。

7.数据挖掘的结果是不确定的,要和专业知识相结合才能对其做出判断。

总之,数据挖掘只是一个工具,不是万能的,它可以发现一些潜在的用户,但是不会告

诉你为什么,也不能保证这些潜在的用户成为现实。数据挖掘的成功要求对期望解决问题的领域有深刻的了解,理解数据,了解其过程,才能对数据挖掘的结果找出合理的解释。例如曾经用数据挖掘找出的啤酒和尿布的例子,如何去解释这种现象,是应该将两者放在一起还是分开销售,这还需要对消费心理学有所研究才能做出决定,而不是数据挖掘能力所及的了。

因篇幅问题不能全部显示,请点此查看更多更全内容