孟
强,李海晨
150080)
哈尔滨(黑龙江大学信息管理学院,
摘推动了Web数据挖掘技术的快速发展与应用。文章重点探讨了数据挖掘与Web数据挖掘的要:大数据时代的到来,
阐述了Web数据挖掘的分类及挖掘流程,并对Web数据挖掘的常用技术手段及在电子商务中的具体应用进基本概念,行了探讨和研究。
关键词:Web挖掘技术;电子商务;KDD中图分类号:TP393
文献标识码:A
ResearchonWebDataMiningTechnologyandApplication
MENGQiang,LIHai-chen(HeilongjiangUniversityDepartmentofinformationmanagement,Harbin,150080,China)
Abstract:ThearrivaloftheeraofbigdatapromotestherapiddevelopmentandapplicationofWebdataminingtechnology.ThispaperfocusesonthebasicconceptsofWebdataminingandintroducestheclassificationofWebdatamininganditsprocess.What'smore,commonlyusedtechniquesanddataminingtoWebanditsapplicationinelectroniccommercearediscussedandstudied.
Keywords:webminingtechnology;electroniccommerce;KDD
伴随着互联网的快速发展,Web上的数据信息资
财源也不断丰富多样,各种类型的信息资源如新闻、完全能够满足经、科技、教育、消费、医学等随处可见,
人们日常生活中对信息获取的需求。Web数据类型多动态的数据种多样,通常可以划分为非结构化的数据、和结构化的数据这三种。数据一般是依附信息载体的外在形式而表现出来的,这些信息载体主要包括文本
视频载体等。在电子商务大载体、图片载体、声音载体、大到很难再继数据时代,信息资源的数据量非常庞大,
续以ZB为单位来进行衡量这些信息资源的数据量,在这些庞大的数据中蕴藏着很多人们未知的、有待去挖掘、去发现的有价值的信息和知识[1]。然而如何将这些有用的知识从Web中提取出来,加以转化并且应
更加高效的服务水准,向用,提供个性化的客户服务,这些都企业提供有效的、可靠的商业化问题解决方案,
可以通过Web数据挖掘技术来实现。
1数据挖掘与Web数据挖掘
(DataMing)不完数据挖掘可以定义为从大量的、
提全的、有噪声的、模糊的、随机的实际应用数据中,取隐含在其中的、人们事先却不知道的有用信息和知识的过程
[2]
。其实数据挖掘也是数据库知识发现
(KDD)的一个过程,狭义的理解为从数据库中获取有用的知识,其最终的目的就是通过数据挖掘这一过程主要是去解决某些特定的问题,在商业应用领域中,提供商业问题解决方案,从而辅助决策者做出正确的
决策和判断。
(WebMining)Web数据挖掘一般也称为Web挖掘,它是数据挖掘在Web上的应用,主要运用数据挖
有用的模式掘技术从Web信息资源中抽取感兴趣的、
和隐含的信息,具体工作任务就是针对Web中海量的数据进行抽取、转换、分析和模型化处理。Web数据挖
收稿日期:2016-09-26
基金项目:黑龙江大学研究生创新科研项目(项目编号:YJSCX2016-135HLJU)。
(1989-)李海晨(1971-)研究方向为管理信息系统。作者简介:孟强,男,陕西汉中人,硕士,研究方向为数据挖掘;,男,博士,副教授,硕士生导师,
·60·电脑与信息技术2017年2月
掘是数据挖掘应用领域中最为广泛的一个,这主要取
决于大数据时代的发展和需求,
以及Web的发展和应用,通过对Web相关的数据进行挖掘,可以挖掘出Web访问用户的行为、习惯和偏好等这些有价值的信
息,再通过一系列的商业手段和方式加以应用,便可为企业带来巨大的商业价值。
2Web数据挖掘的分类
Web数据挖掘一般可以根据在挖掘过程中所使用的数据类型的不同,细分为Web内容挖掘、Web使用记录挖掘、Web结构挖掘。Web内容挖掘又可以具体细分为文本信息挖掘和多媒体信息挖掘;Web使用记录挖掘又可以具体细分为一般访问模式挖掘和个性化使用模式挖掘;Web结构挖掘又可以具体细分为内部超链接挖掘和内部结构挖掘。2.1Web内容挖掘
Web内容挖掘是指对Web页面内容及后台交易
数据库进行挖掘,
从Web文档内容及其描述中的内容信息中获取有用知识的过程。Web数据的类型主要包
括文本、图像、声音、视频、元数据和超链接等。根据Web挖掘的具体内容,Web内容挖掘又可以再分为Web文本信息挖掘和多媒体信息挖掘,其中文本信息
挖掘又称为文本挖掘,是对文本数据进行的Web挖掘[3],比如通过博客、微博等社交网络中的文本信息就可以预测出流感爆发的状况[4],而多媒体信息挖掘是从多媒体数据信息库中提取隐藏的知识。2.2Web使用记录挖掘
Web使用记录挖掘就是对用户访问的记录信息进
行挖掘,这些信息主要有网络服务器的日志记录、代理服务器的日志记录、浏览器的日志记录、
访问用户的注册登录记录、Cookie的信息、鼠标点击流、用户的对话信息、用户的交易信息等其它相关访问用户与服务站
点间的交互信息。
通过对Web日志文件等信息进行挖掘,可以发现用户访问Web页面的模式。2.3Web结构挖掘
Web结构挖掘是从Web的组织结构和链接关系
中挖掘潜在的知识和模式,其具体的挖掘对象是Web页面之间的超链接和Web页面的内部结构。Web不仅
仅只是页面,还包括超级链接,它反映了各Web页面间的特定关系。按照挖掘对象的不同还可以细分为内
部超链接挖掘和内部结构挖掘。Web结构挖掘的目的就在于:
(1)发现Web的结构和页面的结构及其它结构潜在的有价值的模式;(2)对页面及其超链接进行聚类和分类分析,寻找权威页面。
3Web数据挖掘的一般流程
3.1Web数据资源获取
该阶段就是从Web中主要获取Web内容数据、
Web结构数据以及Web使用记录数据信息资源的过
程。常见的数据源就是Web内容(包括文字、图片、声音、视频等),HTML文档最为常见,此外还有电子邮
件、BBS、网站日志文件、Web交易数据、Web超链接数据等。
3.2Web数据预处理
该阶段主要就是数据清洗、
用户识别、会话识别和事务识别。数据清洗需要删除Web日志与挖掘任务无关的数据,其目的就是消除数据冗余,把有用的Web日志记录转换为适当的数据格式,并对错误的用户请求页面记录进行处理
[5]
。Web用户识别就是根据用户
IP地址、用户注册信息、Cookie技术等来分离特定用户的访问日志。会话识别就是对用户的访问记录进行分
割成若干独立的会话进程以挖掘会话间有用的信息。事务识别就是通过分割算法对用户会话进行更小的有一定语义的事务。3.3数据的转换和集成
该阶段即将预处理后的数据按照特定的格式进行
存储在数据库中,随后再进行数据仓库的构建,而数据仓库的构建必须要经过ETL过程,该过程是BI项目里最重要的一个环节,往往需要花费很多时间在这一环节。Web数据预处理过程其实就是数据的抽取和清洗,数据的集成也就是数据的转换和装载过程。设计出性能比较好的数据仓库,往往能够方便数据的更新、
删除和查询等操作,提高数据挖掘的效率。3.4模式识别
该阶段主要任务就是通过运用访问路径分析、
分类分析、聚类分析、关联规则分析、序列模式发现以及统计分析等Web数据挖掘方法和技术,对已经处理,
转换并集成后的格式化存储的Web数据进行挖掘,发现某些潜在的、有用的模式。3.5模式分析
该阶段是通过运用成熟的技术和工具进行模式的
分析,从而便于分析人员更清楚的理解,通过解释和可视化手段把发现的规则转化为知识。目前比较普遍常
见的方法就是采用类似SQL的形式进行查询分析,先将数据导入多维数据立方体中,再通过OLAP工具进
行分析并且输出时提供可视化的分析结果。该过程必须对客户的需求有着明确的认知,并对分析结果做出比较合理的解释和展现。
第25卷第1期孟强等:Web数据挖掘技术及应用研究
·61·
4Web数据挖掘的常用技术
4.1路径分析
路径分析是一种寻找Web站点中最频繁访问路
径的方法,
它通过对Web服务器的日志文件中客户访问站点的访问次数分析,挖掘出频繁访问的路径。例如,某一个用户从某一站点访问到某一感兴趣的页面
后就有可能经常来访问该页面,通过路径分析可以确定频繁的访问路径,可以了解到访问用户对哪些页面
感兴趣,据此更好地改进站点设计,为用户提供很好的服务。4.2关联规则
关联规则主要关注事物之间的内在关系,其目的
就是为了挖掘出隐藏在数据间的相互关系。
在Web挖掘中,关联规则挖掘就是挖掘出用户在一个访问期间从服务器上访问的页面或文件之间的关系,找出在某
一次服务器会话中最频繁一起出现的相关页面。通过Web挖掘,构建关联模型,更好地设计并组织站点,
提高用户访问的效率,可以实现精准营销、捆绑销售、个性化推荐服务等。4.3序列模式
序列模式挖掘就是挖掘出具有时间序列关系的模
式,目的是为了找出数据间的前后或因果关系,就是在时间戳有序的事务集中,找到那些“一些项跟随另一个项”的内部事务模式。发现序列模式能够有助于电子商务企业进行预测客户的访问模式,并对客户开展有针
对性的广告服务,实现精准营销。4.4分类分析
分类所解决的问题就是如何将一个事件或对象进
行归类。分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述,
构建分析模型,挖掘出分类规则,然后运用这个分类规则对其他数据库中的记录进行分类,也就是前期挖掘出的分类规则的推广与
应用。分类分析的方法有很多,
比较常见的如树模型、回归分析、贝叶斯网络、最近相邻元素、神经网络、支持向量机、遗传算法等。4.5聚类分析
聚类技术是对符合某一访问规律具有相似特征的
用户进行用户特征挖掘。不同于分类规则,其输入集是一组未标定具体类别的记录,也就是事先不知道具体
的类别,此时输入的记录还没有进行任何分类。聚类的目的就是根据一定的规则,对记录集合进行合理的划分,并结合商业特征对所划分的类别进行相应的描述
或解释。
4.6统计分析
统计分析方法是Web数据挖掘中最为常用,
也是最简单、最基本的方法,主要就是对Web数据进行各个维度的分析。比如,用户访问时间、
路径长度,都可以对其进行频数、平均值、极值等的基本统计描述分析。许多Web浏览分析工具还会定时提交统计分析报告,这些报告的主要内容通常包括用户最频繁访问的页面、页面的平均浏览时间和平均路径长度等。
5Web数据挖掘在电子商务中的应用
5.1挖掘出潜在的客户
在Web数据挖掘的过程中,
通过分类技术,构建分类模型,对新用户的访问Web记录进行分析,根据特定的分类规则就可以判断出新的访问用户具体是属于哪一类别的客户,是否具有挖掘价值的潜在客户。
对于那些毫无挖掘价值的客户,
可以直接忽略放弃,而对于那些有价值的客户,也就是有购买可能性的客户,
可以再进行更深入的挖掘。5.2提供个性化的服务
Web数据挖掘能够深入地挖掘用户访问的行为或
偏好,了解用户的习惯、兴趣、需求,通过Web数据挖掘技术对客户访问信息进行挖掘,根据客户的不同兴
趣和需求,动态调整Web页面,推荐客户感兴趣的商品或信息,为客户提供更智能、个性化的服务。5.3改进Web站点的设计
对Web站点的改进和完善,也就是对Web站点
的链接结构进行优化设计,
主要根据Web站点中访问最频繁的路径、密切相关的页面、
最重要的页面位置等这些挖掘出的有用知识来改进网站的结构设计,方便用户访问,增强网站对访问用户的吸引力,从而实现对Web站点的优化和改进[6]。5.4搜索引擎的应用
通过利用Web数据挖掘技术改进关键词加权算法,可以改善网络信息的标引准确度,提升检索效果;通过对Web内容的挖掘,可以实现对网页的聚类和分类分析,实现对网络信息的分类浏览与检索;通过对用户使用的提问式历史记录分析,可以有效地进行提问
扩展,提升访问用户的检索效果。5.5广告效益评估
运用Web数据挖掘技术对大量消费行为模式进行分析,可以准确地对各种广告方式的效果进行评估,并且能够设计出最佳的商品广告宣传方案,根据不同的访问者所浏览感兴趣的商品种类的不同,以及浏览行为习惯的不同,来确定广告的位置,
有针对性地进行·62·电脑与信息技术2017年2月
广告宣传,从而减少广告投放的成本,争取最大的收益,提高广告的投资回报率。5.6网络安全
识别出某些威通过对Web数据挖掘,能够分析,
能够进行风胁、欺诈、入侵、异常行为和无效的数据等,从而构建安全的网络环险分析、风险控制和预防危机,境。通过对网上银行、网上商店等用户交易日志文件的挖掘分析,可以有效地防范黑客的攻击和恶意欺诈等。
参考文献:
[1]NaveenGarg,SanjaySingla,SurenderJangra.Challengesand
TechniquesforTestingofBigData[J].ProcediaComputerSci-ence,2016(85):940-948.
[2]JunpengZhang,YuanCui,WeihuaLiu.SupervisedLearning
BasedDataMiningTechnologywithItsApplicationtoLifeIn-suranceDatasetAnalysis[J].InternationalJournalofBusinessandManagement,2009,2(1).[3][4]
蔡立斌.文本数据挖掘技术在Web知识库中的应用研究[J].科技通报,2012(12):54-56,59.
KamelBoulosMagedN,SanfilippoAntonioP,CorleyCourtneyD,WheelerSteve.SocialWebminingandexploitationforseri-ousapplications:TechnosocialPredictiveAnalyticsandrelatedtechnologiesforpublichealth,environmentalandnationalsecu-ritysurveillance.[J].ComputerMethodsandProgramsinBiomedicine,2010,100(1):16-23.
[5]李燕,冯博琴,鲁晓锋.Web日志挖掘中的数据预处理技术[J].
计算机工程,2009(22):44-46,49.[6]
庞英智.Web数据挖掘技术在电子商务中的应用[J].情报科学,2011(02):235-240.
6结束语
本文概述了数据挖掘与Web数据挖掘的基本概
并且详念,阐述了Web数据挖掘的分类及一般流程,细分析了Web数据挖掘常用的技术手段及在电子商务中的具体应用。随着大数据电子商务时代的进一步发展,Web数据挖掘将会越来越被国家和企业重视和应用将会越来应用,尤其是在互联网和电子商务行业,越普遍。与此同时,这也将会进一步推动数据挖掘快速
的发展与应用,Web数据挖掘技术也将会不断被优化、最终会改进、完善和更新,通过一系列数据挖掘工具,被广泛应用于各个领域。
(上接第55页)
京:机械工业出版社,2010.1.[2]
吴亚光.Android应用案例开发大全[M].北京:人民吴亚峰,邮电出版社,2012.
[3]佘志龙.AndroidSDK开发范例大全[M].北京:人民邮电出版
[4]
社,2010.6.
张建沛.数据库原理及应用系统开发[M].北京:中国水利水电出版社,1999.4.
因篇幅问题不能全部显示,请点此查看更多更全内容