您的当前位置:首页Web文本数据挖掘关键技术及其在网络检索中的应用

Web文本数据挖掘关键技术及其在网络检索中的应用

2024-01-23 来源:乌哈旅游
2007年4月第10卷第1期

        山/西/财/经/大/学/学/报(高等教育版)        

JournalofShanXiFinanceandEconomicsUniversity(highereducationedition) Apr.,2007

Vol.10No.1

Web文本数据挖掘关键技术及其在网络检索中的应用

宋瑞祺

(太原高新区新闻信息中心,山西太原030006)

  [摘 要]Web挖掘采用数据挖掘信息处理技术,从Web信息资源中发掘用户所需信息。本文在分析Web文本信息特征的基础上,揭示了Web文本数据挖掘的目标样本的特征提取、分词处理与Web文本分类等关键技术,以Google为例讨论了该技术在网络信息检索中的应用。

[关键词]Web文本;数据挖掘;网络检索结构化  数据挖掘(DateMining))是指从大量的数据(结构化和非据库知识发现中提取有用信息和知识的过程。数据挖掘起始于数(KnowledgeDiscoveryinDatabase,简称KDD),种技术的形成和完善缘于人们对从海量信息中全面、这有效获取有用信息的需要。数据挖掘包括数据库挖掘、准确、挖掘和文本一、WebW挖掘。

挖掘是采用数据挖掘信息处理技术ebWeb文本信息的特征

,从Web源中挖掘用户所需信息的过程。信息资文本其中的标签(Web,Tag)文本信息是半结构化l>为Web挖掘带来便利。如:

Google桌面搜索<p><metahttp-equiv=“content-type”content=“text/html;charset=utf-8”><p><tr><td><ahref=“/&s=S9Y-F077GGkiG9MptJAZY9Pt-pI”><IMGborder=0height=110alt=“Google桌面搜索”src=“hp-logo.gif”width=276></a></td></tr></table><BR><p><FORMname=fmethod=GETaction=’/search&s=06C-qjYbHY6m6iPTEspcfd5sfGI’><TABLEcellSpacing=0cellPadding=4border=0><p><tr>color=#000000><B>桌面</B></font></font></td><p>……</tr></table></FORM><p>……<p>搜索您自己的计算机</p><p></body></html>后,W在加了eb文件可提供一些附加信息<html>、<title>和<,提高了数据挖掘的精度meta>、<table>等标签,<p>增加了数据挖掘的知识含量。<p>二、(网络信息挖掘系统采用向量空间模型一W)目标样本的特征提取<p>eb数据挖掘中的关键技术,用特征词条(T1,T2∧,Tn)及其权值Wi代表目标信息,在进行信息匹配时,使用这些特征项评价未知文本与目标样本的相关程度。特征词条及其权值的选取称为目标样本的特征提取法的优劣将直接影响到系统的运行效果。词条在不同内容,特征提取算的文档中所呈现出的频率分布是不同的的频率特性进行特征提取和权重评价,.<p>因此可以根据词条标同其它文档相区分一个有效的特征项集应该既能体现目标内容,也能将目频数,特征项权值评价函数,反比于训练文本内出现该词条的文档频数。构造如下因此词条权重的正比于词条的文档内:<p>Weight(word)=tftkIDFi=tfiklog(N/nk+1)<p>其中tftk表示词条Tk在文档Di中出现的频数,IDFi为文挡频数,N表示全部目标样本的文挡数,nk表示出现词条Tk的文挡数。若考虑词长因数,可进行标准化处理得Weight(word)=<p>×:<p>tftklog(N/nk+1)<p>k=∑n<p>(1<p>tfik)2×log2log(N/nk+1)<p>结构信息更加明显与普通的文本文件相比,Web文档中有明显的标识符,<p>(,对象的属性更为丰富。<p>有这给中文信息处理带来很大障碍拼音文字的字词以空格作为固定的分隔符二)分词处理与Web文本分类<p>,,,不同的切分会导致不<p>而中文则没8<p>同的语意。目前标记法、,汉语文本的自动分词主要有词典词、切分<p>方法是基于大型词库的机器分词法单汉字标引法和智能分词法。比较简单有效的分词不会成为特征项的常用词汇根据挖掘目标建立专业的分词表,为了提高系统运行效率。通用词库包含了大量,系统准确性的前提下,这样可以在保证特征提取使用正向和逆向最大匹配法进行细切分。在进行词频统计进行词条切分时,显著提高系统的运行效率。<p>,先根据标点进行粗切分,然后再分别时词典、.考虑到自然语言的多样性,系统建立并使用相应的同义有n对于相关词词典等辅助词典,个项目Web以提高信息匹配的准确度。<p>(term)文本的分类,,文本D就可以表示为一个则可以根据分词的结果进行,n维向量;W若iij表示文本Di的第j维的权值,即项目权值(termweight)a。<p>三、Web文本挖掘技术在网络检索中的应用<p>挖掘是信息检索过程的一部分。<p>网络信息检索就是网络信息挖掘的一种,并且Web文本以Google(http://www.Google.com)机制是为例,Google上:的搜索<p>表。“爬行”几个分布的Crawler(,URI.自动搜索软件)同时工作—在网Crawler所找到的网页被送到存储服务器服务器则负责向这些Crawler提供((URI.StoreServer的列)中。存储服务器于是就把这些网页压缩后存人一个知识库(repository)的中。每个网页都有一个关联ID-docID,引库URL(从一个网页中解析出来时,exer)和排序器((Sorter)就被分配一个doc当一个新IDInd。索识库中读取记录负责建立索引,索引库从知成一组词的出现状况,将文档解压并进行解析(wordoccurrences),称为。每个文档就转换hits。hits了词、些引库同时分析网页中所有的链接并将重要信息存在hit又分成一组词在文档中的位置“barrels”、字体大小,产生经过部分排序后的索引。索、大小写等。索引库把这记录文档中。这个文档包含了足够信息Anchors被链入或链出的结点信息。<p>,可以用来判断一个链接URI-的分解器(URLResolver)阅读Anchors文档,UR文本编制索引L转换成绝对的URLs,并生成docID,并把相对chor,并与Anchor所指向的doc它进一步为AnID2同时,它还产生由docID对(pairsofdocID)建立关联。<p>这个链接数据(Pagerank)库(Links)用于计所形成的数据库。<p>排序器读取。<p>算所有文档的页面等级barrels,并根据词的ID号(wordID)成倒排挡。一个名为列表来生由索引库产生的一个新的词表结合起来产生另一个新的词DumpLexicon的程序则把上面的列表和表供搜索器服务器((Searcher)排挡以及页面等级来回答用户的提问。<p>,并使用由DumpLex使用。这个搜索器就是利用一个Webicon所生成的词表,并利用上述倒具有特色的一步是从Google的体系结构、用一定的算法得出了页面等级的信息:利用UR搜索原理中可以看到分解器获得,LLinks信息其关键而,并且运文本挖掘技术。<p>,Web所采用的技术就是[<p>参考文献]<p>[1]GudivadaVN.InformationretrievalontheWorldWideWeb[J].IEEEInternetComputing,1997,1(5):58-68.<p>[2]文献出版社苏新宇等.数据挖掘理论与技术[M].北京:科学技术,2003.<p>[3]李水平.数据采掘技术回顾[J].统小型微型计算机系,1998,19(4):74-81.<p>[4]邹涛等.基于WWW的文本信息挖掘[J].情报学报,1999,(18).<p>[责任编辑:郭小兵]<p>95<p> <div class="preview-ft"> <div class="preview-title"> <p style="color: red;"><strong>因篇幅问题不能全部显示,请点此查看更多更全内容</strong></p> <div class="model-fold-cover-bd"><a href="https://m.tang5.com/mluauo/nreieixgiag/" target="_blank"><span>查看全文</span><i class="iconfont icon-chakangengduo"></i></a></div> </div> </div> <script type="text/javascript" src="https://jss.wuhaninfo.cn/mobile/detail_left.js"></script> <script type="text/javascript" src="https://jss.wuhaninfo.cn/mobile/detail_gg2.js"></script> </div> <div class="gl_prev"> </div> </div> <script type="text/javascript" src="https://jss.wuhaninfo.cn/mobile/detail_foot.js"></script> <script type="text/javascript" src="https://jss.wuhaninfo.cn/mobile/share_cebian_gg1.js"></script> <script type="text/javascript" src="https://jss.huatuo6.com/mobile/share_cebian_xgyd.js"></script> <script type="text/javascript" src="https://jss.wuhaninfo.cn/mobile/share_cebian_gg2.js"></script> <script type="text/javascript" src="https://jss.huatuo6.com/mobile/share_cebian_rmtj.js"></script> <footer class="footer"> Copyright © 2019-<span class="currentYear"></span> 版权所有<br> </footer> <script> var swiper = new Swiper('.i_banner .swiper-container', { pagination: '.i_banner .swiper-pagination', paginationClickable: true, spaceBetween: 30, centeredSlides: true, autoplay: 2500, autoplayDisableOnInteraction: false, loop: true, }); </script> <!--弹窗开始--> <script type="text/javascript"> $(function () { //弹窗2 $('.menu_icon').click(function () { $('.tbox').show(); }) //关闭 $('.close').click(function () { $('.tbox').hide(); }) }) </script> <!--弹窗结束--> <script type="text/javascript" src="https://jss.wuhaninfo.cn/mobile/foot_foot.js"></script> <script type="text/javascript"> const currentYear = new Date().getFullYear(); $('.currentYear').html(currentYear) </script> <script type="text/javascript" src="https://jss.huatuo6.com/pc/tj_foot.js"></script> </body> </html>