山/西/财/经/大/学/学/报(高等教育版)
JournalofShanXiFinanceandEconomicsUniversity(highereducationedition) Apr.,2007
Vol.10No.1
Web文本数据挖掘关键技术及其在网络检索中的应用
宋瑞祺
(太原高新区新闻信息中心,山西太原030006)
[摘 要]Web挖掘采用数据挖掘信息处理技术,从Web信息资源中发掘用户所需信息。本文在分析Web文本信息特征的基础上,揭示了Web文本数据挖掘的目标样本的特征提取、分词处理与Web文本分类等关键技术,以Google为例讨论了该技术在网络信息检索中的应用。
[关键词]Web文本;数据挖掘;网络检索结构化 数据挖掘(DateMining))是指从大量的数据(结构化和非据库知识发现中提取有用信息和知识的过程。数据挖掘起始于数(KnowledgeDiscoveryinDatabase,简称KDD),种技术的形成和完善缘于人们对从海量信息中全面、这有效获取有用信息的需要。数据挖掘包括数据库挖掘、准确、挖掘和文本一、WebW挖掘。
挖掘是采用数据挖掘信息处理技术ebWeb文本信息的特征
,从Web源中挖掘用户所需信息的过程。信息资文本其中的标签(Web,Tag)文本信息是半结构化l>
为Web挖掘带来便利。如:…… …… 搜索您自己的计算机color=#000000>桌面