您的当前位置:首页基于交互作用的文本分类特征选择算法

基于交互作用的文本分类特征选择算法

2020-11-12 来源:乌哈旅游
Journal of Computer Applications

计算机应用,2〇l8, 38(7)

: 1857 - 1861

ISSN 1001-9081

CODEN JYIIDU2018-07-10

http: //www. joca. cn

DOI:10.11772/j. issn. 1001-9081.2018010114

文章编号:1001-9081 (2018)07-1857-05

基于交互作用的文本分类特征选择算法

唐小川'邱曦伟,罗亮

(

电子科技大学计算机科学与工程学院,成都611731)

(* 通信作者电子邮箱 xia〇chuantang@ std. uestc. edu. cn)

摘要:针对文本分类中的特征选择问题,提出了一种考虑特征之间交互作用的文本分类特征选择算法——Max-

Interaction。首先,通过联合互信息(JMI),建立基于信息论的文本分类特征选择模型;其次,放松现有特征选择算法的 假设条件,将特征选择问题转化为交互作用优化问题;再次,通过最大最小法避免过高估计高阶交互作用;最后,提出 一个基于前向搜索和高阶交互作用的文本分类特征选择算法。实验结果表明,Max-Interaction比交互作用权重特征选 择(IWFS)的平均分类精度提升了 5.5% ,Max-Interaction比卡方统计法(Chi-square)的平均分类精度提升了 6% ,Max-

interaction 在 93% 的实验中分类精度高于对比方法 ,因此, Max-Interaction 能有效利用交互作用 提升文本分类特征选

择的性能。

关键词:特征选择;文本分类;交互作用;互信息;信息测度

中图分类号:TP181 文献标志码:A

Interaction based algorithm for feature selection in text categorization

TANG Xiaochuan% QIU Xiwei, LUO Liang

(School of Computer Science and Engineering, University of Electronic Science and Technology of China, Chengdu Sichuan 611731, China)

Abstract: Focusing on the issue of feature selection in text categorization, an interaction maximum feature selection

algorithm, called Max-Interaction, was proposed. Firstly, an information theoretic feature selection model was established based on Joint Mutual Information (JMI). Secondly, the assumptions of the existing feature selection algorithms were relaxed, and the feature selection problem was transformed into an interaction optimization problem. Thirdly, the maximum of the minimum method was employed to avoid the overestimation of higher- order interaction. Finally, a text categorization feature selection algorithm based on sequential forward search and high- order interaction was proposed. In the comparison experiments, the average classification accuracy of Max-Interaction over Interaction Weight Feature Selection (IWFS) was improved by 5.5%; the average classification accuracy of Max-Interaction over Chi-square was improved by 6%; and Max-

Interaction outperfomied other methods on 93% of the experiments. Therefore, Max-Interaction can effectively improve the performance of feature selection in text categorization.

Key words: feature selection; text categorization; interaction; Mutual Information (MI); information measure

〇引言

自动文本分类是许多信息处理应用系统的关键[1]。比 如,垃圾网页检测需要自动标记垃圾网页,这个任务通常被建 模为分类问题,即将网页分为正常网页和垃圾网页两类。近 年来,越来越多解决文本分类问题的机器学习方法被提出。

文本分类的一大挑战是需要处理高维数据。在对文本进 行分类之前,需要将文本转化为易于分析的表示形式。典型

的文本表示方法是向量空间模型(Vector Space Model,

VSM)[2],即用词向量表示文本。向量的每一个分量对应一

数级的特征[3],面临维数灾难问题:一方面数据相对稀疏可 能导致分类器退化:另一方面导致计算量显著增加。特征选 择方法被广泛应用于降低文本数据的维度。

特征选择算法的作用是从源数据特征空间中选取一个特 征子集作代表。现有的特征选择算法分三类:过滤式

(Filter)、封装式(Wrapper)和嵌人式(Embedded)。过滤式方 法通过定义一个评分标准对所有特征进行排序,从而选择评 分高的特征。相比封装式和嵌人式方法,过滤式方法的优势 是计算复杂度低且独立于分类器[4],因此,本文研究文本分 类领域的过滤式特征选择方法。基于互信息的特征选择方法 是一类重要的过滤式方法[4],比如:最大相关最小冗余 (minimal Redundancy Maximal Relevance, mRMR)、联合互信 息(Joint Mutual Information, JMI)和条件最大熵特征提取

(Conditional Infomax Feature Extraction, CIFE) 0

个单词特征,其权重值为词频(Term Frequency, TF)或词频逆 文档频率(Term Frequency-Inverse Document Frequency, TF-

IDF)。为了进一步表示单词之间的依赖性,提出了 iV-gmm

语言模型。该模型假设第/V个单词只与前面/V _ 1个单词相 关,从而将相邻的/V个单词作为新特征。这种模型增加了指

特征选择方法广泛应用于文本分类。文献[5]用实验对

基金项目:国家自然科学基金资助项目(61602094)。

收稿日期=2018-01-16;修回日期=2018-02-28;录用日期=2018-03-15。

作者简介:唐小川(1986—),男,四川成都人,博士研究生,CCF会员,主要研究方向:特征选择、机器学习、大数据分析;邱曦伟(1980—),

男,四川宜宾人,博士,主要研究方向:云计算、大数据、节能计算;罗亮(1980—),男,陕西汉中人,讲师,博士,主要研究方向:云计算、大数据、能耗建模。

1858

计算机应用

第38卷

比了常用的文本分类特征选择方法。卡方统计法(Chi-

square) 用一个卡方统计量表示特征与类标签之间的统计相

关性。信息增益法(11^。1111£^。11〇3111,10)用特征删除前后信 息熵的增量表示该特征与类标签之间的关联关系。互信息法

(Mutual Information, MI)用一种互信息表示特征与类标签之 间的依赖关系。文档频率法(Document Frequency, DF)认为 在数据集中出现某个特征的文档数越多,则该文档越重要。 文献[6]提出一种新的文本分类特征选择算法,称之为最大 判别法(Maximum Discrimination, MD)。该算法使用 JMH (Jeffreys- Multi- Hypothesis )多分布散度,即 KL ( Kullback-

Leibler)散度的一种变形,解决文本分类中的多分类问题。文

献[7]提出一种基于词频和t检验的特征选择方法。这些文 本分类中的特征选择方法并未考虑特征之间的交互作用。文

献[8]提出一种改进的基于互信息的文本分类特征选择方 法。最近的一些文献研究了特征选择中的二阶和三阶交互作 用。RelaxMRMR ( Relaxed Minimal Redundancy Maximal

Relevance)[9]用三维条件互信息度量条件冗余性,并改进了

最大相关最小冗余法。文献[4]为基于信息测度的特征选择 方法提出一个框架,对比实验结果表明JMI的精度高并且结 果稳定。本文的研究发现,JMI使用的联合互信息可以被分 解为二阶和三阶交互作用。联合互信息最大化(Joint Mutual

Information Maximization, JMIM

) [1°]使用最大最小法解决了

JMI由于累加造成的一些特征估计过高的问题。交互作用权

重特征选择(Interaction Weight Feature Selection, IWFS)[11]用 一个三阶交互作用的变体表示正交互作用和冗余性。

但是,更高阶的交互作用也能提升特征选择。本文提出 一种新的特征选择方法考虑了多种交互作用。该方法使用交 互作用信息量计算交互作用,并使用最大最小方法避免由于 累加造成的交互作用估计过高的问题。大量实验表明,交互 作用能提升文本分类中的特征选择方法的性能。

1特征选择算法

记输人数据集为D = (X,3〇,其中X = (%) E

含了输人的特征,M是数据记录的数量,是特征的数量。X的 每一列5 = (%,%,…,^14.)T代表一个特征。列J = (h,:^,

…,%)T代表目标变量。输人的特征集合记为X =…,^丨。特征选择问题是指从输人特征中选择一个最具代表 性的特征集合S = U/,JC2',…,VI CX。1.1交互作用信息量

假设A和7是两个随机变量,则用互信息/(:C1;_V)度量

A

和y之间共享的信息,其定义为:

= H(Xi) + H(y) -H(xlyy)=Pix^yj)^P(Xi)P(y])(1)

其中信息熵\"

OJ

=- X

p

O

;) log*;表示A包含的信息

定义i

交互作用信息/(& ;*2

;

用于表示多个变

量之间共享的信息[12],其定义为:

I(S) A - H(T)

(2)

TQS其中s = ,\\,…,1是一个特征子集,r =丨,x>2,…,

'丨是S的一个子集。/(S) = 是指S中所有

变量之间的交互作用信息,其中分号“;”用于表示交互作用

信息。//(r)=讯气,、,…七)是指r中所有变量的联合信 息熵,其中逗号“,”用于表示联合变量。

三维联合互信息与交互作用信息量之间的关系为:

= I(xi;y) +I(xj;y) + lix.iXjj-) (3) 1.2基于交互作用的特征选择方法

基于信息论的特征选择算法的最优目标函数是:

S〇pt = arg max/(S;3»)

(4)

其中S C X是^特征集合的一个特征子集,:y是目标变量;但 是,子集的个数有指数多个,当特征个数较多时,无法穷举所 有特征子集。基于信息论的方法通常使用低维的交互信息逼 近高维的/(S,_y),比如:相关性/(*, )和冗余性/U,;^)。这 些方法基于如下几个假设[13]:

1) 已选的特征之间相互独立;

2) 已选的特征条件独立于候选特征&;3) 任意已选的特征都独立地影响目标变量。

但是,研究表明交互作用也是影响特征选择的重要因素。 在自然语言处理领域,iV- gram语言模型广泛地应用于描述单 词之间的依赖性,比如短语[3]。在组合测试领域,95%的软件 错误是由测试参数之间的一阶、二阶和三阶交互作用引起 的[14]。在统计学实验设计(Design Of Experiments’ DOE)领 域[15],析因设计等经典方法广泛应用于研究特征之间的交互 作用。

下面举一个异或问题的例子,说明交互作用的重要性。假 设有三个相互正交的布尔变量:^ = (-1,-1,-1,-1,1,1,1,1)T

X2 = (

-1,_1,1,1,-1,-1,1,1)T

*3 = (_1,1,_1,1,_1,1,_1,1)T

目标变量少=A㊉&㊉A = ( _ 1,1,1,_ 1,1,_ 1, _ 1,1)T是这些变量的异或。此时四阶交互作用

_v) =1,其他互信息的值为〇,比如:/U1;_v),/U2;3〇和/u3; 少)。交互作用1123=_»:\"3 = (-1,1,1,-1,1,-1,-1,1)1

恰好等于少。

因此,有必要放松特征选择的假设条件,允许使用更高阶 的交互作用。

假设1

个变量

E

尤\\&和,那么S,

中的各个特征独立的影响这三个变量,即:

1-1

I(Si;xi;xk;y) = ^I(xj;xi;xk;y)

(5)

其中S; = …是在A之前已选择的特征。

根据假设1,基于信息论的特征选择问题可分解为交互

作用之和:

m

m

i-1J0(xk) =I(xk;y) + ^I(xi;xk;y) + ^ ^I(xi;xj;xk;y)i=l

i=2 j=l

(6)

证明令^ E 为一个候选特征,St =丨^士,…,

Xu

1是在之前已选择的特征。

由式(3)可知,特征选择问题可转化为:KSk = I(sk;xk;y) +I(Sk;y) +I(xk;y) = I(Sk_lyxk_1;xk;y) + I(Sk;y) + I(xk;y)=

+KSk.l;xk;y) +i(xk_l;xk;y) +i(xk;

y) = I(Sk_l;xk_l;xk;y) +I(Sk_2;xk_2;xk;y) +I(Sk_2;xk;第7期唐小川等:基于交互作用的文本分类特征选择算法

1859

+/(X_2;x“_v) +/(a_1;x“_v) +/(x,〇〇 =…=

k k

+ ^/(xi;xt;^) +I(xk;y) +n

其中/2包含了相对于变量A的常数项。由假设1可知,上式可变为:

k

i-l

k

^ ^I(xi;Xj;xk;y) + ^I(xi;xk;y) + I(xk;y) +H

i =2 j = 1

i = l

从而式(6)得证。

但是,式(6)中高阶交互作用的数量多,导致累加值过 大,可能造成交互作用估计过高的问题。本文使用最大最小法 解决这一问题,最终得到目标函数如下:

= Kxk\\y) + XpSk

min +

X^XjeS/f

min I(xr,Xj-,Xk-,y)(7)

基于互信息的特征选择方法的搜索策略通常为顺序前向

搜索(Sequential Forward Search,SFS)[16]。封装式方法需要 枚举所有特征子集,而后向搜索需要从全集开始逐个删除 /V-&个特征。本文使用效率更高的SFS计算式(7)的目标函 数,称之为

Max-Interaction文

本分类特征选择算法,Max-

interaction 算法具体如下。

输入:源特征集合丨^,巧,…,xj,欲选择的特征数量m。

输出:已选的特征子集*5。

初始化S = 0,『=丨*^1,\"^2,…,

for s = 1 to m do for A; = 1 to n - 5 do

if m(Tk;y)for i = 1 to 7i - 5 - 1 do

imnsr^-j)for _/ = 1 to 7i - 5 do

计算/(叉;5^,00

end for end for

用式(7)计算/(A)

end for

Z =

*£meax r

J(xt)

5 = 5 U z

T = T\\z

end for

在算法的第一轮,选择第一个特征八,使得/( 7\\ 〇〇最 大。将该特征从集合r中移除并放人集合s。在算法的第二 轮,用式(7)计算集合r中每一个特征的目标函数值,选择最 大的特征并移动到集合s。重复这个过程直至选择了 m个特 征。最后,算法输出选择的特征集合s。

算法1涉及到计算交互作用信息量。常用的方法是基于

频率的直方图方法,文献[17]提出一种互信息的并行实现。 文献[18]将基于信息论的特征选择方法在Hadoop上实现, 目的是将这些特征选择方法应用于大数据。文献[16]指出 将特征离散化为二值变量有助于提升信息测度的估计精度并 且减少计算量。大数定理表明,随着数据的增加,概率密度估 计的精度也会增加,因此,随着大数据的出现,基于信息论的 特征选择方法精度会逐渐增高。相比基因组等科学研究数 据,文本数据收集成本更低,而且呈爆发式增长,因而能够为 高阶交互作用信息量提供更准确的估计。1.3计算复杂度分析

假设输人数据D E RMxW含有M个实例,TV个特征,欲选

择的特征数量为k文献[9]指出经典的算法JMI和mRMR的 复杂度为〇a2M/V),其原因是JMI需要遍历一次已选择的特 征子集以便计算/U;,*t 〇0。同理,IWFS

也需要遍历一次已

选择的特征子集以便计算三阶交互作用/(A

;_V),其复杂

度也为〇a2M

V

)。

本文提出的算法Max-Interaction考虑了更高维的信息测 度,其复杂度都是〇 〇3册)。相比IWFS, Max-Interaction需 要多遍历一次已选择的特征子集以便计算四阶交互作用

。当特征太多时,使用归一化互信息对特征进 行预筛选,缩小搜索空间。未来将进一步研究如何降低该算 法的复杂度,比如使用并行计算或者量子计算。

2实验

本文通过大量实验对比了 Mas-Interaction与其他特征选

择算法。该实验使用了 6个广泛使用的文本分类数据 集[1’19],包括:Reuters、TDT2 ( NIST

Topic Detection and

Tracking corpus )、RCV1

( Reuters Corpus Volume 1 )、

BASEH0CK( Baseball vs. Hockey )、PCM AC ( Pc vs. Mac )、 RELATHE( Religion vs. Atheism),如表 1 所示。本文使用分

类精度对比特征选择方法。使用的分类器包括支持向量机

(Support Vector Machine,SVM)、左近邻(僉-Nearest Neighbors, 左NN)、决策树(Decision Tree)和贝叶斯分类器(NaYve Bayes)。 这些分类器都有相应的Matlab内建函数。本文对比了 1个 考虑了三阶交互作用的特征选择方法IWFS[11],以及4个文 本分类中的特征选择方法,包括MD、Chi-square、MI和DF[6]。

所有的实验在Matlab/C ++环境中实现。

本文的实验配置如下。首先,对任意一个数据集,用特征 选择方法选择一个大小为30的特征子集。然后,从选择的第 一个特征开始,逐个增加特征,并分别使用分类器得到十折交 叉验证的分类精度。其中,在训练数据上训练分类器,并用得 到的分类器在测试数据上得到分类精度。最后,计算分类错 误率的总体均值和标准差。

表1

实验中使用的文本分类数据集

Tab. 1

Text categorization datasets used in experiments

数据集名称实例数特征数类数数据集名称实例数特征数类数

Reuters8 06718 93330BASEH0CK199348622TDT293943677130PCMAC19433 2892RCV1

9625

29992

4

RELATHE

1427

4322

2

表2是在文本分类数据集上Max-Interaction与其他文本 分类特征选择方法的对比实验结果。表中的最后一行是

Max-Interaction与对比方法的单边配对t检验结果,表中的符 号分另!J表示

Max-Interaction的

性能胜(+)、平(=)和负

(-)〇

从总体上看,Max-Interaction 比 IWFS 和 Chi- square 的平 均分类精度分别提升了 5. 5%和6%。Max-Interaction在绝大 多数实验上都比对比方法的平均分类精度高,即:胜 (93.2%)、平(2. 5%)、负(3. 3%)。值得注意的是,Max-

interaction 仅在 8 个实验中与对比方法相等或更差,而这 8 个

实验中的7个都是在RCV1数据集上出现的。一个可能的原 因是:RCV1数据集中的交互作用很弱。对于分类器A近邻、 支持向量机和决策树,Max-Interaction在所有的数据集上的分

1860

计算机应用

Reuters、TDT2

第38卷

和RELATHE数据集上,Max-Intemction明显

类精度都不低于对比方法。对于贝叶斯分类器,Max-

Interaction也仅在4

个实验中比其他方法的分类精度低。需 优于其他方法。Max-Interaction将其他特征选择方法的最高 分类精度提升了 5个百分点以上。一个可能的原因是Max-

Imemction选择的文本特征包含了显著的交互作用。在 RCV1、PCMAC和BASEH0CK

要注意的是,并没有一个特征选择方法能在所有数据集上都 最优,需要针对具体问题选择合适的方法。

图1进一步展示了当特征数量逐渐增加时,不同特征选 择方法之间的分类精度比较。其中,分类器为SVM分类器。

Tab. 2

2

数据集上,Max-Intemction仍然

优于对比方法,略高于IWFS和Chi-square。

)

各种文本分类特征选择的分类精度比较(均值±方差%

Classification accuracy comparison ( mean 士 std% ) of different feature selection methods

DF

61.2±1.8( +)41.0±1.1( +)66.8±0.7(=)59.5±2.1( +)59.8±2.5( +)64.1 ±1.1( +)68.0±1.7( +)48.8±1.0( +)63.8±0.8( +)61.6±2.7( +)67.7 ±2.1( +)68.4±1.8( +)67.1 ±1.6( +)47.4±1.0( +)66.0 ±0.7( + )61.2±2.3( +)66.6±1.5( +)68.7±2.0( +)64.6±1.9( +)46.5±1.0( +)62.6±0.7(-)53.3±3.4( +)60.7±1.1( +)62.5±3.0( +)

)

Chi-square58.6 ±1.8( + )53.7±1.3( +)61.1 ±0.6( +)62.5±3.5( +)78.2±2.5(=)85.0±2.7( +)68.9±2.0( +)56.9±1.2( +)67.2±1.1( +)74.0±2.9( +)83.7±2.4( +)88.7±2.1( +)68.5±1.9( +)57.2±1.1( +)66.8±0.9( +)75.2±3.3( +)83.3±2.2( +)88.2±1.9( +)65.8±1.9( +)55.8±1.1( +)43.3±2.2(-)69.8±2.8( +)80.1 ±1.0( +)87.9±2.0( +)

MI

47.0 ±1.7( + )21.2±0.8( +)25.4±1.5( +)54.3 ±3.9( +)52.0±4.5( +)49.5 ±4.3( +)49.8±1.3( +)23.1 ±1.2( +)30.8±1.0( +)53.9±4.3( +)46.8±2.9( +)45.1 ±1.6( +)51.5 ±1.1( +)22.2±1.1( +)31.6 ±1.1( + )54.7±4.0( +)51.6±2.9( +)46.0±2.0( +)50.8 ±1.3( + )16.7±4.0( +)30.0±1.2( +)49.6±2.2( +)49.6±2.8( +)48.3 ±2.9( +)

MD

60.8 ±1.8( + )47.3±0.8( +)55.6±1.0( + )56.6±4.2( +)53.5±3.2( +)53.5±2.8( +)68.6 ±1.7( + )54.6±1.0( +)60.7±0.9( +)73.7±2.5( +)70.1 ±2.6( + )78.8 ±3.1( + )67.6±1.6( +)53.6±1.2( +)62.1 ±0.7( + )73.7±2.3( +)70.7±2.5( +)79.0±2.6( +)65.1 ±1.9( + )52.0±1.1( +)54.7±7.4(-)67.0 ±3. 3( + )64.7±3.3( +)76.7±3.9( +)

IWFS

57.7 ±1.5( + )59.5±2.1( +)60.0±1.2( +)54.7 ±4.1( +)68.6±3.3( +)83.5±3.0( +)72.2±1.5( +)66.2±1.4( +)71.3±1.4(=)75.4±3.7( +)80.4±3.1( +)87.0±2.4( +)71.7±1.5( +)67.4±1.12( +)70.0±1.4(=)75.7±3.7( +)80.4±3.0( +)87.1 ±2.4( +)67.8±1.5( +)64.8±1.3( +)49.7±1.5(-)66.8±4.7( +)64.6±6.2( +)86.1 ±2.7( +)

分类器数据集

ReutersTDT2

Max-Interaction65.9±1.164.9 ±1.166.4±0.769.5 ±3.078.1 ±2.686.0±2.574.4±1.468.5 ±1.371.5 ±1.177.4±3.184.6 ±2.489.4±2.274.2 ±1.269.5 ±1.170.2±1.076.9+3.684.4±2.489.1 ±2.172.4±1.367.9±1.336.2±1.473. 8 ±2.181.4±1.388.7±2.2

km

RCY1RELATHEPCMACBASEHOCKReutersTDT2

SVM

RCV1RELATHEPCMACBASEHOCKReutersTDT2RCY1

Decision Tree

RELATHEPCMACBASEHOCKReutersTDT2RCV1

Naive Bayes

RELATHEPCMACBASEHOCK

其中:+、=、-符号分另(I表示Max-Interaction的性能胜(+ )、平(=和负(-)。

Chi-square

MD

IWFS

(a) Reuters 数据集

(d) RELATHE数据集

图1比较不同特征选择方法的分类精度随特征数的变化

Fig.

1

Classification accuracy comparison of different feature selection methods vs. the number of features

3结语

本文提出一种新的特征选择方法Max-Interaction。该方

使用最大最小法避免高估高阶交互作用。在一组覆盖了多个 不同类型的分类器、数据集和特征选择的实验中,Max-

interaction 在其中 93% 的实验中取得了 比其他方法更好的结

法使用多种交互作用信息挖掘特征之间的交互作用,同时也

果。Max-Interaction也将IWFS和Chi-square的平均分类精度

第7期

分别提高了 5.5%和6%

唐小川等:基于交互作用的文本分类特征选择算法

这些实验表明,特征之间的交互作

[11]

1861

ZENG Z, ZHANG H, ZHANG R, et al. A novel feature selection method considering feature interaction [ J]. Pattern Recognition, 2015, 48(8): 2656 -2666.

用能提升特征选择的性能。

未来的研究包括使用并行算法降低Max-Interaction的计 算复杂度,以及使用大数据集为信息测度提供更好的估计。参考文献(References)

[1]

CAI D, HE X. Manifold adaptive experimental design for text cate­gorization [J]. IEEE Transactions on Knowledge and Data Engineer­ing, 2012, 24(4): 707 - 719.

[2

] 张海龙,

[12]

JAKULIN A. Machine learning based on attribute interactions

[D]. Ljubljana: University of Ljubljana, 2005: 37 -38.

[13]

BALAGANI K S, PHOHA V V. On the feature selection criterion based on an approximation of multidimensional mutual information [J]. IEEE Transactions on Pattern Analysis and Machine Intelli­gence, 2010, 32(7): 1342 -1343.

[14]

HAGAR J D, W1SSINK T L, KUHN D R, et al. Introducing com­binatorial testing in a leirge organization [ J]. Computer, 2015, 48 (4

[15]

王莲芝.自动文本分类特征选择方法研究[J].计算机工

WANG L

程与设计,2006, 27(20) = 3840 -3841. (ZHANG H L,

Z. Automatic text categorization feature selection methods research [J]. Computer Engineering and Design, 2006, 27(20): 3840 - 3841.)

[3]

LIU J, SHANG J, HAN J. Phrase Mining from Massive Text and Its Applications [ M]. San Rafael, CA: Morgan & Claypool Publishers, 2017: 1 -89.

[4]

BROWN G, POCOCK A, ZHAO M J, et al. Conditional likelihood maximisation: a unifying frgimework for information theoretic feature selection [J]. Journal of Machine Learning Research, 2012, 13(1): 27-66.

[5]

YANG Y, PEDERSEN J 0. A comparative study on feature selec­tion in text categorization [ C]// ICML 1997: Proceedings of the 1997 International Conference on Machine Learning. San Francisco: Morgan Kaufmann, 1997: 412-420.

[6]

TANG B, KAY S, HE H. Toward optimal feature selection in naive Bayes for text categorization [ J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 28(9): 2508 -2521.

[7]

WANG D, ZHANG H, LJU R, et al. Feature selection based on term frequency and t-test for text categorization [ C] // CIKM 2012: Proceedings of the 21st International Conference on Information and Knowledge Management. New York: ACM, 2012: 1482 -1486.

[8

] 辛竹,周亚建.文本分类中互信息特征选择方法的研究与算法改

[19] [18] [17] [16]

): 64-72.

MONTGOMERY D C. Design and Analysis of Experiments [ M]. 9th ed. Hoboken, NJ: John Wiley & Sons, 2017: 179-220.SHISHKIN A, BEZZUBTSEVA A, DRUTSA A, et al. Efficienthigh- order interaction- aware feature selection based on conditioned mutual information [ C]// NIPS 2016: Proceedings of the 30th An­nual Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates, 2016: 4637 -4645.

KLEEREKOPER A, PAPPAS M, POCOCK A, et al. A scalable implementation of information theoretic feature selection for high di­mensional data [C]// IEEE BigData 2015: Proceedings of the 2015 IEEE International Conference on Big Data. Piscataway, NJ: IEEE, 2015: 339 -346.

RAMREZ- GALLEGO S, MOURIO- TALN H, MARTNEZ- REGO D, et al. An information theory- based feature selection frgimework for big data under apache spark [J/OL]. IEEE Transactions on Systems, Man, £ind Cybernetics: Systems, 2017: 1-13 [2018- 01-15]. http: //ieeexplore. ieee. or^/document/7970198/.

LI J, CHENG K, WANG S, et al. Feature selection: a data per­spective [J]. ACM Computing Surveys, 2018, 50(6): Article No. 94.

进[J].计算机应用,2013,33(S2): 116 -118. (XIN Z,

ZHOU Y

This work is partially supported by the National Natural Science Foun- dation of China (61602094).

J. Study and improvement of mutual information for feature selection in text categorization [ J]. Journal of Computer Applications, 2013, 33(S2): 116-118.)

[9]

YINH N X, ZHOU S, CHAN J, et al. Can high-order dependen­cies improve mutueil information based feature selection? [ J]. Pat­tern Recognition, 2016, 53: 46 -58.

[10]

BENNASAR M, HICKS Y, SETCHI R. Feature selection using joint mutual information maximization [ J]. Expert Systems with Applications, 2015, 42(22): 8520-8532.

TANG Xiaochuan, QIU Xiwei, LUO Liang,

bom in 1986, Ph. D. candidate. His research

interests include feature selection, machine learning, big data analysis.

bom in 1980, Ph. D. His research interests include

cloud computing, big data, green computing.

bom in 1980, Ph. D., lecturer. His research interests

include cloud computing, big data, energy consumption modeling.

(

上接第1856页)

ZHANG N, DONAHUE J, GIRSHICK R, et al. Part-based R- CNNs for fine-grained category detection [C]// ECCY 2015: Pro­ceedings of the 2015 European Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 1143 -1151.

[12]

用,2016,36(9):2508 -2515. (

LIYD

,H

AOZB

,LEIH.

Sur­

vey of convolutional neural network [ J] ■ Journal of Computer Ap­ 2508 -2515.)plications, 2016, 36(9):

[13] BRANSON S, VAN HORN G, BELONGIE S, et al. Bird species categorization using pose normalized deep convolutional nets [ C/ OL]. BMVC 2014: Proceedings of the 2014 British Machine Vi­sion Conference. Nottingham, UK. [2017-09-15]. https://arxiv. org/ abs/1406.2952.

This work is partially supported by the Fundamental Research Funds for the Centred Universities (2017-zy-084).

ZOU Chengming, bom in 1975, LUO Ying,

Ph. D., professor. His research inter­

ests include conputer vision, embedded system, software theory and methods.

bom in 1993, M. S. candidate. Her research interests

[14] LECUNY, BOSERB, DENKER J S. Back propagation applied to handwritten zip code recognition [ J]. Neural Computation, 1989, 1(4): 541 -551.

include graphic and image processing.

XU Xiaolong,

bom in 1995, M. S. candidate. His research inter­

[15] 李彦冬,郝宗波,雷航.卷积神经网络研究综述[J].计算机应

ests include graphic and image processing.

因篇幅问题不能全部显示,请点此查看更多更全内容