您的当前位置:首页基于多特征自注意力blstm的中文实体关系抽取

基于多特征自注意力blstm的中文实体关系抽取

2023-10-15 来源:乌哈旅游
第33卷第10期

2019年10月

中文信息学报

JOURNAL OF CHINESE INFORMATION PROCESSINGVol. 33, No. 10 Oct.,2019

文章编号:

1003-0077(2019)10-0047-10

基于多特征自注意力BLSTM的中文实体关系抽取

李卫疆,李涛,漆芳

(昆明理工大学信息工程与自动化学院,云南昆明650500)

实体关系抽取解决了原始文本中目标实体之间的关系分类问题.同时也被广泛应用于文本摘要、自动问答

系统、知识图谱、搜索引擎和机器翻译中。由于中文句式和语法结构复杂,并且汉语有更多歧义,会影响中文实体 关系分类的效果。该文提出了基于多特征自注意力的实体关系抽取方法,充分考虑词汇、句法、语义和位置特征, 使用基于自注意力的双向长短期记忆网络来进行关系预测。在中文COAE 2016 Task 3和英文SemEval 2010

Task 8数据集上的实验表明该方法表现出了较好的性能。

关中

键图

词分

:实类

体关系抽取;自注意力;双向长短期记忆网络;多特征

TP391

文献标识码:

A

Chinese Entity Relation Extraction Based on Multi-Features

Self-Attention Bi-LSTM

LI Weijiang,LI Tao,QI Fang

(School of Information Engineering and Automation, Kunming University of

Science and Technology,Kunming, Yunnan 650500,China)

Abstract: Entity relation extraction identifies the relation between the target entity in the raw text, wichi is also widely used in text summarization, automatic question answering system, knowledge map,search engine♦ and ma­chine translation. To deal with the complex structure and ambiguity in the Chinese sentences, this paper proposes a multi-feature self-attention entity relation extraction method. It employ a self-attention-based Bi-LSTM to capture the lexical, syntactic, semantic and position features. The experimental results on the Chinese COAE-2016 Task 3 and the English SemEval-2010 Task 8 show our method produces better performances.

Keywords: entity relation extraction; self-attention; bidirectional long short-term memory; multi-features

函数。基于特征的关系抽取方法能够取得较好效

〇引言

信息抽取(information extraction,IE)旨在从 大规模非结构或半结构的自然语言文本中抽取结构 化信息。信息抽取的主要任务有:命名实体识别、 实体关系抽取、事件抽取和实体消歧等。关系抽取 解决了原始文本中目标实体之间的关系分类问题, 这也是构建复杂知识库系统的重要步骤,例如,文本 摘要、自动问答、机器翻译、搜索引擎、知识图谱等。 随着近年来信息抽取研究的兴起,关系抽取问题进 一步得到广泛的关注和深人研究。

传统的关系分类方法侧重于设计有效特征或核

收基

稿金

日项

期目

果,但是无法充分利用实体对上下文结构信息进行 抽取。为此,人们提出了基于核函数的关系抽取方 法,但是,由于中文的句子结构相对英语而言较为松 散,词语之间没有位置指示信息,所以基于核函数的 方法在中文关系抽取任务中未能取得期望的效果, 而且,该方法训练和测试速度太慢,不适合处理大规 模数据。

近年来,深度学习方法被广泛应用到实体关系

抽取任务中。Socher等[1]在2012年提出使用循环 神经网络(R N N)来解决关系抽取问题。该方法能 有效地考虑句子的句法结构信息,但同时无法很好 地考虑两个实体在句子中的位置和语义信息。

:2019-04-16

定稿日期

:2019-07-26

:国家自然科学基金(61363045)

48

中文信息学报

2019 年

Zeng等

在2014年采用词汇向量和词的位置向量

作为卷积神经网络(CNN

)的输入.通过卷积层、池

化层和非线性层得到句子表示。该方法考虑了位置 信息,但并未考虑句法和语义信息。Zhang等[3在 2015年采用双向长短期记忆网络(BLSTM)和

NLP

丁具派生的特征(依存分析和命名实体识别 (NER))来解决关系分类。该方法考虑了位置、句 法和同汇特征,但同样没有考虑语义特征。这些 工作均未完全考虑所有类型特征,本文的工作提 出使用4种不同类型的特征(词汇、句法、语义和 位置特征)。

最近,注意力机制在N

LP

领域得到成功应用。 同时,在关系抽取任务上也有相关的应用。Zhou 等「4]在2016年提出基于注意力(Attenion)的双向 长短期记忆网络(BLSTM)的方法进行关系抽取。 尽管注意力能够学习词的重要性,但是它不能学习 序列内部信息。因此,本文引人自注意力来学习序 列内部信息。

BLSTM可以学习前向和后向的上下文信息。 自注意力[5]是一般注意力的一种特殊情况,可以学 习到句子内部长距离依赖关系。本文提出了一种基 于自注意力双向长短期记忆网络(SelfAtt-BLSTM) 模型.用于结合词汇、句法、语义和位置特征进行关 系抽取。实验结果表明,本文方法在中文COAE 2016 Task 3 和英文 SemEval 2010 Task 8 两个数 据集上均表现出较好的性能。

本文贡献如下:(1) 在神经网络中引人自注意力机制来处理实

体关系抽取任务;

(2) 在实体关系抽取中引人了多种特征:词

汇、句法、语义和位置特征;

(3) 在中、英两种数据集上验证了本文提出型的有效性。1相关工作

关系提取的方法主要分为三类:基于特征的方

法、基于核函数的方法和基于神经网络的方法。1.1基于特征的方法

特征主要分为三类:(1)词汇特征;(2)句法 特征;(3)语义特征。文献[6]采用最大熵(maxi­

mum entropy) 模型 ,结 合同汇 、句法 和语义 特征进

行关系抽取,尽管该方法考虑了 3大特征,但是并未考虑实体位置信息,且使用的分类方法比较传 统。Miller等Y _提出了基于句法解(syntatic par­

ing) 增强 的方法 ,该 方法能 够将语 法和语 义信息

集成到解析过程中,从而避免了潜在的错误。基 于特征的关系抽取方法无法充分利用实体对上下 文结构信息。

1.2基于核函数的方法

基于核函数的方法不需要构造特征向量.而是 把结构树作为处理对象,通过计算它们之间的相似 度来进行实体关系抽取。文献[8]采用组合核

(composite kernel)方

法,先使用单独核,然后不断

地组合核(2个核,3个核),组合了多个不同的语法 特征来进行关系抽取。Plank和

MoschittP在

2013年在树核中嵌入语义相似度用于领域自适应 的关系抽取,他们关注无监督的领域自适应(例如, 无标签数据)。核函数的选择是核方法研究中的一 个关键问题,同时也是一个难点问题,因此设计有效 的核函数变得至关重要。1.3基于神经网络的方法

Santors等

〜在2015年提出一种新的损失函

数卷积神经网络(CNN

)。该方法采用新的损失函

数,有效提高了不同实体关系类型的区分度。但

CNN

不适合学习远程语义信息。

Zhang和%3叩:11]在

2015年采用双向循环神

经网络(BRNN)来学习原始文本数据的关系模式。

虽然双向RNN

可以访问前向和后向的上下文信

息,但

RNN

具有梯度消失和梯度爆炸问题。长短

期记忆网络(LSTM )由 Hochreiter 和 Schmidh

Uber在

1997年第一次提出,以克服梯度消失问题。

胡:

|2]在2015年采用BLSTM

来提取句子级特征,

再使用MLP

(前馈神经网络)融合句子特征和词汇 特征(位置特征、命名实体、上位词等)进行关系分

类。B

LSTM

能够充分利用整个文本序列的信息,

所以本文的方法建立在B

LSTM

之上。

Lin等〜:在

2016年将卷积神经网络(CNN

)和

注意力机制(attention mechanism)结合起来进行远 程监督的关系抽取。该方法利用CNN

作为句子编

码器,同时使用句子级别的注意力机制。王等[14]在

2018年采用B

LSTM

学习词之间的相互关系信息,

利用注意力概率突出词对于句子的重要程度,从而 提高分类效果。

本文采用B

LSTM

解决传统深度学习方法

模10期

李卫疆等:基于多特征自注意力BLSTM的中文实体关系抽取

49

(R

NN

、CN

N

)的长距离依赖问题,同时学习实体对 (1) Input层:数据清洗和特征提取。

上下文结构信息,并充分考虑每种类型特征,利用自 (2) Embedding层:将特征映射成低维稠密向 注意力来学习序列内部信息以及词和特征对关系分 量,拼接所有特征向量。

类的重要性。

(3) B

LSTM

层:利用B

LSTM

从部分(2)获得

高级特征。

2 SelfATT-BLSTM 模型

(4) Self-Attention 层:通过 Self-Attention 层 处理得到自注意力权重,然后将自注意力权重和

本节将详细介绍本文模型:基于自注意力双向 BLSTM

层的输出向量加权求和。

长短期记忆网络(SelfATT-BLSTM)。如图1所 (5) Output层:使用Softmax函数进行关系

示,本文提出的模型包含5个部分:

分类。

Input

Embedding

BLSTM

/Cookup Table ^

word p〇stag/?ar5er role position

\\ /

^ -------p,e^ •

------d^eJ^r,

r-p

------------mST/~~a/~~71/-Oh〇—〇K)

M

CA/7i

0

3EO&

例:访华/v/HED/AO: (0, 2) /p1 /p2

oil〇FecTO.03257.

m

Isoftmaxl图1基于自注意力双向长短期记忆网络模型结构

2.1 预处理

是词表大小,是词向量的维度。通过词向量矩阵, 可以把每个词转换成词向量的表示,如式(1)所示。

预处理主要包括数据清洗和特征提取等工作, e, = W • V,

(1)

特征主要依靠N

LP

工具获取。其中,v,是大小为|V|的one-hot向量,句子S

2. 2 Embedding 层

就被转换成:=[£,,•••,e„] 6K

\"x\"。

2.2. 2

额外特征嵌人

本文除了使用词特征之外,还将使用词性标注、 (1) 词性标注

依存句法分析、语义角色标注和位置特征.然后将其 词性是词汇基本的语法属性,通常也称为词类。 表本成向量形式。除了语法关系,句中单词的词性(位置)标记也蕴含 2.2.1词嵌人

着信息,词的位置定义了它的用途和功能。

基于神经网络的分布式表示一般称为同向量或 对于由〃个词组成的句子S,有p, 6夂。其中.p, 分布式表示,由于神经网络较为灵活,这类方法的最 表示第f个同的词性特征向量,/表示词性特征向量的 大优势在于可以表示复杂的上下文。

维度,则句子的词性特征向量为& = [P,,…,]

假设,一个句子S是由》个词组成,S=[w!,-\", W

x,。

],第〖个词W,对应的词向量为e,,对于S中的每 (2) 依存句法分析

个词来说,存在一个词向量矩阵:vveif\" v,其中,V

依存句法分析是通过分析语言单位内成分之间

50

中文信息学报2019 年

的依存关系揭示其句法结构,主张句子中核心动词 (3)语义角色标注

是支配其他成分的中心成分,而其本身却不受其他 语义角色标注是一种浅层的语义分析技术,标 任何成分的支配,所有受支配成分都以某种关系从 注句子中某些短语为给定谓词的语义角色,如施事、 属于支配者,通过可以获得句法信息。

受事、时间和地点等。语义角色标注以句子的谓词 对于由^个词组成的句子S,有^兄,其中,

为中心,不对句子所包含的语义信息进行深人分析, A

表示第:个词的依存特征向量表示依存特征向

只分析句子中各成分与谓词之间的关系,通过其能 量的维度,则句子的依存特征向量:& = [rf,,…,

够获得语义信息。表1展示了部分语义角色含义, rf„]6R

n<,〇

图2展示了语义角色标注示例结构图。

图2语义角色标注

对于由《个词组成的句子S.有/•, 6

JT

。其中 对距离的向量表示。因此,一个句子的位置向量表 r,表

示第个词的语义特征向量,/«表示语义特征

示如式(4)所示。

向量的维度,则句子的语义特征向量:S,. = [/•,,…S/ =

[/, -•••-/„] e R2nXi (4)

经过所有的预处理得到词、词性、依存句法关

表丨语义角色

系、语义角色和位置的向量表示形式,最后将所有特 征向量拼接,如式(5)所示。

语义角色类型

说明

F

㊉S

㊉S‘,㊉

■㊉S, ……針出

ADVadverbial,default tag (附加的,默认标记)(5)

BNEbeneficiary (受益人)CNDcondition (条件)2.3双向长短期记忆网络(BLSTM)层

DIRdirection (方向)传统的R

NN

,处理的序列太长时,梯度将呈指

DGR

degree (程度)

数级衰减或者增长,最终会引起梯度消失和梯度爆

炸。R

NN

的变体长短期记忆网络(LSTM)在1997

(4)位置特征

年被Hochreiter和Schmidh Uber提

出,解决了梯

因为一个句子中有两个实体,所以位置特征[2] 度消失的问题,同时可以学习长时依赖关系,因此经 是通过考虑两个实体和其他词之间的距离信息,可 常用于处理长文本任务。L

STM

只能学习一个方

以很好地把句子中实体的信息考虑到关系抽取中。

向的信息,双向长短期记忆网络(BLSTM)可以学习 一个句子S由n个词组成5 =

,…,,第

两个方向的信息.更好地捕捉双向的语义依赖,本文 ;个词%距离两个实体的相对距离如式(2)所示。

采用B

LSTM

来学习词和特征完整的信息。在图1

d\\

= i — i\\

中可以看到本文使用的BLSTM

的结构,输人的是

d2 = i — i2

(2)

拼接后的特征向量F。假设F=(/,,…,/„),有/,

其中4是实体1的索引4

是实体2的索引,

其中,„是句子的长度,分 最后生成一个2M大小的位置特征向量。第,个词 别表示词嵌人维度、词性嵌人维度、依存分析嵌人维 的位置向量表示如式(3)所示。

度和语义角色嵌人维度。结合本文,其计算如式(6)、 /, = el,㊉ e2, (3)

式(7)所示。

其中<1,€#,必6«、々是位置向量的维度,

h, = LSTM(/, (6)el,和62,分别为第;个词距离实体1和实体2的相

h, = LSTM( f,,h,+i)

(7)

10期

李卫疆等:基于多特征自注意力BLSTM的中文实体关系抽取

51

其中,L

STM

是激活函数,/,是?时刻的输人 向量。前向式(6)考虑上一时刻的隐藏状态I-,,后 向式(7)考虑下一时刻的隐藏状态它们都考虑 当前的输人/,。然后拼接 < 时刻的两个隐藏状态向 量:/!,=(㊉L最后得到BLSTM层的输出向量: // = [\\"„]2. 4

自注意力层

自注意力[5]是一般注意力的特殊情况,其特点 在于无视词之间的距离直接计算依赖关系,能够学 习一个句子的内部结构。因此,本文在实体关系抽 取任务中引人自注意力,将

BLSTM

层的输出向量

H

输人到自注意力层,通过自注意力层可以学习到

不同的词和特征对关系分类的重要性,同时也可以 学习到序列内部信息,图3展示了词的注意力权重。 图4展示了自注意力权重的计算过程,图中H表示

BLSTM

层的输出向量,L,表示第一层线性神经网

络,L2表示第二层线性神经网络,a表示自注意力 权重,C表示H和a加权求和的结果.自注意力权 重的具体计算如式(8)所示。

a = softmax( W/2 tanh( W/i H))

(8)

word

|~¥]同网闷网

awdgh°tn 0

0

0

0

0

图3

词注意力权重示意图

L2

a

其中,

〜,fc, 6兄,n是句子的长度是

LSTM

单元输出的向量维度。叫是第一个线性神

经层的权重矩阵,w,2是第二个线性神经层的权重矩 阵,该权重矩阵是通过自注意力层的线性神经网络 层学习得到。tanh是激活函数,softmax函数是归 一化指数函数。先通过自注意力层计算出词和特征

注意力分数,再利用softmax函数归一化分数得到 权重,如图3所示,所有权重和为1。最后将注意力 权重a和输出向量H加权求和,最后输出用于分类 的向量C,如式(9)所示。

C= aH

(9)

2.5关系分类

本文将自注意力层得到的输出向量C输人到 分类器进行关系分类。在分类器中.使用softmax 函数,对最后的分数进行归一化,可以得到最后输出 的概率值,如式(10)所示。

p(.y | S) = softmax(wcC^ b, )

(10)

对于输人句子S,通过softmax分类器,预测关

系标签51,如式(11)所示。

y = argmaxy

^ (y | S)

(11)

目标函数是带L2惩罚项的交叉摘(cross en-

tropy)损失函数,如式(12)所示。

S

_/(0) = Xl/ = 1

1〇g(r, I S,,5)+A || 6>|| !■ (12)

其中是指句子集的数量,0是表示模型中的

所有参数,A是12正则系数。

3实验

本文同时在中,英文数据集上做了相关实验,中

文数据集采用COAE-2016 Task 3数据集,英文数 据采用SemEval-2010Task8数据集。本次实验分 为以下几组:

(1) 超参数的影响,验证参数是否对分类结有影响。

(2) 在

BLSTM

模型上分别加上不同的注力,验证自注意力的有效性。

(3) 在本文提出的模型上依次叠加不同特验证特征的有效性。

(4) 中英文实验结果对比,验证本文提出模的有效性。3.1数据集

本次实验使用的中文数据是由第八届中文倾向 性分析评测(COAE-2016)任务3 (Task3)提供的评 测数据集,该评测会议在2016年加入了实体关系抽 取任务,即任务3。Task3数据集提供了 988条训 练数据,937条测试数据。其中,共有10种关系类 型,详情见表2。

征, 型

52

中文信息学报

2019 年

表2 COAE-20丨6 Task 3实体关系类型

标号

关系名称

cr2人物的出生日期cr4人物的出生地crl6人物的毕业院校cr20人物的配偶cr21人物的子女cr28组织机构的髙管cr29组织机构的员工数cr34组织机构的创始人cr35组织机构的成立时间cr37

组织机构的总部地点

本文使用哈工大的LTP T.具对中文数据进行 分词、词性标注、依存句法分析和语义角色标注。

本次实验使用的英文数据是由SemEval-2010 Task 8提供的数据集。这个数据集一共有10 717 个标注样本,8 000个样本个用于训练,2 717个样 本用于测试。在每个样本中标注有关系的两个实 体,且这两个实体仅属于1种关系类型。该数据集 中共有9种带有方向的关系和1种不带方向的oth­

er 类型的关系 ,如下所示:

• Cause-Effect• Component-Whole• Content-Container• Entity-Destination• Entity-Origin• Message-Topic• Member-Collection• Instrument-Agency• Product-Agency• Other

本文使用Stanford N

LP

工具对英文语料进行

分词、词性标注和依存句法分析。该工具没有提供 语义角色标注的功能,所以英文语料比中文少一个 语义角色的特征。3.2超参数设置

由于中、英文数据集的差异,所以某些超参数不 一致。表3展示了本文实验所有超参数的具体取值 情况,其中,LR、H_n、B_s、G_clip、JuDr、W_d、Po_

d、Pa_d、R_d

和PF_d分别表示学习率、隐藏神经单

元个数、批训练大小(Batch_Size)、梯度裁剪参数、

k

正则系数、Dropout值、同嵌人维度、词性嵌人维

度、依存句法分析嵌人维度、语义角色嵌人维度和位 置特征嵌人维度。

中文词嵌人使用最新预训练好的百度百科300 维的词向量。中文使用Dropout: 0. 7分别对嵌人 层、LS

TM

层和自注意力的两个线性层Dropout。

英文词嵌入使用预训练好的Glove 300维:15]的词向 量。英文使用Dropout: 0.5分别对嵌人层、LSTM 层和自注意力的两个线性层Dropout。

除了词以外,其他特征均采用随机初始。本文 使用带交叉熵损失函数的Adam

优化器来训练

模型。

表3本文实验超参数的取值情况

超参数

中文

英文

LR0. 000 50. 000 5H_n250200B一 s3216G—clip1010Ale-8le-8Dr0.70. 5W_d300300Po_d2525Pa_d2525

R_d30无

PF_d

25

25

3.3实验结果与分析

所有的Baseline方法和本文提出的模型都使用

官方的F,-score,即F

,值来评估模型性能。以下所

有表中的SDP、W

V

、PF、P()S、Parse和

Role分别表

示最短依存路径、词向量、位置特征、词性特征、依存 句法分析和语义角色。3. 3. 1

超参数的影响

通常情况下,需要对超参数进行优化,给学习机 选择一组最优超参数,以提高学习的性能和效果。 超参数的取值决定了学习算法能不能学到最优,因 此.在中文数据集上针对常见且影响大的超参数做实验.图5展示了实验结果。

10期

李卫疆等:基于多特征自注意力BLSTM的中文实体关系抽取

53

f] Batch_Size 的影响

学习率的影响

82.00%

100.00%

80.00%81.49%

60.00%40.00%

20.00%

79.00%

16

32

64

128 B s

0.00%

0.0005 0.005 0.05 0.5 LR

隐藏层神经元个数的影响

82.00%

81.49%

79.00%

100

150

200

250300 H_

图5超参数的影响

学习率指算法学习的快慢,隐藏神经单元个数 的有效性.而且自注意力优于注意力。

决定模型的复杂度,Batch_Size指一次训练里有多 表4

自注意力对性能的影响

少个样本。根据图5可以发现,影响最大的是学习 率,隐藏层神经元个数和ModelsFeaturesFJ%Batch_SiZe影响都比较 小。当 SelfAtt-BLSTMall81. 49LR、H_n 和 B_s 分别为 0. 0005、2.50、32 时, 算法学到最优。当LR

比较小时,学习效果比较理

Att-BLSTMall80. 15想,此时本文使用的优化器是Adam。Adam结合

BLSTM

all

78. 26

了 AdaGrad和

RMSProp算法最优性能,它还提供

解决稀疏梯度和噪声问题的方法。3.3.3特征的有效性验证

Adam的调参相 对简单,默认参数就可以处理绝大部分问题。本文 本文引人了多个特征,特征的好坏会直接影响 选择模型的性能,为了验证特征的有效性.本文在中文数 Adam中影响较大的参数,根据经验法则找到 据集上做相关实验,表5展示了特征对值的 这些参数的常用值,然后再使用穷举法选择这些参 数的多个值中的最优值,最后结合其他默认参数训 影响。

练模型。

表5

特征对性能的影响

3.3.2自注意力的有效性验

ModelsFeaturesFJ%本文引人了自注意力,为了验证自注意力的有 WV + PF

75. 72效性,本文在中文数据集上做相关实验,表4展示了 + POS76. 68自注意力对F,值的影响。_

SelfAtt-BLSTM

+ Parse79. 05注意力机制可以快速提取稀疏数据的重要特 + Role

81. 49

征,而自注意力机制是注意力机制的改进,其减少了 对外部信息的依赖,更擅长捕捉数据或特征的内部 在本文方法中使用了 4种不同类型的特征,即 相关性,表4的实验结果证明了注意力和自注意力

词性标注、依存句法分析、语义角色标注和位置特

54

中文信息学报

2019 年

征。在实体关系抽取任务中,位置特征已经演变成 了标准特征。因此,词向量和位置特征的组合是参 考标准,本文在参考标准基础上依次叠加特征。从 表5中可以看出,加人的特征对关系分类是有效的. 依存特征和语义角色特征表现最好,词性特征最差。 词性蕴含了潜在的位置信息,实验表明特征对性能 的提升不是很明显,仅有〇. 96%的提升;依存句法 分析是对句子结果进行分析,它蕴含句法相关的信 息,该特征的加人使性能明显提升;语义角色标注分 析句子中的语义成分,考虑浅层语义信息,F,值提 高了 2. 44 % is

3.3.4中英文实验结果与分析

(1) 中文实体关系抽取结果与分析

因为中文数据集是2016年新添加的实体关系 抽取任务,所以相关论文相对较少。前3个方法是 孙等[丨6]在2017年基于COAE-2016 Task3提出的 三个Baseline方法,用于做实验参考。

模板匹配:基于模板的实体关系抽取主要是通 过模板匹配的方式来抽取实体关系。该方法通过最 短依存路径(SDP)上是否可以匹配到模板词来判断 关系类型。虽然模板匹配的方法实现简单,但是性 能很差。

SVM

:基于特征的S

VM

实体关系抽取。该方

法选取实体顺序、实体距离和实体上下文三个特征, 人工特征可以有效提高模型的性能,使用多种特征 的

SVM

算法在三个算法中是效果最好的。CNN

1:孙[16]等采用C

NN

来做实体关系抽取。

该方法没有加任何额外特征,利用CNN

学习特征 的方法代替传统的人工特征的选择,但是效果并

不好。

CNN

2:王[17]采用基于特征的C

NN

方法,除了 标准的词向量和位置特征之外,还使用了命名实体 识别和基于TP-ISP的关键词特征,同时使用分段 最大池化进行关系抽取。实验效果显著增强,其F

, 值达到77. 5%,与该方法相比,本文方法优势明显,

值提高了 3. 99%.

Att-CNN

: W

u

等[|8]采用分段卷积神经网络

(PCNN)和注意力来提取高层语义信息,同时使用 位置特征和实体类型来进行中文实体关系抽取。与 该方法相比,本文方法的F,值提高了 3.08%。

(2) 英文实体关系抽取结果与分析

为了验证本文方法的有效性,本文同时在英文 数据集上做实验,选取英文数据集上的9个流行方 法做对比。

SVM

1/SVM2:这两个方法是Harabagiu和

Rink[19]在

2010年提出一系列方法中的两个,他们采

用各种手工特征(P(_)S和dependency parse等)和利用 各种资源(WordNet,ProBank 和 FrameNet 等),并利 用

SVM

进行关系分类,其6值达到了 82. 19%。与 该方法相比,本文方法的B值仍然高出1. 71%。

RNN

: Socher等[|]在2012年首次提出使用

RNN

来处理关系抽取任务.该方法对句子进行解

析,能够有效地考虑句子的句法结构信息。

CNN

1: Zeng等[2]在2014年首次提出采用

CNN

来进行关系提取,利用卷积神经网络来提取词

汇和句子级别的特征。该方法不需要复杂的预处 理,解决预处理特征错误传播的问题,其F

,值达到

了 82. 7%。

BRNN

: Zhang和Wang 11在2015年采用双向

循环神经网络(BRNN

)进行关系抽取,并使用不同

维度(50和300)的词向量做实验,使用300维词向 量做实验的厂值最高,达到了 82.5%。

SDP-BLSTM

: 丫311等[2°]在 2015 年提出 了基于

最短依存路径(SDP)的长短期记忆网络(LSTM)模型 进行实体关系抽取。该方法同时考虑词性标记、语法 关系和

WordNet上

位词特征,其

F

,值达到了

83.7%,与本文方法不相上下,本文仅高出了 0.2%。

CNN

2:王[17]在2017年提出的C

NN

模型,通

过TP-ISP衡量词的重要性来获取关键词。关键词

增加了类别区分度,采用分段最大池化策略来解决 信息丢失问题,其

R

值只有77.5%。与该方法相

比,本文方法的值明显高出6. 4%。

Att-RCNN

: Zhang 等[21]在 2018 年结合 RNN、

CNN

和注意力机制进行关系抽取。他们仅使用词

和位置特征,F,值可以达到83. 7%。

Hybrid BiLSTM-Siamese: Cui 等[22]在 2019

年通过Siamese模型架构将两个词级别BLSTM

合在一起,它学习两个句子的相似度,并通过K近

邻算法预测新句子的关系。

本文提出在BLSTM模型的基础上加人自注意

力(self attention)和丰富的特征集。表6和表7展示 了本文方法和当前流行的中英文方法的对比。从这 两个表可以看出,本文方法在中、英文数据集上的性 能都表现非常好,其

F

,值分别达到了 81. 49%和

83.9%。根据这些实验结果,可以得出以下结论:

① 自注意力的加人能提高B

LSTM

分类效果;

② 丰富的特征集有利于实体关系抽取;③ 本文提出的方法优于与本文对比的方法。

10期 李卫疆等:基于多特征自注意力BLSTM的中文实体关系抽取 55

表6中文实体关系抽取任务结果

Models

Feature Sets

FJ%模板匹配[16] (孙等,2017)

SDP

23. 97SVM:16](孙等,2017)Entity order, Entity distance,Entity context66. 29CNN1[16](孙等,2017)WV,PF

56. 69CNN2:17:(王林玉,2017)WV,PF,keywords,NER77. 50Att-CNN[18] (Wu 等,2018)WV,PF,ET

78. 41

SelfAtt-BLSTM

WV-POS. Parse, Role, PF

81.49

表7英文实体关系抽取任务结果

Models

Feature Sets

FJ%SVM1[19]

(Rink and Harabagiu,2010)word pair, words in between

75. 2

POS,prefixes, morphological, WordNet,dependencyparse,Levin classed, Pro- SVM2[19]

Bank ,FrameN(Rink and Harabagiu,2010)et,NomLex-Plus,Googlen-gram,paraphrases,82. 19

TextRunner

RNNC1]

WV

74.8

(Socher et al.,2012)+ POS+ NER + WordNet77. 6CNN1[2]

(Zeng et al. , 2014)WV,PF,WordNet82. 7BRNN[11J

(Zhang et al.,2015)WV,Position Indicators

82. 5SDP-BLSTM[20] WV,syntactic pars

82. 4(Yan et al.,2015)+ POS+ WordNet + grammarrelation embeddings83. 7CNN2[17] (Wang,2017)WV,PF, keywords, NER77. 5Att-RCNN[21]

(Zhang et al. ,2018)WV,PI.POS83. 7Hybrid BiLSTM-Siamese[22] (Cui et al. ,2019)WV,PF

81.8

SelfAtt-BLSTM

WV,POS,Parse,PF

83.9

BLSTM

对比,证明了自注意力的有效性。本文重

4 总结和未来工作

点是加人了语义角色特征和自注意力,实验证明该 特征效果不错,且自注意力的特点在于无视词之间 本文提出了一个基于自注意力双向长短期记忆

的距离直接计算依赖关系,能够学习一个句子的内 网络(Self Att-BLSTM)模型,加入词汇、句法、语义 部结构,自注意力最终被证实了可以提高模型性能。 和位置4大特征,对词和特征的组合使用自注意力 实验结果表明,本文方法在中、英文数据集上均表现 来学习序列和特征的内部信息。本文对比了各个特 出较好的性能。

征,依存句法特征和语义角色特征表现比较好,词性

未来的工作可以从以下两个方面展开:特征表现最差。把本文模型SeKAtt-BLSTM和

(1)除了词性、依存句法和语义角色特征之外.

56

中文信息学报2019 年

还有实体类别和语法关系等特征本文未考虑到.将 来可以尝试寻找更多未使用过的关键特征。

(2)本文采用自注意力和BLSTM

结合的方法 进行实体关系抽取,未来可以尝试与C

NN

、R

NN

FNN

相结合。

参考文献

[1 ] Socher R, Huval B, Manning C D, et al. Semantic

compositionality

through

recursive

matrix-vector

spaces[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012. Association for Computational Linguistics, 2012 :

1201-1211.

[2] Zeng D» Liu K. Lai S» et al. Relation classification via

convolutional deep neural network[C]//Proceedings of COLING, 2014: 2335-2344.

[3] Zhang S,Zheng D,Hu X,et al. Bidirectional long short­

term memory networks for relation classification [ C ]// Proceedings of the 29th Pacific Asia Conference on Lan­guage. Information and Computation,2015: 73-78.[4]

Zhou P,Shi W, Tian J,et al. Attention-based bidi­rectional long short-term memory networks for relation classification [ C ]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguis­tics, 2016: 207-212.

[5] Vaswani A, Shazeer N, Parmar N, et al. Attention is

all you need[C]//Proceeding.s of Advances in Neural Information Processing Systems, 2017: 5998-6008.[6] Kambhatla N. Combining lexical, syntactic? and se­

mantic features with maximum entropy models for ex­tracting relations [C]//Proceedings of the ACL 2004 on Interactive Poster and Demonstration Sessions. As­sociation for Computational Linguistics, 2004: 22.[7] Miller S» Fox H, Ramshaw L, et al. A novel use of

statistical parsing to extract information from text [C]//Proceedings of the 1st Meeting of the North A- merican Chapter of the Association for Computational Linguistics, 2000.

[8] Zhao S,Grishman R. Extracting relations with inte­

grated information using kernel methods 匸C]//Proceed- ings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computa­tional Linguistics, 2005: 419-426.[9]

Plank B, Moschitti A. Embedding semantic similarity in tree kernels for domain adaptation of relation extrac- tion[C]//Proceedings of the 51st Annual Meeting ofthe Association for Computational Linguistics, 2013 : 1498-1507.

[10] Santors C N D, Bing X,Zhou B. Classifying rela­

tions by ranking with convolutional neural networks[C] //Proceedings of the 53rd Annual Meeting of the ACL, 2015,86(86): 132-137.

[11]

Zhang D, Wang D. Relation classification via recur­rent neural network[J]. arXiv preprint arXiv: 1508. 01006, 2015.

[12]

胡新辰.基于LSTM的

语义关系分类研究

[D].哈

:哈

2015.

[13] Lin Y,Shen S,Liu Z,et al. Neural relation extrac­

tion with selective attention over instances[C]//Pr〇- ceedings of the 54th Annual Meeting of the Associa­tion for Computational Linguistics (Volume 1: Long Papers), 2016: 2124-2133.

[14] 王

红,史金钊丨,张志

.基于注意力机制

LSTM的

[J].计算机应用研究,2018, 35(5):

1417-1420.

[15]

Mikolov T,Sutskever I,Chen K,et al. Distributed representations of words and phrases and their com- positionality[C]//Proceedings of Advances in Neural Information Processing Systems, 2013 : 3111-3119.

[16] 孙

,顾

,李

.

COAE2016数

据集的中

文实体关系抽取算法研究

[J].山

报(理学

),2017, 52(9): 7-12.

[17]

玉.

基于深度卷积神经网络的实体关

[D] .太原:太

原理工

2017.

[18] Wu W, Chen Y, Xu J , et al. Attention-Based Convo­

lutional Neural Networks for Chinese Relation Ex­traction [C]//Proceedings of Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data, Springer, 2018, 147-158.

[19] Rink B, Harabagiu S. Utd: Classifying semantic re­

lations by combining lexical and semantic resources [C]//Proceedings of the 5th International Workshop on Semantic Evaluation, 2010. Association for Com­putational Linguistics, 2010: 256-259.

[20] Yan X,Mou L, Li G,et al. Classifying relations via

long short term memory networks along shortevSt de­pendency path[J]. arXiv preprint arXiv: 1508. 03720. 2015.

[21] Zhang X, Chen F, Huang R. A combination of RNN and CNN for attention-based relation classification [J]. Procedia Computer Science,2018, 131: 911-917.

[22] Cui Z, Pan L, Liu S. Hybrid BiLSTM-Siamese net­

work for relation extraction[C]//Proceedings of the 18th International Conference on Autonomous Agents and MultiAgent Systems. International Foundation for Autonomous Agents and Multiagent Systems, 2019: 1907-1909.

(下转第72页)

72

中文信息学报

2019 年

宋睿(1993—),硕士研究生,主要研究领域为关 系抽取、文本匹配。

陈鑫( 1993 —),硕士研究生,主要研究领域为自 动问答、文本匹配。

E-mail : cnsr27@gmail. com

E-mail :chenxinkuaile@gmail. com

洪宇(1978 —),通信作者.教授,研究生导师,主 要研究领域为话题检测、信息抽取、信息检索。

E-mail : tianxianer@gmail. com

(上接第56页)

李卫疆( 1969—),博士,副教授•硕士生导师,主 要研究领域为信息检索、自然语言处理。

李涛( 1993—),硕士研究生,主要研究领域为自 然语言处理、实体关系抽取。

E-mail: hrbrichard@126.comE-mail: 754563116@qq.com

1

漆芳(1994 一),硕士研究生,主要研究领域为自 然语言处理、情感分析。

E-mail: 363869360@qq.com

因篇幅问题不能全部显示,请点此查看更多更全内容