2019年10月
中文信息学报
JOURNAL OF CHINESE INFORMATION PROCESSINGVol. 33, No. 10 Oct.,2019
文章编号:
1003-0077(2019)10-0047-10
基于多特征自注意力BLSTM的中文实体关系抽取
李卫疆,李涛,漆芳
(昆明理工大学信息工程与自动化学院,云南昆明650500)
摘
要
:
实体关系抽取解决了原始文本中目标实体之间的关系分类问题.同时也被广泛应用于文本摘要、自动问答
系统、知识图谱、搜索引擎和机器翻译中。由于中文句式和语法结构复杂,并且汉语有更多歧义,会影响中文实体 关系分类的效果。该文提出了基于多特征自注意力的实体关系抽取方法,充分考虑词汇、句法、语义和位置特征, 使用基于自注意力的双向长短期记忆网络来进行关系预测。在中文COAE 2016 Task 3和英文SemEval 2010
Task 8数据集上的实验表明该方法表现出了较好的性能。
关中
键图
词分
:实类
号
体关系抽取;自注意力;双向长短期记忆网络;多特征
:
TP391
文献标识码:
A
Chinese Entity Relation Extraction Based on Multi-Features
Self-Attention Bi-LSTM
LI Weijiang,LI Tao,QI Fang
(School of Information Engineering and Automation, Kunming University of
Science and Technology,Kunming, Yunnan 650500,China)
Abstract: Entity relation extraction identifies the relation between the target entity in the raw text, wichi is also widely used in text summarization, automatic question answering system, knowledge map,search engine♦ and machine translation. To deal with the complex structure and ambiguity in the Chinese sentences, this paper proposes a multi-feature self-attention entity relation extraction method. It employ a self-attention-based Bi-LSTM to capture the lexical, syntactic, semantic and position features. The experimental results on the Chinese COAE-2016 Task 3 and the English SemEval-2010 Task 8 show our method produces better performances.
Keywords: entity relation extraction; self-attention; bidirectional long short-term memory; multi-features
函数。基于特征的关系抽取方法能够取得较好效
〇引言
信息抽取(information extraction,IE)旨在从 大规模非结构或半结构的自然语言文本中抽取结构 化信息。信息抽取的主要任务有:命名实体识别、 实体关系抽取、事件抽取和实体消歧等。关系抽取 解决了原始文本中目标实体之间的关系分类问题, 这也是构建复杂知识库系统的重要步骤,例如,文本 摘要、自动问答、机器翻译、搜索引擎、知识图谱等。 随着近年来信息抽取研究的兴起,关系抽取问题进 一步得到广泛的关注和深人研究。
传统的关系分类方法侧重于设计有效特征或核
收基
稿金
日项
期目
果,但是无法充分利用实体对上下文结构信息进行 抽取。为此,人们提出了基于核函数的关系抽取方 法,但是,由于中文的句子结构相对英语而言较为松 散,词语之间没有位置指示信息,所以基于核函数的 方法在中文关系抽取任务中未能取得期望的效果, 而且,该方法训练和测试速度太慢,不适合处理大规 模数据。
近年来,深度学习方法被广泛应用到实体关系
抽取任务中。Socher等[1]在2012年提出使用循环 神经网络(R N N)来解决关系抽取问题。该方法能 有效地考虑句子的句法结构信息,但同时无法很好 地考虑两个实体在句子中的位置和语义信息。
:2019-04-16
定稿日期
:2019-07-26
:国家自然科学基金(61363045)
48
中文信息学报
2019 年
Zeng等
在2014年采用词汇向量和词的位置向量
作为卷积神经网络(CNN
)的输入.通过卷积层、池
化层和非线性层得到句子表示。该方法考虑了位置 信息,但并未考虑句法和语义信息。Zhang等[3在 2015年采用双向长短期记忆网络(BLSTM)和
NLP
丁具派生的特征(依存分析和命名实体识别 (NER))来解决关系分类。该方法考虑了位置、句 法和同汇特征,但同样没有考虑语义特征。这些 工作均未完全考虑所有类型特征,本文的工作提 出使用4种不同类型的特征(词汇、句法、语义和 位置特征)。
最近,注意力机制在N
LP
领域得到成功应用。 同时,在关系抽取任务上也有相关的应用。Zhou 等「4]在2016年提出基于注意力(Attenion)的双向 长短期记忆网络(BLSTM)的方法进行关系抽取。 尽管注意力能够学习词的重要性,但是它不能学习 序列内部信息。因此,本文引人自注意力来学习序 列内部信息。
BLSTM可以学习前向和后向的上下文信息。 自注意力[5]是一般注意力的一种特殊情况,可以学 习到句子内部长距离依赖关系。本文提出了一种基 于自注意力双向长短期记忆网络(SelfAtt-BLSTM) 模型.用于结合词汇、句法、语义和位置特征进行关 系抽取。实验结果表明,本文方法在中文COAE 2016 Task 3 和英文 SemEval 2010 Task 8 两个数 据集上均表现出较好的性能。
本文贡献如下:(1) 在神经网络中引人自注意力机制来处理实
体关系抽取任务;
(2) 在实体关系抽取中引人了多种特征:词
汇、句法、语义和位置特征;
(3) 在中、英两种数据集上验证了本文提出型的有效性。1相关工作
关系提取的方法主要分为三类:基于特征的方
法、基于核函数的方法和基于神经网络的方法。1.1基于特征的方法
特征主要分为三类:(1)词汇特征;(2)句法 特征;(3)语义特征。文献[6]采用最大熵(maxi
mum entropy) 模型 ,结 合同汇 、句法 和语义 特征进
行关系抽取,尽管该方法考虑了 3大特征,但是并未考虑实体位置信息,且使用的分类方法比较传 统。Miller等Y _提出了基于句法解(syntatic par
ing) 增强 的方法 ,该 方法能 够将语 法和语 义信息
集成到解析过程中,从而避免了潜在的错误。基 于特征的关系抽取方法无法充分利用实体对上下 文结构信息。
1.2基于核函数的方法
基于核函数的方法不需要构造特征向量.而是 把结构树作为处理对象,通过计算它们之间的相似 度来进行实体关系抽取。文献[8]采用组合核
(composite kernel)方
法,先使用单独核,然后不断
地组合核(2个核,3个核),组合了多个不同的语法 特征来进行关系抽取。Plank和
MoschittP在
2013年在树核中嵌入语义相似度用于领域自适应 的关系抽取,他们关注无监督的领域自适应(例如, 无标签数据)。核函数的选择是核方法研究中的一 个关键问题,同时也是一个难点问题,因此设计有效 的核函数变得至关重要。1.3基于神经网络的方法
Santors等
〜在2015年提出一种新的损失函
数卷积神经网络(CNN
)。该方法采用新的损失函
数,有效提高了不同实体关系类型的区分度。但
CNN
不适合学习远程语义信息。
Zhang和%3叩:11]在
2015年采用双向循环神
经网络(BRNN)来学习原始文本数据的关系模式。
虽然双向RNN
可以访问前向和后向的上下文信
息,但
RNN
具有梯度消失和梯度爆炸问题。长短
期记忆网络(LSTM )由 Hochreiter 和 Schmidh
Uber在
1997年第一次提出,以克服梯度消失问题。
胡:
|2]在2015年采用BLSTM
来提取句子级特征,
再使用MLP
(前馈神经网络)融合句子特征和词汇 特征(位置特征、命名实体、上位词等)进行关系分
类。B
LSTM
能够充分利用整个文本序列的信息,
所以本文的方法建立在B
LSTM
之上。
Lin等〜:在
2016年将卷积神经网络(CNN
)和
注意力机制(attention mechanism)结合起来进行远 程监督的关系抽取。该方法利用CNN
作为句子编
码器,同时使用句子级别的注意力机制。王等[14]在
2018年采用B
LSTM
学习词之间的相互关系信息,
利用注意力概率突出词对于句子的重要程度,从而 提高分类效果。
本文采用B
LSTM
解决传统深度学习方法
模10期
李卫疆等:基于多特征自注意力BLSTM的中文实体关系抽取
49
(R
NN
、CN
N
)的长距离依赖问题,同时学习实体对 (1) Input层:数据清洗和特征提取。
上下文结构信息,并充分考虑每种类型特征,利用自 (2) Embedding层:将特征映射成低维稠密向 注意力来学习序列内部信息以及词和特征对关系分 量,拼接所有特征向量。
类的重要性。
(3) B
LSTM
层:利用B
LSTM
从部分(2)获得
高级特征。
2 SelfATT-BLSTM 模型
(4) Self-Attention 层:通过 Self-Attention 层 处理得到自注意力权重,然后将自注意力权重和
本节将详细介绍本文模型:基于自注意力双向 BLSTM
层的输出向量加权求和。
长短期记忆网络(SelfATT-BLSTM)。如图1所 (5) Output层:使用Softmax函数进行关系
示,本文提出的模型包含5个部分:
分类。
Input
Embedding
BLSTM
/Cookup Table ^
word p〇stag/?ar5er role position
\\ /
^ -------p,e^ •
------d^eJ^r,
r-p
------------mST/~~a/~~71/-Oh〇—〇K)
M
CA/7i
0
3EO&
例:访华/v/HED/AO: (0, 2) /p1 /p2
oil〇FecTO.03257.
m
Isoftmaxl图1基于自注意力双向长短期记忆网络模型结构
2.1 预处理
是词表大小,是词向量的维度。通过词向量矩阵, 可以把每个词转换成词向量的表示,如式(1)所示。
预处理主要包括数据清洗和特征提取等工作, e, = W • V,
(1)
特征主要依靠N
LP
工具获取。其中,v,是大小为|V|的one-hot向量,句子S
2. 2 Embedding 层
就被转换成:=[£,,•••,e„] 6K
\"x\"。
2.2. 2
额外特征嵌人
本文除了使用词特征之外,还将使用词性标注、 (1) 词性标注
依存句法分析、语义角色标注和位置特征.然后将其 词性是词汇基本的语法属性,通常也称为词类。 表本成向量形式。除了语法关系,句中单词的词性(位置)标记也蕴含 2.2.1词嵌人
着信息,词的位置定义了它的用途和功能。
基于神经网络的分布式表示一般称为同向量或 对于由〃个词组成的句子S,有p, 6夂。其中.p, 分布式表示,由于神经网络较为灵活,这类方法的最 表示第f个同的词性特征向量,/表示词性特征向量的 大优势在于可以表示复杂的上下文。
维度,则句子的词性特征向量为& = [P,,…,]
假设,一个句子S是由》个词组成,S=[w!,-\", W
x,。
],第〖个词W,对应的词向量为e,,对于S中的每 (2) 依存句法分析
个词来说,存在一个词向量矩阵:vveif\" v,其中,V
依存句法分析是通过分析语言单位内成分之间
50
中文信息学报2019 年
的依存关系揭示其句法结构,主张句子中核心动词 (3)语义角色标注
是支配其他成分的中心成分,而其本身却不受其他 语义角色标注是一种浅层的语义分析技术,标 任何成分的支配,所有受支配成分都以某种关系从 注句子中某些短语为给定谓词的语义角色,如施事、 属于支配者,通过可以获得句法信息。
受事、时间和地点等。语义角色标注以句子的谓词 对于由^个词组成的句子S,有^兄,其中,
为中心,不对句子所包含的语义信息进行深人分析, A
表示第:个词的依存特征向量表示依存特征向
只分析句子中各成分与谓词之间的关系,通过其能 量的维度,则句子的依存特征向量:& = [rf,,…,
够获得语义信息。表1展示了部分语义角色含义, rf„]6R
n<,〇
图2展示了语义角色标注示例结构图。
图2语义角色标注
对于由《个词组成的句子S.有/•, 6
JT
。其中 对距离的向量表示。因此,一个句子的位置向量表 r,表
示第个词的语义特征向量,/«表示语义特征
示如式(4)所示。
向量的维度,则句子的语义特征向量:S,. = [/•,,…S/ =
[/, -•••-/„] e R2nXi (4)
经过所有的预处理得到词、词性、依存句法关
表丨语义角色
系、语义角色和位置的向量表示形式,最后将所有特 征向量拼接,如式(5)所示。
语义角色类型
说明
F
㊉S
㊉S‘,㊉
■㊉S, ……針出
ADVadverbial,default tag (附加的,默认标记)(5)
BNEbeneficiary (受益人)CNDcondition (条件)2.3双向长短期记忆网络(BLSTM)层
DIRdirection (方向)传统的R
NN
,处理的序列太长时,梯度将呈指
DGR
degree (程度)
数级衰减或者增长,最终会引起梯度消失和梯度爆
炸。R
NN
的变体长短期记忆网络(LSTM)在1997
(4)位置特征
年被Hochreiter和Schmidh Uber提
出,解决了梯
因为一个句子中有两个实体,所以位置特征[2] 度消失的问题,同时可以学习长时依赖关系,因此经 是通过考虑两个实体和其他词之间的距离信息,可 常用于处理长文本任务。L
STM
只能学习一个方
以很好地把句子中实体的信息考虑到关系抽取中。
向的信息,双向长短期记忆网络(BLSTM)可以学习 一个句子S由n个词组成5 =
,…,,第
两个方向的信息.更好地捕捉双向的语义依赖,本文 ;个词%距离两个实体的相对距离如式(2)所示。
采用B
LSTM
来学习词和特征完整的信息。在图1
d\\
= i — i\\
中可以看到本文使用的BLSTM
的结构,输人的是
d2 = i — i2
(2)
拼接后的特征向量F。假设F=(/,,…,/„),有/,
其中4是实体1的索引4
是实体2的索引,
其中,„是句子的长度,分 最后生成一个2M大小的位置特征向量。第,个词 别表示词嵌人维度、词性嵌人维度、依存分析嵌人维 的位置向量表示如式(3)所示。
度和语义角色嵌人维度。结合本文,其计算如式(6)、 /, = el,㊉ e2, (3)
式(7)所示。
其中<1,€#,必6«、々是位置向量的维度,
h, = LSTM(/, (6)el,和62,分别为第;个词距离实体1和实体2的相
h, = LSTM( f,,h,+i)
(7)
10期
李卫疆等:基于多特征自注意力BLSTM的中文实体关系抽取
51
其中,L
STM
是激活函数,/,是?时刻的输人 向量。前向式(6)考虑上一时刻的隐藏状态I-,,后 向式(7)考虑下一时刻的隐藏状态它们都考虑 当前的输人/,。然后拼接 < 时刻的两个隐藏状态向 量:/!,=(㊉L最后得到BLSTM层的输出向量: // = [\\"„]2. 4
自注意力层
自注意力[5]是一般注意力的特殊情况,其特点 在于无视词之间的距离直接计算依赖关系,能够学 习一个句子的内部结构。因此,本文在实体关系抽 取任务中引人自注意力,将
BLSTM
层的输出向量
H
输人到自注意力层,通过自注意力层可以学习到
不同的词和特征对关系分类的重要性,同时也可以 学习到序列内部信息,图3展示了词的注意力权重。 图4展示了自注意力权重的计算过程,图中H表示
BLSTM
层的输出向量,L,表示第一层线性神经网
络,L2表示第二层线性神经网络,a表示自注意力 权重,C表示H和a加权求和的结果.自注意力权 重的具体计算如式(8)所示。
a = softmax( W/2 tanh( W/i H))
(8)
word
|~¥]同网闷网
awdgh°tn 0
0
0
0
0
图3
词注意力权重示意图
L2
a
其中,
〜,fc, 6兄,n是句子的长度是
LSTM
单元输出的向量维度。叫是第一个线性神
经层的权重矩阵,w,2是第二个线性神经层的权重矩 阵,该权重矩阵是通过自注意力层的线性神经网络 层学习得到。tanh是激活函数,softmax函数是归 一化指数函数。先通过自注意力层计算出词和特征
注意力分数,再利用softmax函数归一化分数得到 权重,如图3所示,所有权重和为1。最后将注意力 权重a和输出向量H加权求和,最后输出用于分类 的向量C,如式(9)所示。
C= aH
(9)
2.5关系分类
本文将自注意力层得到的输出向量C输人到 分类器进行关系分类。在分类器中.使用softmax 函数,对最后的分数进行归一化,可以得到最后输出 的概率值,如式(10)所示。
p(.y | S) = softmax(wcC^ b, )
(10)
对于输人句子S,通过softmax分类器,预测关
系标签51,如式(11)所示。
y = argmaxy
^ (y | S)
(11)
目标函数是带L2惩罚项的交叉摘(cross en-
tropy)损失函数,如式(12)所示。
S
_/(0) = Xl/ = 1
1〇g(r, I S,,5)+A || 6>|| !■ (12)
其中是指句子集的数量,0是表示模型中的
所有参数,A是12正则系数。
3实验
本文同时在中,英文数据集上做了相关实验,中
文数据集采用COAE-2016 Task 3数据集,英文数 据采用SemEval-2010Task8数据集。本次实验分 为以下几组:
(1) 超参数的影响,验证参数是否对分类结有影响。
(2) 在
BLSTM
模型上分别加上不同的注力,验证自注意力的有效性。
(3) 在本文提出的模型上依次叠加不同特验证特征的有效性。
(4) 中英文实验结果对比,验证本文提出模的有效性。3.1数据集
本次实验使用的中文数据是由第八届中文倾向 性分析评测(COAE-2016)任务3 (Task3)提供的评 测数据集,该评测会议在2016年加入了实体关系抽 取任务,即任务3。Task3数据集提供了 988条训 练数据,937条测试数据。其中,共有10种关系类 型,详情见表2。
果
意
征, 型
52
中文信息学报
2019 年
表2 COAE-20丨6 Task 3实体关系类型
标号
关系名称
cr2人物的出生日期cr4人物的出生地crl6人物的毕业院校cr20人物的配偶cr21人物的子女cr28组织机构的髙管cr29组织机构的员工数cr34组织机构的创始人cr35组织机构的成立时间cr37
组织机构的总部地点
本文使用哈工大的LTP T.具对中文数据进行 分词、词性标注、依存句法分析和语义角色标注。
本次实验使用的英文数据是由SemEval-2010 Task 8提供的数据集。这个数据集一共有10 717 个标注样本,8 000个样本个用于训练,2 717个样 本用于测试。在每个样本中标注有关系的两个实 体,且这两个实体仅属于1种关系类型。该数据集 中共有9种带有方向的关系和1种不带方向的oth
er 类型的关系 ,如下所示:
• Cause-Effect• Component-Whole• Content-Container• Entity-Destination• Entity-Origin• Message-Topic• Member-Collection• Instrument-Agency• Product-Agency• Other
本文使用Stanford N
LP
工具对英文语料进行
分词、词性标注和依存句法分析。该工具没有提供 语义角色标注的功能,所以英文语料比中文少一个 语义角色的特征。3.2超参数设置
由于中、英文数据集的差异,所以某些超参数不 一致。表3展示了本文实验所有超参数的具体取值 情况,其中,LR、H_n、B_s、G_clip、JuDr、W_d、Po_
d、Pa_d、R_d
和PF_d分别表示学习率、隐藏神经单
元个数、批训练大小(Batch_Size)、梯度裁剪参数、
k
正则系数、Dropout值、同嵌人维度、词性嵌人维
度、依存句法分析嵌人维度、语义角色嵌人维度和位 置特征嵌人维度。
中文词嵌人使用最新预训练好的百度百科300 维的词向量。中文使用Dropout: 0. 7分别对嵌人 层、LS
TM
层和自注意力的两个线性层Dropout。
英文词嵌入使用预训练好的Glove 300维:15]的词向 量。英文使用Dropout: 0.5分别对嵌人层、LSTM 层和自注意力的两个线性层Dropout。
除了词以外,其他特征均采用随机初始。本文 使用带交叉熵损失函数的Adam
优化器来训练
模型。
表3本文实验超参数的取值情况
超参数
中文
英文
LR0. 000 50. 000 5H_n250200B一 s3216G—clip1010Ale-8le-8Dr0.70. 5W_d300300Po_d2525Pa_d2525
R_d30无
PF_d
25
25
3.3实验结果与分析
所有的Baseline方法和本文提出的模型都使用
官方的F,-score,即F
,值来评估模型性能。以下所
有表中的SDP、W
V
、PF、P()S、Parse和
Role分别表
示最短依存路径、词向量、位置特征、词性特征、依存 句法分析和语义角色。3. 3. 1
超参数的影响
通常情况下,需要对超参数进行优化,给学习机 选择一组最优超参数,以提高学习的性能和效果。 超参数的取值决定了学习算法能不能学到最优,因 此.在中文数据集上针对常见且影响大的超参数做实验.图5展示了实验结果。
10期
李卫疆等:基于多特征自注意力BLSTM的中文实体关系抽取
53
f] Batch_Size 的影响
学习率的影响
82.00%
100.00%
80.00%81.49%
60.00%40.00%
20.00%
79.00%
16
32
64
128 B s
0.00%
0.0005 0.005 0.05 0.5 LR
隐藏层神经元个数的影响
82.00%
81.49%
79.00%
100
150
200
250300 H_
图5超参数的影响
学习率指算法学习的快慢,隐藏神经单元个数 的有效性.而且自注意力优于注意力。
决定模型的复杂度,Batch_Size指一次训练里有多 表4
自注意力对性能的影响
少个样本。根据图5可以发现,影响最大的是学习 率,隐藏层神经元个数和ModelsFeaturesFJ%Batch_SiZe影响都比较 小。当 SelfAtt-BLSTMall81. 49LR、H_n 和 B_s 分别为 0. 0005、2.50、32 时, 算法学到最优。当LR
比较小时,学习效果比较理
Att-BLSTMall80. 15想,此时本文使用的优化器是Adam。Adam结合
BLSTM
all
78. 26
了 AdaGrad和
RMSProp算法最优性能,它还提供
解决稀疏梯度和噪声问题的方法。3.3.3特征的有效性验证
Adam的调参相 对简单,默认参数就可以处理绝大部分问题。本文 本文引人了多个特征,特征的好坏会直接影响 选择模型的性能,为了验证特征的有效性.本文在中文数 Adam中影响较大的参数,根据经验法则找到 据集上做相关实验,表5展示了特征对值的 这些参数的常用值,然后再使用穷举法选择这些参 数的多个值中的最优值,最后结合其他默认参数训 影响。
练模型。
表5
特征对性能的影响
3.3.2自注意力的有效性验
ModelsFeaturesFJ%本文引人了自注意力,为了验证自注意力的有 WV + PF
75. 72效性,本文在中文数据集上做相关实验,表4展示了 + POS76. 68自注意力对F,值的影响。_
SelfAtt-BLSTM
+ Parse79. 05注意力机制可以快速提取稀疏数据的重要特 + Role
81. 49
征,而自注意力机制是注意力机制的改进,其减少了 对外部信息的依赖,更擅长捕捉数据或特征的内部 在本文方法中使用了 4种不同类型的特征,即 相关性,表4的实验结果证明了注意力和自注意力
词性标注、依存句法分析、语义角色标注和位置特
54
中文信息学报
2019 年
征。在实体关系抽取任务中,位置特征已经演变成 了标准特征。因此,词向量和位置特征的组合是参 考标准,本文在参考标准基础上依次叠加特征。从 表5中可以看出,加人的特征对关系分类是有效的. 依存特征和语义角色特征表现最好,词性特征最差。 词性蕴含了潜在的位置信息,实验表明特征对性能 的提升不是很明显,仅有〇. 96%的提升;依存句法 分析是对句子结果进行分析,它蕴含句法相关的信 息,该特征的加人使性能明显提升;语义角色标注分 析句子中的语义成分,考虑浅层语义信息,F,值提 高了 2. 44 % is
3.3.4中英文实验结果与分析
(1) 中文实体关系抽取结果与分析
因为中文数据集是2016年新添加的实体关系 抽取任务,所以相关论文相对较少。前3个方法是 孙等[丨6]在2017年基于COAE-2016 Task3提出的 三个Baseline方法,用于做实验参考。
模板匹配:基于模板的实体关系抽取主要是通 过模板匹配的方式来抽取实体关系。该方法通过最 短依存路径(SDP)上是否可以匹配到模板词来判断 关系类型。虽然模板匹配的方法实现简单,但是性 能很差。
SVM
:基于特征的S
VM
实体关系抽取。该方
法选取实体顺序、实体距离和实体上下文三个特征, 人工特征可以有效提高模型的性能,使用多种特征 的
SVM
算法在三个算法中是效果最好的。CNN
1:孙[16]等采用C
NN
来做实体关系抽取。
该方法没有加任何额外特征,利用CNN
学习特征 的方法代替传统的人工特征的选择,但是效果并
不好。
CNN
2:王[17]采用基于特征的C
NN
方法,除了 标准的词向量和位置特征之外,还使用了命名实体 识别和基于TP-ISP的关键词特征,同时使用分段 最大池化进行关系抽取。实验效果显著增强,其F
, 值达到77. 5%,与该方法相比,本文方法优势明显,
值提高了 3. 99%.
Att-CNN
: W
u
等[|8]采用分段卷积神经网络
(PCNN)和注意力来提取高层语义信息,同时使用 位置特征和实体类型来进行中文实体关系抽取。与 该方法相比,本文方法的F,值提高了 3.08%。
(2) 英文实体关系抽取结果与分析
为了验证本文方法的有效性,本文同时在英文 数据集上做实验,选取英文数据集上的9个流行方 法做对比。
SVM
1/SVM2:这两个方法是Harabagiu和
Rink[19]在
2010年提出一系列方法中的两个,他们采
用各种手工特征(P(_)S和dependency parse等)和利用 各种资源(WordNet,ProBank 和 FrameNet 等),并利 用
SVM
进行关系分类,其6值达到了 82. 19%。与 该方法相比,本文方法的B值仍然高出1. 71%。
RNN
: Socher等[|]在2012年首次提出使用
RNN
来处理关系抽取任务.该方法对句子进行解
析,能够有效地考虑句子的句法结构信息。
CNN
1: Zeng等[2]在2014年首次提出采用
CNN
来进行关系提取,利用卷积神经网络来提取词
汇和句子级别的特征。该方法不需要复杂的预处 理,解决预处理特征错误传播的问题,其F
,值达到
了 82. 7%。
BRNN
: Zhang和Wang 11在2015年采用双向
循环神经网络(BRNN
)进行关系抽取,并使用不同
维度(50和300)的词向量做实验,使用300维词向 量做实验的厂值最高,达到了 82.5%。
SDP-BLSTM
: 丫311等[2°]在 2015 年提出 了基于
最短依存路径(SDP)的长短期记忆网络(LSTM)模型 进行实体关系抽取。该方法同时考虑词性标记、语法 关系和
WordNet上
位词特征,其
F
,值达到了
83.7%,与本文方法不相上下,本文仅高出了 0.2%。
CNN
2:王[17]在2017年提出的C
NN
模型,通
过TP-ISP衡量词的重要性来获取关键词。关键词
增加了类别区分度,采用分段最大池化策略来解决 信息丢失问题,其
R
值只有77.5%。与该方法相
比,本文方法的值明显高出6. 4%。
Att-RCNN
: Zhang 等[21]在 2018 年结合 RNN、
CNN
和注意力机制进行关系抽取。他们仅使用词
和位置特征,F,值可以达到83. 7%。
Hybrid BiLSTM-Siamese: Cui 等[22]在 2019
年通过Siamese模型架构将两个词级别BLSTM
组
合在一起,它学习两个句子的相似度,并通过K近
邻算法预测新句子的关系。
本文提出在BLSTM模型的基础上加人自注意
力(self attention)和丰富的特征集。表6和表7展示 了本文方法和当前流行的中英文方法的对比。从这 两个表可以看出,本文方法在中、英文数据集上的性 能都表现非常好,其
F
,值分别达到了 81. 49%和
83.9%。根据这些实验结果,可以得出以下结论:
① 自注意力的加人能提高B
LSTM
分类效果;
② 丰富的特征集有利于实体关系抽取;③ 本文提出的方法优于与本文对比的方法。
10期 李卫疆等:基于多特征自注意力BLSTM的中文实体关系抽取 55
表6中文实体关系抽取任务结果
Models
Feature Sets
FJ%模板匹配[16] (孙等,2017)
SDP
23. 97SVM:16](孙等,2017)Entity order, Entity distance,Entity context66. 29CNN1[16](孙等,2017)WV,PF
56. 69CNN2:17:(王林玉,2017)WV,PF,keywords,NER77. 50Att-CNN[18] (Wu 等,2018)WV,PF,ET
78. 41
SelfAtt-BLSTM
WV-POS. Parse, Role, PF
81.49
表7英文实体关系抽取任务结果
Models
Feature Sets
FJ%SVM1[19]
(Rink and Harabagiu,2010)word pair, words in between
75. 2
POS,prefixes, morphological, WordNet,dependencyparse,Levin classed, Pro- SVM2[19]
Bank ,FrameN(Rink and Harabagiu,2010)et,NomLex-Plus,Googlen-gram,paraphrases,82. 19
TextRunner
RNNC1]
WV
74.8
(Socher et al.,2012)+ POS+ NER + WordNet77. 6CNN1[2]
(Zeng et al. , 2014)WV,PF,WordNet82. 7BRNN[11J
(Zhang et al.,2015)WV,Position Indicators
82. 5SDP-BLSTM[20] WV,syntactic pars
82. 4(Yan et al.,2015)+ POS+ WordNet + grammarrelation embeddings83. 7CNN2[17] (Wang,2017)WV,PF, keywords, NER77. 5Att-RCNN[21]
(Zhang et al. ,2018)WV,PI.POS83. 7Hybrid BiLSTM-Siamese[22] (Cui et al. ,2019)WV,PF
81.8
SelfAtt-BLSTM
WV,POS,Parse,PF
83.9
BLSTM
对比,证明了自注意力的有效性。本文重
4 总结和未来工作
点是加人了语义角色特征和自注意力,实验证明该 特征效果不错,且自注意力的特点在于无视词之间 本文提出了一个基于自注意力双向长短期记忆
的距离直接计算依赖关系,能够学习一个句子的内 网络(Self Att-BLSTM)模型,加入词汇、句法、语义 部结构,自注意力最终被证实了可以提高模型性能。 和位置4大特征,对词和特征的组合使用自注意力 实验结果表明,本文方法在中、英文数据集上均表现 来学习序列和特征的内部信息。本文对比了各个特 出较好的性能。
征,依存句法特征和语义角色特征表现比较好,词性
未来的工作可以从以下两个方面展开:特征表现最差。把本文模型SeKAtt-BLSTM和
(1)除了词性、依存句法和语义角色特征之外.
56
中文信息学报2019 年
还有实体类别和语法关系等特征本文未考虑到.将 来可以尝试寻找更多未使用过的关键特征。
(2)本文采用自注意力和BLSTM
结合的方法 进行实体关系抽取,未来可以尝试与C
NN
、R
NN
和
FNN
相结合。
参考文献
[1 ] Socher R, Huval B, Manning C D, et al. Semantic
compositionality
through
recursive
matrix-vector
spaces[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012. Association for Computational Linguistics, 2012 :
1201-1211.
[2] Zeng D» Liu K. Lai S» et al. Relation classification via
convolutional deep neural network[C]//Proceedings of COLING, 2014: 2335-2344.
[3] Zhang S,Zheng D,Hu X,et al. Bidirectional long short
term memory networks for relation classification [ C ]// Proceedings of the 29th Pacific Asia Conference on Language. Information and Computation,2015: 73-78.[4]
Zhou P,Shi W, Tian J,et al. Attention-based bidirectional long short-term memory networks for relation classification [ C ]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, 2016: 207-212.
[5] Vaswani A, Shazeer N, Parmar N, et al. Attention is
all you need[C]//Proceeding.s of Advances in Neural Information Processing Systems, 2017: 5998-6008.[6] Kambhatla N. Combining lexical, syntactic? and se
mantic features with maximum entropy models for extracting relations [C]//Proceedings of the ACL 2004 on Interactive Poster and Demonstration Sessions. Association for Computational Linguistics, 2004: 22.[7] Miller S» Fox H, Ramshaw L, et al. A novel use of
statistical parsing to extract information from text [C]//Proceedings of the 1st Meeting of the North A- merican Chapter of the Association for Computational Linguistics, 2000.
[8] Zhao S,Grishman R. Extracting relations with inte
grated information using kernel methods 匸C]//Proceed- ings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2005: 419-426.[9]
Plank B, Moschitti A. Embedding semantic similarity in tree kernels for domain adaptation of relation extrac- tion[C]//Proceedings of the 51st Annual Meeting ofthe Association for Computational Linguistics, 2013 : 1498-1507.
[10] Santors C N D, Bing X,Zhou B. Classifying rela
tions by ranking with convolutional neural networks[C] //Proceedings of the 53rd Annual Meeting of the ACL, 2015,86(86): 132-137.
[11]
Zhang D, Wang D. Relation classification via recurrent neural network[J]. arXiv preprint arXiv: 1508. 01006, 2015.
[12]
胡新辰.基于LSTM的
语义关系分类研究
[D].哈
尔
滨
:哈
尔
滨
工
业
大
学
硕
士
学
位
论
文
,
2015.
[13] Lin Y,Shen S,Liu Z,et al. Neural relation extrac
tion with selective attention over instances[C]//Pr〇- ceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2016: 2124-2133.
[14] 王
红,史金钊丨,张志
伟
.基于注意力机制
的
LSTM的
语
义
关
系
抽
取
[J].计算机应用研究,2018, 35(5):
1417-1420.
[15]
Mikolov T,Sutskever I,Chen K,et al. Distributed representations of words and phrases and their com- positionality[C]//Proceedings of Advances in Neural Information Processing Systems, 2013 : 3111-3119.
[16] 孙
建
东
,顾
秀
森
,李
彦
.
基
于
COAE2016数
据集的中
文实体关系抽取算法研究
[J].山
东
大
学
学
报(理学
版
),2017, 52(9): 7-12.
[17]
王
林
玉.
基于深度卷积神经网络的实体关
系
抽
取
[D] .太原:太
原理工
大
学
硕
士
学
位
论
文
,
2017.
[18] Wu W, Chen Y, Xu J , et al. Attention-Based Convo
lutional Neural Networks for Chinese Relation Extraction [C]//Proceedings of Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data, Springer, 2018, 147-158.
[19] Rink B, Harabagiu S. Utd: Classifying semantic re
lations by combining lexical and semantic resources [C]//Proceedings of the 5th International Workshop on Semantic Evaluation, 2010. Association for Computational Linguistics, 2010: 256-259.
[20] Yan X,Mou L, Li G,et al. Classifying relations via
long short term memory networks along shortevSt dependency path[J]. arXiv preprint arXiv: 1508. 03720. 2015.
[21] Zhang X, Chen F, Huang R. A combination of RNN and CNN for attention-based relation classification [J]. Procedia Computer Science,2018, 131: 911-917.
[22] Cui Z, Pan L, Liu S. Hybrid BiLSTM-Siamese net
work for relation extraction[C]//Proceedings of the 18th International Conference on Autonomous Agents and MultiAgent Systems. International Foundation for Autonomous Agents and Multiagent Systems, 2019: 1907-1909.
(下转第72页)
72
中文信息学报
2019 年
宋睿(1993—),硕士研究生,主要研究领域为关 系抽取、文本匹配。
陈鑫( 1993 —),硕士研究生,主要研究领域为自 动问答、文本匹配。
E-mail : cnsr27@gmail. com
E-mail :chenxinkuaile@gmail. com
洪宇(1978 —),通信作者.教授,研究生导师,主 要研究领域为话题检测、信息抽取、信息检索。
E-mail : tianxianer@gmail. com
(上接第56页)
李卫疆( 1969—),博士,副教授•硕士生导师,主 要研究领域为信息检索、自然语言处理。
李涛( 1993—),硕士研究生,主要研究领域为自 然语言处理、实体关系抽取。
E-mail: hrbrichard@126.comE-mail: 754563116@qq.com
1
漆芳(1994 一),硕士研究生,主要研究领域为自 然语言处理、情感分析。
E-mail: 363869360@qq.com
因篇幅问题不能全部显示,请点此查看更多更全内容