您的当前位置:首页语言发音模型研究综述

语言发音模型研究综述

2024-01-21 来源:乌哈旅游
ComputerEngineeringandApplications计算机工程与应用2018,54(12)27

语言发音模型研究综述

张金光

ZHANGJinguang

北京大学中国语言文学系,北京100871

DepartmentofChineseLanguageandLiterature,PekingUniversity,Beijing100871,China

ZHANGJinguang.Overviewofspeechproductionmodels.ComputerEngineeringandApplications,2018,54(12):27-34.

Abstract:Thispaperstudiesallkindsofspeechproductionmodelsincludingspeechsoundmodelsandspeechgesturemodels.Speechsoundmodelsdealwithacoustictheoryofspeechproductionandreconstructspeechwaveformbyaudiosignalprocessingtechniques.Owingtodifferentunderstandingoftherelationshipbetweensourceandresonator,anddifferentmethodofresonationanalysis,thereexistthreedifferentspeechsoundmodels:Spectrumanalysismodel,formantmodelandarticulatorymodel.Speechgesturemodelsfocusonthephysiologicalprocessofspeechproduction,andrebuildspeechorgangesturesbyvisualsignalprocessingtechniques.Accordingtodifferentmethodofmodeling,therearethreespeechgesturemodels:Physiologicalmechanismmodel,geometricalfeaturemodelandstatisticalparametermodel.Keywords:speechproduction;articulatorygesture;spectrum;vocaltract摘

要:对各种语言发音模型进行了综述,分别讨论了言语声音模型和言语动作模型。言语声音模型研究语言发音

的声学原理,利用声音信号处理技术重构语音信号波形,由于对声源和共鸣之间的关系的认识不同,以及对共鸣的分析方法的不同,产生了3种不同的语言发音模型,第一种是频谱分析模型,第二种是共振峰模型,第三种是生理发音模型。言语动作模型研究发音器官的运动过程,利用图像信号处理技术重构发音器官的发音动作,根据建模方法的不同,言语动作模型可以分为3类:生理机能模型、几何特征模型、统计参数模型。关键词:语言发音;发音动作;频谱;声道文献标志码:A

中图分类号:TP391

doi:10.3778/j.issn.1002-8331.1804-0096

1引言

市内刻木作僧,手执一椀,自能行乞,椀中钱满,关键忽传统观点认为语音是离散的线性的序列,是由最小

发,自然作声云“布施”,市人竞观,欲其作声,施者日盈语音单位(音素或音段)按照时间顺序排列组合而成数千矣。在外国,18世纪80年代匈牙利人Wolfgang的。然而发音音系学(ArticulatoryPhonology)却认为vonKempelen发明了一个讲话机,用风箱模仿肺,用笛言语信号是连续的非线性的语音聚合群,是由交叉重叠子模仿声带,用管子模仿口腔,不仅能产生一些元音和的发音器官姿势(音姿)协同变化产生的[1]。

辅音,而且能发出完整的词和短语[2]。第一个基于电子到底语音是如何产生的?能不能建立模型,模拟语技术的广为人知的语言发音模型是1939年在纽约世界音的产生过程?研究者们做过哪些尝试?成功和失败的博览会上展出的Voder,这个模型用脉冲发生器作为浊原因是什么?本文尝试梳理各种有较大影响的语言发音音声源,用噪声发生器作为清音声源,用滤波器产生共模型的文献资料,概括已有的研究成果,探索这些问题鸣效果。

的答案。

语言发音模型的理论基础是言语产生的声学理很早以前,人们就对语言发音的原理产生了浓厚的论。根据Stevens的观点,声门把气流通道分成了上下兴趣,并尝试利用机械手段模拟语言发音过程。在中两部分,对于大多数语音的产生过程而言,声门以下的国,唐朝小说家张鷟所著的《朝野佥载》卷六,有木和尚系统提供了气流能量,喉部和声门以上的结构对气流进说话化缘的记载:将作大匠杨务廉,甚有巧思,常于沁州

行调制,产生可以听到的声音[3]。经过对语音进行深入

作者简介:张金光(1973—),男,博士生,主要研究方向:实验语音学、视听言语合成,E-mail:zhjg@pku.edu.cn。

收稿日期:2018-04-10

修回日期:2018-05-22

文章编号:1002-8331(2018)12-0027-08

282018,54(12)ComputerEngineeringandApplications计算机工程与应用

研究,学者们普遍认为:(1)由声带震动产生周期信号,3.1频谱分析模型

通过声道共鸣,形成浊音;(2)由气流爆破或者摩擦产生所有基于频谱分析的语言发音模型的根本特征都

非周期噪声,形成清音;(3)清音和浊音经过唇、鼻辐射,在于解卷积。语音信号是声门激励、声道响应和唇鼻辐在空间进行传播,形成语音。根据这种理论,只要掌握射的卷积。通过解卷积,把声门激励和声道响应分离了声源、共鸣、辐射的声学规律,就可以模拟语音的产生开。ChannelVocoder、LPC分析和倒谱分析是3种解卷过程。

积的方法。

第一种频谱分析模型是ChannelVocoder。Dudley2发音模型分类

的Voder是第一个成功的ChannelVocoder,在分析阶Klatt把语音合成器分成了两类:(1)第一类是生理

段,首先用10个模拟带通滤波器对输入信号进行频率合成器,企图忠实地模拟发音器官的机械运动,以及由分离,然后通过积分电路获得每个频带的幅度包络。在此产生的肺部、咽喉、口腔和鼻腔里的体积速度和声压合成阶段,用振荡器产生基频信号,作为浊音声源,用的分布情况;(2)第二类是共振峰合成器,利用声学描述“s”噪声作为清音声源,通过10个带通滤波器分别进行的简单规则集,构造语音波形[4]。Sondhi和Schroeter把滤波,然后叠加,生成语音信号。因为每个通道只保留语音合成器分成了3类:共振峰合成器、线性预测系数了幅度丢失了相位,所以叫ChannelVocoder,后来增加合成器和生理合成器[5]。

了对相位的处理,叫PhaseVocoder。在同态滤波器的Theobald把可视化语音合成系统分成了3类:生理基础上,Opennheim提出了HomomorphicVocoder[8-9],这合成、基于规则的合成和拼接合成[6]。Birkholz和Jackel种方法利用倒谱算法,对声源和共鸣进行分离,经过用两个标准对声道模型进行了分类,他们认为,一方面,处理之后,再进行合成,产生语音波形,Homomorphic声道模型可以分为二维模型和三维模型,二维模型用发Vocoder是现在很多HMMTTS合成器的基础。

音器官轮廓描述中矢面声道形状,而三维模型却生成真第二种频谱分析模型称为LPC分析,用线性预测编实的声道三维形状;另一方面,声道模型可以分为几何码(LPC)技术,对语音信号的声源和共鸣进行分离。这模型、统计模型和生物机能模型,几何模型基于先验经种技术最初用在图像处理领域,由于声音信号和图像信验描述发音器官的几何形状,统计模型利用统计分析方号有类似的变化规律,才被引入语音信号处理领域。从法建立发音器官形状的变化规则,生物机能模型通常利时域来看,相邻时刻的语音信号有很大的相似性,如果用有限元方法研究发音器官的肌肉动作[7]。

把前一个信号作为当前信号的预测值,通常情况下预测借鉴以上分类方法,本文把语言发音模型分为言语误差很小。假设一帧内的所有样本各自乘以系数ai,声音模型和言语动作模型,针对言语声音模型,重点讨把得到的样本序列的前p个样本之和,作为当前样本的论基于频谱分析原理的Vocoder语码器,基于共振峰原预测值,运用最小二乘法,计算使得残差平方和最小理的Klatt合成器,以及基于生理发音模型的ASY合成的ai系数矩阵,这就是LPC系数,预测误差称为LPC器;针对言语动作模型,将讨论几何特征模型、统计参数残差。如果把一帧LPC系数按照固定比例(比如乘以模型和生理机能模型。

15000)放大幅值,并在前后添加0,构成512个样本,对这组样本做傅里叶变换,就可以得到平滑的频谱包3言语声音模型

络[10],因此,从频域来看,LPC系数体现了频谱包络变化言语声音模型研究语言发音的声学原理,利用声音

规律,代表的是声道响应特征;LPC残差包含的是基频信号处理技术重构语音信号波形。由于对声源和共鸣信息,代表的是声门激励状态。用LPC系数和声门信号之间的关系的认识不同,以及对共鸣的分析方法的不可以重构语音波形。如果声门信号用记录的LPC残差,同,产生了3种不同的语言发音模型,第一种是频谱分合成出来的语音与原始语音几乎没有差别,但是这只是析模型,第二种是共振峰模型;第三种是生理发音模型。

记录和回放而已,LPC处理失去了建立语言发音模型的频谱分析模型把语音信号从时域变到频域,以基频意义。

信号作为声门激励,以频谱包络作为声道响应,经过信第三种频谱分析模型是倒谱分析模型,利用倒谱分号处理之后,重构语音信号波形。共振峰模型利用周期析技术分离声门激励和声道响应。先对语音信号进行信号作为浊音声源,利用噪声信号作为清音声源,利用快速傅里叶变换,把信号从时域变到频域,如果把这个共鸣器(滤波器)在特定频率位置构造极点和零点,模拟频域信号当成时域信号,不难看出这是一个抑制了副半共鸣和反共鸣,声源信号经过滤波产生具有特定共鸣特周期的调幅波,原始信号的基频相当于载波,原始信号征的语音信号。生理发音模型反对声源-滤波的线性模的频谱包络相当于调制信号,对这个信号再进行傅里叶型,认为声源和共鸣之间有耦合,提出直接解声学方程变换(称为inverseFFT),输出信号的低“频”区是原始的方法,尝试建立符合发音生理过程的语言发音模型。

信号的频谱包络,高“频”区是原始信号的基频载波[9-10],

张金光:语言发音模型研究综述2018,54(12)29

此时,声源和共鸣已经分开了,通常在傅里叶逆变换之并联共鸣器组,共鸣效果取决于预先设置的共振频率、前对信号取对数,取对数之后的信号只保留实部,然后带宽和增益,这些特征值以参数的形式传递给程序。根进行傅里叶逆变换,就得到了倒谱。之所以“频”字加引据读入的每帧参数数据,按照公式(3)~(5)计算各个共号,是因为实际上信号已经回到时域了。在基于HMM鸣器的A、B、C系数值,然后,这些A、

B、C系数值分别的语音合成中,经常采用美尔(Mel)倒谱分析模型。所被送入各个共鸣器,根据公式(1)进行计算,产生样本数谓美尔倒谱,是对傅里叶变换的结果经过美尔滤波之据。一般情况下,语音信号在10ms时间内频谱稳定,后,取对数,然后再求倒谱。所谓美尔滤波,是符合人耳因此每帧参数通常持续10ms,如果采样频率设置为生理特征的滤波,在人耳基底膜上,频谱成分是一组一16000Hz,那么每组参数要产生(16000/1000)×10=160组叠加在一起进行感知的,每一组形成一个临界带,频个样本,也就是说,需要循环160次进行共鸣运算。各率越高临界带的带宽越宽,可以设计滤波器组模拟基底个共鸣器的输出信号进行叠加产生的样本就是合成出膜的工作过程,这就是美尔滤波器。之所以取对数有两来的语音波形数据[16]。

个原因,其一,振幅和音强,基频和音高,都不是线性关共振峰发音模型的优点在于语音学意义非常清晰,系,通常呈现对数关系;其二,语音信号可以近似表示为各个语音学特征值可以自由调整,并且可以合成出理论声门激励和声道响应的卷积,二者不是线性关系,无法上存在而现实中没有的语音。其缺点在于合成的语音进行加法运算,但是取对数之后,可以变成线性叠加关不够自然,与真实语音存在无法消除的差别,另外,参数系,这叫同态处理[9]。对语音信号进行预加重,提升高频的准确提取非常困难,参数设置非常复杂,通常需要手成分,然后进行快速傅里叶变换,计算谱线能量,计算通动反复尝试。

过美尔滤波器的能量,取对数,用离散余弦变换(DCT)3.3生理发音模型

求倒谱,这样就得到了MFCC系数[11-12]。

生理发音模型认为传统声源-滤波模型是一种线性

频谱分析模型的共同问题都在于声源信号的有效模型,这种线性模型把声源的发声和声道的调音当成了控制,如果用L-FModel等周期性声门脉冲作为声源信两个独立的系统,在某种程度上,这种假设限制了共振号,合成的语音存在无法消除的金属声,另外,声源和共峰合成器的语音质量。因此,生理发音模型反对频域分鸣无法彻底分离[13]。

离方法,提出了时域模拟思想,尝试建立符合发音生理3.2共振峰模型

过程的语言发音模型。

共振峰模型是在频域上特定位置构造极点和零点,

早在1959年,Flanagan就提到了一种基于生理发音模拟共鸣和反共鸣。共振峰合成器有3种类型,共鸣器原理的声道合成器[17]。1962年,Kelly和Lochbaum提出并联组合的PAT合成器,共鸣器串联组合的OVE合成

了Kelly-Lochbaum声道计算模型[18]。1969年,言语产生器,共鸣器串并联组合的Klatt合成器[2,4,14],Klatt合成器

的生理发音模型基本形成,Flanagan提出了用声门下压的DECTalk版本是最成功的共振峰合成器。

(subglottalpressure)、声带张力(vocal-cordtension)和Klatt合成器的浊音声源可以是自然声源(声带震声道形状(vocal-tractshape)三个生理因素,合成所有语动)的采样信号(语音波形逆滤波),也可以是理想声源音的目标[19]。1960年代到1980年代,Coker、Mermelstein、信号(如L-FModel),Klatt合成器的清音声源是由随机Rubin、Maeda等人加入了生理发音模型研究的行列。数产生的噪声声源。共鸣效果用数字共鸣器(滤波器)生理发音模型的早期语言发音理论框架主要体现在实现。Klatt合成器的数字共鸣器通过输入信号、前一个Maeda和Rubin的研究论文当中。

时刻的输出信号、前两个时刻的输出信号,三者相加来根据Maeda的描述[20-21],生理发音模型包含一个气实现,如公式(1)所示,其中,A、B、C系数由Gold和流恒压源,一个时变声门,两个管子,一个代表口腔,一Rabiner给出的公式来计算,如公式(3)~(5)所示,PI是个代表鼻腔。有两个规则,一个是空间矩形规则,是指常数π,BW是带宽,F是共振频率,

T是每个样本的某个变量在一个空间段内的积分值等价于空间中点的时长[15]。其传递函数如公式(2),根据A、B、C的值,可积分值乘以空间长度,一个是时间梯形规则,是指某个以画出共鸣器的频率响应曲线。

变量在一个时间段内的积分值等价于下限积分值和上y(nT)=Ax(nT)+By(nT-T)+Cy(nT-2T)(1)限积分值的平均值乘以时间长度,通过这两个规则,制T(f)=

A约声波产生和传播的原理,被转换成了离散变量表征的1-Bz-1-Cz-2(2)声学方程。由于频率曲变(frequencywarping),这种离C=-exp(-2PIBWT)

(3)散化处理引起了频谱变形,频率曲变程度取决于采样频B=2exp(-PIBWT)cos(2PIFT)(4)率和空间取样间隔。Maeda以20kHz的采样频率和A=1-B-C

(5)

1cm的空间取样间隔,合成了11个法语元音。尽管频Klatt合成器可以单独用并联共鸣器组,也可以用串

谱的第三共振峰有明显变形,这些元音听起来还是很自

302018,54(12)ComputerEngineeringandApplications计算机工程与应用

然,很清晰。当采样频率等于40kHz的时候,4kHz以Qn+1=Qn+rnαnz-1Pn

下的频谱变形几乎可以忽略。在Maeda的发音模型中,逐段迭代,计算各段声管的阻抗和增益,利用传递函数,没有独立的声带模型,而是把声门面积变化的时间函数就可以得到输出信号声压。

看作声道面积函数的一部分。在Maeda的发音模型中,Kelly-Lochbaum模型经过Liljencrants的发展,在生也没有考虑声道中噪声的产生方式,而是通过平均体积理语音合成领域被广泛应用,称为RTLA(Reflection速度和截面积,估计特定位置噪声信号的大小。

TypeLineAnalog)模型,这个模型的特点是在时域逐根据Rubin的描述[22],ASY生理发音模型的声道传段声管计算声波前后传递的声压和气流,其缺点在于计递函数的计算方法来自于Kelly-Lochbaum模型。利用算过程中声管长度必须固定,无法处理那些引起声管长ASY的言语动作模型,把声道近似等间距(缺省模式度改变的语音序列,如从[u]到[i],从[a]到[u]等[23]。

0.25cm)分段,每一段作为一个均匀声管,中线的长度1987年,Sondhi和Schroeter提出了时域和频域混代表声道的长度,然后根据文献所提供的每段声道的形合的生理发音模型。用非线性声带振荡器模型作为激状,计算声管截面积。根据Kelly-Lochbaum模型,利用励信号,这个信号依赖于声门上压,体现了声道和声源声管截面积计算声道传递函数。用特定波形信号作为的耦合,这是与声源-滤波模型的根本不同之处。用噪声源激励,激励信号输入到声道传递函数,就可以产生声信号作为送气音和擦音声源,信号强度取决于雷诺语音信号波形。

数。利用频域模型分析声道(包括口腔和鼻腔),利用时图1[22]

是声道等效电路。

域方法处理声门。文中提到了生理发音模型的两种计

ZnNASAL+和Maeda用的是第一BRANCHp算声道传递函数的方法,Flanagan-n种方法,利用微分方程对声门和声道进行建模,这种方法需要求解大量线性或非线性方程,计算量太大;第二UgPHARYNGEALORALBRANCHZpZmBRANCHp+种方法是Kelly-Lochbaum模型,这种方法把声道当成数-m(a)浊音和送气音

字传输线,分析声波的前后传播,计算速度较快。然而,-pn+时域和频域混合方法却不同于这两种方法,而是把频域UCONSTRICTIONgANDZpZmFRONT声道信号通过傅里叶逆变换转变到时域,然后和时域声BACKCAVITYCAVITYp+-

m门信号进行数字卷积。这个发音模型把声道分成了4个(b)擦音区域:

KG从声门到软腭,KN从软腭到鼻孔,KC从软图1

声道等效电路

腭到收紧点,KL从收紧点到双唇,每个区域对应一个图1中的(a)图是浊音和送气音的等效电路模型,包含A、B、C、D函数的频域矩阵。这种方法的优势在经过诺顿等效变换之后,于可以利用发音器官形状码本[5]。

[可以看出其传递函数是:

(pm+pn)/Ug=Gp(Gm+Gn)]/(1/Zm+1/Zn+1/Zp)1988年,出现了一种简化声道计算的有争议的这个公式反映了浊音和送气音的输出声压pm+pn和声DistinctiveRegionsandModes(DRM)理论[24-26]。该理门激励Ug之间的关系。图1中的(b)图是擦音的等效论把声道分成了8个对称的区域,各区域占整个声道长电路模型,其传递函数是:

度的比例分别为:1/10,1/15,2/15,2/10,2/10,2/15,1/15,pm/ps=[Zm/(Zm+Zp)]Gm

1/10。在每个区域中,对应于声道截面积的增大(或减这个公式反映了擦音的输出声压p小),共振峰F1、F2、F3增大(或减小),并且与敏感函数

m和擦音声源的声压之间的关系。根据前面两个公式,只要计算出相应的阻成比例,所谓敏感函数是指均匀声管中声波的动能减去抗Z和增益G,就可以根据声源信号波形,计算输出信势能,其原理如图2[26]所示。

号声压。每段声管n的阻抗为:

尽管DRM有争议,生理语音合成器的商业化软件ZGNUSpeech的声道模型却基于DRM。HILL等人运用n=(40/An+1)(Qn+1+Pn+1)/(Qn+1-Pn+1)这是声道截面积A的函数,增益为:

声管共鸣原理和DRM理论设计了一个生理发音模型,G1/2-1/2

并用于GNUSpeech。这个模型把口腔和咽腔分成10段n=α

n

z

(1+rn)(Qn+Pn)/(Qn+1+Pn+1)等长均匀声管,中间的第4和第5段连在一起对应于其中,α

1/2

=1-0.007/A是传输损耗

DRM的第4区,第6和第7段连在一起对应于DRM的rn=(An+1-An)/(An+1+An)第5区,鼻腔分成6段[27]。这个模型利用声管共鸣模型

也是声道截面积A的函数。根据声源阻抗和辐射阻TRM(TubeResonanceModel)[28]和特异区域模式DRM,

抗,利用如下公式:

并借助双向延迟线,分析声音在声道中的传播过程,实Pn+1=rnQn+αnz-1Pn

现了声道形状和波形输出的精确控制。

张金光:语言发音模型研究综述

2018,54(12)31

elub缩模式到唇轮廓形变过程的线性映射建立模型,用多元

itspharynxnnoenoivig线性回归分析,估计唇轮廓上7个点的x、

y坐标。肌电tntoenrrigrrlaaoiageoepgperrer信号分析表明存在唇型的肌肉群组选择模式,闭唇是中glahnrrrleratolydewpaaeairillvbaompeal性唇形,唇轮匝肌OOI和降下唇肌DLI的共同收缩产生lluvpaal3

1了圆唇的各种形变,OOI有两层,分别是边缘层(marginalFormant2Sensitivity

2layer)和周围层(peripherallayer),在突唇动作中,OOI1

3

的周围层活动增强[32]。

FDang等人建立了一个三维生理发音模型(如图3[33]),3F包括下颌、舌头、双唇、牙齿、硬腭、软腭、咽腔壁、喉等器F21

官。对双唇和软腭没有进行生理建模,而是用一个可变

A

ˉB

ˉC

ˉD

ˉD

C

B

A

长度和截面的短管代表双唇,用鼻腔和咽腔接口面积大1/101/152/151/5

1/5

2/151/151/10

小表示软腭的运动。用粘弹圆柱代替弹簧振子对舌头1/6

2/6

L

2/6

1/6

进行建模,用基于分布的有限元方法提高建模的准确性。研究表明发音器官的空间位置和肌肉拉力存在唯一不变映射关系,主动肌和拮抗肌的协同收缩,可以控

glottislips

图2DRM模型

制舌尖和舌背到达各自的目标位置[33-34]。

Velum

4言语动作模型

Hardpalate

言语动作模型研究发音的生理过程,利用图像信号

处理技术重构发音器官的发音动作。言语动作模型主Lips

要研究主动发音器官的动作,如双唇、下颌、舌头、软腭、声带等。舌头、软腭和声带通常无法直接观察,需要借助X光成像、磁共振成像、超声、腭位照相、动态腭位记录、光纤维喉镜等技术,捕捉它们的运动过程。

Jaw

Larynx

根据建模方法的不同,言语动作模型可以分为3类:Piriformfossa

生理机能模型、几何特征模型、统计参数模型。

图3Dang的声道模型

4.1生理机能模型

Wu等人采用计算机仿真的方法对言语产生过程中生理机能模型利用生理结构分析的方法,研究发音

控制发音器官运动的肌肉协同工作方式进行了探索,用器官的组织结构形式和肌肉运动过程,通常运用3D建有限元方法(FiniteElementMethod),建立了一个可以模技术,构造三维动态模型。

模仿人类发音器官动作的生理模型,该模型包括舌头、最早建立生理机能模型的是Perkell。在博士论文下颌骨、舌骨、声道壁等发音器官,以及控制发音器官运中,他描述了一个舌头动态生理调音模型,这是一个中动的肌肉组织,此外,他们还建立了一套模型的自动控矢面二维功能性模型,输入和输出都是可以测量的生制方法,使模型可以用于探索人类言语产生的生理机理变量,这个模型包括16个相互连接的承载质量的制。自动地找到一组肌肉激活模式,并控制模型达到目fleshpoints模型,这些fleshpoints通过38个主动拉力元标位置,这是设计的难点,Wu等人已经研究出一套自动素,47个被动拉力元素,连接到骨质成分上。张力、体控制的方法,可以对模型进行有效控制[35]。

积守恒力、滑动摩擦力和硬结构抗穿透力作用到Steiner等人运用多重线性形状空间模型,开发了一fleshpoints模型上,决定它们的运动方式[29]。

个端到端的系统,在这个系统中,发音人参数决定了舌Wilhelms-Tricarico利用有限元方法建立了三维生头的解剖特征,姿势参数代表了发音动作相关的形状特理发音模型。他在1995年的论文中提到:用有限元方征,解剖特征和形状特征映射到多边形网格,形成三维法,建立双唇、舌头等软组织在言语产生中的生物力学舌头结构。该系统首先应用传统HTS(隐马语音合成)模型,通过求解拉格朗日运动方程的方法,计算这些软方法融合语音和动作两个模态,然后把两个模态分离,组织的位移和形变,他预期中的生理发音模型包括6个调整多重线性舌头模型,使其适应TTS过程,从而直接部分:下颌、舌体、舌叶、双唇、软腭咽腔接口、咽腔,但是从文本合成出语音和三维舌头发音动作[36]。

最终只用8条肌肉建立了一个舌头模型[30-31]。

生理机能模型模拟了发音器官的肌肉活动方式,但Honda等构造了一个双唇发音模型通过唇肌肉收

是由于模型的生理解剖参数难以获得,并且控制方式过

322018,54(12)ComputerEngineeringandApplications计算机工程与应用

于复杂,这种模型产生的发音动作准确度并不高。

F

4.2几何特征模型

θj

MθTERMINATIONt

PLANE几何特征模型不注重发音器官内在的生理组织结

θc

V构,而是更关注发音器官外在的形状轮廓,以及这些形1

NRVB′SjU

L′状轮廓之间的变化关系,尝试用简约的线条描述发音器VB2

SStTc

0.55π′CθLj

官的运动方式。

h1

DDPp1

1971年,Lindblom等建立了一个几何特征模型,通Sp

P过指令控制发音器官动作产生元音,这个模型包括5个发音器官:双唇、下颌、舌尖、舌体和咽喉,在这个模型H中,下颌是区分不同元音的主要因素,语音动作通过发G

音省力原则进行优化,语音音质运用最大感知对立算法K

进行优化

[29,37]

图5Mermelstein的声道模型

Coker建立的调音模型包括4部分:(1)接近真实发音的调音系统;(2)发音状态之间插值的器官动作约束由度,其他器官的运动都有两个自由度。软腭的运动既系统;(3)声源激励系统,包括:声门下压、声带夹角、声可以改变口腔声道的形状,也可以影响鼻咽耦合的程带张力3个子成分;(4)发音指令转化为发音动作的控度。通过拼接准静态声道冲激响应的方式合成语音,元制系统。这个模型的发音器官动作方式如图4[38]所示。

音依赖于下颌、舌体、双唇、软腭的位置,辅音取决于发音器官状态变化,这种变化是由底层元音为了满足发音

N

R

位置约束而引起的,ASY用一段圆弧代表舌体轮廓[22,40]

B

KY

W

其改进版本是CASY,用一条二次曲线代表舌体轮L

X

廓[41]。Birkholz等人对这个模型进行了改进,尝试在二维中矢面模型基础上,建立三维模型[7]。

几何特征模型的发音器官形状由简单的几何图形构成,并非真实的发音动作,尽管便于调整,但是经常出现超越生理极限的动作。

G

Q4.3

统计参数模型

P统计参数模型通常用主成分分析、线性成分分析、

s

图4

Coker的声道模型

回归分析、多层神经网络等统计方法建立发音器官模型,声道形状和控制参数都依赖于统计结果。

这个模型的舌体轮廓是一段圆弧,用两个坐标控制基于Maeda发音模型的VTDemo,是介于几何特征发元音时舌体的位置,以及下颌转动角度,用一个参数模型和统计参数模型之间的类型,虽然这个模型对声道控制快速运动的辅音发音时舌头的位置,用5个参数控参数进行了因子分析统计建模,但是整个声道形状依然制其他辅音发音时舌头的位置,用两个参数控制舌尖的是几何线条结构。Maeda建立发音动作模型的方法是抬升和卷舌,还有两个参数控制闭唇和圆唇。这个模型用固定的半极坐标网格从声道中选取样本点,然后做因有两种合成语音的算法,一种是用Flanagan-Ishizaka发子分析,得到统计参数,如图6[42]所示。

音模型直接计算声压,一种是用迭代算法通过声道形状[38-39]

TONGUESHAPE

25

计算共振频率,然后驱动共振峰合成器产生语音

20

m5

30

Mermelstein建立了声道调音模型ASY,这个模型c/n4oi和Coker的模型大同小异,Coker的模型强调基于规则s3ne2m15

的合成,而ASY更强调对咽喉以上调音器官的配置,以i1D0

及交互式的系统性控制。这个模型的发音器官动作方51015202530

CoordinateNumber

式如图5[40]所示。

VT10m5EXTERIORWALLSHAPEASY有6个发音器官:舌体、软腭、舌尖、下颌、双c/n4oi唇、舌根骨,这些器官分成了两组,一组能够独立运动,s35ne2包括:下颌、软腭和舌根骨;另一组不能独立运动,包括mi1D0

0

舌体、舌尖和双唇,这3个器官的位置都依赖于下颌,舌51015202530CoordinateNumber

尖的位置依赖于舌体。下颌和软腭的运动只有一个自

图6Maeda模型的声道样本选择方法

张金光:语言发音模型研究综述2018,54(12)33

在Maeda的模型中,舌头选了25个样本点,双唇选仅可以用于发音过程研究,揭示发音规律,促进语音合了4个样本点,咽喉选了5个样本点,经过因子分析之成技术的发展;而且还可以用于语言教学,无论是针对后,舌头有3个因子,双唇有2个因子,咽喉有1个因听障儿童,还是针对二语习得,发音器官动作示范,对于子。另外,下颌选了1个样本点,声道壁选了25个样本学习语言的重要性,已经反复被各种实验所证实。

点,这些点没有做因子分析。这个模型有10个参数,分言语声音模型研究曾经是语音合成技术的必要基别控制下颌高度、舌体位置、舌头形状、舌尖前后、开口础。然而,随着波形拼接语音合成技术的发展,言语声程度、突唇程度、喉头高度、声门面积、基频大小、鼻咽接音模型研究逐渐退出了工程实践领域。近年来,情感语口。Maeda的模型是静态发音模型,在应用过程中,可音合成受到关注,逐渐暴露了波形拼接技术的内在缺以灵活调整参数,然后根据因子分析的结果,用回归方陷,言语声音模型研究再次引起普遍重视,共振峰语音程计算参数调整之后的声道的形状分布,各个样本点的合成和生理语音合成有望突破技术瓶颈,达到情感语音回归算法如下:参数和对应的因子载荷相乘,再累加,然合成的目标。

后再乘以标准差,最后加上样本点的平均值。这个模型言语动作模型研究由于技术条件的限制进展缓的研究结果表明,在代偿发音中,为了得到相同的F1-F慢。近年来,由于核磁共振成像技术飞速发展,拍摄清2模式,发前元音时下颌高度仅能通过舌体位置代偿,

晰的连续的发音器官动作图像,逐渐变得可行,舌头和发后元音时下颌高度仅能通过开口程度代偿

[21,42]

软腭等发音器官的发音动作研究在未来几年将取得重Laprie和Busset用主成分分析法对X-ray和MRI图大突破。

像进行了分析,建立了二维发音模型。对比Maeda模型语音的个性特征,以及情感特征,与声门波形和频而言,这个模型更接近统计参数模型。这个模型和谱包络的关系,及有效控制,是未来研究的重点和难Maeda模型的不同之处在于发音器官形状完全来自于点。统计建模、规则控制和深度学习相结合,是未来发统计参数,Maeda模型只有3个舌头因子,这个模型却有展的趋势。

6个控制舌头的线性成分,能够精确匹配各种元音和辅音的原始X-ray和MRI图像。舌头轮廓取样的参照标准和Maeda模型也不同,不是半极坐标网格,而是曲线参考文献:

坐标。另外,这个模型建立了旋转算法,能够适应不同[1]GoldsteinL,FowlerCA.Articulatoryphonology:Apho-nologyforpubliclanguageuse[C]//SchillerNO,Meyer发音人的声道图像

[43-44]

AS.PhoneticsandPhonologyinLanguageComprehen-Badin等人用主成分分析法[45]

和线性成分分析法[46]

,sionandProduction,2003:159-207.

对X-ray和MRI图像中的声道进行了建模。这个模型[2]吕士楠.汉语语音合成:原理和技术[M].北京:科学出版

的2D版本用3个参数(LH、LP、LV)控制突唇、圆唇、翘社,2012:4-6.

唇等动作;用4个参数(JH、TB、TD、TT)控制下颌位置[3]StevensKN.Acousticphonetics[D].MassachusettsInsti-和舌头形状;喉头高度和唇参数有相关性,可以用一个tuteofTechnology,1998.

参数(LY)控制喉头高度;舌根骨的水平位置和下颌高[4]KlattDH.Softwareforacascade/parallelformant

度有很强的相关性,然而舌根骨的竖直位置和喉头高度synthesizer[J].JournaloftheAcousticalSocietyofAmerica,有更强的相关性,因此用一个参数(TA)就可以控制舌1980,67(3):971-995.

根骨[47]。这个模型还有一个3D版本,是先前2D中矢面[5]SondhiMM,SchroeterJ.Ahybridtime-frequencydomain

模型的扩展,是同一个发音人的声道模型。利用这些模articulatoryspeechsynthesizer[J].IEEETransactionson型,研究者分析了原始语音的共振峰,2D声道模型计算AcousticsSpeech&SignalProcessing,1987,35(7):955-967.的共振峰,以及3D声道模型计算的共振峰,结果发现三[6]TheobaldB.Audiovisualspeechsynthesis[C]//International

者之间差别很小。优化的2D模型对声道面积函数的计CongressonPhoneticSciences,2007:285-290.

算相当准确。另外,研究者发现用2D中矢面生理发音[7]BirkholzP,JackelD,KrogerBJ.Constructionandcontrol

模型的命令参数可以驱动3D生理发音模型[45]。

ofathree-dimensionalvocaltractmodel[C]//Proceed-统计参数模型针对真实的发音器官动作进行建模,ingsoftheInternationalConferenceonAcoustics,Speech,符合发音器官的运动规律,但是建模样本特征点的自动andSignalProcessing,Toulouse,2006:873-876.

[8]OppenheimAV,SchaferRW.Homomorphicanalysisof

提取技术很复杂,通常需要手工测量,限制了样本的数speech[J].IEEETransactionsonAudio&Electroacoustics,量,另外发音器官动作通常无法灵活调整。

1968,16(2):221-226.

[9]OppenheimAV.Speechanalysis-synthesissystembased

5结束语

onhomomorphicfiltering[J].JournaloftheAcoustical语言发音模型研究非常重要,因为语言发音模型不

SocietyofAmerica,1969,45(2):458.

342018,54(12)ComputerEngineeringandApplications计算机工程与应用

[10]ColemanJ.Introducingspeechandlanguageprocessing[M].

[27]HillDR,TaubeschockCR,ManzaraL.Low-levelartic-Cambridge:CambridgeUniversityPress,2005:79-83.ulatorysynthesis:Aworkingtext-to-speechsolution[11]PolsLCW.SpectralanalysisandidentificationofDutch

andalinguistictool[J].CanadianJournalofLinguistics,vowelsinmonosyllabicwords[D].AmsterdamTheNeth-2017,62(3):1-40.

erlands:FreeUniversity,1977.

[28]ManzaraLC.Thetuberesonancemodelspeechsynthe-[12]ZhengFang.Comparisonofdifferentimplementationsof

sizer[J].JournaloftheAcousticalSocietyofAmerica,MFCC[J].JournalofComputerScienceandTechnology,2009,117(4):2541.

2001,16(6):582-589.

[29]PerkellJS.Aphysiologically-orientedmodeloftongue

[13]TaylorP.Text-to-speechsynthesis[M].Cambridge:Cam-activityinspeechproduction[D].Massachusetts:Massa-bridgeUniversityPress,2009:408-409.

chusettsInstituteofTechnology,1974.

[14]KlattDH,KlattLC.Analysis,synthesis,andpercep-[30]Wilhelms-TricaricoR.Physiologicalmodelingofspeech

tionofvoicequalityvariationsamongfemaleandmaleproduction:Methodsformodelingsofttissuearticula-talkers[J].JournaloftheAcousticalSocietyofAmerica,tors[J].JournaloftheAcousticalSocietyofAmerica,1990,87(2):820-857.

1995,97(1):3085-3098.

[15]GoldB,RabinerLR.Analysisofdigitalandanalog

[31]GerardJM,Wilhelms-TricaricoR,PerrierP,etal.A

formantsynthesizers[J].IEEETransactionsonAudio&3DdynamicalbiomechanicaltonguemodeltostudyElectroacoustics,1968,16(8):81-94.

speechmotorcontrol[J].Physics,2006,1:49-64.

[16]张金光.视听言语合成技术综述[J].电声技术,2017,41

(z2):103-107.

[32]HondaK,KuritaT,KakitaY,etal.Physiologyofthe

[17]FlanaganJL.Estimatesofintraglottalpressureduring

lipsandmodelingoflipgestures[J].JournalofPhonetics,phonation[J].JournalofSpeech&HearingResearch,1995,23(1):243-254.

1959,2(2):168-172.

[33]FangQ,DangJ.Speechsynthesisbasedonaphysiolog-[18]KellyJL,LochbaumC.Speechsynthesis[C]//Proceed-icalarticulatorymodel[C]//ChineseSpokenLanguageingsoftheStockholmSpeechCommunications,Stock-Processing.BerlinHeidelberg:Springer,2006:211-222.holm,1962:1-4.

[34]DangJ,HondaK.Constructionandcontrolofaphysio-[19]FlanaganJL,CherryL.Excitationofvocal-tractsynthe-logicalarticulatorymodel[J].JournaloftheAcousticalsizers[J].JournaloftheAcousticalSocietyofAmerica,SocietyofAmerica,2004,115(2):853-870.

1969,45(3):764-769.

[35]WuX,DangJ,StavnessI.Iterativemethodtoestimate

[20]MaedaS.Adigitalsimulationmethodofthevocal-tract

muscleactivationwithaphysiologicalarticulatorysystem[J].SpeechCommunication,1982,1(3):199-229.model[J].TheAcousticSocietyofJapan,2014,35(4):[21]MaedaS.Improvedarticulatorymodels[J].Journalofthe

201-212.

AcousticalSocietyofAmerica,1988,84(S1):146.[36]SteinerI,MaguerSL,HewerA.Synthesisoftongue

[22]RubinP,BaerT,MermelsteinP.Anarticulatorysynthe-motionandacousticsfromtextusingamultimodalsizerforperceptualresearch[J].JournaloftheAcousticalarticulatorydatabase[J].IEEE/ACMTransactionsonAudioSocietyofAmerica,1981,70(2):321-328.

Speech&LanguageProcessing,2016,25(12).

[23]KrogerBJ,BirkholzP.Articulatorysynthesisofspeech

[37]LindblomBE,SundbergJE.Acousticalconsequences

andsinging:stateoftheartandsuggestionsforfutureoflip,tongue,jaw,andlarynxmovement[J].Journalofresearch[C]//MultimodalSignals:CognitiveandAlgorith-theAcousticalSocietyofAmerica,1971,50(4):1166.micIssues,2009:306-319.

[38]CokerCH.Amodelofarticulatorydynamicsandcon-[24]MrayatiM,CarreR,GuerinB.Distinctiveregionsand

trol[J].ProceedingsoftheIEEE,1976,64(4):452-460.modes:Anewtheoryofspeechproduction[J].Speech[39]CokerCH,FujimuraO.ModelforSpecificationofthe

Communication,1988,7(3):257-286.

VocalTractAreaFunction[J].JournaloftheAcoustical[25]MrayatiM,CarreR,GuerinB.Distinctiveregionsand

SocietyofAmerica,1966,40(5):63-75.

modes:Articulatory-acoustic-phoneticaspects:Areply[40]MermelsteinP.Articulatorymodelforthestudyofspeech

toBoe¨andPerrier’scomments[J].SpeechCommunica-production[J].JournaloftheAcousticalSocietyofAmerica,tion,1990,9(3):231-238.

1973,53(4):1070-1082.

[26]BoeLJ,PerrierP.Commentson“distinctiveregionsand

[41]IskarousK,GoldsteinLM,WhalenDH,etal.CASY:

modes:Anewtheoryofspeechproduction”byMThehaskinsconfigurablearticulatorysynthesizer[C]//Mrayati,RCarreandBGuerin[J].SpeechCommunica-15thICPhSBarcelona,2003.

tion,1990,9(3):217-230.

(下转159页)

李熙莹,吕硕,江倩殷,等:基于EdgeBoxes的大型车辆车标检测与识别2018,54(12)159

参考文献:

Mechanics&Materials,2012(263/266):2418-2421.[1]XiaY,FengJ,ZhangB.Vehiclelogorecognitionandattri-[12]李玲,李文举.基于车徽背景纹理识别的车徽定位新方法[J].

butespredictionbymulti-tasklearningwithCNN[C]//辽宁师范大学学报:自然科版,2009,32(2):171-173.InternationalConferenceonNaturalComputation&[13]杨文文,杨国为,张鲁波,等.基于Laws模板滤波的车标

FuzzySystems&KnowledgeDiscovery,2016.

定位算法[J].青岛大学学报:工程技术版,2012,27(3):[2]TafazzoliF,FriguiH.Vehiclemakeandmodelrecogni-45-50.

tionusinglocalfeaturesandlogodetection[C]//8thInter-[14]刘玉松,陈刚.基于边缘投影的快速车标定位方法[J].信

nationalSymposiumonSignal,Image,VideoandCom-息技术,2015(11):102-104.

munications,AtTunis,Tunisia,2016.

[15]PsyllosAP,AnagnostopoulosCN,KayafasE.Vehicle

[3]XiangZ,ZouY,ZhouX,etal.Robustvehiclelogorecog-logorecognitionusingaSIFT-basedenhancedmatch-nitionbasedonlocallycollaborativerepresentationwithingscheme[J].IEEETransactionsonIntelligentTrans-principalcomponents[C]//SixthInternationalConferenceportationSystems,2010,11(2):322-328.

onInformationScience&Technology,2016.

[16]WangYQ,LiuZF,XiaoF.Afastcoarse-to-finevehi-[4]尹瑞雪.基于数字图像的车辆信息识别的研究与应用[D].

clelogodetectionandrecognitionmethod[C]//Proceed-北京:北京交通大学,2016.

ingsofthe2007IEEEInternationalConferenceon[5]余烨,聂振兴,金强,等.前背景骨架区域随机点对策略驱

RoboticsandBiomimetics,Sanya,China,December15-动下的车标识别方法[J].中国图象图形学报,2016,2118,2007:691-696.

(10):1348-1356.

[17]GuQ,YangJ,CuiG,etal.Multi-scalevehiclelogorec-[6]PsyllosA,AnagnostopoulosCN,KayafasE.Vehiclemodel

ognitionbydirectionaldenseSIFTflowparsing[C]//recognitionfromfrontalviewimagemeasurements[J].IEEEInternationalConferenceonImageProcessing,2016.ComputerStandards&Interfaces,2011,33(2):142-151.[18]YangJianchao,YuKai,GongYihong,etal.Linearspa-[7]HuangY,WuR,SunY,etal.Vehiclelogorecognition

tialpyramidmatchingusingsparsecodingforimagesystembasedonconvolutionalneuralnetworkswithaclassification[C]//ProceedingoftheIEEEComputerSoci-pretrainingstrategy[J].IEEETransactionsonIntelligentetyConferenceonComputerVisionandPatternRec-TransportationSystems,2015,16(4):1-10.

ognition,2009:1794-1801.

[8]ZhangLi,ZhangDongming,ZhengHong.Vehiclelogo

[19]王建.基于图像的智能交通系统中车标识别技术研究[D].

recognitionusingconvolutionalneuralnetworkcom-南京:南京理工大学,2014.

binedwithmultiplelayerfeature[J].JournalofComputer[20]ZitnickCL,DollárP.Edgeboxes:Locatingobjectpro-Applications,2016,36(2):444-448.

posalsfromedges[C]//EuropeanConferenceonCom-[9]杜小毅,于濂.基于联合特征的车标自动识别方法[J].智能

puterVersion,2014:391-405.

交通技术,2012(1):89-92.

[21]DollárP,ZitnickCL.Structuredforestsforfastedge

[10]MaoSongan,YeMao,LiXue,etal.Rapidvehiclelogo

detection[C]//2013IEEEInternationalConferenceonCom-regiondetectionbasedoninformationtheory[J].Com-puterVision,Sydney,Australia,Dec3-5,2013:1841-1848.puters&ElectricalEngineering,2013,39(3):863-872.[22]ChangCC,LinCJ.LIBSVM:Alibraryforsupport

[11]WangShengke,LiuLili,XuXiaowei.Vehiclelogorec-vectormachines[J].ACMTransactionsonIntelligentognitionbasedonlocalfeaturedescriptor[J].Applied

SystemsandTechnology,2011,27(2):1-27.

(上接34页)

InternationalConferenceonSpokenLanguageProcessing,[42]MaedaS.Compensatoryarticulationinspeech:Analysis

IncorporatingtheAustralianInternationalSpeechSci-ofx-raydatawithanarticulatorymodel[C]//EuropeanenceandTechnologyConference,SydneyConventionConferenceonSpeechCommunicationandTechnologyCentre,Sydney,Australia,1998:533-553.

(Eurospeech1989),Paris,France,1989:2441-2445.[46]BadinP,EliseiF,BaillyG,etal.Anaudiovisualtalk-[43]LaprieY,BussetJ.Constructionandevaluationofan

ingheadforaugmentedspeechgeneration:Modelsarticulatorymodelofthevocaltract[C]//EuropeanIEEEandanimationsbasedonarealspeaker’sarticulatorySignalProcessingConference,2011:466-470.

data[J].ArticulatedMotion&DeformableObjects,2008:[44]LaprieY,VaxelaireB,CadotM.Geometricarticulatory

132-143.

[47]BeautempsD,BadinP,BaillyG.Lineardegreesoffree-modeladaptedtotheproductionofconsonants[C]//dominspeechproduction:Analysisofcineradio-andlabio-InternationalSeminaronSpeechProduction,2014.filmdataandarticulatory-acousticmodeling[J].Journal[45]BadinP,BaillyG,RaybaudiM,etal.Athree-dimensional

oftheAcousticalSocietyofAmerica,2001,109(5):lineararticulatorymodelbasedonMRIdata[C]//The

2165-2180.

因篇幅问题不能全部显示,请点此查看更多更全内容