您的当前位置:首页语音通信中信号的清浊音判别

语音通信中信号的清浊音判别

2024-09-05 来源:乌哈旅游


语音通信中信号的清浊音判别

城南学院 255410402班 谭丽

指导老师:胡双红

摘要:本设计采用了一种基于三参数组合的方法对语音信号进行了清/浊音判决。在传统两参数(短时能

量和过零率)算法基础上增加了自相关函数作为判决参数,减少了清/浊音信号误判率。经计算机仿真表明,算法切实可行,且算法误判概率小。

关键词:清/浊音判决;短时过零率;短时能量;短时自相关函数

在语音信号处理中,有声段的清/浊音判决是语音信号预处理的一个重要环节,其判决的复杂和准确度对后续的语音处理有很大影响。能否准确地对语音信号进行清/浊音判决,决定着后续工作能否顺利进行。基因周期的检测、语音的合成效果很大程度上都取决于清、浊音的判断正确与否[1]。

1 三参数组合判决算法

由于单一参数值的动态范围在各分类之间通常会发生叠接,只用一种特征作为话音信号的清/浊音判决依据,容易发生错判。所以要取得高识别率,需要采用参数组合。传统的参量组合是用两参数组合判决,该算法比单一参数算法具有较高的识别率,使误判率降低。但清、浊音特征概率分布重叠区域有时较大,故有时会发生误判。基于此缺点,本文借鉴G.729B标准的做法,采取了一种基于三参数(能量、过零率、归一化自相关函数值)组合的语音信号清/浊音判决算法[2]。 1.1 短时能量

语音信号能量随时间有相当大的变化,特别是清音段的能量一般比浊音段的小得多。所以语音信号的能量是判决清/浊音的一个重要参数。计算能量E0的公式如下[3]:

n E0m[x(m)w(nm)]2mnN12[x(m)w(nm)] (1) 其中x(n)是语音信号,w(n)是矩形窗函数,N为窗长。在纯净语音环境下,采样率为8kHz,

帧长为30ms(每帧包含240个样点)时经大量统计发现浊音的帧能量大于某固定值,而清音的帧能量则低于此数。 1.2 短时过零率

语音的过零率Z0是表征一帧语音中语音信号波形穿过横轴(零电平)的次数。它可以用相邻两个取样改变符号的次数来计算,其公式如下[3]:

Z0msgnx(m)sgnx(m1)w(nm)sgnx(n)sgnx(n1)*w(n) (2)

sgn•是符号函数。清音的过零率较高,浊音的过零率较低。

1.3 短时自相关函数

语音的短时自相关函数Rn(k)对于清/浊音判决来说也是一个重要参数[3],计算公式如下:

1

Rnkmxnwnmxnkwnmk (3)

对于浊音来说,其自相关函数的短时能量变化较高,而清音的自相关函数的短时能量变化较低。由这一特性可以通过计算语音的自相关函数短时能量变化Em判别语音的清/浊音。 1.4 算法原理

1) 将语音信号s(n)进行预处理,包括滤波、分帧、加窗、预加重[4]。得到预处理后的信号sw(n)。 2) 按式(1)和(2)计算出每帧的能量E0和过零率Z0,计算两参数组合的零能比EZR= E0/ Z0及零能积EZM= E0.* Z0。判断零能比与零能积的值,若EZR>T1则可将该帧视为清音。但在条件EZM3) 若EZR不满足2)中的条件,进行第二级判断。首先对输入的语音信号与1)作相同的处理(但不进行预加重),再对所得每帧信号作补长处理,将其240点数据延至300点。从而计算出自相关函数,最后求出自相关函数的短时能量变化Em[4-5]。 4) 若Em>T3则为浊音,否则若与EZM其中域值T1、T2、T3是经过大量实验统计而得到的。 1.5 流程图

本算法中T1、T2、T3分别取为2、90、0.28。其计算流程图如图1所示:

N 浊音 无声 图1计算流程图

清音 Y 开始 录制音频信号s(t) 对信号s(t):滤波、分帧、加窗和预加重 计算EZR、EZM和 自相关函数的短时能量变化(Em) Y EZR>T1 N Em>T3 N N EZM2 实验结果

为了在图中很清楚的看得出清/浊音的判别结果,故将信号中清音置为-1,浊音置为+1,如图2所示。

图 2 “我想喝水”清/浊音判决结果

由图2可知语音信号“我想喝水”:‘我’是浊音(40~65帧);‘想’既有清音也有浊音(66~105帧);‘喝’也既有清音也有浊音(110~135帧);‘水’也既有清音也有浊音(136~180帧);其中‘想’和‘喝’存在一个说话的停顿,所以‘想’和‘喝’之间存在无声,大概有5帧。

经MATLAB仿真,说明了该算法的可行性与正确性。

3 与传统算法的对比

传统算法即两参数判决的算法是将“短时能量、短时过零率”这两个参数结合起来判决清/浊音的,对比图如图3所示。

图 3 两种方法对比

4 结论

算法所用参量短时能量和短时过零率的计算量少,加上自相关函数三参数组合后使得清音/浊音完全区别开来。实验结果表明算法切实可行,且算法误判概率小。

3

参考文献:

[1] 郭英,李雪娇,李宏伟.一种组合参数的语音信号清/浊音判决方法[J].空军工程大学学报(自然科学版),

2002,3(4):18-20.

[2] ITU-T G-Series Recommendation G.729B.8kb/s Conjugate Structure Algebric-Code-Excited Linear-Prediction

(CS-ACELP)[S]:312-322 .

[3] 吴宗济,林茂灿.实验语音学概要[M] .北京:高等教育出版社,1989.

[4] [美]L R拉宾纳,RW谢费著,朱雪龙译.语音信号数字处理[M] .北京:科学出版社,1983-12. [5] 于俊凤,曹俊兴.基于组合参数的清浊音判决方法[J] .太原理工大学学报,2004,35(4):467-469. [6] L.R.Rabiner and R.W. Schafer. Digital Processing of Speech Signals[M]. Prentice-Hall Inc., 1978.

THE VOICED/UNVOICED DECISION IN

SPEECH COMMUNICATION

Tan Li

Abstract: The design adopts a three parameters pair , which decisions the voiced/unvoiced in speech signal. It is

based on the traditional two parameters pair of voiced/unvoiced decision. The result of simulations on computer shows that this method is more efficient, and the result is more accuracy.

Key words: voiced/unvoiced decision; short-time zero-crossing rate; short-time energy;

short-time autocorrelation

4

因篇幅问题不能全部显示,请点此查看更多更全内容