您的当前位置:首页一种语音数据发布的安全脱敏方法[发明专利]

一种语音数据发布的安全脱敏方法[发明专利]

2022-06-13 来源:乌哈旅游
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 110781519 A(43)申请公布日 2020.02.11

(21)申请号 201911051422.0(22)申请日 2019.10.31

(71)申请人 东华大学

地址 201600 上海市松江区人民北路2999

号(72)发明人 赵萍 张颖 陶佳伟 

(74)专利代理机构 上海申汇专利代理有限公司

31001

代理人 徐俊 柏子雵(51)Int.Cl.

G06F 21/62(2013.01)G10L 25/03(2013.01)G10L 25/48(2013.01)

权利要求书1页 说明书4页 附图1页

(54)发明名称

一种语音数据发布的安全脱敏方法

(57)摘要

本发明涉及一种语音数据发布的安全脱敏方法,包括以下步骤:首先利用特征学习来学习每类用户在三个维度上的特征集,同时记录特征集之间的相关性;然后对每个用户的语音数据进行三维脱敏处理,以保护用户的语音数据隐私;最后提出可分解的分析任务概念,并对脱敏后的语音数据进行分布式处理,以保证语音数据的有用性。本发明通过对语音数据的脱敏处理实现保护用户数据隐私和保证数据有用性。

CN 110781519 ACN 110781519 A

权 利 要 求 书

1/1页

1.一种语音数据发布的安全脱敏方法,其特征在于,包括以下步骤:步骤S201:利用特征学习来学习每类用户在三个维度上的特征集,同时记录特征集之间的相关性,包括:

将所有用户分成n组U1,U2,U3,...,Un,将第i组用户相应的语音数据定义为Xi,i=1,2,...,n,将内容,语音和声纹这三个维度分别表示为C、V、P,通过特征学习获得的语音数据Xi在(C,V,P)维度下的特征集,分别定义为Xi,Xi,Xi,其中,通过特征学习搜索特征集包C、V、P,括以下步骤:

在每个维度中,从集合Xi随机选择一个子集合{xi,Xi,V,P))为集合Xi在C、V、k},j(j=(C,P三个维度上的特征集,同时被认为是初始特征集。利用评估函数Gain(·)对初始特征集Xi,并且该函数满足约束条件j进行子集评估,

其中,pr是xi,j,r

在Xi,xi,|Xi,此后,当某个特征xi,j中的比率,j,r是集合Xi,j中的第r个特征;j|是Xi,j的基数,l(l∈(1,2,…,|Xi,就将该特征xi,直到|Xi,j|))带来信息增益时,l迭代地添加到集合Xi,j中,j|个特征被找到。

步骤S202:对每个用户的语音数据进行三维脱敏处理,以保护用户的语音数据隐私;步骤S203:提出可分解的分析任务概念,并对脱敏后的语音数据进行分布式处理,以保证语音数据的有用性,包括:

给出以下定义:如果一个特定的分析任务F满足约束条件:F(Xi)=F(Xi,C)+F(Xi,V)+F(Xi,则该分析任务F是可分解的,式中,F(Xi)是对特定语音P)=FC(Xi,C)+FV(Xi,V)+FP(Xi,P),数据Xi的分析任务,F(Xi,F(Xi,F(Xi,V,P维度下对特定语音数据Xi的分析任C)、V)、P)是在C,务,FC(Xi,FV(Xi,FP(Xi,声音、声纹三个维度上的子任务;C)、V)、P)是分析任务F分别在内容、

从特征集Xi,且特征xi,l∈(1,…,|C中随机选择特征xi,C,l,C,l满足Fc(xi,C,l)=FC(xj,C),Xi,|Xi,Fc(xi,C|),C|是特征集Xi,C中的语音数据的个数,C,1)是特征xi,C,l对子任务Fc的统计值。并从特征集Xi,其满足FC(xi,并从特征集Xi,V中选择特征xi,V,l,V,l)=FC(xj,V),P中选择特征xi,满足FC(xi,结果,用户uj的语音数据被脱敏处理成π语音数据,既实P,l,P,l)=FC(xj,p)。现了用户的隐私保护,又保证了数据的有用性。

2.如权利要求1所述的一种语音数据发布的安全脱敏方法,其特征在于,步骤S202中,进行三维脱敏处理包括以下步骤:

在步骤S201获得的特征集的基础上,在C维中,首先确定关键词,用命名实体识别方法识别出特定用户的语音数据,在C维的特征集中随机选择相应的特征来替换关键词;在V维中,首先从V维的特征集中随机选择一种声音,然后使用所选语音进行目标语音转换;特定用户的语音数据被转换成另一个语音数据,其三维特征是一致的。

3.如权利要求2所述的一种语音数据发布的安全脱敏方法,其特征在于,特定用户的语音数据通过重复进行π次而脱敏处理成π语音数据。

2

CN 110781519 A

说 明 书

一种语音数据发布的安全脱敏方法

1/4页

技术领域

[0001]本发明涉及一种语音数据发布的安全处理方法,属于信息处理领域。

背景技术

[0002]语音数据广泛应用于基于语音的人机交互服务中,比如输入键盘、网络搜索、语音助手和语音认证等。基于语音的人机交互服在2018年创收160亿美元,预计2021年将带来269亿美元的收入。然而,提供基于语音的人机交互服务的公司可能会为了牟利而向第三方(如广告商、非法组织等)出售用户的语音数据,从而导致用户的个人数据隐私泄露。例如,三星和苹果已经承认了他们公司与第三方共享用户的语音数据。因此,研究语音数据发布的安全处理方法是很有必要的。

[0003]语音数据包含了大量关于用户的个人身份信息(PII)。首先,语音数据的内容隐含了很多用户的PII,如教育程度、种族、地理区域、社会地位、个性、电子邮件、密码、生活方式、购物习惯、兴趣爱好等。其次,可以从用户的声音推断出很多的信息量,例如年龄、性别、种族、地理区域(重音)、身高、情绪,甚至健康状况等。最后,用户的声纹可以很容易地从语音数据中学习,而且声纹是人类的一种生物特征,并且被广泛应用于识别技术中。因此,当用户的语音数据被泄露给不可信的公司、广告商、或非法组织等(以下简称攻击者)时,用户容易受到各种各样的攻击。[0004]迄今为止,在保护语音数据发布中的用户隐私方面进展甚微。唯一的工作关注于通过数据清理实现用户隐私保护,同时保留数据的有用性。但是,它对语音数据的内容、语音和声纹分别进行了处理,没有考虑内容、语音和声纹三者之间的相互关联性,导致用户的个人隐私存在被泄露的可能性,同时也无法保证语音数据的有用性。例如,将某个儿童的语音数据“我现在必须上幼儿园”处理为一个老奶奶的声音数据“我要去上班了”。然后将处理后的语音数据发布出去。当根据发布的语音数据来统计儿童的入学率时,该儿童的语音数据的数据有用性就没有了。此外,当该儿童的语音数据与处理后的语音数据一起发布时,攻击者可以过滤掉处理后的语音数据,进而可以识别该儿童的语音数据,因为处理后的语音数据的内容、语音和声纹三者之间没有关联性。结果导致,该儿童的数据隐私被侵犯。发明内容

[0005]本发明要解决的技术问题是:在保护语音数据发布中的用户隐私方面仅对语音数据的内容、语音和声纹分别进行了处理,没有考虑内容、语音和声纹三者之间的相互关联性,导致用户的个人隐私存在被泄露的可能性,同时也无法保证语音数据的有用性。[0006]为了解决上述技术问题,本发明的技术方案是提供了一种语音数据发布的安全脱敏方法,其特征在于,包括以下步骤:[0007]步骤S201:利用特征学习来学习每类用户在三个维度上的特征集,同时记录特征集之间的相关性,包括:

[0008]将所有用户分成n组U1,U2,U3,...,Un,将第i组用户相应的语音数据定义为Xi,i=

3

CN 110781519 A

说 明 书

2/4页

1,2,...,n,将内容,语音和声纹这三个维度分别表示为C、V、P,通过特征学习获得的语音数据Xi在(C,V,P)维度下的特征集,分别定义为Xi,C、Xi,V、Xi,P,其中,通过特征学习搜索特征集包括以下步骤:

[0009]在每个维度中,从集合Xi随机选择一个子集合{xi,k},Xi,j(j=(C,V,P))为集合Xi在C、V、P三个维度上的特征集,同时被认为是初始特征集。利用评估函数Gain(·)对初始特征集Xi,j进行子集评估,并且该函数满足约束条件

其中,pr是

xi,j,r在Xi,j中的比率,xi,j,r是集合Xi,j中的第r个特征;|Xi,j|是Xi,j的基数,此后,当某个特征xi,l(l∈(1,2,…,|Xi,j|))带来信息增益时,就将该特征xi,l迭代地添加到集合Xi,j中,直到|Xi,j|个特征被找到。[0010]步骤S202:对每个用户的语音数据进行三维脱敏处理,以保护用户的语音数据隐私;

[0011]步骤S203:提出可分解的分析任务概念,并对脱敏后的语音数据进行分布式处理,以保证语音数据的有用性,包括:[0012]给出以下定义:如果一个特定的分析任务F满足约束条件:F(Xi)=F(Xi,C)+F(Xi,V)+F(Xi,P)=FC(Xi,C)+FV(Xi,V)+FP(Xi,P),则该分析任务F是可分解的,式中,F(Xi)是对特定语音数据Xi的分析任务,F(Xi,C)、F(Xi,V)、F(Xi,P)是在C,V,P维度下对特定语音数据Xi的分析任务,FC(Xi,C)、FV(Xi,V)、FP(Xi,P)是分析任务F分别在内容、声音、声纹三个维度上的子任务;[0013]从特征集Xi,C中随机选择特征xi,C,l,且特征xi,C,l满足Fc(xi,C,l)=FC(xj,C),l∈(1,…,|Xi,C|),|Xi,C|是特征集Xi,C中的语音数据的个数,Fc(xi,C,l)是特征xi,C,l对子任务Fc的统计值。并从特征集Xi,V中选择特征xi,V,l,其满足FC(xi,V,l)=FC(xj,V),并从特征集Xi,P中选择特征xi,P,l,满足FC(xi,P,l)=FC(xj,P)。结果,用户uj的语音数据被脱敏处理成π语音数据,既实现了用户的隐私保护,又保证了数据的有用性。[0014]优选地,步骤S202中,进行三维脱敏处理包括以下步骤:[0015]在步骤S201获得的特征集的基础上,在C维中,首先确定关键词,用命名实体识别方法识别出特定用户的语音数据,在C维的特征集中随机选择相应的特征来替换关键词;在V维中,首先从V维的特征集中随机选择一种声音,然后使用所选语音进行目标语音转换;特定用户的语音数据被转换成另一个语音数据,其三维特征是一致的。[0016]优选地,特定用户的语音数据通过重复进行π次而脱敏处理成π语音数据。[0017]本发明提供了一种语音数据发布的安全脱敏方法P3S2,在对语音数据进行脱敏处理的时候,创新性地引入语音数据的内容、语音和声纹三者之间的关联性,并且实现同时保护语音数据的数据隐私和数据的有用性。核心思想是使用三维脱敏处理方法,即对语音数据的内容、语音和声纹进行脱敏处理,并且使脱敏后的语音数据的内容、语音和声纹是相互关联的、匹配的。

[0018]在设计P3S2时,面临以下挑战:

[0019]1)因为语音数据在三个维度上(即,内容、语音和声纹)具有不同的特征,所以很难保证脱敏后的语音数据在三个维度上(即,内容、语音和声纹)是匹配的,关联的。为了应对这一挑战,本发明提出了一种三维脱敏方法,该方案利用特征学习来获得语音数据在每个维度上的特征集,同时记录三个特征集之间的相关性。

4

CN 110781519 A[0020]

说 明 书

3/4页

2)由于发布的语音数据被用于多种多样的、甚至是未知的统计分析任务中,这些

统计分析任务分别统计语音数据不能的特征,所以在语音数据进行脱敏处理后,很难保证语音数据的数据有用性。为此,本发明提出了可分解分析任务的概念,针对该可分解分析任务,本发明采用分布式的三维脱敏方法,最终实现保证语音数据的有用性。[0021]3)很难从理论上量化安全脱敏方法P3S2是否有效,因为脱敏数据在发布出去之后,会被用于各种统计分析任务中。为了解决这个问题,本发明采用(∈,δ)-差分隐私,量化P3S2的安全性能,同时填补了数据处理方法设计和安全性检验之间的理论空白。附图说明

[0022]图1是一个基于语音数据的人机交互服务中的系统架构示意图;[0023]图2是一个P3S2的技术直观说明图;[0024]图3是一个三维脱敏处理说明图。

具体实施方式

[0025]下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

[0026]如图2所示,本发明提供的一种语音数据发布的安全脱敏方法包括以下步骤:[0027]步骤S201:首先利用特征学习来学习每类用户在三个维度上的特征集,同时记录特征集之间的相关性;[0028]步骤S202:然后对每个用户的语音数据进行三维脱敏处理,以保护用户的语音数据隐私;

[0029]步骤S203:最后提出可分解的分析任务概念,并对脱敏后的语音数据进行分布式处理,以保证语音数据的有用性。[0030]A.特征集选择

[0031]Xi表示第i个用户的语音数据204、U表示所有用户、X表示所有用户的语音数据集。内容、语音和声纹这三个维度分别表示为C、V、P。将所有用户分成n组U1,U2,U3,...,Un并且其相应的语音数据集分别是X1,X2,X3,...,Xn。通过特征学习获得的语音数据集Xi(i=(1,...,n))在(C,V,P)维度下的特征集205表示为Xi,C、Xi,V、Xi,P。[0032]特征学习搜索特征集的算法如下。在每个维度中,从集合Xi随机选择一个子集合{xi,k},Xi,j(j=(C,V,P))为集合Xi在C、V、P三个维度上的特征集,同时被认为是初始特征集。利用评估函数Gain(·)对初始特征集Xi,j进行子集评估,并且该函数满足约束条件

其中,pr是xi,j,r在Xi,j中的比率,xi,j,r是集合Xi,j中的第r个特

征;|Xi,j|是Xi,j的基数,此后,当某个特征xi,l(l∈(1,2,…,|Xi,j|))带来信息增益时,就将该特征xi,l迭代地添加到集合Xi,j中,直到|Xi,j|个特征被找到。[0033]B.三维脱敏方法

[0034]三维脱敏方法如图3所示。在特征集205的基础上,我们建议在C维(内容)中,首先

5

CN 110781519 A

说 明 书

4/4页

确定关键词(例如姓名,年龄,位置等),用命名实体识别方法识别出特定用户uj的语音数据xj。一般来说,假设uj∈Ui。然后,我们在特征集205Xi,C中随机选择相应的特征来替换关键词。关于V维(语音),我们建议首先从特征集205Xi,V中随机选择一种声音,然后使用所选语音进行目标语音转换。目标语音转换方法包括两个步骤,训练阶段和转换阶段。由于内容和语音都进行了脱敏,所以声纹也脱敏了。因此,uj用户的语音数据204被转换成另一个语音数据206,其三维特征是一致的。需要注意的是,用户uj的语音数据204可以通过重复上述操作π次而脱敏处理成π语音数据。[0035]然而,上述经过脱敏处理的语音数据206不能保证用户语音数据的有用性。而且,由于分析任务是多种多样的,也很难保证数据的有用性。为此,我们提出了可分解分析任务的概念。具体来说,我们首先给出以下定义。[0036]定义1:如果一个特定的分析任务F满足约束条件,F(Xi)=F(Xi,C)+F(Xi,V)+F(Xi,P)=FC(Xi,C)+FV(Xi,V)+FP(Xi,P),它是可分解的。F(Xi)是特定用户语音数据集Xi对于分析任务F的统计值,F(Xi,C)、F(Xi,V)、F(Xi,P)是对特定用户语音数据集Xi在C,V,P维度下对于分析任务F的统计值,是分析任务F分别在内容、声音、声纹三个维度上的子任务。[0037]定义1表明,如果进行脱敏处理时语音数据xj的每个维度中的统计特征受到保护,那么xj的数据有用性将得到保证。因此,我们从205特征集Xi,C中随机选择特征xi,C,l,且特征xi,C,l满足Fc(xi,C,l)=FC(xj,C),l∈(1,…,|Xi,C|),|Xi,C|是特征集Xi,C中的语音数据的个数,Fc(xi,C,l)是特征xi,C,l对子任务Fc的统计值。并从205特征集Xi,V中选择特征xi,V,l,其满足FC(xi,V,l)=FC(xj,V),并从特征集Xi,P中选择特征xi,P,l,满足FC(xi,P,l)=FC(xj,P)。结果,用户uj的语音数据被脱敏处理成π语音数据207,既实现了用户的隐私保护,又保证了数据的有用性。

[0038]C.脱敏方法安全性检验[0039]我们应用差分隐私,这一标准,对语音数据204的脱敏处理方法进行安全性检验,得到如下结论。

[0040]P3S2协议在每个满足ρ=1/nz(z=(C,V,P))的维度上为特定用户uj的语音数据204提供(∈,δ)差分保密性;nz是满足

[0041]

P3S2协议通过提供特定用户uj的语音数据204(π,∈,δ)差分保密性(其中ρ=1/nz;

∈≥-ln(1-ρ)(π-1);

来保证每个维度

上的数据有用性。

6

CN 110781519 A

说 明 书 附 图

1/1页

图1

图2

图3

7

因篇幅问题不能全部显示,请点此查看更多更全内容