温馨提示:您当前的浏览器版本过低,存在安全风险,建议升级浏览器

  • • 体验方维系列软件产品
  • • 了解最热的互联网资讯
热门标签

 
混合声学模型通常是隐马尔科夫模型结合混合高斯、深度神经网络、深度循环神经网络以及深度卷积神经网络的一个模型。端到端声学模型目前有两大类,一是连接时序分类—长短时记忆模型,二是注意力模型。
 
混合高斯—隐马尔科夫模型是根据语音的短时平稳性采用采用隐马尔科夫模型对三因子进行建模。图中显示的是,输入语音参数通过混合高斯模型计算每一个隐马尔科夫模型状态的后验概率,然后隐马尔可夫模型转移概率来描述状态之间的转移。
 
混合神经网络—隐马尔科夫模型是将混合高斯模型用深度神经网络进行替代,但是保留了隐马尔科夫的结构,对于输入端的扩帧和深度神经网络的非线性变换,识别率可以得到很大的提升。
 
前面的深度神经网络对历史信息的建模只是通过在输入端扩帧实现的,但对历史信息的建模作用是有限的。
 
在深度循环神经网络中,对输入的历史信息可以进行有效的建模,可以做大限度的保留历史信息。根据现有的实验结果来看,在很多任务上,深度循环神经网络性能表现要由于深度神经网络。当然,深度循环神经网络也存在一些缺点。例如,在训练的时候,会出现梯度爆炸和梯度消失的问题。
 
那么如何有限解决梯度爆炸和梯度消失的问题呢?学者又引入了一种长短时记忆模型。长短时记忆模型采用控制门(包括输入门、遗忘门和输出门)将梯度累积变成梯度累加,在一定程度上可以解决深度循环神经网络训练时梯度消失的问题。
 
上面提到的深度循环神经网络能够有效地对历史信息进行建模,但是它存在计算量太大的问题,特别是为了减少这种梯度消失又引入了长短时记忆模型之后,计算的信息量有加剧。应对这一难题,业界又引入了深度卷积神经网络模型。这种模型在图像识别领域和语音识别领域都得到了显著的效果。
 
在语音识别领域,我们可以从图中可以看出,一共有四种深度神经网络的模型结构,随着深度的增加可以有效地提升声学模型的构建能力。
 
语言模型
 
语言模型——N-Gram
 
基于N-Gram的特点是每个词出现的概率,之和前面第N-1个词有关,整句话出现的概率是每个词出现的概率的乘积。N-Gram有一个缺点,由于数据稀缺性需要进行一个平滑算法,然后得到后验概率。
 
语言模型——DNN-Gram
 
DNN-Gram把深度神经网络引入可以有效地克服平滑算法的误差。例如图中显示的,通过深度神经网络构建语音性不需要平滑算法的处理。

 
语言模型——RNN-Gram
 
和声学模型一样,构建语言模型也需要对历史信息进行训练建模,在声学模型中提到的深度循环神经网络在这里也有应用。
 
基于深度神经网络的语言模型每个词出现的概率和N-Gram一样,只是和向前的第N-1个词有关,但实际上,每个词出现的频率和之前所有词都有相关性,因此需要引入历史信息进行训练建模。所以在这里加入了RNN-Gram进行语言模型的构建。
 
近几年,语音识别的声学模型和语言模型都得到了很大的提高。2016年,微软的语音识别团队宣称在swithboard数据集上超过了人类,swithboard数据集是一个以口语为主的训练测试数据集,包含了大量的副语言,所以用这种数据集进行语音识别测试具有一定的挑战性。
 
不过,语音识别在一些特殊领域的识别效果就大打折扣了。在强干扰环境和特殊领域中,可以通过基于语音识别的关键词检索方法来进行音频信息的检查。
 
基于语音识别的关键词检索
 
基于语音识别的关键词检索是将语音识别的结构构建成一个索引网络,然后把关键词从索引网络中找出来。从这一流程图中可以看到,首先把语音进行识别处理,从里面提取索引构建索引网络,进行关键词检索的时候,我们会把关键词表在网络中进行频率,找到概率最高的,输出其关键词匹配结果。
 
构建检索网络
 
构建检索网络是语音关键词检索的重要环节。在这个图中,在第一个时间段内(w1w3w6w7),这句话被识别成了四个不同的词,语音识别只能给出一条路径,但在语音关键词检索网络中可以从四个结果中进行筛选。
 
关键词检索
 
有了检索网络后,接下来的工作就是关键词检索工作。关键词检索是基于音节数据,首先将用户设定的关键词文本解析成音节数据,再从检索网络中找出匹配结果,相比语音识别这种文本结果检索,这种容错性更强,而且关键词检索可以只用在基于CTC,计算量更小,执行效率更高,更适用于海量数据的检索场景。
 
说话人识别的关键技术
 
说话人识别也称之为声纹识别,主要目的是对说话人的身份确认和辨识。
 
它的流程如下:首先对说话人的训练建模,把注册语音进行特征提取,模型训练之后得到说话人的模型库;在测试的时候,我们需要通过一个很短的音频去提取特征值,然后基于之前构建的模型进行阈值判断,判断出是集合内还是外,最终确认身份。在这一过程中,注册语音只要10s左右的语音,测试只要2-5s的语音。
 
说话人识别的关键技术——模型训练GMM。完成关键特征提取后就要进行模型训练。GMM的训练流程是:首先把训练语音进行特征提取,得到梅尔频率倒谱系数,然后生成一个通用背景模型,再通过MAP的方法得到说话人的模型。
 
注册语音的流程也是类似,通过特征提取,进行模型训练得到混合高斯模型。在测试的时候,把测试语音进行特征提取,然后从通用背景模型和混合高斯模型进行最大相似度的判断,再输出识别结果。
 
说话人识别的关键技术——模型训练I-Vector
 
I-Vector在近两年有比较广泛的应用,它将说话人特征和信道特征统一建模,得到说话人特征通过信道补偿记录进行识别,有效解决了训练样本和实际检测样本存在信道不匹配的问题。信道特征对说话人识别的准确性干扰很大,如果前期学习建模过程中,能把信道特征统一建模后期在识别的时候,可以实现信道补偿,大大提升说话人识别的鲁棒性。

 
说话人识别的关键技术——模型训练DNN
 
我们还可以进一步介入深度神经网络的方式来提取统计量。用深度神经网络替代一些统一背景模型,可以把音素相关信息通过语音识别的深度神经网络结合起来,采集到更多的说话人特征信息。
 
音频对比技术
 
音频对比技术也是引用很早很广泛的音频检索技术。音频对比主要是从音频信号中提取特征,通过特征进行比对来检索。图中提取的过程就是通过频谱最大值点来建模。
 
特征构建
 
在完成最大值点完成建模后,我们需要进行特征的构建。特征构建是通过最大值点之间的距离来建模,例如两个最大值点的距离、位置信息作为一个固定的特征来完成音频特征信息的构建。有了上述音频特征之后,就可以对两个不同音频进行检索,最大相似度的地方就是相似点。这种技术最适用于录音片段的检索。
 
其它技术
 
1.语音欲处理技术:包括音频编解码、噪声消除(软件处理,硬件解决方案)、语音信号增强。

 
2.语义识别:对语音识别后的文本结果进行分析,结合上下文,来判断真是意图。

 
3.语种识别、男女声识别:识别方言、外语语种、发音人性别进行识别。

 
4.流媒体技术:在实时音频数据处理中,需要用到数据切分、数据缓存。

 
5.云平台技术:云服务架构设计、、服务模块化整合、负载均衡等。

 
6。大数据技术:海量数据存储、训练样本自动提取、模型训练等。

 
三、应用场景案例
 
音频审核数据来源可以分为实时数据和存量数据。存量数据主要是现有的语音资源,实时数据则包括正在直播的广播、电视节目等。
 
存量音频数据审核
 
场景:电信运营商诈骗电话检测
 
这是针对存量数据的解决方案,它有大量的通话录音,而且因为设备供应商的不同,会造成音频格式、音质不统一;另外,电话录音还存在噪声干扰、方言口音问题。
 
针对这类数据的检测,我们可以提供一套完整的解决方案。
 
首先把通话录音通过API接口上传到关键词检索服务器上,关键词检索服务器的API网关对它的请求进行分类处理之后,移交给后续的业务网关来分发处理。首先要进行音频预处理,音频格式转码、语音降噪等,然后把处理后的文件存储;接下来,把结果反馈给业务网关,由音频比对对已知录音片段进行检测,如果有匹配这些录音片段就反馈结果——存在诈骗信息。如果经过音频比对没有发现诈骗信息,我们会调用关键词检索服务。
 
实时音频数据审核
 
场景:在线直播平台敏感信息检测
 
它的数据是实时生成的,需要用到流媒体技术,包含图像、音频两大数据源,所用到的检测技术也不一样。音频检测还分为语种、说话人确认、内容识别。累积了大量的检测数据之后,对后期的模型优化升级也提出了更高的要求。
 
首先会对直播中的音视频资源提取,分别交由图像处理模块和语音处理模块,针对图像数据我们要提取关键帧,针对语音数据,我们会把视频数据中的音频资源提取出来。
 
图像数据的处理,拿到图像数据关键帧后会定时发送到处理平台上( 雷锋网注:可以在云端或者私有云部署)
 
在图像识别部分要对图像预处理、图像分割,拿到有效的区域来检测,在有害信息识别检测阶段,我么会完成特征提取、目标分类、判断匹配,找出里面涉黄、涉暴的信息。如果用户有进一步的需求,例如广告识别的要求,我们可以根据二维码、数字、字符检测技术来进行广告的识别。音频的数据提取之后,上传到到服务器端。音频实时处理有个局限是会占用大量的带宽,所以通常采用私有云的部署方式。



点击这里了解方维互动直播系统

直播

迅雷链携手懒懒口袋,赋能打造高信任级区块链电商平台

三年目标创收10亿:当当网李国庆再创业,杀入“区块链+版权”!

融资总金额超200亿元,社交电商因何成资本新宠?

了解更多,敬请垂询 400-118-5335
...
...
了解更多,敬请垂询 400-118-5335

PK10 PK10 PK10 PK10 PK10 pk10开奖 pk10开奖结果 PK10 PK10 北京赛车平台 北京赛车 秒速赛车度 秒速赛车 秒速时时彩 幸运飞艇 幸运飞艇 幸运飞艇 幸运飞艇 幸运飞艇 幸运飞艇 幸运飞艇 幸运飞艇 重庆时时彩

重庆时时彩 重庆时时彩 重庆时时彩 重庆时时彩 重庆时时彩 PC蛋蛋 PC蛋蛋 PC蛋蛋 PC蛋蛋 PC蛋蛋 PC蛋蛋 PC蛋蛋 PC蛋蛋