共查询到20条相似文献,搜索用时 109 毫秒
1.
提出了一种面向多样化声学场景自适应设计声学编码器的方法 (SAE)。该方法通过学习不同声学场景下语音中包含的声学特征的差异,适应性地为端到端语音识别任务设计出合适的声学编码器。通过引入神经网络结构搜索技术,提高了编码器设计的有效性,从而改善了下游识别任务的性能。在Aishell-1、HKUST和SWBD三个常用的中英文数据集上的实验表明,通过所提场景自适应设计方法得到的声学编码器相比已有的声学编码器可以获得平均5%以上的错误率改善。所提方法是一种深入分析特定场景下语音特征、针对性设计高性能声学编码器的有效方法。 相似文献
2.
Effect of the free surface and the rigid plane on structural vibration and acoustic radiation 总被引:1,自引:0,他引:1
ZOUYuanjie ZHAODeyou LISheng 《声学学报:英文版》2004,23(3):203-213
The coupled fluid-structure interaction equation is estabhshed for bodies in the half-space fluid domain, especially sitting on the infinite plane, based on the BEM (Boundary Element Method) theory. Then, the natural frequencies, vibration responses and the acoustic radiation for a box are calculated, and the effect of the free surface and the rigid plane is discussed. Finally, several relative factors including the plate thickness, the structure damping and the distance between the body and the infinite plane are studied. The results show that the effect of the free surface and the rigid plane on the structural natural frequencies, vibration responses and the acoustic radiation cannot be ignored. 相似文献
3.
4.
5.
6.
7.
针对由复杂结构振动形成的封闭空间声场,提出了一种基于等效源法的面板声学贡献度分析方法。该方法首先利用基于等效源法的内部声全息技术,重构出振动结构表面的法向振速并实现对整个内部封闭声场的预测。再将振动结构的每个面板在腔体内部场点产生的声压分别用位于空腔表面附近的等效源在该点产生的辐射声压代替,将复杂的封闭非自由声场问题转化为简单的内部自由场问题,结合重建出的结构表面法向振速进而识别出封闭振动结构各面板对腔体内任意位置的声学贡献度。通过对复杂结构内声场的数值仿真和验证实验,分析了等效源的数量及与重建面距离等参数对重建精度的影响,结果表明所提方法不仅能够达到传统数值分析方法的计算精度,而且具有更简单的求解过程。 相似文献
8.
9.
根据语音识别和声纹识别等语音应用研究的实际需要,首次对和田方言的声学特性和识别进行研究。首先选取和田方言语音进行人工多层级标注,对元音的共振峰、时长和音强进行统计分析,描绘出和田方言主体格局及男性和女性的发音特点。然后运用方差分析和非参数分析法对维吾尔语3种方言的共振峰样本进行检验,结果表明3种方言的男性元音、女性元音及整体元音的共振峰分布模式存在显著差异。最后,分别构建基于GMM-UBM (Gaussian Mixture Model-Universal Background Model)、DNN-UBM (Deep Neural Networks-Universal Background Model)和LSTM-UBM (Long Short Term MemoryUniversal Background Model)维吾尔语方言识别模型,对基于梅尔频率倒谱系数及其与共振峰频率组合做输入特征提取的方言i-vector区分性进行对比实验。实验结果表明融入共振峰系数的组合特征可以增加方言的辨识度,且LSTM-UBM模型较GMM-UBM和DNN-UBM能提取到更具区分性的方言i-vector。 相似文献
10.
此处所介绍的厅堂声学计算机模型计算了房间和多功能厅的声学响应。这个模型是以房厅的三维表示为基础的。每个墙面都赋予一个吸声系数,并且分成更小的单元。首先计算了单元间影响系数所组成的矩阵。对于给定的声源,可以计算每个单元收到的能量,并由此定出房厅内任一点的声级,这样又能够算出(a)随距离变化的衰减,(b)在任一平面上的声照度,和(c)任一点所收到声能的接收指向性.可以算出房厅内任一被选定点的回波图,作为接收器所在地接收指向性随时间的演变;这么一个特点使得有可能核对目视图象和声图象之间的可能不符。这个软件能够设法任意修改房间的形状,以最优化房间的声学特征.本文列举了一个厅堂声学的研究例,是关于沙特拉伯首都Riyadh的 Ahura主厅的。 相似文献
11.
针对深度神经网络与隐马尔可夫模型(DNN-HMM)结合的声学模型在语音识别过程中建模能力有限等问题,提出了一种改进的DNN-HMM模型语音识别算法。首先根据深度置信网络(DBN)结合深度玻尔兹曼机(DBM),建立深度神经网络声学模型,然后提取梅尔频率倒谱系数(MFCC)和对数域的Mel滤波器组系数(Fbank)作为声学特征参数,通过TIMIT语音数据集进行实验。实验结果表明:结合了DBM的DNN-HMM模型相比DNN-HMM模型更具优势,其中,使用MFCC声学特征在词错误率与句错误率方面分别下降了1.26%和0.20%。此外,使用默认滤波器组的Fbank特征在词错误率与句错误率方面分别下降了0.48%和0.82%,并且适量增加滤波器组可以降低错误率。总之,研究取得句错误率与词错误率分别降低到21.06%和3.12%的好成绩。 相似文献
12.
当前基于深度神经网络模型中,虽然其隐含层可设置多层,对复杂问题适应能力强,但每层之间的节点连接是相互独立的,这种结构特性导致了在语音序列中无法利用上下文相关信息来提高识别效果,而传统的循环神经网络虽然做出了改进,但是只能对上文信息进行利用。针对以上问题,该文采用可以同时利用语音序列中上下文相关信息的双向循环神经网络模型与深度神经网络模型相结合,并应用于语音识别。构建具有5层隐含层的模型,其中第3层为双向循环神经网络结构,其他层采用深度神经网络结构。实验结果表明:加入了双向循环神经网络结构的模型与其他模型相比,较好地提高了识别正确率;噪声对双向循环神经网络汉语识别有重要影响,尤其是训练集和测试集附加噪声类型不同时,单一的含噪声语音的训练模型无法适应不同噪声类型的语音识别;调整神经网络模型中隐含层神经元数量后,识别正确率并不是一直随着隐含层中神经元数量的增加而增加,神经元数量数目增加到一定程度后正确率出现了降低的趋势。 相似文献
13.
14.
In this paper, a novel single microphone channel-based speech enhancement technique is presented. While most of the conventional nonnegative matrix factorization-based approaches focus on generating a basis matrix of speech and noise for enhancement, the proposed algorithm performs an additional process to reconstruct speech from noisy speech when these two elements are highly overlapped in selected spectral bands. This process involves a log-spectral amplitude based estimator, which provides the spectrotemporal speech presence probability to obtain a more accurate reconstruction. Moreover, the proposed algorithm applies an unsupervised learning method to the input noise, so it is adaptable to any type of environmental noise without a pre-trained dictionary. The experimental results demonstrate that the proposed algorithm obtains improved speech enhancement performance compared with conventional single channel-based approaches. 相似文献
15.
针对训练样本与测试样本来自不同语音情感数据库造成特征向量空间分布不匹配的问题,采用半监督判别分析减小二者的差异。首先寻找有标签的训练样本和来自另一个库的部分无标签训练样本之间的最优投影方向。基于一致性假设即相近的点更有可能具有相同的类别,利用p近邻图对无标签训练样本相近点之间的关系进行建模,从而获得无标签样本的分布信息。在保证无标签样本间流形结构的同时,使所有训练样本类间散度和类内散度的比值达到最大,从而得到最优的投影方向。采用两组实验进行验证,第1组用eNTERFACE库训练去测试Berlin库,识别率为51.41%,第2组用Berlin库训练测试eNTERFACE库,识别率为45.76%,相比未采用半监督判别分析的识别结果分别有了13.72%和22.81%的提高,说明该算法的有效性。通过实验前后数据的可视化分析,说明利用半监督判别分析确实减小了不同库之间特征向量空间分布的不匹配问题,从而提高跨库语音情感识别率。 相似文献
16.
摘 要: 手写汉字识别是模式识别与机器学习的重要研究方向和应用领域。近年来,随着深度学习理论方法的完善、新技术的层出不穷,深度神经网络在图像识别分类、图像生成等典型应用中取得了突破性的进展,其中,深度残差网络作为最新的研究成果,已成功应用于手写数字识别、图片识别分类等多个领域。本文将研究深度残差网络在脱机孤立手写汉字识别中的应用方法,通过改进残差学习模块的单元结构,优化深度残差网络性能,同时通过对训练集的预处理,从数据层面实现训练生成模型性能的提升,最后设计实验,验证深度残差网络、End-to-End模式在脱机手写汉字识别中的可行性,分析、总结存在的问题及今后的研究方向。 相似文献
17.
本文提出了语音信号的一种时域-频域-能量表示,并给出了算法,可用于孤立词语音识别,这种时域-频域-能量表示有两个特点,基于短时能量梯度的非线性时间规正,可保留语音信号频域的过滤特性,丢掉其稳态特性,计算量小,适于实时应用。 相似文献
18.
设计了一个适用于端到端语音增强的改进的U-Net (Attention Dilated Convolution U-Net,ADC-U-Net)网络模型。与基线U-Net网络相比,一方面通过加入空洞卷积减小由采样带来的信息损失;另一方面引入了注意力机制结构,结合了含噪语音更多的上下文信息,提取更深层次和更丰富的特征信息。与传统语音增强方法相比,所提模型无需提取特征、对特征去噪、重构语音3个步骤,避免了对显性特征的依赖,转而由网络模型通过多层次多尺度学习获得隐性特征。用多个主客观指标对增强语音的质量和可懂度进行了评价。实验数据显示所提算法在噪声抑制能力和对噪声的适应度方面均表现出良好的性能,与基线U-Net网络及其它模型相比,展示了良好的语音质量和可懂度。 相似文献
19.