首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
刘育坤  郑霖  黎塔  张鹏远 《声学学报》2023,(6):1260-1268
提出了一种面向多样化声学场景自适应设计声学编码器的方法 (SAE)。该方法通过学习不同声学场景下语音中包含的声学特征的差异,适应性地为端到端语音识别任务设计出合适的声学编码器。通过引入神经网络结构搜索技术,提高了编码器设计的有效性,从而改善了下游识别任务的性能。在Aishell-1、HKUST和SWBD三个常用的中英文数据集上的实验表明,通过所提场景自适应设计方法得到的声学编码器相比已有的声学编码器可以获得平均5%以上的错误率改善。所提方法是一种深入分析特定场景下语音特征、针对性设计高性能声学编码器的有效方法。  相似文献   

2.
The coupled fluid-structure interaction equation is estabhshed for bodies in the half-space fluid domain, especially sitting on the infinite plane, based on the BEM (Boundary Element Method) theory. Then, the natural frequencies, vibration responses and the acoustic radiation for a box are calculated, and the effect of the free surface and the rigid plane is discussed. Finally, several relative factors including the plate thickness, the structure damping and the distance between the body and the infinite plane are studied. The results show that the effect of the free surface and the rigid plane on the structural natural frequencies, vibration responses and the acoustic radiation cannot be ignored.  相似文献   

3.
流体加载下加肋板结构的声辐射特性研究   总被引:8,自引:0,他引:8       下载免费PDF全文
黎胜  赵德有 《应用声学》2000,19(6):28-32,39
本文采用有限元和边界元方法对加肋板结构的声辐射进行了计算分析,研究分析了加肋板结构的板厚、板面积、板边长比、肋骨惯性矩和间距、边界条件以及板材和流体介质等对结构辐射声功率的影响,得到了一些有意义的结论,从而为揭示加板结构声辐射规律,降低结构的声辐射提供了一定的依据。  相似文献   

4.
景春进  陈东东  周琳琦 《应用声学》2014,22(8):2571-2573
针对舰艇指挥训练系统的特点,提出了一种利用语音识别技术提高其训练效率的方法;首先分析了舰艇指挥指令的语言特点,然后研究了基于Sphinx平台的汉语连续语音识别的相关问题,包括声学模型的训练、语言模型的训练及语音识别引擎等;最后设计并实现了一个非特定人,中等专用词汇量的连续汉语语音识别系统;实验采用了一定数量的数字和专用词汇进行验证,结果表明,经过声学模型训练后,该系统的识别率有较大提高;该方法对提高舰艇指挥训练系统的自动化水平具有一定的指导意义。  相似文献   

5.
聂珊珊  康健 《应用声学》2016,35(2):128-136
经典扩散声场理论难以适用于大空间建筑。为了探究大空间建筑中人群分布对声场的影响,本文用模拟与实测相结合的方法,提出了一种适用于大空间的人群声学模型,得到了确定等效声源和人群声源的简化方法,以及人群密度与声压级之间、人群总数与发声人数之间的关系。用实测数据对该人群声学模型进行了验证。  相似文献   

6.
此处所介绍的厅堂声学计算机模型计算了房间和多功能厅的声学响应。这个模型是以房厅的三维表示为基础的。每个墙面都赋予一个吸声系数,并且分成更小的单元。首先计算了单元间影响系数所组成的矩阵。对于给定的声源,可以计算每个单元收到的能量,产由此定出房厅内任一点的声级,这样又能够算出(a)随距离变化的衰减,(b)在任一平面上的声照度,和(c)任一点所收到声能的接收指向性。可以算出房厅内任一被选定点的回波图,作  相似文献   

7.
肖悦  陈剑  胡定玉  蒋丰鑫 《声学学报》2014,39(4):489-500
针对由复杂结构振动形成的封闭空间声场,提出了一种基于等效源法的面板声学贡献度分析方法。该方法首先利用基于等效源法的内部声全息技术,重构出振动结构表面的法向振速并实现对整个内部封闭声场的预测。再将振动结构的每个面板在腔体内部场点产生的声压分别用位于空腔表面附近的等效源在该点产生的辐射声压代替,将复杂的封闭非自由声场问题转化为简单的内部自由场问题,结合重建出的结构表面法向振速进而识别出封闭振动结构各面板对腔体内任意位置的声学贡献度。通过对复杂结构内声场的数值仿真和验证实验,分析了等效源的数量及与重建面距离等参数对重建精度的影响,结果表明所提方法不仅能够达到传统数值分析方法的计算精度,而且具有更简单的求解过程。  相似文献   

8.
黄铄  校金友  胡玉财  王焘 《计算物理》2011,28(4):481-487
基于GPU,对声学Burton-Miller积分方程的边界元解法进行并行计算.提出并行计算格式和程序实现方法,以及Burton-Miller方程中各类奇异(包括强奇异、超奇异)积分的GPU计算和局部修正方法.典型算例结果表明,在特征频率处可获得正确的解,具有较高精度,可在普通个人计算机上快速完成自由度超过2×105的声学边界元分析.为计算声学及相关工程领域的中、大规模声场分析问题提供一种快速、高效、简便的数值计算工具.  相似文献   

9.
维吾尔语方言识别及相关声学分析   总被引:1,自引:0,他引:1       下载免费PDF全文
根据语音识别和声纹识别等语音应用研究的实际需要,首次对和田方言的声学特性和识别进行研究。首先选取和田方言语音进行人工多层级标注,对元音的共振峰、时长和音强进行统计分析,描绘出和田方言主体格局及男性和女性的发音特点。然后运用方差分析和非参数分析法对维吾尔语3种方言的共振峰样本进行检验,结果表明3种方言的男性元音、女性元音及整体元音的共振峰分布模式存在显著差异。最后,分别构建基于GMM-UBM (Gaussian Mixture Model-Universal Background Model)、DNN-UBM (Deep Neural Networks-Universal Background Model)和LSTM-UBM (Long Short Term MemoryUniversal Background Model)维吾尔语方言识别模型,对基于梅尔频率倒谱系数及其与共振峰频率组合做输入特征提取的方言i-vector区分性进行对比实验。实验结果表明融入共振峰系数的组合特征可以增加方言的辨识度,且LSTM-UBM模型较GMM-UBM和DNN-UBM能提取到更具区分性的方言i-vector。  相似文献   

10.
此处所介绍的厅堂声学计算机模型计算了房间和多功能厅的声学响应。这个模型是以房厅的三维表示为基础的。每个墙面都赋予一个吸声系数,并且分成更小的单元。首先计算了单元间影响系数所组成的矩阵。对于给定的声源,可以计算每个单元收到的能量,并由此定出房厅内任一点的声级,这样又能够算出(a)随距离变化的衰减,(b)在任一平面上的声照度,和(c)任一点所收到声能的接收指向性.可以算出房厅内任一被选定点的回波图,作为接收器所在地接收指向性随时间的演变;这么一个特点使得有可能核对目视图象和声图象之间的可能不符。这个软件能够设法任意修改房间的形状,以最优化房间的声学特征.本文列举了一个厅堂声学的研究例,是关于沙特拉伯首都Riyadh的 Ahura主厅的。  相似文献   

11.
一种改进的DNN-HMM的语音识别方法*   总被引:1,自引:1,他引:1       下载免费PDF全文
针对深度神经网络与隐马尔可夫模型(DNN-HMM)结合的声学模型在语音识别过程中建模能力有限等问题,提出了一种改进的DNN-HMM模型语音识别算法。首先根据深度置信网络(DBN)结合深度玻尔兹曼机(DBM),建立深度神经网络声学模型,然后提取梅尔频率倒谱系数(MFCC)和对数域的Mel滤波器组系数(Fbank)作为声学特征参数,通过TIMIT语音数据集进行实验。实验结果表明:结合了DBM的DNN-HMM模型相比DNN-HMM模型更具优势,其中,使用MFCC声学特征在词错误率与句错误率方面分别下降了1.26%和0.20%。此外,使用默认滤波器组的Fbank特征在词错误率与句错误率方面分别下降了0.48%和0.82%,并且适量增加滤波器组可以降低错误率。总之,研究取得句错误率与词错误率分别降低到21.06%和3.12%的好成绩。  相似文献   

12.
当前基于深度神经网络模型中,虽然其隐含层可设置多层,对复杂问题适应能力强,但每层之间的节点连接是相互独立的,这种结构特性导致了在语音序列中无法利用上下文相关信息来提高识别效果,而传统的循环神经网络虽然做出了改进,但是只能对上文信息进行利用。针对以上问题,该文采用可以同时利用语音序列中上下文相关信息的双向循环神经网络模型与深度神经网络模型相结合,并应用于语音识别。构建具有5层隐含层的模型,其中第3层为双向循环神经网络结构,其他层采用深度神经网络结构。实验结果表明:加入了双向循环神经网络结构的模型与其他模型相比,较好地提高了识别正确率;噪声对双向循环神经网络汉语识别有重要影响,尤其是训练集和测试集附加噪声类型不同时,单一的含噪声语音的训练模型无法适应不同噪声类型的语音识别;调整神经网络模型中隐含层神经元数量后,识别正确率并不是一直随着隐含层中神经元数量的增加而增加,神经元数量数目增加到一定程度后正确率出现了降低的趋势。  相似文献   

13.
汉语耳语音孤立字识别研究   总被引:6,自引:0,他引:6       下载免费PDF全文
杨莉莉  林玮  徐柏龄 《应用声学》2006,25(3):187-192
耳语音识别有着广泛的应用前景,是一个全新的课题.但是由于耳语音本身的特点,如声级低、没有基频等,给耳语音识别研究带来了困难.本文根据耳语音信号发音模型,结合耳语音的声学特性,建立了一个汉语耳语音孤立字识别系统.由于耳语音信噪比低,必须对其进行语音增强处理,同时在识别系统中应用声调信息提高了识别性能.实验结果说明了MFCC结合幅值包络可作为汉语耳语音自动识别的特征参数,在小字库内用HMM模型识别得出的识别率为90.4%.  相似文献   

14.
In this paper, a novel single microphone channel-based speech enhancement technique is presented. While most of the conventional nonnegative matrix factorization-based approaches focus on generating a basis matrix of speech and noise for enhancement, the proposed algorithm performs an additional process to reconstruct speech from noisy speech when these two elements are highly overlapped in selected spectral bands. This process involves a log-spectral amplitude based estimator, which provides the spectrotemporal speech presence probability to obtain a more accurate reconstruction. Moreover, the proposed algorithm applies an unsupervised learning method to the input noise, so it is adaptable to any type of environmental noise without a pre-trained dictionary. The experimental results demonstrate that the proposed algorithm obtains improved speech enhancement performance compared with conventional single channel-based approaches.  相似文献   

15.
金赟  宋鹏  郑文明  赵力 《声学学报》2015,40(1):20-27
针对训练样本与测试样本来自不同语音情感数据库造成特征向量空间分布不匹配的问题,采用半监督判别分析减小二者的差异。首先寻找有标签的训练样本和来自另一个库的部分无标签训练样本之间的最优投影方向。基于一致性假设即相近的点更有可能具有相同的类别,利用p近邻图对无标签训练样本相近点之间的关系进行建模,从而获得无标签样本的分布信息。在保证无标签样本间流形结构的同时,使所有训练样本类间散度和类内散度的比值达到最大,从而得到最优的投影方向。采用两组实验进行验证,第1组用eNTERFACE库训练去测试Berlin库,识别率为51.41%,第2组用Berlin库训练测试eNTERFACE库,识别率为45.76%,相比未采用半监督判别分析的识别结果分别有了13.72%和22.81%的提高,说明该算法的有效性。通过实验前后数据的可视化分析,说明利用半监督判别分析确实减小了不同库之间特征向量空间分布的不匹配问题,从而提高跨库语音情感识别率。  相似文献   

16.
张帆  张良  刘星  张宇 《应用声学》2017,25(12):259-262
摘 要: 手写汉字识别是模式识别与机器学习的重要研究方向和应用领域。近年来,随着深度学习理论方法的完善、新技术的层出不穷,深度神经网络在图像识别分类、图像生成等典型应用中取得了突破性的进展,其中,深度残差网络作为最新的研究成果,已成功应用于手写数字识别、图片识别分类等多个领域。本文将研究深度残差网络在脱机孤立手写汉字识别中的应用方法,通过改进残差学习模块的单元结构,优化深度残差网络性能,同时通过对训练集的预处理,从数据层面实现训练生成模型性能的提升,最后设计实验,验证深度残差网络、End-to-End模式在脱机手写汉字识别中的可行性,分析、总结存在的问题及今后的研究方向。  相似文献   

17.
本文提出了语音信号的一种时域-频域-能量表示,并给出了算法,可用于孤立词语音识别,这种时域-频域-能量表示有两个特点,基于短时能量梯度的非线性时间规正,可保留语音信号频域的过滤特性,丢掉其稳态特性,计算量小,适于实时应用。  相似文献   

18.
设计了一个适用于端到端语音增强的改进的U-Net (Attention Dilated Convolution U-Net,ADC-U-Net)网络模型。与基线U-Net网络相比,一方面通过加入空洞卷积减小由采样带来的信息损失;另一方面引入了注意力机制结构,结合了含噪语音更多的上下文信息,提取更深层次和更丰富的特征信息。与传统语音增强方法相比,所提模型无需提取特征、对特征去噪、重构语音3个步骤,避免了对显性特征的依赖,转而由网络模型通过多层次多尺度学习获得隐性特征。用多个主客观指标对增强语音的质量和可懂度进行了评价。实验数据显示所提算法在噪声抑制能力和对噪声的适应度方面均表现出良好的性能,与基线U-Net网络及其它模型相比,展示了良好的语音质量和可懂度。  相似文献   

19.
本文提出了一种孤立词语音识别系统中基于后验概率差值的拒识算法。研究了作为拒识特征时,输入词的后验概率和后验概率差值之间的区别,并将多层感知人工神经网络用于拒识特征的学习。相比现存的几种拒识算法,本算法几乎不需要额外的计算和存储量。当识别率为98.2%时,拒识率达到了95.4%。  相似文献   

20.
非特定人四声识别   总被引:5,自引:0,他引:5  
关存太  陈永彬 《声学学报》1993,18(5):379-385
本文提出一个性能可靠的非特定人汉语普通话四声识别方法.该方法采用中心削波的无偏自相关法作基音周期检测,通过对基音周期进行数据选取、误差修正、平滑、拟合等处理过程,获取两维的判决矢量供四声判决.普通话单音节发音的四声识别率达98%以上。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号