共查询到19条相似文献,搜索用时 46 毫秒
1.
提出了一种面向多样化声学场景自适应设计声学编码器的方法 (SAE)。该方法通过学习不同声学场景下语音中包含的声学特征的差异,适应性地为端到端语音识别任务设计出合适的声学编码器。通过引入神经网络结构搜索技术,提高了编码器设计的有效性,从而改善了下游识别任务的性能。在Aishell-1、HKUST和SWBD三个常用的中英文数据集上的实验表明,通过所提场景自适应设计方法得到的声学编码器相比已有的声学编码器可以获得平均5%以上的错误率改善。所提方法是一种深入分析特定场景下语音特征、针对性设计高性能声学编码器的有效方法。 相似文献
2.
3.
当前社会新型犯罪中电信诈骗案件频发,急需一种能够自动有效区分语声真伪的方法。为进一步增强目前深度学习领域识别合成语声的能力,为保障语声信息安全提供技术上的支持,针对合成语声声学特性上异于真实语声的特点,分析对比合成语声和真实语声的声学特性,设计了一种声学特征均方根角量化语声声强变化程度,结合基频变化率和语声窄带频谱图声学特征进行融合,量化了声学特性差异,聚焦了合成语声中关键声学信息。在神经网络模型中融合输入声学特征,在FoR数据集的验证集上得到了0.6%的等错误率,在测试集上最好结果达到了10.8%的等错误率。该文成功实现了对合成语声的识别,证实了声学特征的有效性和研究方案的可行性,在一定程度上拓宽了合成语声特征设计的研究思路。 相似文献
4.
5.
针对国内外缺少对振动轮噪声预估的问题,以某型振动轮为研究对象,首先基于动力学有限元理论对振动轮进行频率响应分析,其次采用声学边界元技术对振动轮辐射噪声进行了数值模拟,并通过实验验证了仿真结果的准确性,然后比较了垂直振动与圆周振动两种不同激振形式对辐射噪声的影响,得出垂直振动辐射噪声低的结论,最后对驾驶室声腔模态进行了仿真,与振动轮激振频率相近发生共振。通过调整激振频率,降低了司机耳旁噪声。所得研究成果可为振动轮辐射噪声的预估与改进提供一种切实可行的参考依据。 相似文献
6.
气动声学的声比拟理论以密度、声压等标量为波动算子变量,建立非齐次波动方程,描述流体运动及与边界作用诱发声音的辐射,但标量无法直接描述声能量的传播过程和途径.在流体力学研究中,标量用于描述当前当地的物质状态,而矢量用于描述质量和能量的传输.借鉴上述思想,开展了矢量气动声学的研究,概述矢量气动声学的理论研究进展及应用,主要包括:(1)以声粒子速度为变量,采用声比拟理论的思想直接从Navier-Stokes方程出发推导建立了气动声学的矢量波动方程及两种频域解;(2)综合利用声压和声粒子速度的积分解,直接求解声源周围的瞬时和有功声强矢量场,直观显示声能量的传播途径,应用于旋转声源辐射声能量的传播分析,揭示了亚音速旋转声源辐射声能量的3种传播模式:螺旋模式、声学黑洞模式和R-A模式;(3)采用球谐级数展开方法建立旋转点/紧凑声源辐射噪声的声压和声粒子速度的频域解析解,在此基础上推导了声功率谱的频域解析解,建立了识别旋转叶片声源在空间域和频域分布特征的方法;(4)综合利用矢量气动声学方法和等效源方法,显示声源和散射边界周围声强矢量场的分布特征和能量传播途径,直接揭示了阻抗边界主要的吸声位置以及直接计算得到阻抗边界的吸收声功率. 相似文献
7.
8.
9.
语音识别赋予了计算机能够识别出语音内容的功能,是人机交互技术领域的重要研究内容。随着计算机技术的发展,语音识别已经得到了成熟的发展。但是关于方言的语音识别还有很大的发展空间。中国是一个幅员辽阔、人口众多的国家,因此方言种类繁多,其中有3000多万人交流使用的重庆方言就是其中之一。采集了重庆方言的部分词语的文本文件和对应的语音文件建立语料库,根据重庆方言的发音特点,选取重庆方言的声韵母作为声学建模基元,选取隐马尔可夫模型(Hidden Markov Model, HMM)为声学模型设计了一个基于HMM的重庆方言语音识别系统。在训练过程利用语料库中训练集语料对声学模型进行训练,形成HMM模型库;在识别过程利用语料库中的测试集语料进行识别测试。实验结果表明,该系统能够实现重庆方言的语音识别,并且识别的正确率为100%。 相似文献
10.
11.
12.
为了解决传统卷积神经网络在识别中文语音时预测错误率较高、泛化性能弱的问题,首先以深度卷积神经网络(DCNN)-连接时序分类(CTC)为研究对象,深入分析了不同卷积层、池化层以及全连接层的组合对其性能的影响;其次,在上述模型的基础上,提出了多路卷积神经网络(MCNN)-连接时序分类(CTC),并联合SENet提出了深度SE-MCNN-CTC声学模型,该模型融合了MCNN与SENet的优势,既能加强卷积神经网络的深层信息的传递、避免梯度问题,又可以对提取的特征图进行自适应重标定。最终实验结果表明:SE-MCNN-CTC相较于DCNN-CTC错误率相对降低13.51%,模型最终的错误率达22.21%;算法改进后的声学模型可以有效地提升泛化性能。 相似文献
13.
Existing kernel-based correlation analysis methods mainly adopt a single kernel in each view. However, only a single kernel is usually insufficient to characterize nonlinear distribution information of a view. To solve the problem, we transform each original feature vector into a 2-dimensional feature matrix by means of kernel alignment, and then propose a novel kernel-aligned multi-view canonical correlation analysis (KAMCCA) method on the basis of the feature matrices. Our proposed method can simultaneously employ multiple kernels to better capture the nonlinear distribution information of each view, so that correlation features learned by KAMCCA can have well discriminating power in real-world image recognition. Extensive experiments are designed on five real-world image datasets, including NIR face images, thermal face images, visible face images, handwritten digit images, and object images. Promising experimental results on the datasets have manifested the effectiveness of our proposed method. 相似文献
14.
15.
基于裂变中子(252Cf)对裂变链(235U系统)依存关系,在对252Cf中子裂变信号的测量原理及信号特点分析基础上,开展了基于支持向量机的中子裂变信号时频特征分析及识别研究工作。采用小波分解和去噪小波包分解方法,提取不同状态下随机核信号的时频能量特征,借助于统计学习理论的支持向量机(SVM)分类器原理进行训练和分类。研究结果表明:通过直接小波分解或去噪小波包分解,以获取核信号特征的方法是有效的;去噪小波包分解特征提取方式,较之直接小波分解特征提取方式更能反映中子裂变核系统的内部特征和规律;基于SVM核信号样本的分类,训练后的SVM分类器有着大于70%以上的正确率,且较好地克服了训练样本数较少的问题,验证了方法的可行性和有效性。 相似文献
16.
Track counting algorithms as one of the fundamental principles of nuclear science have been emphasized in the recent years. Accurate measurement of nuclear tracks on solid-state nuclear track detectors is the aim of track counting systems. Commonly track counting systems comprise a hardware system for the task of imaging and software for analysing the track images. In this paper, a track recognition algorithm based on 12 defined textual and shape-based features and a neuro-fuzzy classifier is proposed. Features are defined so as to discern the tracks from the background and small objects. Then, according to the defined features, tracks are detected using a trained neuro-fuzzy system. Features and the classifier are finally validated via 100 Alpha track images and 40 training samples. It is shown that principle textual and shape-based features concomitantly yield a high rate of track detection compared with the single-feature based methods. 相似文献
17.
Letter and number recognition in license plates is widely considered a solved problem in many practical license plate recognition (LPR) systems. However, Chinese character recognition for LPR application still faces many challenges, such as more complex structure, defective character, partial occlusion, and sensitiveness to affine distortion, noise, scaling, illumination variation, contamination, blurring, and so no. In this paper, a novel method of Chinese character recognition is proposed, based on SIFT feature points clustering and matching in which a center matching strategy is designed to improve recognition efficiency. Promising experimental results demonstrate that the proposed is robust to the previous adverse factors in natural scenes and acquires higher efficiency that may meet requirements in practical application. 相似文献
18.
地面对空中无人机的视觉识别中,由于无人机的飞行速度、角度呈现非线性变化。使得采集的疑似图像存在特征模糊、衰退等问题,传统的模式识别方法无法提取无人机图像的主要特征,极大程度上降低了图像的识别概率。提出一种引入球面谐波基图像特征细分的无人机识别算法,建立球面谐波基图像识别模型,利用无人机图像的球面谐波基图像近似率,对模糊图像的差异特征进行依次识别。实验结果表明,利用改进算法建立的模糊无人机图像差异特征识别模型,具有一定的优越性,提高了无人机识别的准确率。 相似文献