期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

周峻林胡晓光黄子旭汪旭付哲宇《应用声学》2024,43(1):131-141

当前社会新型犯罪中电信诈骗案件频发,急需一种能够自动有效区分语声真伪的方法。为进一步增强目前深度学习领域识别合成语声的能力,为保障语声信息安全提供技术上的支持,针对合成语声声学特性上异于真实语声的特点,分析对比合成语声和真实语声的声学特性,设计了一种声学特征均方根角量化语声声强变化程度,结合基频变化率和语声窄带频谱图声学特征进行融合,量化了声学特性差异,聚焦了合成语声中关键声学信息。在神经网络模型中融合输入声学特征,在FoR数据集的验证集上得到了0.6%的等错误率,在测试集上最好结果达到了10.8%的等错误率。该文成功实现了对合成语声的识别,证实了声学特征的有效性和研究方案的可行性,在一定程度上拓宽了合成语声特征设计的研究思路。相似文献

2.

语声研究、现代通信与信息社会

下载免费PDF全文

刘村友《应用声学》1984,3(4):1-4

在当今“信息社会”里,用来传递信息的现代通信成为国民经济不可缺少的部分.语声在通信中占有重要地位,信息社会对语声研究提出了更高的要求.语声还能在通信以外的广阔领域发挥作用.我国的语声研究任重而道远. 相似文献

3.

基于STA-CRNN模型的语声情感识别*

下载免费PDF全文

张志浩王坤侠《应用声学》2022,41(5):843-850

语声情感识别对人机交互和情感计算研究领域具有重要作用,各类研究方法层出不穷。近期研究学者应用卷积神经网络和长短期记忆网络方法提取对数Mel谱图空间特征和时间特征,取得了一定的成果。然而不论是卷积神经网络还是长短期记忆网络提取特征时,都会产生特征冗余,导致语声情感识别效果下降。针对这一问题,该文提出了一种基于时空注意力机制的卷积-递归神经网络模型,采用对数Mel谱图和其一阶差分、二阶差分作为特征输入,在使用卷积神经网络提取空间特征和长短期记忆网络提取时间特征时,加入空间注意力和时间注意力机制,从而使上述网络能够更好地提取到对数Mel谱图中有效表征情感的空间特征和时间特征。该模型在Emo-DB和IEMOCAP语声数据集上的加权准确率分别达到86.8%、69.4%,未加权准确率分别达到84.7%、65.5%,优于当前大多数先进方法。相似文献

4.

基于深度学习的语声抑郁识别*

下载免费PDF全文

吴情胡维平陈丹丹肖婷《应用声学》2022,41(5):837-842

世界各地抑郁症患者数量不断增多,抑郁症的诊断和治疗面临着医生短缺问题,针对这一问题,提出了CNN和结合注意力机制的BLSTM特征融合模型。从特征选择和网络构架两方面进行了研究,对比了几种经典语声特征,得出梅尔倒谱系数对抑郁分类效果最好,再将梅尔倒谱系数分别送进CNN和结合注意力机制的BLSTM网络实现抑郁分类。在DAIC-WOZ数据集上进行实验,所提出的方法对语声抑郁的分类精确度达到78.06 %,F1分数达到74.68%。关键词：抑郁识别;语声分析;分类相似文献

5.

基于Transformer编码器的合成语声检测系统

下载免费PDF全文

万伊杨飞然杨军《应用声学》2023,42(1):26-33

自动说话人认证系统是一种常用的目标说话人身份认证方案,但它在合成语声的攻击下表现出脆弱性,合成语声检测系统试图解决这一问题。该文提出了一种基于Transformer编码器的合成语声检测方法,利用自注意力机制学习输入特征内部的长期依赖关系。合成语声检测问题并不关注句子的抽象语义特征,用参数量较小的模型也能得到较好的检测性能。该文分别测试了4种常用合成语声检测特征在Transformer编码器上的表现,在国际标准的ASVspoof2019挑战赛的逻辑攻击数据集上,基于线性频率倒谱系数特征和Transformer编码器的系统等错误率与串联检测代价函数分别为3.13%和0.0708,且模型参数量仅为0.082 M,在较小参数量下得到了较好的检测性能。相似文献

6.

注意力机制融合前端网络中间层的语声情感识别

下载免费PDF全文

朱应俊周文君朱川马建敏《应用声学》2023,42(5):1090-1098

为了使机器能够更好地理解人的情感并改善人机交互体验,可对语声特征及分类网络进行融合以提升情感识别性能。本文从网络融合的角度,把基于梅尔倒谱系数和逆梅尔倒谱系数的二维卷积神经网络和基于散射卷积网络系数的长短期记忆网络作为前端网络,提取前端网络的中间层作为话语级的特征表示,利用压缩-激励(SE)通道注意力机制对前端网络的中间层的权重进行调整并融合,然后由深度神经网络后端分类器输出情感分类结果。在汉语情感数据集中进行五折交叉验证的对比实验,实验结果表明,基于SE通道注意力机制的网络融合方式可以有效地利用不同前端网络在语声情感识别任务中的优势,提高语声情感识别的准确率。相似文献

7.

基于Log-Polar变换的星图识别方法 总被引：1，自引：0，他引：1

魏新国张广军江洁《光学技术》2006,32(5):678-681

基于Log-Polar变换提取特征模式,并将特征模式进行字符串编码,在KMP算法的基础上给出一种适合于星图识别的字符串匹配算法用以实现观测星和导航星的匹配识别。与栅格算法在相同实验条件下的比较表明:该方法对星点位置噪声和星等噪声具有更强的抗干扰能力,且具有更小的存储容量,但其识别速度还有待于进一步提高。相似文献

8.

一种基于局部信息统计的虹膜分块编码方法

苑玮琦徐露林忠华《光学学报》2007,27(11):2047-2053

由于虹膜自身的稳定性、非侵犯性、不可更改性等优点,虹膜识别已经成为生物特征身份鉴别领域中的研究热点。但虹膜丰富的纹理和复杂的结构给特征提取和编码带来了很大困难。为尽可能地简化特征提取和编码方法,提高虹膜识别效率,提出了一种基于局部信息统计的虹膜分块编码方法。对原始人眼图像进行虹膜定位等预处理操作,得到归一化的虹膜纹理图像;分别根据虹膜局部信息与全局信息、局部信息与局部信息之间的比较关系进行分块编码;计算了不同虹膜代码之间的汉明(Hamming)距离。根据汉明距离给出识别结果。实验证明该方法有效、可行,具有较高的识别率和识别速度。相似文献

9.

一种高效的基于平行边缘的道路识别算法

《光学学报》2015,(7)

为了提高智能车辆道路识别的准确性和效率,设计了一种基于平行边缘特征的道路检测算法。提出了基于边缘连接的道路区域快速粗分割方法;对边缘点局部直线的检测和方向进行编码,利用竖直线实现了极大可能道路区域的估计;基于方向一致性判别准则,实现了极大可能道路区域内平行边缘的识别算法;提出了三个道路识别准则,综合运用平行边缘、道路的区域位置信息,实现了道路特征的准确识别。实验结果表明,本文算法能够快速并准确的提取典型的直线和弯曲道路模型中的道路区域,比以往算法在速度和准确性上都有较大的提升。相似文献

10.

基于局部方向编码的遥感影像平行边缘识别 总被引：2，自引：0，他引：2

王文锋朱书华冯以浩丁伟利《光学学报》2012,32(3):315001-147

针对高分辨率遥感图像中道路、建筑物和水域等的特征识别难题,提出了一种基于边缘局部方向信息的平行边缘自动识别算法。该算法首先定义平行边缘由一系列相互平行的短直线组成;然后提出了交叉点共线约束的8-邻域边界追踪和9-像素滑动窗口内直线检测算法,实现了边缘连续线条局部方向信息编码;最后通过分析连续线条结构及方向编码规律,提出了主元分析及方向一致性判别准则进行平行特征识别。实验结果表明,该算法能够有效提取高分辨率遥感图像中具有最近邻关系的平行直线和曲线特征,平均识别准确率在95%以上,但算法执行速度有待提高。相似文献

11.

Multi-Task Transformer with Adaptive Cross-Entropy Loss for Multi-Dialect Speech Recognition

Zhengjia Dan Yue Zhao Xiaojun Bi Licheng Wu Qiang Ji 《Entropy (Basel, Switzerland)》2022,24(10)

At present, most multi-dialect speech recognition models are based on a hard-parameter-sharing multi-task structure, which makes it difficult to reveal how one task contributes to others. In addition, in order to balance multi-task learning, the weights of the multi-task objective function need to be manually adjusted. This makes multi-task learning very difficult and costly because it requires constantly trying various combinations of weights to determine the optimal task weights. In this paper, we propose a multi-dialect acoustic model that combines soft-parameter-sharing multi-task learning with Transformer, and introduce several auxiliary cross-attentions to enable the auxiliary task (dialect ID recognition) to provide dialect information for the multi-dialect speech recognition task. Furthermore, we use the adaptive cross-entropy loss function as the multi-task objective function, which automatically balances the learning of the multi-task model according to the loss proportion of each task during the training process. Therefore, the optimal weight combination can be found without any manual intervention. Finally, for the two tasks of multi-dialect (including low-resource dialect) speech recognition and dialect ID recognition, the experimental results show that, compared with single-dialect Transformer, single-task multi-dialect Transformer, and multi-task Transformer with hard parameter sharing, our method significantly reduces the average syllable error rate of Tibetan multi-dialect speech recognition and the character error rate of Chinese multi-dialect speech recognition. 相似文献

12.

汉语耳语音孤立字识别研究 总被引：6，自引：0，他引：6

下载免费PDF全文

杨莉莉林玮徐柏龄《应用声学》2006,25(3):187-192

耳语音识别有着广泛的应用前景,是一个全新的课题.但是由于耳语音本身的特点,如声级低、没有基频等,给耳语音识别研究带来了困难.本文根据耳语音信号发音模型,结合耳语音的声学特性,建立了一个汉语耳语音孤立字识别系统.由于耳语音信噪比低,必须对其进行语音增强处理,同时在识别系统中应用声调信息提高了识别性能.实验结果说明了MFCC结合幅值包络可作为汉语耳语音自动识别的特征参数,在小字库内用HMM模型识别得出的识别率为90.4%. 相似文献

13.

Deceptive Chinese speech detection based on sparse decomposition of cepstral feature

FAN Xiaohe ZHAO Heming CHEN Xueqin ZHOU Yan 《声学学报：英文版》2019,(1)

In order to improve the performance of deception detection based on Chinese speech signals, a method of sparse decomposition on spectral feature is proposed. First, the wavelet packet transform is applied to divide the speech signal into multiple sub-bands. Band cepstral features of wavelet packets are obtained by operating the discrete cosine transform on loga?rithmic energy of each sub-band. The cepstral feature is generated by combing Mel Frequency Cepstral Coefficient and Wavelet Packet Band Cepstral Coefficient. Second, K-singular value decomposition algorithm is employed to achieve the training of an over-complete mixture dictionary based on both the truth and deceptive feature sets, and an orthogonal matching pursuit algorithm is used for sparse coding according to the mixture dictionary to get sparse feature.Finally, recognition experiments axe performed with various classified modules. Experimental results show that the sparse decomposition method has better performance comparied with con?ventional dimension reduced methods. The recognition accuracy of the method proposed in this paper is 78.34%, which is higher than methods using other features, improving the recognition ability of deception detection system significantly. 相似文献

14.

Spatially regularized and locality-constrained linear coding for human action recognition

Bin Wang Wen Gai Shouchun Guo Yu Liu Wei Wang Maojun Zhang 《Optical Review》2014,21(3):226-236

To reduce quantization error, preserve the manifold of local features, distinguish the ambiguous features, and model the spatial configuration of features for Bag-of-Features (BoF) model-based human action recognition, a novel feature coding method called spatially regularized and locality-constrained linear coding (SLLC) is proposed. The spatial regularization and locality constraint are involved in the feature coding phase to model the spatial configuration of features and preserve their nonlinear manifold. The action recognition experimental results on benchmark datasets show that SLLC achieves better performance than the state-of-the-art feature coding methods such as soft vector quantization, sparse coding, and locality-constrained linear coding. 相似文献

15.

倒谱参数稀疏分解下的汉语音谎言检测

下载免费PDF全文

樊晓鹤赵鹤鸣陈雪勤周燕《声学学报》2018,43(1):121-128

为了提高汉语语音的谎言检测准确率,提出了一种对信号倒谱参数进行稀疏分解的方法。首先,采用小波包滤波器组对语音信号进行多频带划分,求得子频带对数能量并进行离散余弦变换以提取小波包频带倒谱系数,结合梅尔频率谱系数得到倒谱参数;其次,依据K-奇异值分解方法分别利用说谎和非说谎两种状态下的语音倒谱参数集训练得到过完备混合字典,在此字典上根据正交匹配追踪算法对参数集进行稀疏编码提取稀疏特征;最终进行多种分类模型下的识别实验·实验结果表明,稀疏分解方法相比传统参数降维方法具有更好的优化性能,本文推荐的稀疏谱特征最佳识别率达到78.34%,优于其他特征参数,显著提高了谎言检测识别准确率。相似文献

16.

联合深度编解码网络和时频掩蔽估计的单通道语音增强 总被引：4，自引：1，他引：3

下载免费PDF全文

时文华张雄伟邹霞孙蒙李莉《声学学报》2020,45(3):299-307

提出了一种联合深度编解码神经网络和时频掩蔽估计的语音增强方法。该方法利用深度编解码网络估计时频掩蔽表示,并联合带噪语音的幅度谱学习带噪语音与纯净语音幅度谱之间的非线性映射关系。深度编解码网络采用卷积-反卷积网络结构。在编码端,利用卷积网络的局部感知特性,对带噪语音的时频域结构特征进行建模,提取语音特征,同时抑制背景噪声。在解码端,利用编码端提取到的语音特征逐层恢复局部细节信息并重构语音信号。同时,在编解码端对应层之间引入跳跃连接,以减少由于池化和全连接操作导致的低层细节信息丢失的问题。在TIMIT语音库和不完全匹配噪声集下进行仿真实验,实验结果表明,该方法可以有效抑制噪声,且能较好地恢复出语音细节成分。相似文献

17.

基于改进卷积神经网络算法的语音识别 总被引：1，自引：1，他引：0

下载免费PDF全文

杨洋汪毓铎《应用声学》2018,37(6):940-946

为了解决传统卷积神经网络识别连续语音数据时识别性能较差的问题,提出一种改进的卷积神经网络算法。该方法引入Fisher准则以及L2正则化约束,在反向传播调整参数阶段,既保证参数误差的最小化,又确保分类以后的样本类间分布较分散,类内分布较集中,同时保证网络权值具有合适的数量级以有效缓解过拟合问题;采用一种更符合生物神经元激活特性的新型log激活函数进行卷积神经网络的优化,进一步提高语音识别的正确率。在语音识别库TIMIT以及THCHS30上的实验结果表明,相较于传统卷积神经网络算法,本文提出的改进算法能较好的提高语音识别率,且泛化能力更强。相似文献

18.

一种基于聚类的门控卷积网络语声分离方法*

下载免费PDF全文

罗宇胡维平吴华楠《应用声学》2023,42(5):1099-1105

基于深度聚类的语音分离方法已被证明能有效地解决混合语音中说话人输出标签排列的问题,然而,现有关于聚类进行说话人分离方法,大多数是优化嵌入使每个源的重建误差最小化。本文以时域卷积网络（ConvTasNet）为基础网络,设计了一种改进基于聚类的门控卷积（Gate-conv Cluster）语音分离方法,在时域上通过堆叠的门控卷积网络,实现端到端深度聚类的源分离。该框架将非线性门控激活用于时域卷积网络中,提取语音信号的深层次特征;同时在高维特征空间中聚类对语音信号的特征进行表示和划分,为恢复不同信号源提供了一个长期的说话者表示信息。该框架解决了说话人输出标签排列问题并对语音信号的长期依赖性进行建模。通过华尔街日报数据集进行实验得出,该方法在SDRi（信源失真比）和Si-SNR（尺度不变信源噪声比）指标上分别达到了16.72 dB和16.33 dB的效果。相似文献