首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
万伊  杨飞然  杨军 《应用声学》2023,42(1):26-33
自动说话人认证系统是一种常用的目标说话人身份认证方案,但它在合成语声的攻击下表现出脆弱性,合成语声检测系统试图解决这一问题。该文提出了一种基于Transformer编码器的合成语声检测方法,利用自注意力机制学习输入特征内部的长期依赖关系。合成语声检测问题并不关注句子的抽象语义特征,用参数量较小的模型也能得到较好的检测性能。该文分别测试了4种常用合成语声检测特征在Transformer编码器上的表现,在国际标准的ASVspoof2019挑战赛的逻辑攻击数据集上,基于线性频率倒谱系数特征和Transformer编码器的系统等错误率与串联检测代价函数分别为3.13%和0.0708,且模型参数量仅为0.082 M,在较小参数量下得到了较好的检测性能。  相似文献   

2.
张志浩  王坤侠 《应用声学》2022,41(5):843-850
语声情感识别对人机交互和情感计算研究领域具有重要作用,各类研究方法层出不穷。近期研究学者应用卷积神经网络和长短期记忆网络方法提取对数Mel谱图空间特征和时间特征,取得了一定的成果。然而不论是卷积神经网络还是长短期记忆网络提取特征时,都会产生特征冗余,导致语声情感识别效果下降。针对这一问题,该文提出了一种基于时空注意力机制的卷积-递归神经网络模型,采用对数Mel谱图和其一阶差分、二阶差分作为特征输入,在使用卷积神经网络提取空间特征和长短期记忆网络提取时间特征时,加入空间注意力和时间注意力机制,从而使上述网络能够更好地提取到对数Mel谱图中有效表征情感的空间特征和时间特征。该模型在Emo-DB和IEMOCAP语声数据集上的加权准确率分别达到86.8%、69.4%,未加权准确率分别达到84.7%、65.5%,优于当前大多数先进方法。  相似文献   

3.
胡航烨  王蔚 《应用声学》2023,42(1):76-83
情感语声合成技术对于人机交互具有重要的意义。面对儿童情感语声合成所需汉语语声数据资源缺乏以及模型训练时长较长等问题,该文提出利用迁移学习实现汉语儿童情感语声合成的方法。首先基于汉语语声数据库训练深度学习模型实现中文语声端到端合成模型,再使用高质量大样本的中文情感语料库完成情感语声合成模型,最后利用自行采样的小样本汉语儿童情感语料对模型进行迁移学习实现低资源的语声合成。客观实验结果中梅尔倒谱失真指标为4.91,主观听辨实验指标分别为3.61和4.17。通过实验对比表明,该文的方法在情感语声合成技术的应用上具有良好的性能表现,并且优于现有先进的低资源情感语声合成方法。  相似文献   

4.
滕文善 《声学学报》1986,11(1):56-60
本文介绍一种声谱分析及显示方法,旨在使用计算机对语声或其他类似信号进行综合研究的环境下,获得象在实验室中使用语图仪和示波器那样方便而且直观的分析手段。本方法利用计算机的图形显示器以人机对话形式进行信号频谱和波形分析。除了显示时间波形外,它可以显示辉度调制、透视和等值线等三种形式的时变功率谱图,对已生成的谱图还可进一步解剖截面和定量分析,允许用户任意指定的作图参数达15种。  相似文献   

5.
徐冬冬 《应用声学》2021,40(2):194-199
具有自注意机制的Transformer网络在语声识别研究领域渐渐得到广泛关注.该文围绕着将位置信息嵌入与语声特征相结合的方向,研究更加适合普通话语声识别模型的位置编码方法.实验结果得出,采用卷积编码的输入表示代替正弦位置编码,可以更好地融合语声特征上下文联系和相对位置信息,获得较好的识别效果.训练的语声识别系统是在Tr...  相似文献   

6.
徐焕章 《声学学报》1988,13(6):416-423
随着数字化技术应用于语声的传送、自动识别、合成及语音研究,人们已经作出了很大努力来解决由于二进制电路元件偶然性的误动所造成的脉冲干扰问题。为了检测和消除这种干扰近年来国外已经做了许多工作,作者曾经采取了一种新的办法来解决这一问题。本文介绍这一新方法并从理论及实践效果比较作者提出的新方法和文献中推荐的方法在消除脉冲干扰影响,计算效率和实施难易程度方面的优劣。多次比较不同方法在计算机上处理同一份实际存在脉冲干扰的数字化语声材料的结果表明:作者提出的方法在消除脉冲干扰方面是成功的,和现有方法相比毫不逊色。新方法在计算效率方面远高于见诸文献的方法,同时也易于用普通硬件来实现。文中附有按新方法编制的FORTRAN程序、相信会有助于从事数字化语声通信的同行顺利消除工作中遇到的这种起源于部份二进制电路误动作的脉冲干扰。  相似文献   

7.
黄载禄  姬丽 《声学学报》1990,15(3):194-201
本文研究了由计算机输入汉语拼音字符,以汉语音素作为声元素,根据语音的韵律规则合成连续汉语语声的方法。该方法数据量少,便于控制语音、语调。实验表明,利用该方法构成汉语文-语转换系统是可行的。  相似文献   

8.
当前社会新型犯罪中电信诈骗案件频发,急需一种能够自动有效区分语声真伪的方法。为进一步增强目前深度学习领域识别合成语声的能力,为保障语声信息安全提供技术上的支持,针对合成语声声学特性上异于真实语声的特点,分析对比合成语声和真实语声的声学特性,设计了一种声学特征均方根角量化语声声强变化程度,结合基频变化率和语声窄带频谱图声学特征进行融合,量化了声学特性差异,聚焦了合成语声中关键声学信息。在神经网络模型中融合输入声学特征,在FoR数据集的验证集上得到了0.6%的等错误率,在测试集上最好结果达到了10.8%的等错误率。该文成功实现了对合成语声的识别,证实了声学特征的有效性和研究方案的可行性,在一定程度上拓宽了合成语声特征设计的研究思路。  相似文献   

9.
吴情  胡维平  陈丹丹  肖婷 《应用声学》2022,41(5):837-842
世界各地抑郁症患者数量不断增多,抑郁症的诊断和治疗面临着医生短缺问题,针对这一问题,提出了CNN和结合注意力机制的BLSTM特征融合模型。从特征选择和网络构架两方面进行了研究,对比了几种经典语声特征,得出梅尔倒谱系数对抑郁分类效果最好,再将梅尔倒谱系数分别送进CNN和结合注意力机制的BLSTM网络实现抑郁分类。在DAIC-WOZ数据集上进行实验,所提出的方法对语声抑郁的分类精确度达到78.06 %,F1分数达到74.68%。 关键词:抑郁识别;语声分析;分类  相似文献   

10.
模型转移是解决近红外光谱仪器间存在差异导致校正模型难以在多台仪器间通用问题的重要方法。利用主成分-马氏距离方法判断样品在不同仪器间的光谱差异性,然后通过吉洪诺夫正则化约束和校正模型参数,提出新的模型转移算法,实现模型在不同近红外光谱仪器上的共享和使用。首先使用一组标准样品光谱,建立主机和子机近红外光谱模型预测误差最小化函数。通过约束主机和子机的模型参数的差异,求出子机的模型参数,从而达到模型转移的目的。该方法应用于药物活性成分和烟叶中总植物碱与总糖的含量分析,结果表明使用15个标准样品时,子机光谱样本的预测均方根误差(RMSEP)分别从8.3 mg、 0.49%和1.91%降到3.9 mg、 0.09%和0.83%。转移后模型预测相对分析误差(RPD)均大于3.0,子机光谱样本的预测效果得到明显提高。该方法理论明确、直观,在实际应用中样品预测准确性较好,为具有标准样品的模型转移方法提供一种新思路。  相似文献   

11.
卞金洪  吴瑞琦  周锋  赵力 《应用声学》2023,42(2):269-275
基于深度神经网络的方法已经在语声增强领域得到了广泛的应用,然而若想取得理想的性能,一般需要规模较大且复杂度较高的模型。因此,在计算资源有限的设备或对延时要求高的环境下容易出现部署困难的问题。为了解决此问题,提出了一种基于深度复卷积递归网络的师生学习语声增强方法。在师生深度复卷积递归网络模型结构中间的复长短时记忆递归模块提取实部和虚部特征流,并分别计算帧级师生距离损失以进行知识转移。同时使用多分辨率频谱损失以进一步提升低复杂度学生模型的性能。实验在公开数据集Voice Bank Demand和DNS Challenge上进行,结果显示所提方法相对于基线学生模型在各项指标上均有明显提升。  相似文献   

12.
刘振坤  杨波  廖霞俐  张淼  杨霞 《光谱实验室》2012,29(5):2630-2633
环糊精键接物具有直盲肠靶点释放性.通过使用羰基二咪唑(CDI)方法高产率的将丁酸键接到环糊精上,制备丁酸-a,β,γ-环糊精酯.对化合物进行了结构鉴定,并与合成该化合物的另一方法进行了对比.  相似文献   

13.
俞振利  程伯中 《声学学报》2000,25(5):455-462
提出基于语音生成模型和发音模型RTLA合成模式实现以共振峰轨迹为目标的语音合成的新方法。该方法采用了基于发音声学原理的反射型传输线模型来实现语音合成器。用于控制合成器的声道面积函数参数由以三个共振峰轨迹为目标的语音生成逆向解获得。该方法不仅可以得到动态过渡和自然度好的合成语音,能够方便灵活地控制或改变语音音色,合成器所需的输入控制参数少,参数更新率低。  相似文献   

14.
一种合成量子点的新方法   总被引:1,自引:0,他引:1  
路明哲  赵智虹 《发光学报》1993,14(3):299-302
由于在光计算、光学信息处理等方词的潜在应用前景,半导体材料的光学非线性性质始终受到广泛关注。量子尺寸效应对半导体性能的影响引起了人们极大的兴趣。除了量子阱和超晶格结构外,在半导体的超微粒方面也进行了大量的研究。有关超微粒材料的四波混频,吸收谱带兰移、载流子弛豫及光学双稳态的实验结果已有报道。  相似文献   

15.
16.
在双核模型基础上,考虑了熔合与准裂变的竞争,通过数值法求解主方程,计算了50Ti,58Fe+208Pb,209Bi这4个反应系统通过冷熔合反应合成超重元素的激发函数,得到了与实验比较符合的结果.计算了不同入射能量时各角动量分波对熔合概率和超重核存活概率的影响以及对蒸发剩余截面的贡献.这些结果对进一步理解超重核的合成机制有重要意义. 关键词: 超重元素 双核模型 熔合反应 蒸发剩余截面  相似文献   

17.
喉部疾病的语声模拟方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
本文提出了声带的三质量块模型,给出了它的数学表达式和等效电路,并应用这种模型对病嗓产生的嘶哑语音进行了模拟分析。这些嘶哑语音包括声带闭合不全、声带小结、声带麻痹、喉炎、声带淀粉样变和声门癌等十六种典型情况。声带模型分析法可以作为喉疾诊断的一种方法。  相似文献   

18.
罗宇  胡维平  吴华楠 《应用声学》2023,42(5):1099-1105
基于深度聚类的语音分离方法已被证明能有效地解决混合语音中说话人输出标签排列的问题,然而,现有关于聚类进行说话人分离方法,大多数是优化嵌入使每个源的重建误差最小化。本文以时域卷积网络(ConvTasNet)为基础网络,设计了一种改进基于聚类的门控卷积(Gate-conv Cluster)语音分离方法,在时域上通过堆叠的门控卷积网络,实现端到端深度聚类的源分离。该框架将非线性门控激活用于时域卷积网络中,提取语音信号的深层次特征;同时在高维特征空间中聚类对语音信号的特征进行表示和划分,为恢复不同信号源提供了一个长期的说话者表示信息。该框架解决了说话人输出标签排列问题并对语音信号的长期依赖性进行建模。通过华尔街日报数据集进行实验得出,该方法在SDRi(信源失真比)和Si-SNR(尺度不变信源噪声比)指标上分别达到了16.72 dB和16.33 dB的效果。  相似文献   

19.
以季戊四醇为原料,先合成四对甲苯磺酸季戊四醇酯,然后四对甲苯磺酸季戊四醇酯与硫氰酸钾在N,N-二甲基甲酰胺中加热反应,生成了2,3,7,8-四硫螺[4,4]壬烷,2,3,7,8-四硫螺[4,4]壬烷经四氢化铝锂还原、酸化,得到季戊四硫醇.产物结构经熔点、红外光谱、质子核磁共振谱、拉曼光谱鉴定.  相似文献   

20.
近红外光谱是一种快速、无损的定量分析工具。为了提高黄酒关键参数的检测水平,采用近红外光谱法进行定量分析。检测过程中,由于受环境波动、仪器老化、原料变化等因素的影响,基于旧样品所建的模型的精确度逐渐下降。为保持模型的预测精度,引入递归偏最小二乘(recursive partial least square, RPLS)对模型进行更新。以往此方法多使用全谱信息扩充建模集并进行递归计算,光谱的变量多,且包含环境影响等干扰信息,更新计算量大,且精度的提升效果不明显。考虑到黄酒生产过程中特征波段变化小的特性,提出了一种基于特征波段的黄酒近红外光谱检测模型递归更新方法。先采用相关系数法提取特征波段建立低维模型,在采集到新样品理化值后,再利用其特征波段光谱信息,使用递归偏最小二乘对低维模型进行更新。此方法被应用于黄酒总酸的近红外检测模型更新。模型评价使用相关系数r,预测标准偏差RMSEP和预测相对分析误差RPD三个指标。结果表明:采用本方法后,模型稳定性显著优化,计算效率有所提升,模型预测效果良好,三个评价指标分别达到0.965 7,0.184 3和3.736 2,较全谱PRLS时分别提高3%,24%和31%,在实际应用中有一定的参考价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号