共查询到20条相似文献,搜索用时 46 毫秒
1.
2.
3.
对给定的英语音素、单词和语句进行了采集并完成预处理. 分别应用互信息法和Cao 氏法确定了实际采集的语音信号序列的延迟时间和嵌入维数, 以完成语音序列的相空间重构. 通过计算实际采集的语音信号序列的最大Lyapunov指数, 完成了语音信号的混沌特性识别, 判定其具有混沌特性. 引入Volterra级数, 提出了一种具有显式结构的语音信号非线性预测模型. 为克服最小均方误差算法在Volterra模型系数更新时固有的缺点, 在最小二乘法基础上, 应用基于后验误差假设的可变收敛因子技术, 构建了一种基于Davidon-Fletcher-Powell算法的二阶Volterra 模型(DFPSOVF), 并将其应用于具有混沌特性的语音信号序列预测. 仿真结果表明: DFPSOVF非线性预测模型对于单帧和多帧语音信号均具有更好的预测精度, 优于线性预测模型, 并且能够很好地反映语音序列变化的趋势和规律, 完全可以满足语音预测的要求; 可以根据语音信号序列的嵌入维数选取预测模型的记忆长度. 所提出模型可以为语音信号重构和压缩编码开辟一条新途径, 以改善语音信号处理方法的复杂度和处理效果. 相似文献
4.
5.
6.
本文介绍了一种在IBM-XT机上绘制语音信号(自然语音或合成语音)波形图的方法。这一方法可以使语音波形在屏幕上连续卷动或稳定显示某一特定帧,并给出波形上任意一点的X、y坐标,使语音工作者可以形象、直观地了解一段语音的全貌或某一局部的细节,对深入研究语音有很大帮助。文章给出了一些语音信号的波形图。 相似文献
7.
8.
提出一种面向自定义语音唤醒的单通道语音增强方法。该方法预先将关键词音素信息存入文本编码矩阵,并在常规语音增强模型基础上添加一个基于注意力机制的音素偏置模块。该模块利用语音增强模型中间特征从文本编码矩阵中获取当前帧的音素信息,并将其融入语音增强模型的后续计算中,从而提升语音增强模型对关键词相关音素的增强效果。在不同噪声环境下的实验结果表明,该方法可以更有效地抑制关键词部分噪声。同时所提出方法对比常规语音增强方法与其他文本相关语音增强方法,在自定义语音唤醒性能上可以分别获得14.3%和7.6%的相对提升。 相似文献
9.
10.
汉语连续语音识别中一种新的音节间相关识别单元 总被引:1,自引:0,他引:1
考虑汉语连续语音中的协同发音现象对语音识别性能的提高是非常重要的。针对汉语语音的特点,提出了一种新的在汉语连续语音识别中考虑音节间协同发音现象,对声学模型进行细化的识别单元。然后基于语音学知识对音节间上下文影响进行分类,实现单元间状态参数的共享,降低了模型的复杂程度,保证了模型的可训练度。这种方法和传统方法的最大不同在于:这种方法完全利用语音学知识进行聚类,而传统方法采用数据驱动的聚类方式。识别实验表明,基于语音学分类的音节间相关识别单元对识别性能有明显的改善,系统的首选误识率降低了17%。 相似文献
11.
提出了一种基于一致性自监督学习的鲁棒自动语音识别方法。该方法通过使用语音信号仿真技术,模拟一条语音在不同声学场景下的副本;在通过自监督学习方式学习语音表征的同时,极大化一条语音在不同声学环境下对应语音表征的相似性,从而获取到与环境干扰无关的语音表征方式,提高下游语音识别模型的性能。在远讲数据集CHiME-4和会议数据集AMI上的实验表明,所提的一致性自监督学习算法能够取得相比已有的wav2vec2.0自监督学习基线算法30%以上的识别词错误率下降。这表明,所提方法是一种获取噪声无关语音表征、提升鲁棒语音识别性能的有效方法。 相似文献
12.
在低信噪比和突发背景噪声条件下,已有的深度学习网络模型在单通道语音增强方面效果并不理想,而人类可以利用语音的长时相关性对不同的语音信号形成综合感知。因此刻画语音的长时依赖关系有助于改进低信噪比和突发背景噪声下的增强性能。受该特性的启发,提出一种融合多头注意力机制和U-net深度网络的增强模型TU-net,实现基于时域的端到端单通道语音增强。TU-net网络模型采用U-net网络的编解码层对带噪语音信号进行多尺度特征融合,并利用多头注意力机制实现双路径Transformer,用于计算语音掩模,更好地建模长时相关性。该模型在时域、时频域和感知域计算损失函数,并通过加权组合损失函数指导训练。仿真实验结果表明,TU-net在低信噪比和突发背景噪声条件下增强语音信号的语音质量感知评估(PESQ)、短时客观可懂度(STOI)和信噪比增益等多个评价指标都优于同类的单通道增强网络模型,且保持相对较少的网络模型参数。 相似文献
13.
14.
本文针对语音信号稀疏表示及压缩感知问题,将听觉感知引入稀疏系数筛选过程,用掩蔽阈值筛选重要系数,以得到更符合听觉感受的语音稀疏表示。通过对一帧浊音信号分别采用掩蔽阈值和能量阈值方法进行系数筛选对比实验,结果表明掩蔽阈值法具有更好的稀疏表示效果。为验证听觉感知对语音压缩感知性能的影响,与能量阈值法对照对测试语音进行压缩感知观测和重构,通过压缩比、信噪比、主观平均意见分等主客观指标评价其性能,结果表明,掩蔽阈值法可有效地提高压缩比且保证重构语音具有较高的主观听觉质量。 相似文献
15.
对汉语普通话新闻语篇朗读语料的分析表明,被置于语段中的小句,作为重音标志的音高和音长将发生变化。语段小句与孤立小句相比,音高变化集中表现在小句调核上,是高音点的整体降低,而不同类别的重音,音高降低的程度不同。在语段中,非语段重音的小句重音呈现出较明显的弱化,即表现为音高降低和音节时长缩短。在多个小句构成的语段中,说话人可以利用各小句重音的强弱变化来实现对语段的韵律调节,进而实现对语篇韵律的整体控制和顺畅的语义表达。语段重音及小句重音的研究将实验语音学引进了播音语言教学,也有助于汉语合成语音的韵律控制。 相似文献
16.
提出了一种采用感知语谱结构边界参数(PSSB)的语音端点检测算法,用于在低信噪比环境下的语音信号预处理。在对含噪语音进行基于听觉感知特性的语音增强之后,针对语音信号的连续分布特性与残留噪声的随机分布特性之间的不同点,对增强后语音的时-频语谱进行二维增强,从而进一步突出连续分布的纯净语音的语谱结构。通过对增强后语音语谱结构的二维边界检测,提出PSSB参数,并用于端点检测。实验结果表明,在白噪声-10 dB到10 dB的各种信噪比环境下,采用PSSB参数的端点检测算法,相对于其它端点检测算法,更有效地检测出语音的端点。在-10 dB的极低信噪比下,提出的方法仍然有75.2%的正确率。采用PSSB参数的端点检测算法,更适合于低信噪比白噪声环境下的语音端点检测。 相似文献
17.
不同语音帧的激励信号复杂性不同,所以采用相同个数的脉冲作为激励信号并不合理。针对这一点,提出了个数可变脉冲线性预测编码算法。该算法不固定脉冲个数,而是根据激励信号的复杂度而确定。个数可变脉冲线性预测编码的目的是用尽量少的脉冲数来满足误差约束,这可以看作一个稀疏表示问题。进而,给出了具体的脉冲搜索算法以及个数可变脉冲线性预测编码方案。实验结果发现增加脉冲可以减少误差,但是前面搜索出的脉冲对误差的贡献要大于后搜索出的脉冲。与G.723.1和G.729比较发现,个数可变脉冲线性预测编码可以在约4.2 kbps的编码速率下获得优于G.723.1的合成语音,但略差于G.729。本文算法的编码时间较长,是下一步需要解决的问题。 相似文献
18.
研究用短波语音通话携带的飞机舱室噪声对飞机类型进行识别的方法。分析了飞机舱室内噪声在短波信道和语音通话干扰下的物理特性,定义了估计语音段的飞机噪声信噪比的公式,提出了自适应的抑制语音增强飞机噪声的模型,通过CZT变换分别提取目标信号不同频段的功率谱密度级特征,并设计了用支持向量机进行分类识别的二叉分类树。对8类现场实测数据进行实验:增强后语音段的平均信噪比提高约22 dB,分类树对语音应答间隔噪声、语音段信号和增强后的信号的平均识别率分别为82.79%,15.25%,50.18%。实验表明:应答间隔噪声可用于飞机类型识别;语音抑制算法带来较大的信噪比和识别率增益,证明语音段蕴含有助于飞机类型识别的重要信息,可为后续的研究奠定基础。 相似文献
19.
为满足某控制系统实时记录语音和播放录音的实际需求,基于语音压缩编码技术,以现场可编程门阵列(FPGA)为控制核心,设计实现了16个通道采集语音信号,进行ADPCM编码,将语音文件以WAVE格式存储,集监听、播放指定语音通道及任意时间段录音于一体的紧凑型PCI(CPCI)板卡。该板卡区别于传统语音卡的创新点在于运用语音叠加技术使板卡具有混音功能,能够将不同通道语音混音、记录存储,同时具有压缩比可自由选择的功能。详细介绍了板卡的组成机构、工作原理、硬件设计和软件设计。最后进行实验测试,板卡语音存储、语音回放等各项功能正常,音质良好,验证了设计方案的可行性与实用性。 相似文献