共查询到20条相似文献,搜索用时 20 毫秒
1.
基于声带振动模型和声门波的嘶音研究 总被引:1,自引:0,他引:1
本文根据嘶音的主要病理表现为声带的病变、声门波反映了声带的运动状态,提出基于非对称四质量块声带振动模型及声门波分析一合成的嘶音研究方法。将嘶音信号波形与其声门波、声带振动模型联系起来,通过对正常语音和嘶哑病人术前术后语音信号的声门波和声带振动模型特征参数的研究,给出了常态语音和嘶音的声门波周期性、声带两侧参数对称性等参数的对比结果,分析了模型参数与嘶音生理与病理因素之间的关系。实验表明,基于声门波和声带振动模型的嘶音研究可以揭示嘶音的声学特征参数与病理因素的关系,为实现喉科疾病无接触诊断以及嘶音音质的改善提供理论和实验依据。 相似文献
2.
3.
基于声门波码本受限的迭代维纳滤波语音增强 总被引:2,自引:0,他引:2
对基于全极点模型的迭代维纳滤波语音增强方法进行深入研究,指出声门波波形失真和畸变是导致该种方法增强语音听感质量不好的主要原因。为进一步提高迭代维纳滤波增强语音的听感质量,本文从声门波的恢复和增强入手,提出了基于声门波码本受限的迭代维纳滤波语音增强方法:首先对干净训练语音逆滤波,获取其声门波信号;并基于参数模型分析该声门波,提取其特征参数;再根据声门波及其特征参数对声门波训练集进行κ-均值聚类,生成干净的声门波码本,该码本充分反映了干净语音的有效激励声源模式;用该码本对声门波加以规范和约束,使迭代维纳滤波过程中增强语音的激励声门波处干干净语音有效激励声源模式空间内。模拟实验表明,在同样输入条件下,采用声门波码本受限的迭代维纳滤波方法增强的语音比基于全极点模型的迭代维纳滤波方法增强的语音具有更小的失真,提高了增强语音的听感质量。 相似文献
4.
二质量块模型(SH模型)在模拟病理发声时未考虑弹性力对发声系统的影响,也未考虑黏性气流在声门闭合阶段的作用,本文提出一种非对称黏性空气动力学声带模型(ISAC模型)。对非对称振动时的附加弹性系数和弹性形变进行分析,修正质量块所受的碰撞力,随位移量变化调节原始模型中的劲度系数,模拟环甲肌和甲杓肌的张力作用;通过声门倾角变化得到声门处的气流分布,以实现声带壁上的非对称气流压力作用。该模型应用于发声病理诊断,模型仿真和病理喉声源分类识别的实验结果显示,各声门特征参数相对误差不超过1.5%,ISAC模型的加权平均误差低于SH模型,二分类识别率和细分准确率均高于SH模型。 相似文献
5.
提出一种声带动力学模型参数反演方法,从发声机理角度对声带病变嗓音进行有效区分。依据声带生理组织和伯努利定律构建声带动力学模型,确定模型优化参数向量,耦合声门气流获取模型声门波;利用迭代自适应逆滤波算法获得实际嗓音声门波作为目标声门波;采用遗传优化算法提出通过匹配目标和模型声门波特征参数实现模型参数反演。实验结果表明,表征声门波的各时频域参数匹配相对误差不超过2%;依据反演所获模型参数提出去除声门下压影响的平均归一化缩放系数,克服声带非对称性特征在区分病变嗓音方面的不足,实现病理嗓音的全面有效区分。 相似文献
6.
7.
高速摄影成像直接观察到声带振动的前后不对称性。将11个离体狗喉声带进行发声实验,设置3组声门下压分别为10 cm H2O,20 cm H2O和30 cm H2O,利用高速摄像仪和传声器,分别记录不同声门下压的声带振动图像和声信号.对高速摄影成像与同步采集的声信号基频进行定量分析和比较,基频均随声门下压的增大而增加。此外,对两种测量方法得到的基频进行相关分析比较,得到在同一声门下压下两种方法的基频相关系数均大于0.9,表明高速摄影成像得到的基频与声信号的基频具有高度相关性。高速摄影成像能直观地测量声带振动行为,对研究声带振动发声机理提供了有价值的测量手段。高速摄影获得的声带线性结构上25%,50%,75%位置处的振动幅度,显示了声带前后振动不对称且声门下压较低时振动不对称较明显。 相似文献
8.
提出一种非线性动力学建模仿真发声系统,分类息肉和麻痹喉声源的方法,为声带疾病分类时参数选择提供了依据。首先介绍息肉和麻痹声带力学模型,耦合声门气流产生喉声源,求取喉声源频率(基频)、基频微扰;提出用庞加莱截面,分岔图对模型振动进行非线性分析;改变声带病理参数及声门下压,分析频率参数和混沌参数李雅普诺夫指数的变化。仿真实验结果表明,声带麻痹减小了发声基频,且只在一定压力范围内出现混沌振荡;息肉声带的混沌则分布在整个压力范围内。根据最大李雅普诺夫指数随声门下压变化的差异性分布,有助于识别并分类声带息肉和声带麻痹。 相似文献
9.
《声学学报:英文版》2015,(6)
提出一种非线性动力学建模仿真发声系统,分类息肉和麻痹喉声源的方法,为声带疾病分类时参数选择提供了依据。首先介绍息肉和麻痹声带力学模型,耦合声门气流产生喉声源,求取喉声源频率(基频)、基频微扰;提出用庞加莱截面,分岔图对模型振动进行非线性分析;改变声带病理参数及声门下压,分析频率参数和混沌参数李雅普诺夫指数的变化。仿真实验结果表明,声带麻痹减小了发声基频,且只在一定压力范围内出现混沌振荡;息肉声带的混沌则分布在整个压力范围内。根据最大李雅普诺夫指数随声门下压变化的差异性分布,有助于识别并分类声带息肉和声带麻痹。 相似文献
10.
现代言语声学理论与实验已大体上说明了正常(normal)语音产生的原理。这指的是,我们对语音产生(除神经外的)的生理过程、声道内(以下在许多词组中声与音二字沿习惯用,具有同意;除声明外,声源均指经喉部声带调制气流转化成声的声源;“声道”包括声带;“声道内”指声门以上,不包括声带)声源和声道滤波的物理过程已基本搞清。但是对噪声在不同声区时的声源情况还了解较少;声源与声门上/下的作用还颇待研究;对于控制嗓声系统各部统 相似文献
11.
提出了基于发音特征单个维度的置信度算法,并基于此对发音特征的各个维度展开分析.分析不仅验证了融合的必要性,同时也展示了发音特征各维度之间以及和隐马尔可夫模型之间的大量冗余.为了去除冗余,提出了用子集选择的方法进行优化.对比所有都用的情况,基于发音特征紧凑子集的语音识别置信度估计,在等错率上取得了12.7%的相对下降.把经过优化后的基于发音特征的语音识别置信度估计和基于隐马尔可夫模型的语音识别置信度进行融合,在保持集内识别率不损失的前提下,显著提高了语法外输入测试的拒识性能:在相同参数下,在开发集和测试集上分别取得了34%和35.3%的显著改善. 相似文献
12.
13.
基于发音特征的汉语普通话语音声学建模 总被引:3,自引:0,他引:3
将表征汉语普通话语音特点的发音特征引入汉语普通话语音识别的声学建模中,根据普通话发音特点,确定了用于区别普通话元音、辅音以及声调信息的9种发音特征,并以此为目标值训练神经网络得到语音信号属于各类发音特征的后验概率,将此概率作为语音识别的输入特征建立声学模型。在汉语普通话非特定人大词表自然口语对话识别系统中进行了实验验证,并与基于频谱特征的声学模型进行了比较,在相同解码速度下,由此方法建立的声学模型汉字错误率相对下降6.8%;将发音特征和频谱特征进行了融合实验,融合以后的识别系统相对基于频谱特征系统的汉字错误率相对下降10.1%。上述结果表明,基于发音特征的声学模型更加有效的实现了对语音特性的表征,通过利用发音特征和频谱特征的互补性,能够进一步实现对语音识别性能的提高。 相似文献
14.
为了提高发音质量判别精度,提出了一种基于音素模型感知度的发音质量评价方法。它采用不同语音样本集合下样本声学特征的对数后验概率期望差作为音素模型对变异发音的感知度,并以此为基础,生成各音素对应的识别模型候选集。实验表明,所提出的方法使语音识别网络候选音素模型集合尺寸减少约95%;在非母语语音数据库上,该方法评分与人工专家打分相关性为0.828,基于该方法得到的声韵母错误检出率为70.8%,声调错误检出率为42.5%,均优于其它方法。 相似文献
15.
汉语语音资料库的语音学标记及人工切分 总被引:2,自引:0,他引:2
介绍了汉语语音综合资料库的一个子库:CAS-SYL。该数据库包括汉语全部有调音节1267个,共计10个发音人;全部语音数据由人工完成音段切分及语音学标注。针对汉语音节的声韵结构,语音学标注水平被定位在半音节层次上.语音学标注符号系统采用了计算机可读的音标符号系统一汉语SAMPA-X(extendedSAMPhoneticAlphabet).还介绍了语音学标注策略,音段定位原则,基于语音波形的声门关闭时刻:GCI(GlottalClosedInstant)的声学线索。同时对声韵间的协同发音的声学体现进行了总结。最后对人工切分带来的非稳定性进行了分析. 相似文献
16.
17.
18.
耳语是一种特殊发音方式,将耳语转换为正常语音是提升耳语质量和可懂度的关键方法。为了充分利用语音的频域和时域相关性实现耳语转换,提出了使用深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)将耳语转换为正常语音。它的卷积层用来提取连续帧语音谱包络之间的频域与时域的相关特征,而全连接层用来拟合耳语在卷积层提取的特征和对应正常语音之间的映射关系。实验结果表明与深度神经网络(Deep Neural Networks,DNN)模型相比,DCNN模型获得的转换后语音的梅尔倒谱失真度(Cepstral Distance,CD)降低了4.64%,而语音质量感知评价(Perceptual Evaluation of Speech Quality,PESQ)、短时客观可懂度(Short-Time Objective Intelligibility,STOI)与平均主观意见分(Mean Opinion Score,MOS)分别提高了5.41%,5.77%,9.68%。 相似文献
19.
对齿龈塞音在腭裂语音中的声门塞音代偿现象进行了声学分析,计算频谱分布的多阶统计量—谱矩,并将代偿塞音和正常塞音进行对比。结果显示声门塞音爆破段的第一阶谱矩即频谱质心的频率位置比正常塞音低,因为声门塞音的阻塞部位在声门,导致声道腔体偏长从而共振频率偏低。还观察到声门塞音的第二阶谱矩即标准偏差偏高,说明其谱能量分布比正常塞音更加分散。声门塞音的第三阶谱矩即偏度大多为正值,反映了声门塞音功率谱的非对称性且大头朝向低频区而长尾朝向高频区。采用逻辑回归模型进行样本分类,通过交叉验证选出最优的四阶谱矩作为模型自变量,分类正确率为89.7%。结合塞音爆破时刻自动检测,实现了音节/d相似文献
20.
汉语连续语音识别中一种新的音节间相关识别单元 总被引:1,自引:0,他引:1
考虑汉语连续语音中的协同发音现象对语音识别性能的提高是非常重要的。针对汉语语音的特点,提出了一种新的在汉语连续语音识别中考虑音节间协同发音现象,对声学模型进行细化的识别单元。然后基于语音学知识对音节间上下文影响进行分类,实现单元间状态参数的共享,降低了模型的复杂程度,保证了模型的可训练度。这种方法和传统方法的最大不同在于:这种方法完全利用语音学知识进行聚类,而传统方法采用数据驱动的聚类方式。识别实验表明,基于语音学分类的音节间相关识别单元对识别性能有明显的改善,系统的首选误识率降低了17%。 相似文献