期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

郑义蒋刚毅张礼和蔡金海《声学学报》1996,21(6):884-892

本文根据嘶音的主要病理表现为声带的病变、声门波反映了声带的运动状态,提出基于非对称四质量块声带振动模型及声门波分析一合成的嘶音研究方法。将嘶音信号波形与其声门波、声带振动模型联系起来,通过对正常语音和嘶哑病人术前术后语音信号的声门波和声带振动模型特征参数的研究,给出了常态语音和嘶音的声门波周期性、声带两侧参数对称性等参数的对比结果,分析了模型参数与嘶音生理与病理因素之间的关系。实验表明,基于声门波和声带振动模型的嘶音研究可以揭示嘶音的声学特征参数与病理因素的关系,为实现喉科疾病无接触诊断以及嘶音音质的改善提供理论和实验依据。相似文献

2.

喉部疾病的语声模拟方法研究 总被引：1，自引：0，他引：1

下载免费PDF全文

程启明张礼和《应用声学》1989,8(5):22-27

本文提出了声带的三质量块模型,给出了它的数学表达式和等效电路,并应用这种模型对病嗓产生的嘶哑语音进行了模拟分析。这些嘶哑语音包括声带闭合不全、声带小结、声带麻痹、喉炎、声带淀粉样变和声门癌等十六种典型情况。声带模型分析法可以作为喉疾诊断的一种方法。相似文献

3.

基于声门波码本受限的迭代维纳滤波语音增强 总被引：2，自引：0，他引：2

戴明扬周毅徐柏龄《声学学报》2003,28(1):21-27

对基于全极点模型的迭代维纳滤波语音增强方法进行深入研究,指出声门波波形失真和畸变是导致该种方法增强语音听感质量不好的主要原因。为进一步提高迭代维纳滤波增强语音的听感质量,本文从声门波的恢复和增强入手,提出了基于声门波码本受限的迭代维纳滤波语音增强方法:首先对干净训练语音逆滤波,获取其声门波信号;并基于参数模型分析该声门波,提取其特征参数;再根据声门波及其特征参数对声门波训练集进行κ-均值聚类,生成干净的声门波码本,该码本充分反映了干净语音的有效激励声源模式;用该码本对声门波加以规范和约束,使迭代维纳滤波过程中增强语音的激励声门波处干干净语音有效激励声源模式空间内。模拟实验表明,在同样输入条件下,采用声门波码本受限的迭代维纳滤波方法增强的语音比基于全极点模型的迭代维纳滤波方法增强的语音具有更小的失真,提高了增强语音的听感质量。相似文献

4.

非对称黏性空气动力学声带模型及其病理喉声源分类

下载免费PDF全文

陈莉媛薛隆基曾晓亮张莉丽孙宝印张晓俊陶智《声学学报》2020,45(5):759-769

二质量块模型(SH模型)在模拟病理发声时未考虑弹性力对发声系统的影响,也未考虑黏性气流在声门闭合阶段的作用,本文提出一种非对称黏性空气动力学声带模型(ISAC模型)。对非对称振动时的附加弹性系数和弹性形变进行分析,修正质量块所受的碰撞力,随位移量变化调节原始模型中的劲度系数,模拟环甲肌和甲杓肌的张力作用;通过声门倾角变化得到声门处的气流分布,以实现声带壁上的非对称气流压力作用。该模型应用于发声病理诊断,模型仿真和病理喉声源分类识别的实验结果显示,各声门特征参数相对误差不超过1.5%,ISAC模型的加权平均误差低于SH模型,二分类识别率和细分准确率均高于SH模型。相似文献

5.

利用声带动力学模型参数反演方法进行病变嗓音分类

下载免费PDF全文

曾晓亮张晓俊吴迪邵雅婷陶智《声学学报》2018,43(1):91-100

提出一种声带动力学模型参数反演方法,从发声机理角度对声带病变嗓音进行有效区分。依据声带生理组织和伯努利定律构建声带动力学模型,确定模型优化参数向量,耦合声门气流获取模型声门波;利用迭代自适应逆滤波算法获得实际嗓音声门波作为目标声门波;采用遗传优化算法提出通过匹配目标和模型声门波特征参数实现模型参数反演。实验结果表明,表征声门波的各时频域参数匹配相对误差不超过2%;依据反演所获模型参数提出去除声门下压影响的平均归一化缩放系数,克服声带非对称性特征在区分病变嗓音方面的不足,实现病理嗓音的全面有效区分。相似文献

6.

光声门图理论、实验与应用

万明习程敬之燕金元《应用光学》1990,(2)

首次建立了光声门图数学模型。以相乘同态信号模型和对声带振动的研究结果为基础,提出、研究并实现了光声门图信号数字处理。仪器使用结果表明,光声门图技术对喉科学、艺术嗓音、语言学、语音声学及语言信号数字处理等领域具有广泛和重要的应用价值。相似文献

7.

高速摄影成像分析声带振动发声的前后不对称性 总被引：1，自引：0，他引：1

下载免费PDF全文

张宇杨帅黄楠木李琳《声学学报》2017,42(3):341-347

高速摄影成像直接观察到声带振动的前后不对称性。将11个离体狗喉声带进行发声实验,设置3组声门下压分别为10 cm H₂O,20 cm H₂O和30 cm H₂O,利用高速摄像仪和传声器,分别记录不同声门下压的声带振动图像和声信号.对高速摄影成像与同步采集的声信号基频进行定量分析和比较,基频均随声门下压的增大而增加。此外,对两种测量方法得到的基频进行相关分析比较,得到在同一声门下压下两种方法的基频相关系数均大于0.9,表明高速摄影成像得到的基频与声信号的基频具有高度相关性。高速摄影成像能直观地测量声带振动行为,对研究声带振动发声机理提供了有价值的测量手段。高速摄影获得的声带线性结构上25%,50%,75%位置处的振动幅度,显示了声带前后振动不对称且声门下压较低时振动不对称较明显。相似文献

8.

息肉与麻痹喉声源分类中非线性动力学发声系统模型研究

顾玲玲张晓俊黄程韦吴迪周孝进陶智《声学学报》2015,40(6):878-885

提出一种非线性动力学建模仿真发声系统,分类息肉和麻痹喉声源的方法,为声带疾病分类时参数选择提供了依据。首先介绍息肉和麻痹声带力学模型,耦合声门气流产生喉声源,求取喉声源频率(基频)、基频微扰;提出用庞加莱截面,分岔图对模型振动进行非线性分析;改变声带病理参数及声门下压,分析频率参数和混沌参数李雅普诺夫指数的变化。仿真实验结果表明,声带麻痹减小了发声基频,且只在一定压力范围内出现混沌振荡;息肉声带的混沌则分布在整个压力范围内。根据最大李雅普诺夫指数随声门下压变化的差异性分布,有助于识别并分类声带息肉和声带麻痹。相似文献

9.

息肉与麻痹喉声源分类中非线性动力学发声系统模型研究

《声学学报：英文版》2015,(6)

提出一种非线性动力学建模仿真发声系统,分类息肉和麻痹喉声源的方法,为声带疾病分类时参数选择提供了依据。首先介绍息肉和麻痹声带力学模型,耦合声门气流产生喉声源,求取喉声源频率(基频)、基频微扰;提出用庞加莱截面,分岔图对模型振动进行非线性分析;改变声带病理参数及声门下压,分析频率参数和混沌参数李雅普诺夫指数的变化。仿真实验结果表明,声带麻痹减小了发声基频,且只在一定压力范围内出现混沌振荡;息肉声带的混沌则分布在整个压力范围内。根据最大李雅普诺夫指数随声门下压变化的差异性分布,有助于识别并分类声带息肉和声带麻痹。相似文献

10.

现代嗓声科学系列讲座选讲之二——嗓声的产生

下载免费PDF全文

王世谦《应用声学》1989,8(3):43-47,42

现代言语声学理论与实验已大体上说明了正常(normal)语音产生的原理。这指的是,我们对语音产生(除神经外的)的生理过程、声道内(以下在许多词组中声与音二字沿习惯用,具有同意;除声明外,声源均指经喉部声带调制气流转化成声的声源;“声道”包括声带;“声道内”指声门以上,不包括声带)声源和声道滤波的物理过程已基本搞清。但是对噪声在不同声区时的声源情况还了解较少;声源与声门上/下的作用还颇待研究;对于控制嗓声系统各部统相似文献

11.

用于语音识别置信度的发音特征各维度分析和子集优化

孙艳庆张晴晴周瑜赵庆卫颜永红《声学学报》2011,36(3)

提出了基于发音特征单个维度的置信度算法,并基于此对发音特征的各个维度展开分析.分析不仅验证了融合的必要性,同时也展示了发音特征各维度之间以及和隐马尔可夫模型之间的大量冗余.为了去除冗余,提出了用子集选择的方法进行优化.对比所有都用的情况,基于发音特征紧凑子集的语音识别置信度估计,在等错率上取得了12.7%的相对下降.把经过优化后的基于发音特征的语音识别置信度估计和基于隐马尔可夫模型的语音识别置信度进行融合,在保持集内识别率不损失的前提下,显著提高了语法外输入测试的拒识性能:在相同参数下,在开发集和测试集上分别取得了34%和35.3%的显著改善. 相似文献

12.

蒙古语七个元音声频特性计算机分析 总被引：4，自引：0，他引：4

伊·达瓦大川茂村白井克彦《声学学报》1999,24(1):94-97

为了采取语音输入方式来实现蒙古语各类文字文献的自动转换(机器翻译),所选择的语音、语言模型的性能直接影响识别精度。为此对蒙古语各类语言文字的元音进行声学特性的分析和分类不仅对蒙古语语音的识别非常重要,而且对蒙古语的语言学、地方方言学的研究也有很重要的意义.本文介绍对蒙古语哈拉合、察合尔、卫拉特发音元音读音进行声频特性分析的结果以及利用语音模型识别方式验证所测定的不同发音共振峰频率分布情况。相似文献

13.

基于发音特征的汉语普通话语音声学建模 总被引：3，自引：0，他引：3

张晴晴潘接林颜永红《声学学报》2010,35(2):254-260

将表征汉语普通话语音特点的发音特征引入汉语普通话语音识别的声学建模中,根据普通话发音特点,确定了用于区别普通话元音、辅音以及声调信息的9种发音特征,并以此为目标值训练神经网络得到语音信号属于各类发音特征的后验概率,将此概率作为语音识别的输入特征建立声学模型。在汉语普通话非特定人大词表自然口语对话识别系统中进行了实验验证,并与基于频谱特征的声学模型进行了比较,在相同解码速度下,由此方法建立的声学模型汉字错误率相对下降6.8%;将发音特征和频谱特征进行了融合实验,融合以后的识别系统相对基于频谱特征系统的汉字错误率相对下降10.1%。上述结果表明,基于发音特征的声学模型更加有效的实现了对语音特性的表征,通过利用发音特征和频谱特征的互补性,能够进一步实现对语音识别性能的提高。相似文献

14.

一种基于音素模型感知度的发音质量评价方法 总被引：1，自引：1，他引：0

下载免费PDF全文

张茹韩纪庆《声学学报》2013,38(2):201-207

为了提高发音质量判别精度,提出了一种基于音素模型感知度的发音质量评价方法。它采用不同语音样本集合下样本声学特征的对数后验概率期望差作为音素模型对变异发音的感知度,并以此为基础,生成各音素对应的识别模型候选集。实验表明,所提出的方法使语音识别网络候选音素模型集合尺寸减少约95%;在非母语语音数据库上,该方法评分与人工专家打分相关性为0.828,基于该方法得到的声韵母错误检出率为70.8%,声调错误检出率为42.5%,均优于其它方法。相似文献

15.

汉语语音资料库的语音学标记及人工切分 总被引：2，自引：0，他引：2

朱维彬张家《声学学报》1999,(3)

介绍了汉语语音综合资料库的一个子库：CAS－SYL。该数据库包括汉语全部有调音节1267个,共计10个发音人;全部语音数据由人工完成音段切分及语音学标注。针对汉语音节的声韵结构,语音学标注水平被定位在半音节层次上．语音学标注符号系统采用了计算机可读的音标符号系统一汉语SAMPA－X（extendedSAMPhoneticAlphabet）．还介绍了语音学标注策略,音段定位原则,基于语音波形的声门关闭时刻：GCI（GlottalClosedInstant）的声学线索。同时对声韵间的协同发音的声学体现进行了总结。最后对人工切分带来的非稳定性进行了分析．相似文献

16.

男女嗓音源特性的比较研究 总被引：1，自引：0，他引：1

王素品万明习赵守国张锐《声学学报》1999,24(2):128-136

以男女性发声生理差异为基础,采用作者研制的嗓音测试系统无侵入地获取电声门波波形图、反滤波声门波波形图、扰动、声门发声效率等稳态和动态图谱与参数,对男女声带振动和嗓音源特性的差异进行了定量的比较研究,在男女性稳态发声声问波波形图时相参数对比、声门发声效率、浊音起声声带振动动态特性等方面获得了较多新的实验结果。这些结果与男女喉部解剖、发声生理解释相一致,对发声基础研究、言语工程技术和艺术嗓音学等领域有重要意义。相似文献

17.

汉语耳语音孤立字识别研究 总被引：6，自引：0，他引：6

下载免费PDF全文

杨莉莉林玮徐柏龄《应用声学》2006,25(3):187-192

耳语音识别有着广泛的应用前景,是一个全新的课题.但是由于耳语音本身的特点,如声级低、没有基频等,给耳语音识别研究带来了困难.本文根据耳语音信号发音模型,结合耳语音的声学特性,建立了一个汉语耳语音孤立字识别系统.由于耳语音信噪比低,必须对其进行语音增强处理,同时在识别系统中应用声调信息提高了识别性能.实验结果说明了MFCC结合幅值包络可作为汉语耳语音自动识别的特征参数,在小字库内用HMM模型识别得出的识别率为90.4%. 相似文献

18.

利用深度卷积神经网络将耳语转换为正常语音 总被引：4，自引：1，他引：3

下载免费PDF全文

连海伦周健胡雨婷郑文明《声学学报》2020,45(1):137-144

耳语是一种特殊发音方式,将耳语转换为正常语音是提升耳语质量和可懂度的关键方法。为了充分利用语音的频域和时域相关性实现耳语转换,提出了使用深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)将耳语转换为正常语音。它的卷积层用来提取连续帧语音谱包络之间的频域与时域的相关特征,而全连接层用来拟合耳语在卷积层提取的特征和对应正常语音之间的映射关系。实验结果表明与深度神经网络(Deep Neural Networks,DNN)模型相比,DCNN模型获得的转换后语音的梅尔倒谱失真度(Cepstral Distance,CD)降低了4.64%,而语音质量感知评价(Perceptual Evaluation of Speech Quality,PESQ)、短时客观可懂度(Short-Time Objective Intelligibility,STOI)与平均主观意见分(Mean Opinion Score,MOS)分别提高了5.41%,5.77%,9.68%。相似文献

19.

腭裂语音中齿龈塞音的声门代偿现象声学分析与判定

肖彦冯勇强赵庆卫马莲钱靖颜永红《声学学报》2015,40(2):285-293

对齿龈塞音在腭裂语音中的声门塞音代偿现象进行了声学分析,计算频谱分布的多阶统计量—谱矩,并将代偿塞音和正常塞音进行对比。结果显示声门塞音爆破段的第一阶谱矩即频谱质心的频率位置比正常塞音低,因为声门塞音的阻塞部位在声门,导致声道腔体偏长从而共振频率偏低。还观察到声门塞音的第二阶谱矩即标准偏差偏高,说明其谱能量分布比正常塞音更加分散。声门塞音的第三阶谱矩即偏度大多为正值,反映了声门塞音功率谱的非对称性且大头朝向低频区而长尾朝向高频区。采用逻辑回归模型进行样本分类,通过交叉验证选出最优的四阶谱矩作为模型自变量,分类正确率为89.7%。结合塞音爆破时刻自动检测,实现了音节/d相似文献

20.

汉语连续语音识别中一种新的音节间相关识别单元 总被引：1，自引：0，他引：1

李春王作英《声学学报》2003,28(2):187-191

考虑汉语连续语音中的协同发音现象对语音识别性能的提高是非常重要的。针对汉语语音的特点,提出了一种新的在汉语连续语音识别中考虑音节间协同发音现象,对声学模型进行细化的识别单元。然后基于语音学知识对音节间上下文影响进行分类,实现单元间状态参数的共享,降低了模型的复杂程度,保证了模型的可训练度。这种方法和传统方法的最大不同在于:这种方法完全利用语音学知识进行聚类,而传统方法采用数据驱动的聚类方式。识别实验表明,基于语音学分类的音节间相关识别单元对识别性能有明显的改善,系统的首选误识率降低了17%。相似文献