期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

高长丰程高峰张鹏远《声学学报》2023,(3):578-587

提出了一种基于一致性自监督学习的鲁棒自动语音识别方法。该方法通过使用语音信号仿真技术,模拟一条语音在不同声学场景下的副本;在通过自监督学习方式学习语音表征的同时,极大化一条语音在不同声学环境下对应语音表征的相似性,从而获取到与环境干扰无关的语音表征方式,提高下游语音识别模型的性能。在远讲数据集CHiME-4和会议数据集AMI上的实验表明,所提的一致性自监督学习算法能够取得相比已有的wav2vec2.0自监督学习基线算法30%以上的识别词错误率下降。这表明,所提方法是一种获取噪声无关语音表征、提升鲁棒语音识别性能的有效方法。相似文献

2.

聚碳酸亚环己酯及其制备技术研究进展

下载免费PDF全文

牛乐朋陈一帆张鹏远梁政勇《化学通报》2023,86(8):968-976,967

二氧化碳既(CO₂)是令人头疼的温室气体,更是有价值的碳资源,因此二氧化碳的固定和利用具有重要的理论与现实意义。以二氧化碳和环氧环己烷为原料合成的聚碳酸亚环己酯(PCHC)是一种新型的脂环类可生物降解聚酯材料,相比传统的二氧化碳-环氧烷聚合物,其机械和耐热性能更为优良,有望拓展脂肪类聚碳酸酯的使用范围。本文对PCHC的基本性能及潜在应用领域、合成工艺路线以及交替共聚反应催化剂的发展进行了综述,以期为优质PCHC材料的高效制备提供参考。相似文献

3.

融合多尺度特征的短时音频场景识别方法EI北大核心CSCD

下载免费PDF全文

王猛张鹏远《声学学报》2022,47(6):717-726

为解决短时音频场景识别任务中识别性能差的问题,提出一种融合多尺度特征的音频场景识别方法。首先将双声道音频中左右声道的和差作为输入,并使用长时帧长进行分帧处理,以保证提取出的帧级特征中包含足够多的音频信息。然后将特征逐帧输入到融合多尺度特征的一维卷积神经网络中,以充分利用网络中不同尺度的浅层、中层和深层嵌入特征。最后综合所有帧级软标签得到短时音频的场景分类结果。实验结果表明,该方法在国际声学场景和事件检测与分类挑战赛(DCASE) 2021短时音频场景数据集上的准确率为79.02%,实现了该数据集上目前为止的最优性能。相似文献

4.

静音掩蔽和频域分段的音频指纹检索算法

下载免费PDF全文

陈树丽张学帅张鹏远刘建《声学学报》2022,47(4):531-540

为解决背景音及噪音等条件下音频检索识别率低的问题,提出静音掩蔽和频域分段的音频指纹检索算法。首先采用端点检测技术进行语音预处理,将有效语音帧重新组合并利用相邻子带能量差对其提取指纹特征,可有效解决静音帧指纹特征不鲁棒的问题。然后在检索匹配时根据不同音频信号在频域范围内的分布特点,对音频指纹在不同频率区间进行分段和加权,以更精确地计算模板和待检音频之间的相似度。实验表明,与Philips基线算法相比,所提算法在检索速度上提升了一倍,在受背景音等干扰的数据集上,平均准确率与召回率分别绝对提升17.94%和4.66%;与最新Philips算法相比,平均准确率与召回率分别绝对提升13.68%和2.45%。相似文献

5.

连接时序分类准则声学建模方法优化 总被引：2，自引：1，他引：1

下载免费PDF全文

王智超张鹏远潘接林颜永红《声学学报》2018,43(6):984-990

对基于连接时序分类准则(connectionist temporal classification,CTC)的端到端声学建模方法进行研究和优化。研究分析了不同声学特征、建模单元以及神经网络结构对CTC声学模型性能的影响,针对CTC模型中blank符号共享导致的建模缺陷提出了建模单元相关的非共享blank方法进行改进,并引入融合建模单元关联信息的模型初始化方法进一步提高CTC模型的性能。在300小时标准英文数据集Switchboard的实验结果显示,结合非共享blank、时延神经网络以及融合建模单元关联信息的初始化方法,CTC声学模型相对于基线系统在词错误率上取得绝对1.1%的下降,同时在训练速度上取得3.3倍的提高,实验结果证明本文针对端到端声学建模提出的优化方法是有效的。相似文献

6.

双路注意力循环网络的轻量化语音分离

下载免费PDF全文

杨弋胡琦张鹏远《声学学报》2023,(5):1060-1069

提出了双路注意力循环网络的轻量化语音分离方法。首先,该方法使用基于“双路注意力机制”和“双路循环网络”的可选择分支结构对语音信号进行建模,从而提取深层特征信息并降低模型的参数量。其次,引入子带处理技术,从而降低模型的计算量。在LibriCSS数据集上的实验结果表明,该方法取得的平均词错误率为8.6%,且参数量和计算量分别仅为0.15 MiB和15.2 G/6s,与当前主流方法相比,分别减小了3.3～391.3倍和1.1～3.2倍。这表明,所提方法在取得高语音分离性能的同时,能有效地降低模型的参数量和计算量。相似文献

7.

多声学场景下端到端语音识别声学编码器的自适应

下载免费PDF全文

刘育坤郑霖黎塔张鹏远《声学学报》2023,(6):1260-1268

提出了一种面向多样化声学场景自适应设计声学编码器的方法 (SAE)。该方法通过学习不同声学场景下语音中包含的声学特征的差异,适应性地为端到端语音识别任务设计出合适的声学编码器。通过引入神经网络结构搜索技术,提高了编码器设计的有效性,从而改善了下游识别任务的性能。在Aishell-1、HKUST和SWBD三个常用的中英文数据集上的实验表明,通过所提场景自适应设计方法得到的声学编码器相比已有的声学编码器可以获得平均5%以上的错误率改善。所提方法是一种深入分析特定场景下语音特征、针对性设计高性能声学编码器的有效方法。相似文献

8.

使用变分自编码器的自回归多说话人中文语音合成

下载免费PDF全文

蒿晓阳张鹏远《声学学报》2022,47(3):405-416

常见的多说话人语音合成有参数自适应及添加说话人标签两种方法。参数自适应方法获得的模型仅支持合成经过自适应的说话人的语音,模型不够鲁棒。传统的添加说话人标签的方法需要有监督地获得语音的说话人信息,并没有从语音信号本身无监督地学习说话人标签。为解决这些问题,提出了一种基于变分自编码器的自回归多说话人语音合成方法。方法首先利用变分自编码器无监督地学习说话人的信息并将其隐式编码为说话人标签,之后与文本的语言学特征送入到一个自回归声学参数预测网络中。此外,为了抑制多说话人语音数据引起的基频预测过拟合问题,声学参数网络采用了基频多任务学习的方法。预实验表明,自回归结构的加入降低了频谱误差1.018 dB,基频多任务学习降低了基频均方根误差6.861 Hz。在后续的多说话人对比实验中,提出的方法在3个多说话人实验的平均主观意见分(MOS)打分上分别达到3.71,3.55,3.15,拼音错误率分别为6.71%,7.54%,9.87%,提升了多说话人语音合成的音质。相似文献

9.

波达方向初始化空间混合概率模型的语音增强

下载免费PDF全文

石倩陈航艇张鹏远《声学学报》2022,47(1):139-150

提出了波达方向初始化空间混合概率模型的语音增强算法.通过声源定位估计出声源波达方向,再根据此计算相对传递函数,进而构造空间协方差矩阵来初始化空间混合概率模型.论证了相对传递函数在作为模型参数中语音协方差矩阵的主特征向量时,空间混合概率模型对应的概率分布可达到最大值,进而使期望最大化算法在迭代时更易收敛,以得到期望的掩蔽... 相似文献

10.

汉语自然口语中声调识别的研究 总被引：2，自引：0，他引：2

下载免费PDF全文

刘赵杰邵健张鹏远赵庆卫颜永红冯稷《物理学报》2007,56(12):7064-7069

汉语是一种带声调的语言，声调信息在汉语识别中具有非常重要的意义.传统的声调识别一般只研究朗读式语音中相对标准的声调，很少对声调调型比较复杂的自然口语进行专门的处理.针对汉语自然口语的特点，在声调建模单元的选择时提出了真实上下文的模型.同时，为了对声调模式进行精细建模，采用了一种层次聚类的方法来获得更多的声调模式.实验结果证明了方法的有效性. 关键词：声调识别自然口语真实上下文模型聚类相似文献