共查询到18条相似文献,搜索用时 46 毫秒
1.
针对目前有监督语音增强忽略了纯净语音、噪声与带噪语音之间的幅度谱相似性对增强效果影响等问题,提出了一种联合精确比值掩蔽(ARM)与深度神经网络(DNN)的语音增强方法。该方法利用纯净语音与带噪语音、噪声与带噪语音的幅度谱归一化互相关系数,设计了一种基于时频域理想比值掩蔽的精确比值掩蔽作为目标掩蔽;然后以纯净语音和噪声幅度谱为训练目标的DNN为基线,通过该DNN的输出来估计目标掩蔽,并对基线DNN和目标掩蔽进行联合优化,增强语音由目标掩蔽从带噪语音中估计得到;此外,考虑到纯净语音与噪声的区分性信息,采用一种区分性训练函数代替均方误差(MSE)函数作为基线DNN的目标函数,以使网络输出更加准确。实验表明,区分性训练函数提升了基线DNN以及整个联合优化网络的增强效果;在匹配噪声和不匹配噪声下,相比于其它常见DNN方法,本文方法取得了更高的平均客观语音质量评估(PESQ)和短时客观可懂度(STOI),增强后的语音保留了更多语音成分,同时对噪声的抑制效果更加明显。 相似文献
2.
噪声估计的准确性直接影响语音增强算法的好坏,为提升当前语音增强算法的噪声抑制效果,有效求解无约束优化问题,提出一种联合深度神经网络(DNN)和凸优化的时频掩蔽优化算法进行单通道语音增强。首先,提取带噪语音的能量谱作为DNN的输入特征;接着,将噪声与带噪语音的频带内互相关系数(ICC Factor)作为DNN的训练目标;然后,利用DNN模型得到的互相关系数构造凸优化的目标函数;最后,联合DNN和凸优化,利用新混合共轭梯度法迭代处理初始掩蔽,通过新的掩蔽合成增强语音。仿真实验表明,在不同背景噪声的低信噪比下,相比改进前,新的掩蔽使增强语音获得了更好的对数谱距离(LSD)、主观语音质量(PESQ)、短时客观可懂度(STOI)和分段信噪比(segSNR)指标,提升了语音的整体质量并且可以有效抑制噪声。 相似文献
3.
针对深度神经网络训练过程中残差随着其传播深度越来越小而使底层网络无法得到有效训练的问题,通过分析传统sigmoid激活函数应用于深度神经网络的局限性,提出双参数sigmoid激活函数。一个参数保证激活函数的输入集中坐标原点两侧,避免了激活函数进入饱和区,一个参数抑制残差衰减的速度,双参数结合有效的增强了深度神经网络的训练。结合DBN对MNIST数据集进行数字分类实验,实验表明双参数 sigmoid激活函数能够直接应用于无预训练深度神经网络,而且提高了sigmoid激活函数在有预训练深度神经网络中的训练效果。 相似文献
4.
通过分析不同区分性训练目标函数之间的关系,以MMI(Maximum Mutual Information)作为分离度量,把不同的区分性训练目标函数统一为基于广义边距的区分性训练准则.并在该广义边距准则下,通过对其权重函数进行讨论,得到两种区分性训练目标函数:利用组合增进因子和候选词路径中误识词个数,加权候选路径,得到SBMMI(Soft Boosted MMI)目标函数;利用基于单个候选词的后验概率定义每一训练语句的错误识别率,采用幂指数的形式对单个候选词动态加权,得到VWMMI(Variable Weighting MMI)目标函数。实验结果表明,与软边距估计准则和增进的最大互信息方法相比,SBMMI方法准确率分别提高了0.89%和0.56%,VWMMI方法能在SBMMI方法基础上提高0.68%. 相似文献
5.
针对传统垩白大米检测主观随意性大、可重复性低、检测过程耗时费力、准确率低等问题,提出一种基于可见光谱图结合深度学习算法的垩白大米检测手段。用CCD彩色摄像机获取垩白大米和正常大米可见光谱图,对图像进行旋转、翻转以及调整对比度等随机图像变换方式提升网络训练数据集,防止深度检测模型在学习过程中出现过拟合现象。构建了7层深层次卷积神经网络模型,包括卷积层、池化层、全连接层和输入输出层,通过网络模型对采样的大米可见光谱图集进行卷积与池化操作,采用迭代学习训练方法获取大米可见光谱图在卷积层输出的特征参数,采用连接非线性ReLU激活函数来降低训练时间,以加速大米可见光谱图有效抽象特征提取的收敛速度;然后将深度神经网络嵌入池化层,对大米特征降维以获取能够表达正常大米和垩白大米可鉴别显著意义特征;最后在全连接层输出进行分类,从而实现对垩白大米的精确识别。基于可见光谱图的大米垩白深度检测方法比传统基于可见光谱图的垩白大米鉴别特征提取方法免去了复杂的特征提取步骤,由于卷积网络提取的特征对特定目标具有更鲁棒的表达,算法精度较高且复杂度比较小,泛化效果更好,获得识别精度达到90%,比基于传统特征提取的垩白大米鉴别方法识别精度高,SIFT+SVM,PHOG+SVM和GIST+SVM模型识别精度分别为70.83%,77.08%和79.16%。提出的方法为当前我国现代农业生产中实现大米品质自动化快速精准检测提供了理论依据和有效的技术手段,对于现阶段实现大米品质人工智能检测产生实际意义。 相似文献
6.
针对语音信号的欠定卷积混合模型,利用独立语音在时频域上的近似W-分离正交性(W-DO),提出了一种基于非线性时频掩蔽的盲分离方法。首先对多传声器观测信号在时频域上进行规范化处理,使混合信号在每个时频槽的表示与频率无关,然后采用动态聚类算法获取时频槽对应的活跃源信息,选择关于簇中心偏角的非线性函数进行时频掩蔽,从而实现语音信号的盲分离。该方法解决了经典频域盲分离算法中的频率置换问题,能有效抑制分离矩阵的空间方向扩散。仿真实验表明,与BLUES方法相比具有更优的分离性能,信噪比增益平均增加1.58 dB。 相似文献
7.
提出一种区分性方法,将声调信息加入大词汇量连续语音识别系统中。该方法根据最小音子错误准则,区分性地圳练模型相关的概率权重。利用这些权重对传统基于传统谱特征的隐马尔可夫模型概率以及声调模型概率进行加权,通过调整模型之间的作用程度提高系统识别率。推导了利用扩展Baum-welch算法的权重更新公式。对不同模型权重组合策略进行了评估,并利用权重之间的平滑方法来克服权重训练过拟合的问题。分别通过大词汇连续语音的带调音节输出和汉字输出两种识别任务来验证区分性模型权重训练的性能。实验结果表明在两种识别任务上,区分性的模型权重较使用全局模型权重分别获得9.5%以及4.7%的相对误识率降低。这表明了区分性模型权重对提高声调集成性能的有效性。 相似文献
8.
为强化水声目标特征, 提高使用深度神经网络识别水声目标的准确率, 提出了一种联合线谱增强与深度神经网络的水声目标识别方法。该方法采用窄带信息增强, 将自适应线谱增强滤波器与VGGish神经网络级联, 水声信号经过线谱增强后输入网络提取深度特征, 之后使用分类器分类。使用实测水声数据集进行测试, 对网络提取的水声数据的深度特征集进行主成分分析并降维, 使高维深度特征可视化, 结果表明线谱增强后得到的深度特征集的紧致性明显提高。该方法在测试数据集上能够实现94.83%的识别准确率, 与未进行线谱增强的情况相比提升了5.48%, 同时在低信噪比情况下稳定性更好。 相似文献
9.
单扫描时空编码磁共振成像是一种新型超快速磁共振成像技术,它对磁场不均匀和化学位移伪影有较强的抵抗性,但是其固有的空间分辨率较低,因此通常需要进行超分辨率重建,以在不增加采样点数的情况下提高时空编码磁共振图像的空间分辨率.然而,现有的重建方法存在迭代求解时间长、重建结果有混叠伪影残留等问题.为此,本文提出了一种基于深度神经网络的单扫描时空编码磁共振成像超分辨率重建方法.该方法采用模拟样本训练深度神经网络,再利用训练好的网络模型对实际采样信号进行重建.数值模拟、水模和活体鼠脑的实验结果表明,该方法能快速重建出无残留混叠伪影、纹理信息清楚的超分辨率时空编码磁共振图像.适当增加训练样本数量以及在训练样本中加入适当的随机噪声水平,有助于改善重建效果. 相似文献
10.
11.
12.
摘 要: 手写汉字识别是模式识别与机器学习的重要研究方向和应用领域。近年来,随着深度学习理论方法的完善、新技术的层出不穷,深度神经网络在图像识别分类、图像生成等典型应用中取得了突破性的进展,其中,深度残差网络作为最新的研究成果,已成功应用于手写数字识别、图片识别分类等多个领域。本文将研究深度残差网络在脱机孤立手写汉字识别中的应用方法,通过改进残差学习模块的单元结构,优化深度残差网络性能,同时通过对训练集的预处理,从数据层面实现训练生成模型性能的提升,最后设计实验,验证深度残差网络、End-to-End模式在脱机手写汉字识别中的可行性,分析、总结存在的问题及今后的研究方向。 相似文献
13.
Consistency and predictability of brain functionalities depend on the reproducible activity of a single neuron. We identify a reproducible non-chaotic neuronal phase where deviations between concave response latency profiles of a single neuron do not increase with the number of stimulations. A chaotic neuronal phase emerges at a transition to convex latency profiles which diverge exponentially, indicating irreproducible response timings. Our findings are supported by a quantitative mathematical framework and are found robust to periodic and random stimulation patterns. In addition, these results put a bound on the neuronal temporal resolution which can be enhanced below a millisecond using neuronal chains.https://doi.org/10.1209/0295-5075/106/46002 相似文献
14.
We propose a new experimentally corroborated paradigm in which the functionality of the brain's logic-gates depends on the history of their activity, e.g. an OR-gate that turns into a XOR-gate over time. Our results are based on an experimental procedure where conditioned stimulations were enforced on circuits of neurons embedded within a large-scale network of cortical cells in vitro . The underlying biological mechanism is the unavoidable increase of neuronal response latency to ongoing stimulations, which imposes a non-uniform gradual stretching of network delays.https://doi.org/10.1209/0295-5075/103/66001 相似文献
15.
The neuronal response to controlled stimulations in vivo has been classically estimated using a limited number of events. Here we show that hours of high-frequency stimulations and recordings of neurons in vivo reveal previously unknown response phases of neurons in the intact brain. Results indicate that for stimulation frequencies below a critical neuronal characteristic frequency, f c, response timings are stabilized to tens-of-microseconds accuracy. For stimulation frequencies exceeding f c the firing frequency is saturated and independent of the stimulation frequency, as a result of random neuronal response failures. This neuronal plasticity, previously shown in vitro , supports a robust mechanism for low firing rates on a network level.https://doi.org/10.1209/0295-5075/116/46002 相似文献
16.
手写汉字识别是手写汉字输入的基础。目前智能设备中的手写汉字输入法无法根据用户的汉字书写习惯,动态调整识别模型以提升手写汉字的正确识别率。通过对最新深度学习算法及训练模型的研究,提出了一种基于用户手写汉字样本实时采集的个性化手写汉字输入系统的设计方法。该方法将采集用户的手写汉字作为增量样本,通过对服务器端训练生成的手写汉字识别模型的再次训练,使识别模型能够更好地适应该用户的书写习惯,提升手写汉字输入系统的识别率。最后,在该理论方法的基础上,结合新设计的深度残差网络,进行了手写汉字识别的对比实验。实验结果显示,通过引入实时采集样本的再次训练,手写汉字识别模型的识别率有较大幅度的提升,能够更有效的满足用户在智能设备端对手写汉字输入系统的使用需求。 相似文献
17.
We consider the noncoherent deep learning problem for coded signal detection under the phase noncoherent channels for remote home healthcare applications with high data rate. In particular, a multiple-symbol noncoherent learning detection (MNLD) scheme based on neural networks is proposed for low-density parity-check (LDPC) coded noncoherent quadrature amplitude modulation (QAM) signals in IEEE 802.15.3 Wireless Multi-media Networks. Our derivation shows that extensive operations for the first kind zero-order modified Bessel function is unavoidable for the implementation of the optimal bit log-likelihood ratio (LLR) for decoding in traditional multiple-symbol detection (MSD) scheme. The perfect estimation of the channel state information (CSI), i.e., a priori information about the variance of the additive white Gaussian noise (AWGN), is also required for the receiver. This is clearly not computationally practical for Wireless Multi-media Networks. Consequently, we developed an improved approach based on feed-forward neural networks to accurately calculate the bit LLR. Furthermore, to decrease the generation size of training set and thus increase the training speed of the proposed neural networks, we uniformly quantize the continuous carrier phase offset (CPO), which is random and unknown, into discrete status. Our simulation results verify the learning efficiency of this simplified training-set generation configuration. The decoding convergence is successfully accelerated and much performance gain is finally achieved when compared with traditional decoding using the perfect bit LLR. This is clearly critical for high reliable transmission of home healthcare information. 相似文献
18.
The application of Artificial Neural Networks (ANNs) for nonlinear multivariate calibration using simulated FTIR data was demonstrated in this paper. Neural networks consisting of three layers of nodes were trained by using the back-propagation learning rule. Since parameters affect the performance of the network greatly, simulated data were used to train the network in order to get a satisfactory combination of all parameters. The mixtures of four air toxic organic compounds whose FTIR spectra are overlapped were chosen to evaluate the calibration and prediction ability of the network. The relative standard error (RSD%), the percent standard error of prediction samples (%SEP) and the percent standard error of calibration samples (%SEC) are used for evaluating the ability of the neural network. 相似文献