期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李庆辉李艾华王涛崔智高《光学学报》2018,(6)

为有效利用行为视频的长时时域信息,提高行为识别准确率,提出一种结合有序光流图和双流卷积神经网络的行为识别算法。首先利用Rank支持向量机(SVM)算法将连续光流序列压缩总结成单幅有序光流图,实现对视频长时时域结构的建模;然后设计一个包含表观和短时运动流与长时运动流的双流卷积网络,分别以堆叠RGB帧、有序光流图为输入提取视频的表观和短时运动信息与长时运动信息;最后将双流网络的C3D描述子和VGG描述子融合后输入线性SVM进行行为识别。在HMDB51和UCF101两个数据集的实验结果表明,该算法能够有效利用空域表观信息和时域运动信息,具有较高的行为视频识别准确率。相似文献

2.

基于长短期记忆网络与特征融合的微表情识别算法

《光学技术》2021,47(1):113-119

为了提高视频识别领域中微表情识别的准确率,提出了一种基于长短期记忆网络与特征融合的微表情识别算法。提取微表情图像的颜色特征和纹理特征,将所提取的空间特征传入卷积神经网络进行融合。设计了学习时域相关性的长短期记忆网络结构,将融合的特征集传入长短期记忆网络学习微表情的时域特征,将长短期记忆网络接入分类器网络识别出微表情的类标签。在两个公开的微表情识别数据集上完成了验证实验,结果显示算法实现了较好的微表情识别性能,在SMIC数据集和CASMEⅡ数据集上的准确率分别达到64.7%和65.8%. 相似文献

3.

潜在低秩表示框架下基于卷积神经网络结合引导滤波的红外与可见光图像融合

娄熙承冯鑫《光子学报》2021,50(3):180-193

为提高融合图像的可视性,解决传统红外与可见光图像融合算法中存在的边缘特征缺失、细节模糊的问题,提出了一种潜在低秩表示框架下基于卷积神经网络结合引导滤波的红外与可见光图像融合算法。该算法首先利用潜在低秩表示对源图像进行分解,得到源图像的低秩分量和显著分量。其次,利用卷积神经网络根据源图像的特征信息,得到权值图。再次,通过引导滤波算法对权值图进行边缘锐化,然后再将优化后的权值图分别与源图像的低秩分量和显著分量融合,得到融合图像的低秩分量和显著分量。最后,将融合图像的低秩分量和显著分量叠加,得到最终的融合图像。实验结果表明,该算法在主观评价和客观指标上均优于传统的红外与可见光图像融合算法。相似文献

4.

基于双向递归卷积神经网络的单目红外视频深度估计

《光学学报》2017,(12)

考虑到红外视频的深度特征具有单帧图像的独特性和视频全局的连续性,在单目红外视频深度估计问题上提出一种基于双向递归卷积神经网络(BrCNN)的深度估计方法。BrCNN在卷积神经网络(CNN)能够提取单帧图像特征的基础之上引入循环神经网络(RNN)传递序列信息机制,使其既具有CNN良好的图像特征提取能力,能够自动提取视频中每一帧图像的局部特征,又具有RNN良好的序列特征提取能力,能够自动提取视频中每一帧图像所包含的序列信息,并向后递归传递这种信息。采用双向递归的视频序列信息传递机制来估计红外视频的深度,提取到的每一帧图像的特征都包含了视频前后文的序列信息。实验结果表明,相对于传统CNN提取单帧图像特征进行的估计,使用BrCNN能够提取更具有表达能力的特征,估计出更精确的深度。相似文献

5.

基于积分图像的人体肢体检测算法

下载免费PDF全文

陈华胡春海《应用光学》2011,32(5):904-908

为了实现视频序列图像中运动人体肢体的检测,提出了一种基于积分图像和类哈尔特征的检测方法,类哈尔特征(Haar like feature)因其固有的特点,适用于检测矩形或类矩形的图像区域,积分图像的特点是可以利用类哈尔特征快速定位人体肢体在图像中的位置。积分图像用于表示视频中的原始图像,边缘检测模板与原始视频每一帧进行卷积之后,通过累加计算可以得到该图像的积分图像,然后利用类哈尔算子,根据设定的阈值,即可以准确定位人体肢体位置。实验结果表明：该方法较背景减除法检测人体肢体准确。相似文献

6.

基于3D Octave卷积和Bi-RNN注意力网络的高光谱图像分类方法

《光子学报》2021,50(9)

传统卷积神经网络模型在高光谱图像分类生成特征图的空间维度中存在大量的空间特征信息冗余,而且把高光谱图像单个像元上的光谱带数据看作是无序高维向量进行数据处理,并不符合光谱数据的特性,极大影响了模型的运行效率和分类性能。针对该问题,提出一种三维Octave卷积和双向循环神经网络注意力网络相结合的高光谱图像分类方法。首先,利用三维Octave卷积获取高光谱图像的空间特征的同时减少空间特征冗余信息。其次,利用Bi-RNN光谱注意力网络将光谱带数据视为有序序列以获取高光谱图像的光谱信息。然后,通过全连接层将空间和光谱特征图连接起来实现特征融合。最后,经过softmax输出分类结果。实验结果表明,所提方法在Pavia University和Botswana两个数据集上的分类精度分别达到了99.97%和99.79%,与其他主流算法相比,该方法可以充分利用空间和光谱特征信息,具有更佳的分类性能。相似文献

7.

视频监控下利用改进型C3D-RF的人群异常行为检测

《光学技术》2021,47(2):187-195

传统基于卷积神经网络(CNN)算法的人群异常行为检测方法由于采用二维卷积核提取图像特征,故无法准确捕捉视频流在时序上的动态特征。为此,提出一种基于改进C3D网络与随机森林(RF)算法相结合的检测方法。利用具有时间特征捕捉能力的C3D网络进行视频流梯度方向直方图(HOG)特征提取,并作为三维卷积核输入以实现对视频时空特征的提取;使用随机森林分类器替代softmax全连接层以避免训练过程中繁琐的梯度计算操作,并降低对训练数据集样本规模的要求;基于基准数据集的算例结果表明,所提出的改进C3D-RF方案对人群异常行为的检测准确率保持在90%以上,且与传统C3D网络、支持向量数据描述模型(SVDD)、编码深度卷积神经网络(CAE)等方法相比,其训练时间缩短了15.34%以上。相似文献

8.

基于时空图像融合与多任务分类网络的步态识别研究

黄宇琛罗坚阳强《光学技术》2023,(1):97-104

通过研究一种基于多尺度卷积神经网络和人体姿态估计模型相结合的多任务步态识别方法,对神经网络识别结果做出一定的解释说明,同时提高其在面对协变量改变场景下的识别效果。该方法将卷积神经网络提取的步态空间特征和人体姿态估计模型得到人体关节时序特征融合,进行身份的识别。使用步态数据集CASIA-B中的正常行走序列和合成行走序列数据以及TUM-GAID步态数据集进行实验。结果表明,该方法在TUM-GAID步态数据集实验中,三种场景T₁、T₂和T₃下的识别率分别达到95.2%、72.4%和84.5%。在CASIA-B步态数据集实验中,对于正常行走序列以及两种合成行走序列,该方法在识别精度上均有较好的表现,体现该模型有较强的鲁棒性。相似文献

9.

大气湍流下光学平面面形的估计

李琳刘永辉《光学技术》2023,(6):704-710

针对大气湍流环境下光学元件平面面形PV值测量这一问题。首先建立了一种大气湍流下斐索干涉仪的模型,通过该模型得到1000张干涉条纹图像;然后提出了一种基于卷积神经网络估算PV值的方法,将干涉条纹图像作为卷积神经网络的输入,利用卷积神经网络提取图像的特征信息,得到PV值;最后将得到的结果与ASTM计算得到的结果、相位解包裹得到的结果以及BP神经网络得到的结果进行对比,发现利用卷积神经网络的方法偏差为2.25×10^-4λ,较ASTM、相位解包裹以及BP神经网络得到的结果偏差更小。实验结果表明此方法具有抗干扰性强、精度高、运算快的优点,是一种有效的抗大气湍流影响的光学检测方法。相似文献

10.

改进型Unet:一种高效准确的视网膜血管分割方法

钟文煜冯寿廷《光学技术》2019,45(6):744-748

眼底血管的形态结构是多种疾病诊断的重要依据,但高效准确分割血管是一个巨大挑战。受多尺度卷积神经网络结构启发,将多特征提取应用到U型网络,提出改进型Unet网络。抽取眼底图像的绿通道,通过镜像、旋转、平移对训练集进行数据增强;将训练集输入到改进型Unet全卷积神经网络中进行分割;对网络模型的预测结果进行全局阈值分割得到最终结果。在DRIVE眼底数据库下实验,使用GPU分割一张565×584眼底图像仅需70ms,平均准确率高达0.9565,灵敏度、特异性也分别达到了0.7961、0.9802。实验表明算法分割准确率和效率与同类先进算法相比具有较高的水平。相似文献

11.

BP神经网络在光学相关器相关峰识别中的应用 总被引：8，自引：4，他引：4

下载免费PDF全文

王永仲张勇冯广斌薛蕊华文深《应用光学》2006,27(1):15-18

光学相关识别是图像识别的重要方法，有效识别相关器输出平面的相关峰信号是保证光学相关器图像识别准确性的关键。由于激光器输出功率的波动、光学系统本身的误差以及SLM器件本身带来的噪声，采用一般的阈值方法很难达到理想的效果。该文提出对相关器的输出平面进行预处理，充分考虑相关信号的形状信息，提取感兴趣区域(ROI)，采用BP神经网络对输入矢量进行计算，可达到对相关峰信号和噪声的有效分类识别，从而提高了光学相关器识别的可靠性，降低了误判的概率。相似文献

12.

Recognizing pedestrian’s unsafe behaviors in far-infrared imagery at night

《Infrared Physics & Technology》2016

Pedestrian behavior recognition is important work for early accident prevention in advanced driver assistance system (ADAS). In particular, because most pedestrian-vehicle crashes are occurred from late of night to early of dawn, our study focus on recognizing unsafe behavior of pedestrians using thermal image captured from moving vehicle at night. For recognizing unsafe behavior, this study uses convolutional neural network (CNN) which shows high quality of recognition performance. However, because traditional CNN requires the very expensive training time and memory, we design the light CNN consisted of two convolutional layers and two subsampling layers for real-time processing of vehicle applications. In addition, we combine light CNN with boosted random forest (Boosted RF) classifier so that the output of CNN is not fully connected with the classifier but randomly connected with Boosted random forest. We named this CNN as randomly connected CNN (RC-CNN). The proposed method was successfully applied to the pedestrian unsafe behavior (PUB) dataset captured from far-infrared camera at night and its behavior recognition accuracy is confirmed to be higher than that of some algorithms related to CNNs, with a shorter processing time. 相似文献

13.

基于STA-CRNN模型的语声情感识别*

下载免费PDF全文

张志浩王坤侠《应用声学》2022,41(5):843-850

语声情感识别对人机交互和情感计算研究领域具有重要作用,各类研究方法层出不穷。近期研究学者应用卷积神经网络和长短期记忆网络方法提取对数Mel谱图空间特征和时间特征,取得了一定的成果。然而不论是卷积神经网络还是长短期记忆网络提取特征时,都会产生特征冗余,导致语声情感识别效果下降。针对这一问题,该文提出了一种基于时空注意力机制的卷积-递归神经网络模型,采用对数Mel谱图和其一阶差分、二阶差分作为特征输入,在使用卷积神经网络提取空间特征和长短期记忆网络提取时间特征时,加入空间注意力和时间注意力机制,从而使上述网络能够更好地提取到对数Mel谱图中有效表征情感的空间特征和时间特征。该模型在Emo-DB和IEMOCAP语声数据集上的加权准确率分别达到86.8%、69.4%,未加权准确率分别达到84.7%、65.5%,优于当前大多数先进方法。相似文献

14.

GIS Partial Discharge Pattern Recognition Based on a Novel Convolutional Neural Networks and Long Short-Term Memory

Tingliang Liu Jing Yan Yanxin Wang Yifan Xu Yiming Zhao 《Entropy (Basel, Switzerland)》2021,23(6)

Distinguishing the types of partial discharge (PD) caused by different insulation defects in gas-insulated switchgear (GIS) is a great challenge in the power industry, and improving the recognition accuracy of the relevant models is one of the key problems. In this paper, a convolutional neural network and long short-term memory (CNN-LSTM) model is proposed, which can effectively extract and utilize the spatiotemporal characteristics of PD input signals. First, the spatial characteristics of higher-level PD signals can be obtained through the CNN network, but because CNN is a deep feedforward neural network, it does not have the ability to process time-series data. The PD voltage signal is related to the time dimension, so LSTM saves and analyzes the previous voltage signal information, realizes the modeling of the time dependence of the data, and improves the accuracy of the PD signal pattern recognition. Finally, the pattern recognition results based on CNN-LSTM are given and compared with those based on other traditional analysis methods. The results show that the pattern recognition rate of this method is the highest, with an average of 97.9%, and its overall accuracy is better than that of other traditional analysis methods. The CNN-LSTM model provides a reliable reference for GIS PD diagnosis. 相似文献

15.

基于多任务卷积神经网络的红外与可见光多分辨率图像融合

朱雯青张宁李争刘鹏汤心溢《光谱学与光谱分析》2023,43(1):289-296

红外与可见光图像融合一直是图像领域研究的热点,融合技术能弥补单一传感器的不足,为图像理解与分析提供良好的成像基础。因生产工艺以及成本的限制,红外探测器的分辨率远低于可见光探测器,并在一定程度上因源图像分辨率的差异阻碍了实际应用。针对红外与可见光图像分辨率不一致的问题,提出了用于红外图像超分辨率重建与融合的多任务卷积网络框架,应用于多分辨率图像融合。在网络结构方面,首先设计了双通道网络分别提取红外与可见光特征,使算法不受源图像分辨率的限制;其次提出了特征上采样模块,先用双线性插值方法增加像素个数,再通过多层感知器精细化拟合像素平滑空间与高频空间的映射关系,无需重新训练模型即可实现任意尺度的红外图像上采样;接着将线性注意力引入网络,学习特征空间位置间的非线性关系,抑制无关信息并增强网络对全局信息的表达。在损失函数方面,提出了梯度损失,保留红外与可见光图像中绝对值较大的滤波器响应值,并计算该值与重建的融合图像响应值的Frobenius范数,无需理想的融合图像作为真值监督网络学习就能生成融合图像;此外,在梯度损失、像素损失的共同作用下对多任务模型进行优化,可以同时重建融合图像和高分辨率红外图像... 相似文献

16.

基于注意力机制与图卷积神经网络的单目红外图像深度估计

朱思敏赵海涛《应用光学》2021,42(1):49-56

对场景中的物体进行深度估计是无人驾驶领域中的关键问题,红外图像有利于在光线不佳的情况下解决深度估计问题。针对红外图像纹理不清晰与边缘信息不丰富的特点,提出了将注意力机制与图卷积神经网络相结合来解决单目红外图像深度估计问题。首先,在深度估计问题中,图像中每个像素点的深度信息不仅与其周围像素点的深度信息相关,还需考虑更大范围的其他像素点的深度信息,采用注意力机制可以针对这一点有效提取图像的像素级全局深度信息关联。其次,基于深度信息关联得到的特征可以考虑为非欧数据,进一步使用图卷积神经网络（graph convolutional neural network, GCN）来进行推理。最后,在训练阶段将连续的深度估计回归问题转化成分类问题,使训练过程更稳定,降低了网络的学习难度。实验结果表明,该方法在红外数据集NUST-SR上获得了良好的效果,在阈值指标小于1.253时,准确率提升了1.2%,相较其他方法更具优势。相似文献

17.

基于深度学习的无人车夜视图像语义分割

下载免费PDF全文

高凯珺孙韶媛姚广顺赵海涛《应用光学》2017,38(3):421-428

为了增强无人车对夜视图像的场景理解,在夜间模式下更快更精确地探测和识别周围环境,将深度学习应用于夜视图像的场景语义分割,提出了一种基于卷积-反卷积神经网络的无人车夜视图像语义分割方法。在传统的卷积神经网络中加入反卷积网络,构建卷积-反卷积神经网络,无需手工选取特征。通过像素到像素的学习和训练,得到图像语义分割模型,可直接用该模型预测夜视图像中每个像素所属的场景语义类别,实现无人车夜间行驶时的环境感知。实验结果表明,该方法具有较好的准确性和实时性,平均IU达到68.47。相似文献

18.

多局部残差连接注意网络的图像去模糊

下载免费PDF全文

陈清江王巧莹《应用光学》2023,44(2):337-344

针对现有的基于卷积神经网络的图像去模糊算法存在图像纹理细节恢复不清晰的问题,提出了一种基于多局部残差连接注意网络的图像去模糊算法。首先,采用一个卷积层进行浅层特征提取;其次,设计了一种新的基于残差连接和并行注意机制的多局部残差连接注意模块,用于消除图像模糊并提取上下文信息;再次,采用一个基于扩张卷积的成对连接模块进行细节恢复;最后,利用一个卷积层重建清晰图像。实验结果表明：在GoPro数据集上的PSNR (peak signal to noise ratio)和SSIM (structure similarity)分别为31.83 dB、0.927 5,在定性和定量两方面都表明所提方法能够有效地恢复模糊图像的纹理细节,网络性能优于对比方法。相似文献

19.

基于热红外图像处理技术的农作物冠层识别方法研究

马晓丹刘梦关海鸥温冯睿刘刚《光谱学与光谱分析》2021,41(1):216-222

为解决农作物冠层热红外图像边缘灰度级分布不均且噪声较大,而传统图像分割方法难以实现其目标区域有效识别的难题,以苗期红小豆冠层热红外图像为研究对象,将模糊神经网络和仿射变换有机结合,提出了基于热红外图像处理技术的农作物冠层识别模型。首先利用五层线性归一化模糊神经网络的自适应特性,选取高斯隶属度函数,自动计算冠层可见光图像识别的推理规则,有效地分割了可见光图像中的冠层区域。通过分析3种分割指标和熵,定量评价可见光图像冠层分割质量。网络迭代38次时,误差精度为0.000 952,该算法平均有效识别率为96.13%,获取可见光冠层图像的像元信息熵值范围为2.454 4~5.198 7,与标准算法所得冠层图像的像元信息熵仅相差0.245 9。然后以取得可见光图像的冠层有效区域为参考图像,采用仿射变换算法,调整优选平移、旋转、缩放等图像变换因子,配准原始热红外图像,提出了基于仿射变换的冠层热红外图像识别方法。对于初始温度范围值在16.35~19.92 ℃的农作物热红外图像,计算选取旋转幅度为1.0和缩放因子为0.9时,作为异源图像的最优配准参数,获取目标图像的最大温差为3.17 ℃,相对于原图像的平均温度值由18.711 ℃下降至17.790 ℃,进而实现了基于热红外图像处理技术的农作物冠层识别。最后以熵的互信息作为监督指标,对农作物冠层热红外图像识别方法进行评价。提出的冠层热红外图像识别方法,所获取的目标图像与初始热红外图像的平均互信息为4.368 7,标准目标图像和初始热红外图像的平均互信息为3.981 8,二者仅相差0.486 9。同时,两种冠层热红外图像的平均温度差值为0.25 ℃,高效消除了原始热红外图像的背景噪声。结果表明本研究方法的有效性和实用性,能够为应用热红外图像反映农作物生理生态信息特征指标参数提供技术借鉴。相似文献

20.

Gradient-based PIV using neural networks

Kimura I. Susaki Y. Kiyohara R. Kaga A. Kuroe Y. 《显形杂志》2002,5(4):363-370

This paper proposes a new gradient-based PIV using an artificial neural network for acquiring the characteristics of a two-dimensional flow field. The neural network can effectively realize an accurate approximation of the vector field by introducing some knowledge on the characteristic property. The neural network is trained by using spatial and temporal image gradients so that the basic equation of the gradient-based method is satisfied. Since the neural network itself learns the stream function, the continuity equation of flow is consequently satisfied in the measured velocity vector field. The new gradient-based PIV can be applied to even partly lacking visualized images. 相似文献