排序方式: 共有17条查询结果,搜索用时 140 毫秒
11.
近年来卷积神经网络(convolutional neural network,CNN)在行为识别任务中取得了较大的进展.然而,现有的神经网络方法往往只注重高层语义信息的利用,对浅层特征信息挖掘利用不够.针对这一问题,提出一种基于3D卷积(convolution 3D,C3D)的多尺度3D卷积神经网络的行为识别方法.该方法受到特征金字塔结构的启发,在原C3D的基础上融合C3D的浅层特征信息,实现端到端的行为识别.同时该方法以现有的深度学习理论为基础,利用迁移学习的思想,将C3D和该方法中相同模块部分的参数迁移到本方法中,以降低模型的训练时间.通过在UCF101数据集上进行实验,实验结果表明,提出行为识别方法的分类精度达到84.56%,分类效果优于原C3D分类网络. 相似文献
12.
红外行人检测在夜间智能视频监控,车辆安全驾驶等领域有重要应用。为了解决红外图像特征降维后空间结构信息丢失的问题,提出一种基于广义二维主分量分析(principal component analysis,PCA)和稀疏表示的红外图像行人目标检测算法。该算法主要由2个阶段组成:第1阶段利用广义二维主分量分析方法提取图像的二维主特征分量,并由此构造行人目标的超完备特征字典;第2阶段采用滑动窗口的方法得到图像中局部子图,然后利用基追踪算法求解每个局部子图的稀疏表示系数向量,最后定义一个函数度量每个子图存在行人目标的可能性,并设置相邻标记框的最小距离得到整幅图像最终的检测结果。实验结果表明,该方法能够有效地检测红外图像中的行人目标,具有较好的检测效果。 相似文献
13.
对于第一人称行为识别任务,现有方法大多使用了目标边界框和人眼视线数据等非行为类别标签对深度神经网络进行辅助监督,以使其关注视频中手部及其交互物体所在区域。这既需要更多的人工标注数据,又使得视频特征的提取过程变得更为复杂。针对该问题,提出了一种多尺度时序交互模块,通过不同尺度的3D时序卷积使2D神经网络提取的视频帧特征进行时序交互,从而使得单一视频帧的特征融合其近邻帧的特征。在只需行为类别标签作监督的情况下,多尺度时序交互能够促使网络更加关注第一人称视频中手部及其交互物体所在区域。实验结果表明,提出的方法在识别准确率优于现有第一人称行为识别方法。 相似文献
14.
行为检测在自动驾驶、视频监控等领域的广阔应用前景使其成为了视频分析的研究热点。近年来,基于深度学习的方法在行为检测领域取得了巨大的进展,引起了国内外研究者的关注,对这些方法进行了全面的梳理和总结,介绍了行为检测任务的详细定义和面临的主要挑战;从时序行为检测和时空行为检测2个方面对相关文献做了细致地分类,综合分析了每一类别中不同研究方法的思路和优缺点,并阐述了基于弱监督学习、图卷积神经网络、注意力机制等新兴研究话题的相关方法;介绍了行为检测领域常用的数据集以及性能评估指标,在这些数据集上比较了几种典型方法的性能;总结了当前行为检测方法需要解决的问题以及进一步发展的研究方向。 相似文献
15.
图像压缩是图像处理领域重要的基础支撑技术之一。近年来,深度学习被用于解决图像压缩任务。潜在表示特征的冗余和概率估计的不准确往往会限制压缩性能的进一步提高。为了改善这类问题,提出一种基于注意力机制和离散高斯混合模型的端到端图像压缩方法。将全局上下文注意力模块嵌入到编码器,旨在构造紧凑的潜在表示特征。同时,将潜在表示特征建模为参数化的离散高斯混合模型,用于提高码率估计的准确度。实验结果表明,提出的算法无论在峰值信噪比(peak signal noise rate,PSNR)还是多尺度结构相似度(multi-scale structural similarity,MS-SSIM)指标上都高于传统方法。在视觉感知上,提出的图像压缩算法能产生更令人满意的压缩图像。 相似文献
16.
一种高分辨率遥感影像城区道路网提取方法 总被引:2,自引:0,他引:2
提出一种高分辨率影像城区道路自动提取新方法.该方法首先引用经典的Mean-Shift算法实现道路图像的初步分割,再合并灰度相似的区域,依据直方图准则选取合适的阈值进行二值化分割;然后,引入形状因子(面积、长宽比等)去除混杂在图像中与道路形状特征不相似的区域;对于仍然与道路相连的非道路区域,构造多方向形态学滤波的方法剔除,提取独立的道路区域,最后连接断裂的道路线,实现道路网的提取,并对多幅高分辨率城区影像进行试验.研究结果表明:该方法能很好地实现从复杂环境中提取道路网,特别是对直线型道路的提取精度更高. 相似文献
17.
人体姿态信息对教学管理和教学评估具有重要作用,通过算法快速且准确地获取人体姿态信息具有重要的研究意义。近年来,尽管基于人体关键点的姿态估计方法被广泛研究,但由于教室监控场景图像普遍存在遮挡严重、目标尺度变化大、图像成像质量差等问题,难以直接运用现有方法。提出一种基于自适应感受野的教室人体姿态实时检测方法。在单发多边框检测器(single shot multibox detector, SSD)网络中,构建自适应感受野卷积模块,通过上下两个支路提取不同感受野的特征;在反向传播过程中,自动学习上下支路的特征融合参数,自适应调整网络的感受野;提高网络在教室场景中人体姿态的检测性能。实验结果表明,提出的方法可以实现实时检测,且优于现有的教室人体姿态检测方法和其他单阶段目标检测方法。 相似文献