首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到13条相似文献,搜索用时 0 毫秒
1.
随着视频数据爆发式增长,视频描述任务越来越被研究者们关注。如何让计算机像人类一样理解视频的内容并能够准确无误地用语言表达出来,是视频描述任务领域尚未得到完美解决的难题之一。针对现有代表性视频描述模型中存在的未充分利用语义信息、生成描述不准确等问题,本文基于编码器-解码器框架的视频描述模型,提出了一种融合语义增强与多注意力机制的视频描述方法。该方法首先通过视觉文本特征聚合方法,为模型编码提供高层语义指导。然后,使用Faster-RCNN网络提取视频对象特征,通过图卷积网络获取视频对象的潜在语义信息,得到增强特征。最后,引入多重注意力机制,使模型更好地利用输入信息,增强模型的学习能力。MSVD和MSR-VTT数据集上的实验结果表明,相比于基准模型,本文提出的方法能合理优化视频描述模型的输入信息,有效提取视频潜在语义,从而解决视频文本跨模态问题和生成语句的语法结构问题,并能有效提升视频描述模型的准确度和对复杂场景的描述能力,更具先进性。  相似文献   

2.
乳腺癌是全球最常见的恶性肿瘤之一,采用传统方法诊断需花费大量时间和精力,且受个人能力影响较大。用计算机辅助诊断的方法,可以提高病理图像分类的准确率和效率,从而满足临床应用的需求。为此,提出一种基于DenseNet的融合多尺度特征和注意力机制的乳腺癌病理图像分类算法(MFDC-Net)。在密集块中引入坐标注意力机制,精准定位重要特征的空间信息。采用多尺度池化过渡层,通过不同卷积核的平均池化和普通卷积,在实现降维的同时扩大感受野。采用多尺度特征增强模块,融合深层次图像特征,提高分类性能。结果显示,MFDC-Net模型的分类性能较其他经典模型更优,分类准确率达97.12%,易混淆率低至3.34%,能较好地进行乳腺癌组织病理图像分类,为诊断和治疗提供重要依据。  相似文献   

3.
在代码搜索任务中,已有的基于深度学习的算法,一方面不能有效提取代码特征和查询特征之间的细粒度交互关系,另一方面未考虑特征之间潜在的结构化特征,无法实现更精确的匹配。本文提出了一种基于交互和图注意力网络的代码搜索模型IGANCS(Interaction and Graph Attention Network based model for Code Search)。该模型通过引入基于相似度矩阵的交互机制,学习代码特征和查询特征的细粒度交互关系,实现代码与查询之间的对齐;引入图注意力机制,利用自注意力层学习代码和查询中隐藏的结构化特征,更深入地挖掘代码和查询的结构化语义;利用最大池化机制分别聚合代码特征和查询特征,提取最重要的特征信息。本文在公开的Java数据集和Python数据集上对IGANCS进行了评估。实验结果表明,IGANCS在Mean Reciprocal Rank(MRR)和SuccessRate@1/5/10指标上优于已有的基线模型。  相似文献   

4.
在RGB-D显著性检测视觉任务中,RGB彩色模态和深度模态的信息均被视为十分重要的特征线索。但现有的RGB-D显著性检测模型无法高效执行多尺度特征的交互和多模态特征的融合,因此在真实的开放场景下表现欠佳。针对上述问题,提出了一种基于协同注意力(synergistic attention)机制的RGB-D显著性检测算法模型(SANet),并引入多模态学习中通用的引导与教导策略(guidance and teaching strategy)。在编码器进行多尺度特征提取的阶段中进行隐式引导(implicit guidance),在解码器进行特征融合时进行显式的教导(explicit teaching),实现了编码、解码的分阶段学习。在4个显著性检测评测数据集上进行的综合实验表明,该算法在4个评测指标上均优于已有的18个前沿RGB-D显著性检测模型。  相似文献   

5.
针对三维网格模型分割质量提升问题,提出了感知几何的图注意力网络。首先,定义了感知几何的图注意力系数,利用节点之间的边特征扩展由网络学习得到的注意力系数,引入与节点局部几何信息相关的注意力系数,更好地反映节点之间的相似性。然后,通过调整网络架构,将三维网格模型的几何特征与标签信息共同作为图注意力网络的输入,使标签信息参与网络训练和验证,并通过残差形式的线性连接实现网络的更稳定输出。大量实验结果表明,本文算法能够获得精确的分割边界,其在PSB数据集上的分割准确率较现有经典算法提升约2个百分点,也取得了更好的兰德指数。同时,通过消融实验验证了算法的合理性。  相似文献   

6.
提出一种基于注意力机制的连续手语识别算法ACN(attention-based 3D convolutional neural network),能够识别复杂背景下的连续手语。该算法首先利用背景去除模块,对包含复杂背景的手语视频进行预处理;然后,通过基于空间注意力机制的3D-ResNet(3D residual convolutional neural network)提取时空融合信息;最后,采用结合时间注意力机制的长短期记忆(long short-term memory,LSTM)网络进行序列学习,得到最终的识别结果。算法在大规模中国连续手语数据集CSL100上表现优异;在面向不同复杂背景的情况下,算法表现出良好的泛化性能,模型引入的时空注意力机制是切实有效的。  相似文献   

7.
针对现有本体融合机制的不足,提出了一种基于Mediator模式的多本体融合机制.首先定义了基于语义相似性的语义映射概念,然后探讨了基于复杂映射的多本体融合机制,并详细介绍了多本体融合的步骤和算法,最后介绍了这种机制在OBSA信息集成系统中的实现.  相似文献   

8.
针对无人机巡检的智能化要求, 提出一种应对高空巡检场景下的实时挖掘机检测模型. 该模型以YOLOv3为基础, 将骨干网络精简至43层, 通过特征融合策略使检测任务在两个尺度上进行. 此外模型还借鉴了focal loss的思想设计损失函数. 文中实验对象为正下无人机视角的挖掘机目标. 在完成了数据集的搭建工作后, 根据正下无人机视角的目标特性进行训练, 使模型达到最优解. 最终经实验验证, 在相同输入尺寸的情况下, 本文所提出的检测模型比YOLOv3准确率更高、鲁棒性更好, 且帧数可提升10帧●s-1.  相似文献   

9.
PM2.5小时浓度多为单步预测。为实现PM2.5小时浓度的多步预测,基于“编码器-解码器”的序列-序列预测(Seq2Seq)模型,集合图卷积神经网络提取非欧式空间数据特征的能力以及注意力机制自适应关注特征的能力,提出了融合图卷积神经网络和注意力机制的PM2.5小时浓度多步预测(GCN_Attention_Seq2Seq)模型。并与Seq2Seq模型和使用了图卷积神经网络、未使用注意力机制的GCN_Seq2Seq模型进行了对照,以2015—2016年北京市22个空气质量监测站点的空气质量数据为样本进行实例验证,结果表明,Seq2Seq模型和图卷积神经网络(GCN)可对PM2.5小时浓度数据的时空依赖进行有效建模,注意力机制有助于减缓多步预测中的预测精度衰减,提升PM2.5小时浓度多步预测的精度。GCN_Attention_Seq2Seq模型可有效应用于多种长度的PM2.5浓度预测窗口。  相似文献   

10.
传统的恶意代码检测方法漏报率高且运行效率低,很大程度的依赖于人工检测.为解决该问题,基于恶意代码自身的函数调用顺序及程序结构特征,通过静态分析技术将恶意代码抽象为函数调用图,采用图的编辑距离作为恶意代码间相似度的评估标准,将恶意代码的分类识别转化为在已建立的恶意代码图数据库中搜索最小编辑距离邻居图的问题,在此基础上实现了用户检测未知文件恶意性的系统.为了提高检测速度,引入了函数对应的汇编指令集和多路优势点树的高维索引算法.实验证明,该方案兼顾了恶意代码检测的准确性和运行效率.  相似文献   

11.
为解决车联网中CAN(controller area network)总线易受攻击的问题,提出了一个混合攻击入侵检测模型DGAOIDS。该模型利用无监督的DBN(deep belief nets)学习正常CAN报文数据的基础特征,并利用一个带注意力机制的GRU(gate recurrent unit)网络学习其时序特征,用单分类支持向量机对其进行分类;引入一个对电子控制单元规则学习得到的过滤器,综合过滤器与前述模型的分类结果得出最终的检测结果。实验结果表明,对于不同攻击,基于规则的过滤器的假阳率均为0;DGAO-IDS模型不仅在公开数据集HCRL中的检测结果优于对比模型HyDL-IDS和MD-LSTM,而且该模型在混合攻击数据集MixAt中的精确度达到了91.05%,与HyDL-IDS模型和MD-LSTM模型相比分别高6.55%与7.93%。  相似文献   

12.
根据人眼对立体图像的感知过程,提出了一种基于双目融合和竞争特性的无参考立体图像质量评价方法.首先将左右视点图像进行融合,对得到的独眼图进行Gabor特征提取;然后对左右视点图像的绝对差值图提取特征;最后将独眼图特征和绝对差值图特征融合得到立体图像特征集,通过支持向量回归预测得到客观值.采用该方法对LIVE立体图像数据库进行评价,Pearson线性相关系数(PLCC)和Spearman等级相关系数(SROCC)均在0.94左右,优于其他参与对比的质量评价方法.表明该方法符合人眼视觉特性,能够很好地描述人眼感知特性.  相似文献   

13.
人群异常事件检测是智能视频监控领域的重要研究内容, 文章提出了一种融合速度强度熵VMME与纹理特征的人群异常行为检测算法. 该算法采用LBPCM算法提取图像纹理特征, 在视频帧计算光流基础上, 获得特征点速度强度图, 并以其熵VMME作为场景运动特征, 将场景纹理特征和运动特征送入支持向量机训练分类. 实验表明, 新算法可实现对人群异常行为的检测, 且有较高准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号