期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

高海玲王晓东章联军赵伸豪金建国《宁波大学学报(理工版)》2023,(3):16-21

为解决现有多数视频人体动作识别3D卷积方法无法区分信息中各维度的重要和非重要特征问题,提出了通过门控循环单元(GatedRecurrentUnit,GRU)和空间注意力增强模块构建时空特征处理网络的方法,基于多级特征融合和多组通道注意力特征选择构建网络,改进基础网络模型Res Net3D对视频人体动作识别中的网络模型.改进后模型在2个公开数据集UCF101和HMDB51上的准确率分别为96.42%和71.08%,与C3D、Two-stream等网络模型相比,具有更高的识别准确率. 相似文献

2.

基于注意力机制的复杂背景连续手语识别

杨光义丁星宇高毅胡晶欣张洪艳《武汉大学学报(理学版)》2023,(1):97-105

提出一种基于注意力机制的连续手语识别算法ACN(attention-based 3D convolutional neural network),能够识别复杂背景下的连续手语。该算法首先利用背景去除模块,对包含复杂背景的手语视频进行预处理;然后,通过基于空间注意力机制的3D-ResNet(3D residual convolutional neural network)提取时空融合信息;最后,采用结合时间注意力机制的长短期记忆（long short-term memory,LSTM）网络进行序列学习,得到最终的识别结果。算法在大规模中国连续手语数据集CSL100上表现优异;在面向不同复杂背景的情况下,算法表现出良好的泛化性能,模型引入的时空注意力机制是切实有效的。相似文献

3.

基于图注意力网络的三维网格分割算法

李文婷吴璐璐周杰赵勇《浙江大学学报(理学版)》2023,(6):811-819

针对三维网格模型分割质量提升问题，提出了感知几何的图注意力网络。首先，定义了感知几何的图注意力系数，利用节点之间的边特征扩展由网络学习得到的注意力系数，引入与节点局部几何信息相关的注意力系数，更好地反映节点之间的相似性。然后，通过调整网络架构，将三维网格模型的几何特征与标签信息共同作为图注意力网络的输入，使标签信息参与网络训练和验证，并通过残差形式的线性连接实现网络的更稳定输出。大量实验结果表明，本文算法能够获得精确的分割边界，其在PSB数据集上的分割准确率较现有经典算法提升约2个百分点，也取得了更好的兰德指数。同时，通过消融实验验证了算法的合理性。相似文献

4.

面向内容的立体视频帧重要性区分模型研究

下载免费PDF全文

王晓东胡彬彬王腾飞蒋刚毅章联军《宁波大学学报(理工版)》2015,(1):30-34

异构网络引起的视频传输失真是影响视频终端感知质量的重要因素,通常只能在解码端进行评估和补偿。因此在编码端建立一个面向内容的立体视频传输失真模型,考虑错误隐藏和错误扩散两种失真,通过近似估计视频中各帧对终端质量的贡献度,从而实现每帧重要性的区分。新模型综合考虑了视频帧编码位置以及表征内容的编码模式、运动矢量、视差矢量等关键信息,可以作为视频在异构网络中传输策略的重要依据。相似文献

5.

融合语义增强与多注意力机制的视频描述方法

任剑洪曾勍炜李向军龚政刘方《南昌大学学报(理科版)》2023,(6):548-555

随着视频数据爆发式增长,视频描述任务越来越被研究者们关注。如何让计算机像人类一样理解视频的内容并能够准确无误地用语言表达出来,是视频描述任务领域尚未得到完美解决的难题之一。针对现有代表性视频描述模型中存在的未充分利用语义信息、生成描述不准确等问题,本文基于编码器-解码器框架的视频描述模型,提出了一种融合语义增强与多注意力机制的视频描述方法。该方法首先通过视觉文本特征聚合方法,为模型编码提供高层语义指导。然后,使用Faster-RCNN网络提取视频对象特征,通过图卷积网络获取视频对象的潜在语义信息,得到增强特征。最后,引入多重注意力机制,使模型更好地利用输入信息,增强模型的学习能力。MSVD和MSR-VTT数据集上的实验结果表明,相比于基准模型,本文提出的方法能合理优化视频描述模型的输入信息,有效提取视频潜在语义,从而解决视频文本跨模态问题和生成语句的语法结构问题,并能有效提升视频描述模型的准确度和对复杂场景的描述能力,更具先进性。相似文献

6.

基于图像深度预测的景深视频分类算法

钱立辉王斌郑云飞章佳杰李马丁于冰《浙江大学学报(理学版)》2021,48(3):282-288

景深视频因高清、美观广受大众喜爱。然而,要从海量视频中检出此类视频十分困难。已有较多研究基于景深图像成像原理,开展景深像素分割算法研究,但难以直接应用于实际视频分类场景。本文针对景深视频类型,设计了可预测视频类型的深度网络。根据景深成像原理,各语义物体之间相对相机的景深深度存在一定的逻辑关系。为此提出以图像深度为指导,利用深度预测模块预测图像的景深深度信息,将其合并后输入至分类网络进行训练检测,以降低景深视频误检率,提升网络模型的性能。此外,针对现实需求中该领域有标数据较少,而不同数据集分布会降低性能的问题,设计了迭代式景深视频数据集收集方法,以较低的劳动成本快速收集所需要的视频数据,具有一定的实际应用价值。本文算法在快手线上的景深视频数据集中识别准确率达85.7%。相似文献

7.

一种视频图像的自适应水印新算法 总被引：3，自引：0，他引：3

下载免费PDF全文

朱仲杰蒋刚毅郁梅吴训威《浙江大学学报(理学版)》2003,30(1):41-45

随着计算机和网络技术的快速发展，数字水印技术正成为一种数字煤体知识产权保护的有效方法，本文提出一种视频自适应水印新算法，它直接对压缩后的视频数据流进行操作，将水印信息嵌入到运动矢量上，根据待嵌入的水印住处和运动矢量的特征矢量，新算法自动调整嵌入方案，使得嵌入水印后的图像质量损失达到最小，水印的提取算法具有盲检功能，并且新算法与视频标准有很好的兼容性，实验结果表明，算法简单有效。相似文献

8.

结合光流法与信息熵的人群突发事件检测与判断

邓立沈继忠高鹏辉《浙江大学学报(理学版)》2019,46(1):39-47

在公园、学校、购物中心等人流密集的地方，如果发生火灾、地震或犯罪案件，易导致类似踩踏的安全事故。需要掌握区域内人群是混乱还是有序疏散的信息，从而尽快采取有效的应对措施，将人员伤亡降至最低。提出了一种结合光流法与信息熵的人群突发事件检测与判断算法。通过LK光流算法从视频中提取运动物体的特征点，并得到特征点的位置信息；根据位置信息计算速度和加速度，分析运动强度，检测突发事件；由各速度矢量在方向上的分布得到概率，计算信息熵，由信息熵来判断视频中人群的状态是混乱还是有序。与同类算法相比，本算法能在准确检测突发事件的同时判断人群状态，适用于多种不同场景。相似文献

9.

基于深度学习的校园欺凌行为检测研究

下载免费PDF全文

符水波李刚《宁波大学学报(理工版)》2020,33(3):57-62

为通过校园监控网络实时发现校园欺凌事件, 提出采用人体姿态检测模型与递归神经网络相结合的方法来分析视频中的每一对个体行为, 并通过一个完全连接的网络来识别一系列视频帧的行为, 进而判断是否存在校园暴力行为. 此外, 还建立一个包含了来自校园不同地方的3000多个视频片段数据库, 并对视频中的运动行为进行标注, 以用于训练及测试. 通过对照实验发现与传统方法相比, 本文设计算法的实时分析准确率更高. 相似文献

10.

局部信息和全局信息相结合的点云处理网络

刘玉杰原亚夫孙晓瑞李宗民《浙江大学学报(理学版)》2023,(6):770-780

针对当前主流点云处理网络仅依靠局部邻域进行特征聚合导致特征提取能力不足，以及使用最大值池化造成信息损失的问题，提出了一种基于注意力的局部信息和全局信息相结合的点云处理网络。首先提出了基于通道自注意力进行局部特征聚合的方法，减少了信息的损失；然后为捕获点的远程依赖信息，设计了一种动态学习关键点的方法获取全局信息；最后构建了一种基于空间注意力的特征融合模块，使每个点均能学习全局上下文信息。在几个常用点云数据集上对方法进行了实验验证，在ModelNet40分类任务上实现了94.0%的总体分类精度、91.7%的平均分类精度；在ScanObjectNN分类任务上实现了81.5%的总体分类精度、78.1%的平均分类精度；在ShapeNet分割任务上实现了86.5%的平均交并比。表明提出的点云处理网络在分类、分割等任务中的精度均较PointNet、PointNet++、DGCNN等经典网络有显著提升，较其他点云处理网络也有不同程度的提高。相似文献

11.

基于灰色关联分析的H.264/AVC视频隐写算法 总被引：1，自引：0，他引：1

张英男张敏情钮可《武汉大学学报(理学版)》2014,(6)

针对当前视频隐写算法对视频质量和码率影响较大等问题,结合H.264编码标准的宏块分割特性,提出一种基于灰色关联分析的视频隐写算法.该算法对原始载体进行灰色关联度计算,判断其是否为非平滑块,再对帧做离散余弦变换(DCT)变换,根据H.264/AVC编码的宏块分割特性得出的分块大小选择合适的嵌入量,在DCT块的低频区域进行嵌入.实验结果表明,进行秘密信息嵌入后,对视频序列的影响较小,亮度分量的峰值信噪比(PSNR)值平均下降约1.323dB,隐写分析平均检测率为35.73%,算法的平均嵌入容量为417b/帧,对码率影响仅在3%以下,攻击后提取秘密消息的相似度(SIM)值在0.79以上.因此,该算法对视频质量和码率影响较小,并具有抗噪声、滤波攻击,隐写容量大等优点. 相似文献

12.

基于改进的DenseNet-BC对少数民族服饰的识别

杨冰徐丹张豪远罗海妮《浙江大学学报(理学版)》2021,48(6):676-683

随着信息技术的发展,数字技术越来越多地应用于民族文化数字化保护,民族服饰的数字化及分类问题也日益受关注。相比一般服饰,少数民族服饰具有更多的细节特征信息,对其进行分类识别具有很大挑战。选用卷积神经网络DenseNet-BC作为基础网络结构,设计并使用了多尺度密集连接单元,用不同大小的卷积提取不同尺度的特征信息,以提高网络的学习能力;此外,为进一步提高网络的鲁棒性,提出一种局部和全局注意力机制方法进行分类识别。实验结果表明,改进的DenseNet-BC模型对少数民族服饰的识别准确率达95.18%,较ResNet-18、ResNet-34和DenseNet模型的识别准确率分别提升了3.84%、2.27%和1.18%。改进的DenseNet-BC模型具有更好的特征提取能力,能够提取更多的细节特征信息,一定程度上解决了普通模型提取特征尺度单一、特征丰富度低的问题。相似文献

13.

基于交互和图注意力网络的代码搜索方法

余荣威邓德旺王泽《武汉大学学报(理学版)》2023,(6):757-766

在代码搜索任务中,已有的基于深度学习的算法,一方面不能有效提取代码特征和查询特征之间的细粒度交互关系,另一方面未考虑特征之间潜在的结构化特征,无法实现更精确的匹配。本文提出了一种基于交互和图注意力网络的代码搜索模型IGANCS(Interaction and Graph Attention Network based model for Code Search)。该模型通过引入基于相似度矩阵的交互机制,学习代码特征和查询特征的细粒度交互关系,实现代码与查询之间的对齐;引入图注意力机制,利用自注意力层学习代码和查询中隐藏的结构化特征,更深入地挖掘代码和查询的结构化语义;利用最大池化机制分别聚合代码特征和查询特征,提取最重要的特征信息。本文在公开的Java数据集和Python数据集上对IGANCS进行了评估。实验结果表明,IGANCS在Mean Reciprocal Rank(MRR)和SuccessRate@1/5/10指标上优于已有的基线模型。相似文献

14.

基于跨视角图像转换的地-空图像地理定位

黄佳庆叶登攀江顺之《武汉大学学报(理学版)》2023,(1):79-87

图像地理定位任务的目标是对于给定的现实图像实现其地理位置的预测,在目前主流方法中,这种预测通过将输入图像与数据库中带有地理标签的图像进行匹配实现。由于缺乏全面的带有地理标签的地面图像,已有的数据库都是通过带有经纬度标签的卫星图像来建立的,而卫星图像相对于地面图像的巨大视角变化则给图像的匹配带来了挑战。本文提出了一种新的用于跨视角图像转换的条件生成对抗网络Crossview Attention Seq(CAS),使其生成由卫星图像转换得到的地面辅助信息。CAS由图像的语义分割信息达到了更好的生成效果,同时又通过模块中的空域注意力机制压制了转换的噪声。CAS所生成的转换信息与查询图像一起被输入到图像匹配框架当中,进行参数的优化和特征表示的学习。基于孪生网络模型搭建了新的图像匹配框架,并将新的损失函数结合到训练过程中,与传统三元组损失相比,它大大提升了模型整体优化的效果。实验结果表明,本文提出的方法在两个经典图像定位数据集上对比基线模型达到了更高的定位精度,并且对低信息量的数据具有更强的鲁棒性。相似文献

15.

基于结合Transformer和卷积神经网络的生成对抗网络在磁共振成像中分割胎盘组织（英文）

下载免费PDF全文

叶正洁王玉涛徐建金炜《宁波大学学报(理工版)》2023,(1):22-34

磁共振成像(MRI)胎盘组织的准确分割对于研究妊娠和分娩并发症具有重要意义,但传统放射科医师的人工标注难以保证分割准确性和客观性,且费时费力.为了开发用于MRI中胎盘组织自动分割的深度学习模型,提出了结合Transformer和卷积神经网络(CNN)的生成对抗网络(TCGANet).将特征嵌入模块与跳跃连接相结合,缓解传统特征融合方法带来的信息丢失.在此基础上引入内容提取模块,采用Transformer的自注意力机制捕捉全局依赖关系,有效表示MRI的全局和局部信息.此外,鉴于传统分割方法难于精确界定MR影像胎盘组织边缘的问题,运用判别网络对胎盘组织分割的生成网络监督,以提高胎盘边缘界定的精度.结果表明,该模型在定量指标和边界定位精度方面显著优于现有分割方法,其中准确度为0.993±0.003,灵敏度为0.903±0.093,特异度为0.996±0.003,Dice相关性系数为0.861±0.141.对模型不同结构的消融实验验证了网络结构设计的合理性,大部分性能指标明显优于现有方法(P<0.05).该模型能够实现自动且准确地分割MRI中胎盘组织. 相似文献

16.

基于时空老化模型的服务端瓦片缓存置换算法

汤求毅王超杜震洪张丰刘仁义《浙江大学学报(理学版)》2022,49(2):210-218

随着网络地理信息服务（network geographic information service,NGIS）向云服务演进,客户端瓦片缓存架构的应用局限性逐渐体现。为提升瓦片服务的性能,在老化算法的基础上,综合分析了瓦片访问长短期流行度和瓦片大小特征,设计了基于时空老化模型的服务端瓦片缓存置换算法（server-side cache replacement algorithm based on spatiotemporal aging model for tiles,SSAT）,并利用谷歌全球底图瓦片和瓦片访问日志进行了仿真实验。结果表明,在不同缓存空间下,SSAT的缓存命中率均高于传统算法,缓存空间每增加1 MB,最多可以提高0.24%的请求命中率和0.23%的字节命中率;当缓存空间为500 MB时,SSAT能达到73%的请求命中率和76%的字节命中率,平均访问时长可缩短35%以上。SSAT能兼顾性能与资源消耗,具备高效性和扩展性。相似文献

17.

LK-CAUNet：基于交叉注意的大内核多尺度可变形医学图像配准网络

程天琪王雷郭新萍王钰帏刘春香李彬《浙江大学学报(理学版)》2023,(6):745-753

经典的UNet网络可用于预测全分辨率空间域的密集位移场，在医学图像配准中取得了巨大成功。但对大变形的三维图像配准，还存在运行时间长、无法有效保持拓扑结构、空间特征易丢失等缺点。为此，提出一种基于交叉注意的大内核多尺度可变形医学图像配准网络（large kernel multi-scale deformable medical image registration network based on cross-attention,LK-CAUNet）。在经典UNet模型基础上，通过引入交叉注意力模块，实现高效、多层次的语义特征融合；配备大内核非对称并行卷积，使其具有多尺度特征和对复杂结构的学习能力；通过加入平方和缩放模块，实现拓扑守恒和变换可逆。基于脑部MRI数据集，将LK-CAUNet与18种经典图像配准模型进行了比较，结果表明，LK-CAUNet的配准性能较其他模型有明显提升，其Dice得分较TransMorph配准方法提高了8%，而参数量仅为TransMorph的1/5。相似文献