基于多层级视觉融合的图像描述模型 |
| |
引用本文: | 周东明,张灿龙,李志欣,王智文.基于多层级视觉融合的图像描述模型[J].电子学报,2021,49(7):1286-1290. |
| |
作者姓名: | 周东明 张灿龙 李志欣 王智文 |
| |
作者单位: | 广西师范大学广西多源信息挖掘与安全重点实验室,广西桂林541004;广西科技大学计算机科学与通信工程学院,广西柳州545006 |
| |
基金项目: | 国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;广西自然科学基金;广西八桂学者创新研究团队;广西多源信息挖掘与安全重点实验室基金;广西研究生教育创新计划 |
| |
摘 要: | 传统方法在视觉策略网络中只关注实体,不能够推理出实体和属性之间的联系,在语言策略网络存在暴露偏差和误差累计问题.为此,提出了一个基于强化学习的多层级视觉融合网络模型.在视觉策略网络中通过多层级神经网络模块将视觉特征转化为视觉知识的特征集.融合网络生成使描述语句更加流畅的虚词,用于视觉策略网络和语言策略网络的互动.在语言策略网络中使用基于强化学习的自批评策略梯度算法对视觉融合网络实现端到端的优化.实验结果表明,该模型在MS?COCO数据集取得不错效果,将Karpathy分割测试中的CIDEr值从120.1提高到124.3.
|
关 键 词: | 图像描述 视觉融合 强化学习 策略网络 机器学习 注意力机制 |
本文献已被 万方数据 等数据库收录! |
|