博客
关于我
首发 | 13篇京东CVPR 2019论文!你值得一读~ 技术头条
阅读量:130 次
发布时间:2019-02-26

本文共 2593 字,大约阅读时间需要 8 分钟。

CVPR 2019 系列论文:13 篇值得一读

计算机视觉领域的顶级会议 CVPR(Conference on Computer Vision and Pattern Recognition)每年都会吸引全球顶尖的研究人员和机构投稿。被录用的论文通常被视为该领域的学术巅峰,具有重要的学术价值和行业影响。本文整理了 CVPR 2019 会议上被京东团队收录的 13 篇论文,供开发者深入研究。


1. Social Relation Recognition from Videos via Multi-scale Spatial-Temporal Reasoning

摘要

本文提出一种基于金字塔图卷积网络(PGCN)的多尺度时空推理框架,用于从视频中识别人物的社会关系。通过结合场景特征、人-人交互和人-物交互,本文构建了一个三元图模型,并利用 PGCN 从不同时间尺度提取动态视觉特征。实验表明,该方法在 ViSR 数据集上表现优异。


2. Object-driven Text-to-Image Synthesis via Adversarial Training

摘要

本文提出一种对象驱动的注意力生成对抗网络(Obj-GAN),用于复杂场景下的文本到图像合成。与传统 GAN 不同,Obj-GAN 通过关注文本描述中的物体生成语义布局,再逐步生成具体物体,显著提升了图像质量。实验结果显示,在 COCO 数据集上.Obj-GAN 的生成效果优于现有的注意力 GAN 方法。


3. A Dataset and Benchmark for Large-scale Multi-modal Face Anti-Spoofing

摘要

本文构建了一个大规模多模态的人脸防伪数据库 CASIA-SURF,包含 1000 个真假人脸数据及 21,000 条视频。每条视频包含 RGB、深度图和近红外图三种模态。本文还提出了多模态融合方法,显著提升了防伪性能。


4. ScratchDet: Training Single-Shot Object Detectors from Scratch

摘要

本文提出了一种从零开始训练单射物体检测模型 ScratchDet。通过批归一化方法优化训练过程,确保网络收敛稳定。实验表明,ScratchDet 在 PASCAL VOC 和 MS COCO 数据集上取得了优异的检测效果,尤其在小物体检测方面表现突出。


5. Destruction and Construction Learning for Fine-grained Image Recognition

摘要

通过“破坏-重建”机制,本文增强了神经网络对细粒度图像识别的能力。这种方法无需额外标注信息,在测试时也不增加计算开销。实验表明,在 ImageNet 上,仅对 ResNet50 增加 8192 个参数即可提升分类准确率接近 ResNet101。


6. Unsupervised Person Image Generation with Semantic Parsing Transformation

摘要

本文提出一种分解式的无监督时尚人像生成方法。通过语义解析转换和纹理生成网络,解决了复杂场景下的图像生成难题。该方法可以应用于服饰纹理转换和受控图像编辑等场景。


7. Gaussian Temporal Awareness Networks for Action Localization

摘要

本文提出高斯时间感知网络(GTAN),通过动态优化动作视频的时间尺度,提升了时序动作检测的鲁棒性。实验表明,GTAN 在 THUMOS14 和 ActivityNet 数据集上比现有方法提升了 1.9% 和 1.1% 的 mAP。


8. Learning Spatio-Temporal Representation with Local and Global Diffusion

摘要

本文提出一种局部和全局特征传播模型(LGD),通过三维神经网络同时学习空间和时间特征。实验表明,在 Kinetics 数据集上,LGD 模型达到了 81.2% 的分类准确率,显著优于现有方法。


9. Exploring Object Relation in Mean Teacher for Cross-Domain Detection

摘要

本文基于 Mean Teacher 模型提出了融合目标实例关系的跨域检测方法。在 Cityscapes、Foggy Cityscapes 和 SIM10k 数据集上取得了优异的迁移效果。单模型在 Syn2Real 数据集上达到了 22.8% 的 mAP。


10. Customizable Architecture Search for Semantic Segmentation

摘要

本文提出了一种可定制网络结构搜索方法(CAS),用于生成优化的语义分割网络。通过约束-aware 搜索,在 Cityscapes 数据集上实现了 72.3% 的 mIoU,且推理速度达 108FPS。


11. Pointing Novel Objects in Image Captioning

摘要

本文提出 LSTM-P 模型,通过引入物体学习器和指向机制,增强了图像描述生成的能力。实验表明,在 held-out COCO 数据集上,F1 分数达到了 60.9%。


12. Transferrable Prototypical Networks for Unsupervised Domain Adaptation

摘要

本文提出了一种基于原型网络的无监督迁移学习模型 TPN,用于跨领域任务。实验表明,TPN 在 VisDA 数据集上达到了 80.4% 的准确率。


13. Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering

摘要

本文提出了一种基于原型网络的多模态注意力模型,用于视频问答任务。通过异构记忆力模型和多模态融合层,显著提升了问答准确度。


如需进一步了解这些论文的具体内容,可以参考原文链接。

转载地址:http://ruay.baihongyu.com/

你可能感兴趣的文章
Pandas 按年份分组,按销售列排名,在具有重复数据的数据框中
查看>>
pandas 按日期和年份分组,并汇总金额
查看>>
pandas 数据帧到PostgreSQL表中使用的是没有SQLAlChemy的心理复制2吗?
查看>>
pandas 数据帧多行查询
查看>>
Pandas 数据框:使用线性插值重新采样
查看>>
pandas 数据框将 INT64 列转换为布尔值
查看>>
pandas 数据框将列类型转换为字符串或分类
查看>>
pandas 数据框条件 .mean() 取决于特定列中的值
查看>>
pandas 数据框至海运分组条形图
查看>>
Pandas 数据透视表:列顺序和小计
查看>>
pandas 时序统计的高级用法!
查看>>
pandas 时间序列重新采样结束给定的一天
查看>>
pandas 根据不是常量的第三列的值将值从一列复制到另一列
查看>>
pandas 根据值从多列中的一列查找
查看>>
Pandas 根据布尔条件选择行和列
查看>>
pandas 滚动窗口 - datetime64[ns] 未实现
查看>>
pandas 版本兼容特定的蟒蛇和NumPy配置吗?
查看>>
pandas 生成excel多级表头
查看>>
Pandas 的 DataFrame 详解-ChatGPT4o作答
查看>>
pandas 读取excel数据,以字典形式输出
查看>>