Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning-MedSci.cn

Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning

Piergiovanni, AJ; Kuo, WC; Angelova, A

Piergiovanni, AJ (通讯作者)，Google Res, Mountain View, CA 94043 USA.

2023 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, CVPR, 2023; (): 2214

Abstract

We present a simple approach which can turn a ViT encoder into an efficient video model, which can seamlessly work with both image and video inputs. B......

Full Text Link

Links

期刊讨论 | 中国SCI论文 | 期刊主页 | 投稿经验 | 杂志官网 | 投稿链接 | 作者需知 | PMC链接 | Pubmed全文检索

科室
- - 订阅+
  - 更多科室
工具
服务