Skip to content

[WIP] Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts #3

@nocotan

Description

@nocotan

一言でいうと

vision-and-languageの事前学習のための1200万の画像とテキストのペアを備えたデータセット.

論文リンク

https://arxiv.org/pdf/2102.08981.pdf

著者/所属機関

Google Research

投稿日付(yyyy/MM/dd)

CVPR2021

Motivation

vision-and-languageの事前学習には,これまではimage captioningやVQAなどのデータが利用されていた.
このようなある特定のタスクについてのデータセットを流用した事前学習も非常に有用ではあったものの,元のタスクにマッチする制限の元でしかデータを収集できなかったために,データセットの規模と多様性にも制限がかかってしまっていた.

本研究ではそうした制限を取り払って,vision-and-languageの事前学習のための大規模なデータセットの構築をした.

Composition

Screen Shot 2021-06-12 at 2 16 07

Screen Shot 2021-06-12 at 2 16 19

Screen Shot 2021-06-12 at 2 16 24

Collection Process

Benchmarks

Screen Shot 2021-06-12 at 2 16 32

Screen Shot 2021-06-12 at 2 16 45

Screen Shot 2021-06-12 at 2 16 54

Screen Shot 2021-06-12 at 2 17 10

コメント

Metadata

Metadata

Assignees

No one assigned

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions