一言でいうと
vision-and-languageの事前学習のための1200万の画像とテキストのペアを備えたデータセット.
論文リンク
https://arxiv.org/pdf/2102.08981.pdf
著者/所属機関
Google Research
投稿日付(yyyy/MM/dd)
CVPR2021
Motivation
vision-and-languageの事前学習には,これまではimage captioningやVQAなどのデータが利用されていた.
このようなある特定のタスクについてのデータセットを流用した事前学習も非常に有用ではあったものの,元のタスクにマッチする制限の元でしかデータを収集できなかったために,データセットの規模と多様性にも制限がかかってしまっていた.
本研究ではそうした制限を取り払って,vision-and-languageの事前学習のための大規模なデータセットの構築をした.
Composition



Collection Process
Benchmarks




コメント