parti - Pathways Autoregressive Text-to-Image モデル (Parti) を紹介します。これは、忠実度の高いフォトリアリスティックな画像生成を実現し、複雑な構成と世界の知識を含むコンテンツ豊富な合成をサポートする自己回帰テキストから画像への生成モデルです。

()

Created at: 2022-06-16 13:30:32
Language:
License: Apache-2.0

パーティー

Webサイト

序章

Pathways Autoregressive Text-to-Image モデル (Parti) を紹介します。これは、忠実度の高いフォトリアリスティックな画像生成を実現し、複雑な構成と世界の知識を含むコンテンツ豊富な合成をサポートする自己回帰テキストから画像への生成モデルです。Google のImagenなど、テキストから画像への生成のための拡散モデルに関する最近の進歩 も、研究ベンチマークで印象的な機能と最先端のパフォーマンスを示しています。Parti と Imagen は、生成モデルの 2 つの異なるファミリ (それぞれ自己回帰と拡散) を探索する上で補完的であり、これら 2 つの強力なモデルの組み合わせに刺激的な機会をもたらします。

Parti は、テキストから画像への生成を、機械翻訳に類似したシーケンスからシーケンスへのモデリングの問題として扱います。これにより、大規模な言語モデルの進歩、特にデータとモデルのサイズをスケーリングすることによって解放される機能の恩恵を受けることができます。この場合、ターゲット出力は、別の言語のテキスト トークンではなく、イメージ トークンのシーケンスです。Parti は、強力な画像 トークナイザー ViT-VQGANを使用して画像を個別のトークンのシーケンスとしてエンコードし、そのような画像トークン シーケンスを高品質で視覚的に多様な画像として再構築する能力を利用します。

次の結果が得られました。

  • Parti のエンコーダー/デコーダーを最大 200 億のパラメーターにスケーリングすることにより、一貫した品質の向上。
  • MS-COCO で最先端のゼロショット FID スコア 7.23 と微調整された FID スコア 3.22。
  • この作業の一環としてリリースした 1600 以上の英語プロンプトの新しい全体的なベンチマークである、ローカライズされたナラティブと PartiPrompts の分析における、さまざまなカテゴリと難易度の側面にわたる有効性。

一部概要

PartiPrompts ベンチマーク

PartiPrompts (P2) は、この作業の一環としてリリースされた 1600 を超える英語のプロンプトの豊富なセットです。P2 は、さまざまなカテゴリや課題の側面にわたってモデルの機能を測定するために使用できます。

一部プロンプト

P2 プロンプトはシンプルで、スケーリングからの進行状況を測定できます。また、ヴィンセント・ヴァン・ゴッホの『星月夜』 (1889)のために作成した次の 67 語の説明のように、複雑な場合もあります。

エネルギーが渦巻く青い夜空をキャンバスに油彩で描いた作品。上部に輝く、ぼんやりと明るい黄色の三日月。爆発する黄色い星と青い渦巻きの下で、遠くの村が右側に静かに座っています。大地と空をつなぐのは炎のようなヒノキの木で、左側の枝がカールして揺れています。なだらかな青い丘の上に教会の尖塔が標識のようにそびえ立っています。

謝辞

Parti は複数のGoogle リサーチチームにまたがる著者による共同作業です 。

Jiahui Yu * ​​、Yuanzhong Xu 、Jing Yu Koh 、Thang Luong 、Gunjan Baid 、Zirui Wang 、Vijay Vasudevan 、Alexander Ku 、Yinfei Yang、Burcu Karagol Ayan、Ben Hutchinson、Wei Han、Zarana Parekh、Xinリー、ハン・チャン、ジェイソン・ボールドリッジ、ウー・ヨンフイ*

*平等な貢献コアの貢献

Elizabeth Adkison、Fred Alcober、Tania Bedrax-Weiss、Krishna Bharat、Nicole Brichtova、Yuan Cao、William Chan、Zhifeng Chen、Eli Collins、Claire Cui、Andrew Dai、Jeff Dean、Emily Denton、Toju Duke、Dumitru に感謝します。 Erhan、Brian Gabriel、Zoubin Ghahramani、Jonathan Ho、Michael Jones、Sarah Laszlo、Quoc Le、Lala Li、Zhen Li、Sara Mahdavi、Kathy Meier-Hellstern、Kevin Murphy、Paul Natsev、Paul Nicholas、Mohammad Norouzi、Ruoming Pang、Niki Parmar、Fernando Pereira、Slav Petrov、Vinodkumar Prabhakaran、Utsav Prabhu、Evan Rapoport、Keran Rong、Negar Rostamzadeh、Chitwan Saharia、Gia Soles、Austin Tarango、Ashish Vaswani、Tao Wang、Tris Warkentin、Austin Waters、Ben Zevenbergen が有益なディスカッションを行い、ガイダンス、ピーター・アンダーソン、コリンナ・コルテス、トム・デューリグ、ダグラス・エック、デビッド・ハー、Radu Soricut と Rahul Sukthankar は論文のレビューとフィードバックを提供し、Erica Moreira と Victor Gomes はリソースの調整を支援し、Tom Small は Parti 透かしの設計を支援し、Google ML Data Operations チームは生成された画像に対する人間の評価を収集し、Google Brain チームの他のメンバーも提供しました。このプロジェクト全体をサポートする Google Research チーム。

Imagen チーム、特に Mohammad Norouzi、Chitwan Saharia、Jonathan Ho、William Chan には、Imagen をリリースする前にほぼ完全な結果を共有してくれたことに特に感謝します。CF ガイダンスの重要性に関する彼らの調査結果は、最終的な Parti モデルに特に役立ちました。また、自己回帰モデルでの CF ガイダンスの実装について有益な議論をしてくれた Make-a-Scene チーム、特に Oran Gafni に感謝します。MS-COCO の評価に関する有益な議論について、DALL-E 2 の作成者、特に Aditya Ramesh に感謝します。また、DALL-Eval の作成者、特に Jaemin Cho の番号の再現にご協力いただきありがとうございます。

ノート

これは公式にサポートされている Google 製品ではありません。