best_AI_papers_2022 - リリース日ごとのAIの最新のブレークスルー(2022年)の厳選されたリストと、明確なビデオ説明、より詳細な記事へのリンク、およびコード。

(A curated list of the latest breakthroughs in AI (in 2022) by release date with a clear video explanation, link to a more in-depth article, and code.)

Created at: 2022-01-15 03:32:18
Language: NULL
License: MIT

2022年:素晴らしいAI論文でいっぱいの年-レビュー 🚀

リリース日別のAIの最新のブレークスルーの厳選されたリストと、明確なビデオの説明、より詳細な記事へのリンク、およびコード。

世界はまだ回復していますが、特に人工知能の分野では、研究がその熱狂的なペースを遅くしていません。さらに、今年は、倫理的側面、重要な偏見、ガバナンス、透明性など、多くの重要な側面が強調されました。人工知能と人間の脳とそのAIへのリンクの理解は絶えず進化しており、近い将来、私たちの生活の質を向上させる有望なアプリケーションを示しています。それでも、どのテクノロジーを適用するかには注意する必要があります。

「科学は私たちが何をすべきかを教えてくれるのではなく、私たちにできることだけを教えてくれます。」
- ジャン・ポール・サルトル『存在と無』

ここでは、AIとデータサイエンスの最新のブレークスルーをリリース日ごとに厳選したリストと、明確なビデオの説明、より詳細な記事へのリンク、およびコード(該当する場合)を示します。読んでお楽しみください!

各論文の完全な参照は、このリポジトリの最後にリストされています。 このリポジトリにスターを付けて、最新情報を入手し、来年をお楽しみに! ⭐️

メンテナ: louisfb01

囀る

私のニュースレターを購読する - AIの最新アップデートが毎週説明されています。

このリポジトリに追加するのを見逃した可能性のある興味深い論文を私にメッセージを送ってください。

リストを共有している場合は、Twitter @Whats_AIまたはLinkedIn@Louis(AIとは)ブシャールにタグを付けてください!そして、私たちと一緒にAIを学ぶDiscordコミュニティで私たちとチャットしてください!

👀 私の仕事をサポートしたい場合は、このリポジトリを後援するか、Patreonで私をサポートすることができます。また、私のお気に入りの毎日のAIニュースレターをフォローして、そのような新しい論文を頻繁に更新することで、私をサポートすることもできます。


全リスト


フーリエ畳み込みによる解像度耐性の高い大型マスクインペインティング[1]

あなたは間違いなく一度この状況を経験しました:あなたはあなたの友人と素晴らしい写真を撮ります、そして誰かがあなたの後ろで写真爆撃をしていて、あなたの将来のInstagramの投稿を台無しにしています。まあ、それはもはや問題ではありません。写真を台無しにしているのは、自分撮りをする前に取り除くのを忘れた人かゴミ箱のどちらかです。このAIは、画像内の不要なオブジェクトや人物を自動的に削除し、投稿を保存します。それはあなたのポケットの中のプロのフォトショップデザイナーのようなもので、クリックするだけです!

画像の一部を削除し、背後に表示されるはずのものに置き換えるというこのタスクは、多くのAI研究者によって長い間取り組んできました。それはイメージインペインティングと呼ばれ、非常に挑戦的です...

時間内に縫い合わせる:実際のビデオのGANベースの顔編集[2]

最近のキャプテン・マーベルやジェミニマンのように、サミュエル・L・ジャクソンとウィル・スミスがはるかに若く見えた映画を見たことがあるでしょう。これには、彼が出演したシーンを手動で編集する専門家による数千時間とは言わないまでも数百時間の作業が必要です。 代わりに、単純なAIを使用して、数分以内にそれを行うことができます。実際、多くのテクニックでは、AIベースのアルゴリズムを使用して、笑顔を追加したり、若く見えたり、年上に見せたりすることができます。動画ではAIによる顔操作と呼ばれ、2022年の現状はこちら!

NeROIC: オンライン画像コレクションからのオブジェクトのニューラルレンダリング [3]

ニューラルレンダリング。ニューラルレンダリングは、関心のあるオブジェクト、人物、またはシーンの写真から、このような空間でフォトリアリスティックなモデルを生成する機能です。この場合、この彫刻の写真がいくつかあり、これらの写真のオブジェクトが宇宙でどのように見えるべきかを理解するように機械に依頼します。あなたは基本的に、画像から物理学と形状を理解するように機械に求めています。これは、現実の世界と深度しか知らないため、非常に簡単ですが、ピクセルしか見えないマシンにとってはまったく別の課題です。 生成されたモデルがリアルな形状で正確に見えるのは素晴らしいことですが、新しいシーンでどのようにブレンドされるかはどうですか?そして、撮影した写真で照明条件が異なり、生成されたモデルが見る角度によって異なって見える場合はどうなりますか?これは自動的に奇妙で非現実的に思えます。これらは、Snapchatと南カリフォルニア大学がこの新しい研究で攻撃した課題です。

スピーチペインター:テキストコンディショニングスピーチインペインティング[4]

画像から望ましくないオブジェクトを削除することを目的とした画像インペインティングを見てきました。機械学習ベースの手法は、単にオブジェクトを削除するだけでなく、画像を理解し、画像の欠落部分を背景がどのように見えるかで埋めます。 結果と同じように、最近の進歩は信じられないほどであり、このインペイントタスクは、広告や将来のInstagram投稿の改善などの多くのアプリケーションに非常に役立ちます。また、さらに困難なタスクについても取り上げました:ビデオインペインティングでは、同じプロセスをビデオに適用してオブジェクトや人を削除します。

ビデオの課題は、バグのあるアーティファクトなしでフレーム間で一貫性を保つことです。しかし今、映画から人を正しく削除しても、音がそのまま残っているとどうなりますか?さて、私たちは幽霊を聞いて、私たちのすべての仕事を台無しにするかもしれません。

ここで、自分のチャンネルで取り上げたことのないタスク、つまりスピーチインペインティングが登場します。あなたはそれを正しく聞いた、グーグルからの研究者はちょうどスピーチを内塗りすることを目的とした論文を発表しました、そして、我々が見るように、結果は非常に印象的です。さて、結果を見るよりも聞くかもしれませんが、あなたは要点を理解します。文法や発音を修正したり、バックグラウンドノイズを削除したりすることもできます。私が間違いなく取り組み続ける必要があるすべてのこと、または...単に彼らの新しいモデルを使用してください...私のビデオの例を聞いてください!

生成顔面先行による現実世界のブラインドフェイス修復に向けて[5]

また、自分自身の古い写真や、年齢が上手くいかなかったり、高品質の画像を作成する前にあなたやあなたの両親が撮ったりした古い写真はありますか?私はそうします、そして私はそれらの記憶が永遠に損なわれたように感じました。少年、私は間違っていました!

この新しい完全に無料のAIモデルは、古い写真のほとんどを一瞬で修正できます。非常に低い入力や高品質の入力でもうまく機能しますが、これは通常非常に困難です。

今週の論文「ジェネレーティブフェイシャルプリアーによる現実世界のブラインドフェイス修復に向けて」は、写真修復タスクに取り組み、優れた結果をもたらします。さらにクールなのは、自分で好きな方法で試すことができることです。彼らはコードをオープンソース化し、今すぐ試すためのデモとオンラインアプリケーションを作成しました。あなたが上で見た結果が十分に説得力がない場合は、ビデオを見て、コメントであなたがどう思うか教えてください、私はそれがあなたの心を吹き飛ばすことを知っています!

学習済みマルチモーダルアライメントのための4D-Net [6]

自動運転車はどのように見えますか?

LiDARセンサーやその他の奇妙なカメラが使用していることを聞いたことがあるでしょう。しかし、彼らはどのように機能し、どのように世界を見ることができ、私たちと比較して正確に何を見ていますか?それらがどのように機能するかを理解することは、主に政府で働いているか、次の規制を構築する場合に、それらを道路に載せたい場合に不可欠です。しかし、これらのサービスのクライアントとしても。

以前、テスラの自動操縦がどのように見え、機能するかについて説明しましたが、従来の自動運転車とは異なります。テスラは世界を理解するためにカメラのみを使用しますが、Waymoのように、ほとんどのカメラは通常のカメラと3D LiDARセンサーを使用しています。これらのLiDARセンサーは非常に理解しやすく、通常のカメラのような画像ではなく、3D点群を生成します。LiDARカメラは、オブジェクト間の距離を測定し、オブジェクトがオブジェクトに投影するパルスレーザーの移動時間を計算します。

それでも、この情報を効率的に組み合わせて車両に理解させるにはどうすればよいでしょうか。そして、車両は何を見ることになりますか?どこでもポイントだけ?私たちの道路を運転するのに十分ですか?WaymoとGoogle Researchによる新しい研究論文でこれを調べます...

マルチ解像度ハッシュエンコーディングを使用したインスタントニューラルグラフィックスプリミティブ [7]

写真を撮ることが十分に挑戦的な技術力ではなかったかのように、私たちは今、反対のことをしています:写真から世界をモデル化します。画像を撮影して高品質のシーンに変えることができる素晴らしいAIベースのモデルについて説明しました。2次元の画像の世界でいくつかの画像を撮って、オブジェクトや人が現実の世界でどのように見えるかを作成することで構成される挑戦的なタスク。

数枚の写真を撮って、すぐにリアルなモデルを作成して製品に挿入します。それはどれほどクールですか?!

結果は、私が2020年にカバーした最初のモデルであるNeRFから劇的に改善されました。そして、この改善は結果の質だけではありません。NVIDIAはそれをさらに良くしました。

品質が同等であるだけでなく、2年未満の研究で1'000倍以上高速です。

CLIP潜在画像を用いた階層テキスト条件付き画像生成 [8]

昨年、私はダル·E、テキスト入力から画像を生成できるOpenAIによる素晴らしいモデルで、信じられないほどの結果が得られます。今こそ彼の兄、ダル·E 2.そして、あなたは一年で進歩を信じないでしょう!ダル·E 2は、テキストからフォトリアリスティックな画像を生成するのに優れているだけではありません。結果は4倍の解像度です!

まだ十分に印象的ではなかったかのように、最近のモデルは新しいスキルを学びました。画像インペインティング。

ダル·Eはテキスト入力から画像を生成できます。

ダル·E 2はそれをより良くすることができますが、それだけではありません。また、これらの画像を編集して、見栄えをさらに良くすることもできます。または、背景にフラミンゴのような必要な機能を追加するだけです。

面白そうですか?ビデオで詳細を学ぶか、以下を読んでください!

MyStyle: A Personaledative Prior [9]

グーグルリサーチとテルアビブ大学によるこの新しいモデルは素晴らしいです。あなたはそれを何でもできる非常に強力なディープフェイクとして見ることができます。

任意の人の写真を100枚撮ると、そのペルソナがエンコードされて、必要なリアルな画像を修正、編集、または作成できます。

あなたが私に尋ねるならば、これは驚くべきことであり、特にあなたが結果を見るとき、怖いです。ビデオを見て、より多くの結果を確認し、モデルがどのように機能するかを理解してください!

OPT: オープン事前トレーニング済みトランスフォーマー言語モデル [10]

私たちは皆、GPT-3について聞いたことがあり、その機能についてある程度明確な考えを持っています。あなたは間違いなく、このモデルのために厳密に生まれたいくつかのアプリケーションを見てきましたが、そのうちのいくつかは、モデルに関する以前のビデオで取り上げました。GPT-3はOpenAIによって開発されたモデルであり、有料APIを介してアクセスできますが、モデル自体にはアクセスできません。

GPT-3を非常に強力にしているのは、そのアーキテクチャとサイズの両方です。1,750億のパラメータがあります。私たちの脳にあるニューロンの量は2倍です!この巨大なネットワークは、私たちがテキストをどのように書き、交換し、理解するかを理解するために、インターネット全体でかなり訓練されました。今週、Metaはコミュニティにとって大きな一歩を踏み出しました。彼らは、それ以上ではないにしても、同じくらい強力なモデルをリリースし、完全にオープンソース化しました。

BlobGAN: 空間的に解きほぐされたシーン表現 [11]

BlobGANを使用すると、画像の非現実的な操作が可能になり、単純なブロブを非常に簡単に制御できます。これらの小さなブロブはすべてオブジェクトを表しており、それらを移動したり、大きくしたり小さくしたり、削除したりすることができ、画像内で表すオブジェクトにも同じ効果があります。これはとてもクールです!

著者が結果で共有したように、ブロブを複製して新しい画像を作成し、2つの天井ファンのある部屋のようにデータセットに見えない画像を作成することもできます。私が間違っている場合は訂正してください、しかし、ブロブを移動してトレーニングデータセットでは見られなかった編集を可能にするのと同じくらい簡単に画像の変更を行うのは、最初ではないにしても、論文の1つだと思います。

そして、あなたは実際に私たち全員が知っているいくつかの会社と比較してこれで遊ぶことができます!彼らはコードを公に共有し、すぐに試すことができるColabデモを共有しました。さらにエキサイティングなのは、BlobGAN の仕組みです。ビデオでもっと学びましょう!

ジェネラリストエージェント [12]

ディープマインドのガトーが公開されました!これは、Atariゲームをプレイしたり、画像にキャプションを付けたり、人々とチャットしたり、実際のロボットアームを制御したりできる単一のトランスフォーマーです。実際、一度トレーニングされ、同じ重みを使用してこれらすべてのタスクを実行します。そして、ディープマインドによると、これはトランスフォーマーであるだけでなく、エージェントでもあります。これは、トランスフォーマーとマルチタスク強化学習エージェントの進行状況を混在させると発生します。

Gatoはマルチモーダルエージェントです。つまり、チャットボットとして画像のキャプションを作成したり、質問に答えたりすることができます。あなたはGPT-3がすでにそれを行うことができると言うでしょう、しかしGatoはもっとすることができます...マルチモダリティは、Gatoが人間レベルでAtariゲームをプレイしたり、ロボットアームを制御してオブジェクトを正確に動かすなどの実際のタスクを実行したりすることもできるという事実に由来しています。それは言葉、画像、そして物理学さえも理解します...

言語理解の深みを持つ写実的なテキストから画像への拡散モデル [13]

Dall-e 2が素晴らしい結果をもたらしたと思ったら、GoogleBrainのこの新しいモデルで何ができるかがわかるまで待ってください。

Dalle-eは素晴らしいですが、リアリズムに欠けていることが多く、これはチームがImagenと呼ばれるこの新しいモデルで攻撃したものです。

彼らはプロジェクトページで多くの結果を共有しているだけでなく、テキストと画像モデルを比較するために導入したベンチマークを共有しており、Dall-E 2と以前の画像生成アプローチを明らかに上回っています。ビデオで詳細をご覧ください...

囀る

ダル·イーミニ [14]

ダレミニは素晴らしいです—そしてあなたはそれを使うことができます!

過去数日間、Twitterフィードでそのような写真を見たことがあると思います。 あなたがそれらが何であるか疑問に思ったら、それらはDALL·Eミニ。 それらを見たことがない場合は、見逃しているのでこのビデオを見る必要があります。 これがどのように可能であるのか疑問に思うなら、まあ、あなたは完璧なビデオにいて、5分以内に答えを知るでしょう。

Dalle miniは、テキスト入力から素晴らしい画像を生成する無料のオープンソースAIです。

取り残された言語なし:人間中心の機械翻訳のスケーリング [15]

Meta AIの最新モデルは「No Language Left Behind」と呼ばれ、最先端の品質で200の異なる言語に翻訳します。 1 つのモデルで 200 の言語を処理できます。それはどれほど素晴らしいですか?

Metaが同じモデルで200の異なる言語に取り組んでいる間、厳密に英語で素晴らしい結果を得ることは困難であり、グーグル翻訳でさえ苦労している最も複雑で表現されていない言語のいくつか...

デュアルシャッター光学振動センシング [16]

振動面でカメラとレーザービームを使用して音を再構築し、楽器を分離したり、特定のスピーカーに焦点を合わせたり、周囲のノイズを除去したり、さらに多くの驚くべきアプリケーションを可能にします。

メイク・ア・シーン: 人間の事前確率を使用したシーンベースのテキストから画像への生成 [17]

メイク・ア・シーンは「ただのダレ」ではありません。この新しいモデルの目標は、ユーザーがdalleのようにテキストプロンプトに従ってランダムな画像を生成できるようにすることではなく(これは本当にクールです)、世代のユーザーコントロールを制限します。

代わりに、Metaはクリエイティブな表現を前進させ、このテキストから画像への傾向を以前のスケッチから画像へのモデルと融合させ、テキストとスケッチ条件の画像生成の素晴らしいブレンドである「メイクアシーン」につながりたいと考えていました。

BANMo:多くのカジュアルビデオからアニメーション可能な3Dニューラルモデルを構築する[18]

BANMoで写真から変形可能な3Dモデルを作成!

潜在拡散モデルを用いた高解像度画像合成 [19]

DALLE、Imagen、Midjourneyなどの最近の超強力な画像モデルに共通するものは何ですか?高いコンピューティングコスト、膨大なトレーニング時間、共有された誇大宣伝を除けば、それらはすべて同じメカニズム、つまり拡散に基づいています。 拡散モデルは最近、DALLEを使用したテキストから画像への変換を含むほとんどの画像タスクで最先端の結果を達成しましたが、画像のインペインティング、スタイル転送、画像の超解像など、他の多くの画像生成関連のタスクでも最先端の結果を達成しました。

👀 私の仕事をサポートしたい場合は、このリポジトリを後援するか、Patreonで私をサポートすることができます。

パノプティックシーングラフ生成 [20]

パノプティックシーングラフ生成(PSG)は、バウンディングボックスではなくパノプティックセグメンテーションに基づいて、画像またはシーンのより包括的なグラフ表現を生成することを目的とした新しい問題タスクです。画像を理解し、何が起こっているのかを説明する文章を生成するために使用できます。これはAIにとって最も困難なタスクかもしれません!詳細については、以下をご覧ください...

画像は一言の価値がある:テキスト反転を使用したテキストから画像への生成のパーソナライズ[21]

Text-to-Image models like DALLE or stable diffusion are really cool and allow us to generate fantastic pictures with a simple text input. But would it be even cooler to give them a picture of you and ask it to turn it into a painting? Imagine being able to send any picture of an object, person, or even your cat, and ask the model to transform it into another style like turning yourself into a cyborg of into your preferred artistic style or adding it to a new scene.

Basically, how cool would it be to have a version of DALLE we can use to photoshop our pictures instead of having random generations? Having a personalized DALLE, while making it much more simple to control the generation as “an image is worth a thousand words”. It would be like having a DALLE model that is just as personalized and addictive as the TikTok algorithm.

Well, this is what researchers from Tel Aviv University and NVIDIA worked on. They developed an approach for conditioning text-to-image models, like stable diffusion I covered last week, with a few images to represent any object or concept through the words you will send along your images. Transforming the object of your input images into whatever you want!

Expanding Language-Image Pretrained Models for General Video Recognition [22]

We’ve seen AI generate text, then generate images and most recently even generate short videos, even though they still need work. The results are incredible when you think that no one is actually involved in the creation process of these pieces and it only has to be trained once to then be used by thousands of people like stable diffusion is. Still, do these models really understand what they are doing? Do they know what the picture or video they just produced really represents? What does such a model understand when it sees such a picture or, even more complex, a video?

MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA [23]

Meta AI’s new model make-a-video is out and in a single sentence: it generates videos from text. It’s not only able to generate videos, but it’s also the new state-of-the-art method, producing higher quality and more coherent videos than ever before!

Robust Speech Recognition via Large-Scale Weak Supervision [24]

Have you ever dreamed of a good transcription tool that would accurately understand what you say and write it down? Not like the automatic YouTube translation tools… I mean, they are good but far from perfect. Just try it out and turn the feature on for the video, and you’ll see what I’m talking about.

Luckily, OpenAI just released and open-sourced a pretty powerful AI model just for that: Whisper.

It understands stuff I can’t even comprehend, not being a native English speaker (listen in the video) and it works for language translation too!

DreamFusion: Text-to-3D using 2D Diffusion [25]

We’ve seen models able to take a sentence and generate images. Then, other approaches to manipulate the generated images by learning specific concepts like an object or particular style.

Last week Meta published the Make-A-Video model that I covered, which allows you to generate a short video also from a text sentence. The results aren’t perfect yet, but the progress we’ve made in the field since last year is just incredible.

This week we make another step forward.

Here’s DreamFusion, a new Google Research model that can understand a sentence enough to generate a 3D model of it. You can see this as a DALLE or Stable Diffusion but in 3D.

Imagic: Text-Based Real Image Editing with Diffusion Models [26]

If you think the recent image generation models like DALLE or Stable Diffusion are cool, you just won’t believe how incredible this one is. "This one" is Imagic. Imagic takes such a diffusion-based model able to take text and generate images out of it and adapts the model to edit the images. You can generate an image and then teach the model to edit it any way you want.

eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [27]

eDiffi, NVIDIA's most recent model, generates better-looking and more accurate images than all previous approaches like DALLE 2 or Stable Diffusion. eDiffi better understands the text you send and is more customizable, adding a feature we saw in a previous paper from NVIDIA: the painter tool.

InfiniteNature-Zero: Learning Perpetual View Generation of Natural Scenes from Single Images [28]

Generate infinite new frames as if you would be flying into your image!

Galactica: A Large Language Model for Science [29]

Galactica is a large language model with a size comparable to GPT-3, but specialized on scientific knowledge. The model can write whitepapers, reviews, Wikipedia pages, and code. It knows how to cite and how to write equations. It’s kind of a big deal for AI and science.

Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial Decomposition [30]

From a single video, they can synthesize the person talking for pretty much any word or sentence in real time with better quality. You can animate a talking head following any audio track in real-time.

ChatGPT: Optimizing Language Models for Dialogue [31]

ChatGPT has taken over Twitter and pretty much the whole internet, thanks to its power and the meme potential it provides. We all know how being able to generate memes is the best way to conquer the internet, and so it worked.

Since you’ve seen numerous examples, you might already know that ChatGPT is an AI recently released to the public by OpenAI, that you can chat with. It is also called a chatbot, meaning you can interact with it conversationally, imitatting a one-on-one human discussion.

What you might not know is what it is and how it works... Watch the video or read the article or blog post below to learn more!

Production-Ready Face Re-Aging for Visual Effects [32]

Whether it be for fun in a Snapchat filter, for a movie, or even to remove a few riddles, we all have a utility in mind for being able to change our age in a picture.

This is usually done by skilled artists using Photoshop or a similar tool to edit your pictures. Worst, in a video, they have to do this kind of manual editing for every frame! Just imagine the amount of work needed for that. Well, here’s a solution and a new problem to this situation... 👇


If you would like to read more papers and have a broader view, here is another great repository for you covering 2021: 2021: A Year Full of Amazing AI papers- A Review and feel free to subscribe to my weekly newsletter and stay up-to-date with new publications in AI for 2022!

Tag me on Twitter @Whats_AI or LinkedIn @Louis (What's AI) Bouchard if you share the list!


Paper references

[1] Suvorov, R., Logacheva, E., Mashikhin, A., Remizova, A., Ashukha, A., Silvestrov, A., Kong, N., Goka, H., Park, K. and Lempitsky, V., 2022. Resolution-robust Large Mask Inpainting with Fourier Convolutions. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (pp. 2149–2159)., https://arxiv.org/pdf/2109.07161.pdf

[2] Tzaban, R., Mokady, R., Gal, R., Bermano, A.H. and Cohen-Or, D., 2022. Stitch it in Time: GAN-Based Facial Editing of Real Videos. https://arxiv.org/abs/2201.08361

[3] Kuang, Z., Olszewski, K., Chai, M., Huang, Z., Achlioptas, P. and Tulyakov, S., 2022. NeROIC: Neural Rendering of Objects from Online Image Collections. https://arxiv.org/pdf/2201.02533.pdf

[4] Borsos, Z., Sharifi, M. and Tagliasacchi, M., 2022. SpeechPainter: Text-conditioned Speech Inpainting. https://arxiv.org/pdf/2202.07273.pdf

[5] Wang, X., Li, Y., Zhang, H. and Shan, Y., 2021. Towards real-world blind face restoration with generative facial prior. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 9168–9178), https://arxiv.org/pdf/2101.04061.pdf

[6] Piergiovanni, A.J., Casser, V., Ryoo, M.S. and Angelova, A., 2021. 4d-net for learned multi-modal alignment. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 15435–15445), https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf.

[7] Thomas Muller, Alex Evans, Christoph Schied and Alexander Keller, 2022, "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding", https://nvlabs.github.io/instant-ngp/assets/mueller2022instant.pdf

[8] A. Ramesh et al., 2022, "Hierarchical Text-Conditional Image Generation with CLIP Latents", https://cdn.openai.com/papers/dall-e-2.pdf

[9] Nitzan, Y., Aberman, K., He, Q., Liba, O., Yarom, M., Gandelsman, Y., Mosseri, I., Pritch, Y. and Cohen-Or, D., 2022. MyStyle: A Personalized Generative Prior. arXiv preprint arXiv:2203.17272.

[10] Zhang, Susan et al. “OPT: Open Pre-trained Transformer Language Models.” https://arxiv.org/abs/2205.01068

[11] Epstein, D., Park, T., Zhang, R., Shechtman, E. and Efros, A.A., 2022. BlobGAN: Spatially Disentangled Scene Representations. arXiv preprint arXiv:2205.02837.

[12] Reed S. et al., 2022, Deemind: Gato - A generalist agent, https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf

[13] Saharia et al., 2022, Google Brain, Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding, https://gweb-research-imagen.appspot.com/paper.pdf

[14] Dayma, et al., 2021, DALL·E Mini, doi:10.5281/zenodo.5146400

[15] NLLB Team et al., 2022, No Language Left Behind: Scaling Human-Centered Machine Translation

[16] Sheinin, Mark and Chan, Dorian and O’Toole, Matthew and Narasimhan, Srinivasa G., 2022, Dual-Shutter Optical Vibration Sensing, Proc. IEEE CVPR.

[17] Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D. and Taigman, Y., 2022. Make-a-scene: Scene-based text-to-image generation with human priors. https://arxiv.org/pdf/2203.13131.pdf

[18] Yang, G., Vo, M., Neverova, N., Ramanan, D., Vedaldi, A. and Joo, H., 2022. Banmo: Building animatable 3d neural models from many casual videos. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 2863-2873).

[19] Rombach, R., Blattmann, A., Lorenz, D., Esser, P. and Ommer, B., 2022. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf

[20] Yang, J., Ang, Y.Z., Guo, Z., Zhou, K., Zhang, W. and Liu, Z., 2022. Panoptic Scene Graph Generation. arXiv preprint arXiv:2207.11247.

[21]ガル、R.、アラルフ、Y.、アツモン、Y.、パタシュニク、O.、ベルマーノ、AH、チェチク、G.およびコーエン-オル、D.、2022年。画像は一言の価値があります:テキスト反転を使用してテキストから画像への生成をパーソナライズします。

[22] Ni, B., Peng, H., Chen, M., Zhang, S., Meng, G., Fu, J., Xiang, S. and Ling, H., 2022.一般的なビデオ認識のための言語画像事前トレーニング済みモデルの拡張。arXivプレプリントarXiv:2208.02816。

[23] Singer et al. (Meta AI), 2022, "MAKE-A-VIDEO: TEXT-TO-VIDEO データなしのテキスト・ツー・ビデオ生成", https://makeavideo.studio/Make-A-Video.pdf

[24]ラドフォード、A.、キム、JW、徐、T.、ブロックマン、G.、マクリービー、C.、およびサツケバー、I.、大規模な弱い監視による堅牢な音声認識。

[25]プール、B.、ジャイン、A.、バロン、JTおよびミルデンホール、B.、2022年。ドリームフュージョン: 2D 拡散を使用したテキストから 3D へ。arXivプレプリントarXiv:2209.14988。

[26]カワール、B.、ザダ、S.、ラング、O.、トフ、O.、チャン、H.、デケル、T.、モセリ、I.およびイラニ、M.、2022年。Imagic:拡散モデルを使用したテキストベースの実画像編集。arXivプレプリントarXiv:2210.09276。

[27] Balaji, Y. et al., 2022, eDiffi: エキスパートデノイザーのアンサンブルによるテキストから画像への拡散モデル, https://arxiv.org/abs/2211.01324

[28] Li, Z., Wang, Q., Snavely, N. and Kanazawa, A., 2022.InfiniteNature-Zero:単一の画像から自然なシーンの永続的なビュー生成を学習します。コンピュータビジョンに関する欧州会議(pp.515–534)。スプリンガー、チャム、https://arxiv.org/abs/2207.11148

[29] Taylor et al., 2022: ギャラクティカ:科学のための大規模な言語モデル, https://galactica.org/

[30] 唐 J., 王 和彦, 周 浩, 陳 X., 賀 D., 胡 俊 劉 J., 曾 G. および 王 J., 2022.オーディオ空間分解によるリアルタイム神経放射輝度トーキングポートレート合成.arXiv プレプリント arXiv:2211.12368.

[31] OpenAI、2022年:ChatGPT:対話のための言語モデルの最適化、https://openai.com/blog/chatgpt/

[32] Loss et al., ディズニーリサーチ, 2022: フラン, https://studios.disneyresearch.com/2022/11/30/production-ready-face-re-aging-for-visual-effects/