unilm - タスク、言語、モダリティにわたる大規模な自己教師あり事前トレーニング

(Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities)

Created at: 2019-07-23 12:15:28
Language: Python
License: MIT

aka.ms/nlpagi

雇用

私たちはすべてのレベル(FTE研究者やインターンを含む)で採用しています!財団モデル(別名、大規模な事前トレーニング済みモデル)およびAGI、NLP、MT、スピーチ、ドキュメントAI、マルチモーダルAIで私たちと一緒に作業することに興味がある場合は、履歴書を fuwei@microsoft.com送ってください。

AI の基礎

トーチスケール - (任意の)スケールのトランスフォーマー(リポジトリ))

モデリングの一般性と機能を向上させるための基礎研究、およびあらゆる規模でのトランスフォーマーの安定性と効率のトレーニング。

安定性 - DeepNet:トランスフォーマーを1,000層以上にスケーリング

一般性 - ファウンデーショントランスフォーマー(マグニートー):タスクとモダリティ(言語、ビジョン、音声、マルチモーダルを含む)にわたる真の汎用モデリングに向けて

機能 - 長さ外分極可能な変圧器

効率性と移転性 - X-MoE:スケーラブルで微細なスパースな専門家の混合物(MoE)

基礎(別名事前トレーニング済み)モデル

汎用基礎モデル

MetaLM:言語モデルは汎用インターフェースです

ビッグコンバージェンス - (予測および生成)、(100 +言語)、および(言語、画像、オーディオ、レイアウト/フォーマット+言語、ビジョン+言語、オーディオ+言語など)にわたる大規模な自己教師あり事前トレーニング

tasks
languages
modalities

言語 & 多言語

UniLM:言語の理解と生成のための統一された事前トレーニング

InfoXLM/XLM-E: 100+ 言語用の多言語/クロスリンガル事前トレーニング済みモデル

DeltaLM / mT6:100 +言語の言語生成と翻訳のためのエンコーダーデコーダー事前トレーニング

MiniLM:言語の理解と生成のための小型で高速な事前トレーニング済みモデル

AdaLM:事前トレーニング済みモデルのドメイン、言語、およびタスクの適応

EdgeLM(): エッジ/クライアントデバイス上の小さな事前トレーニング済みモデル

NEW

SimLM (): 類似度マッチングのための大規模事前学習

NEW

E5 (): テキスト埋め込み

NEW

視覚

BEiT/BEiT-2: 視覚のための生成的自己教師あり事前学習 / 画像トランスフォーマーのBERT事前訓練

DiT():ドキュメントイメージトランスフォーマーの自己教師あり事前トレーニング

NEW

演説

WavLM: フルスタックタスクのための音声事前トレーニング

VALL-E: TTS のためのニューラルコーデック言語モデル

マルチモーダル (X + 言語)

レイアウトLM /レイアウトLMv2 /レイアウトLMv3:マルチモーダル(テキスト+レイアウト/フォーマット+画像)ドキュメントAIのドキュメント基盤モデル(スキャンされたドキュメント、PDFなど)

レイアウトXLM:マルチモーダル(テキスト+レイアウト/フォーマット+画像)多言語ドキュメントAIのためのドキュメント基盤モデル

MarkupLM: 視覚的にリッチなドキュメント理解のためのマークアップ言語モデルの事前トレーニング

XDoc: unified pre-training for cross-format document understanding

UniSpeech: unified pre-training for self-supervised learning and supervised learning for ASR

UniSpeech-SAT: universal speech representation learning with speaker-aware pre-training

SpeechT5: encoder-decoder pre-training for spoken language processing

SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data

VLMo: Unified vision-language pre-training

VL-BEiT (): Generative Vision-Language Pre-training - evolution of BEiT to multimodal

NEW

BEiT-3 (): a general-purpose multimodal foundation model, and a major milestone of The Big Convergence of Large-scale Pre-training Across Tasks, Languages, and Modalities.

NEW

Toolkits

s2s-ft: sequence-to-sequence fine-tuning toolkit

Aggressive Decoding (): lossless and efficient sequence-to-sequence decoding algorithm

NEW

Applications

TrOCR: transformer-based OCR w/ pre-trained models

LayoutReader: pre-training of text and layout for reading order detection

XLM-T: multilingual NMT w/ pretrained cross-lingual encoders

News

  • 2023年1月:VALL-Eは、最先端のゼロショットTTSパフォーマンスを実現するテキスト読み上げ合成(TTS)の言語モデリングアプローチです。私たちの仕事のデモについては https://aka.ms/valle を参照してください
  • 2022年11月:トーチスケール0.1.1をリリースしました!
  • 2022年11月:TrOCRはAAAI 2023に受け入れられました。
  • 【モデルリリース】2022 年 11 月: フォーマット間のドキュメント理解のための XDoc BASE モデル。
  • 【モデルリリース】2022年9月:シーンテキスト認識(STR)用のTrOCRベースおよびラージモデル。
  • 【モデルリリース】2022 年 9 月: BEiT v2 コードと事前トレーニング済みモデル
  • 2022年8月:BEiT-3-視覚と視覚言語の両方のタスクで最先端の転送性能を実現する汎用マルチモーダル基盤モデル
  • 2022年7月:SimLM - 類似性マッチングのための大規模な自己教師あり事前学習
  • 2022年6月:DiTLayoutLMv3がACMマルチメディア2022に受け入れられました。
  • 2022年6月:MetaLM - 言語モデルは、言語モデル(言語/多言語、視覚、音声、マルチモーダル)への汎用インターフェースです。
  • 2022年6月:VL-BEiT-双方向マルチモーダルトランスフォーマーは、1つの統合された事前トレーニングタスク、1つの共有バックボーン、および1段階のトレーニングでゼロから学習し、視覚と視覚言語の両方のタスクをサポートします。
  • 【モデルリリース】2022 年 6 月: レイアウト LMv3 中国語 - 中国語版のレイアウト LMv3
  • [コードリリース]2022年5月:アグレッシブデコード - Seq2seq生成のロスレス高速化
  • 2022年4月:大規模なトランスフォーマー=ディープネット+ X-MoE
  • 【モデルリリース】2022 年 4 月: LayoutLMv3 - 統合されたテキストと画像のマスキングを使用したドキュメント AI の事前トレーニング
  • 【モデルリリース】2022年3月:EdgeFormer - オンデバイスシーケンス生成用のパラメータ効率の高いトランス
  • 【モデルリリース】2022年3月:DiT-自己教師付きドキュメントイメージトランスフォーマー。デモ:ドキュメントレイアウト分析ドキュメント画像分類
  • 2022年1月:ICLR 2022に口頭発表として受理されました(3391件中54件)。
  • 【モデルリリース】2021年12月16日:手書きおよび印刷されたテキスト用のTrOCR小型モデル、推論の高速化が3倍になりました。
  • 2021年11月24日:VQAチャレンジの新しいSOTAとしてのVLMo
  • 2021 年 11 月: 大規模な多言語翻訳: 10,000 ペア以上の言語ペア
  • 【モデルリリース】2021年11月:マークアップLM - テキストおよびマークアップ言語(例.HTML/XML)の事前トレーニング
  • 【モデルリリース】2021年11月:VLMo - BEiTを使用した統一ビジョン言語事前トレーニング
  • 2021年10月:WavLM LargeがSuperbベンチマークで最先端のパフォーマンスを達成
  • 【モデルリリース】2021年10月:WavLM - 音声用の大規模な自己教師あり事前学習済みモデル。
  • 【モデルリリース】2021年10月:TrOCRハギングフェイスにあります
  • 2021年9月28日:エクストリームリーダーボードのSOTAとしてT-ULRv5(別名XLM-E / InfoXLM)。ブログ
  • 【モデルリリース】2021年9月:レイアウトLMケースハギングフェイスにあります
  • 【モデルリリース】2021年9月:TrOCR - 事前トレーニング済みのBEiTおよびRoBERTaモデルを使用したトランスフォーマーベースのOCR。
  • 2021年8月:レイアウトLMv2レイアウトXLMハギングフェイス上にあります
  • 【モデルリリース】2021 年 8 月: LayoutReader - LayoutLM を使用して構築され、一般的な読み取り順序の検出が改善されました。
  • 【モデルリリース】2021 年 8 月: DeltaLM - 言語の生成と翻訳のためのエンコーダー/デコーダーの事前トレーニング。
  • 2021年8月:BEiTハギングフェイスに掲載されています
  • 【モデルリリース】2021年7月:BEiT - 履歴書のBERTの瞬間に向けて
  • 【モデルリリース】2021 年 6 月: LayoutLMv2、LayoutXLMMiniLMv2および AdaLM
  • 2021 年 5 月: LayoutLMv2、InfoXLMv2、MiniLMv2、UniLMv3、および AdaLM が ACL 2021 で承認されました。
  • 2021年4月:レイアウトLMを多言語サポートに拡張することで、レイアウトXLMが登場します!多言語フォーム理解ベンチマークXFUNDも導入され、7つの言語(中国語、日本語、スペイン語、フランス語、イタリア語、ドイツ語、ポルトガル語)の人間がラベル付けしたキーと値のペアを持つフォームが含まれています。
  • 2021年3月:InfoXLMがNAACL 2021に承認されました。
  • 2020年12月29日:LayoutLMv2は、DocVQASROIEリーダーボードなど、さまざまなドキュメントAIタスクで新しいSOTAに付属しています。
  • 2020年10月8日:エクストリームリーダーボードのSOTAとしてT-ULRv2(別名InfoXLM)。ブログ
  • 2020年9月:MiniLMがNeurIPS 2020に採択されました。
  • 2020年7月16日: InfoXLM (Multilingual UniLM) arXiv
  • 2020年6月:UniLMv2がICML 2020に受け入れられました。レイアウトLMはKDD 2020に採択されました。
  • 2020年4月5日:多言語MiniLMをリリースしました!
  • 2019年9月:UniLMv1がNeurIPS 2019に採択されました。

解放

新しい 2022 年 10 月: XDoc リリース *****

  • [x] XDoc(2022年10月7日):XDoc、単一のモデルでさまざまなドキュメント形式を処理する統合事前トレーニング済みモデル。パラメータ効率を上げるために、単語埋め込みレイヤーやTransformerレイヤーなどのさまざまな形式のバックボーンパラメーターを共有しています。一方、軽量パラメーターを備えたアダプティブレイヤーを導入して、さまざまな形式間の区別を強化します。実験結果によると、XDocはわずか36.7%のパラメータで、個々の事前トレーニング済みモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成し、実際の展開に費用対効果が高いことが示されています。"XDoc: クロスフォーマット文書理解のための統合事前トレーニング
    EMNLP 2022
    "

2022年5月の新機能:積極的なデコードリリース*****

  • [x]アグレッシブデコード(2022年5月20日):アグレッシブデコード、seq2seq生成のロスレス高速化のための新しいデコードパラダイム。品質の低下を犠牲にしてseq2seqの生成を高速化する以前の取り組み(非自己回帰デコードなど)とは異なり、アグレッシブデコードは、自己回帰デコードと比較して同じ(またはより良い)生成を実現することを目的としていますが、大幅な高速化を実現します。 非常に類似した入力と出力(文法エラー訂正やテキストの簡略化など)を特徴とするseq2seqタスクの場合、入力ガイドアグレッシブデコードは、人気のある7層トランスフォーマーに9倍から6倍のスピードアップをもたらすことができます。 GPU上では、貪欲なデコードと同じ結果が得られます。他の一般的なseq2seqタスク(機械翻訳や抽象要約など)の場合、一般化アグレッシブデコードは、同等またはそれ以上の品質で3倍から5倍のスピードアップを実現できます。"アグレッシブデコードを用いたSeq2seq生成のためのロスレスアクセラレーション"

2022 年 4 月の新機能: レイアウト LMv3 リリース *****

  • [x] LayoutLM 3.0 (2022 年 4 月 19 日): LayoutLMv3 は、統合されたテキストと画像のマスキングを備えたドキュメント AI 用のマルチモーダル事前トレーニング済みトランスフォーマーです。さらに、単語パッチのアライメントの目的で事前にトレーニングされており、テキストワードの対応する画像パッチがマスクされているかどうかを予測することで、クロスモーダルアライメントを学習します。シンプルで統一されたアーキテクチャとトレーニング目標により、LayoutLMv3 は、テキスト中心と画像中心の両方のドキュメント AI タスクに対応する汎用の事前トレーニング済みモデルになります。実験結果によると、LayoutLMv3は、フォームの理解、領収書の理解、ドキュメントの視覚的な質問応答などのテキスト中心のタスクだけでなく、ドキュメントの画像分類やドキュメントのレイアウト分析などの画像中心のタスクでも最先端のパフォーマンスを実現します。"LayoutLMv3: 統一されたテキストと画像のマスキングを使用したドキュメント AI の事前トレーニング
    ACM MM 2022
    "

2022年3月:エッジ旧リリース*****

  • [x] EdgeFormer(2022年3月18日):EdgeFormerは、デバイス上のseq2seq生成用に公開されている最初の事前トレーニング済みパラメーター効率トランスフォーマーです。EdgeFormerには1100万個のパラメータしかなく、int8量子化と圧縮後のディスクサイズは15MB未満で、2つのミドルエンドからハイエンドのCPUコアと50MB未満のメモリフットプリントで許容可能なレイテンシで20〜30トークンの長さの文を処理できます。事前トレーニング済みのEdgeFormerは、英語のseq2seqタスクに合わせて微調整でき、有望な結果を達成できます -- 強力なパラメータ効率の高いトランスフォーマーベースライン(事前トレーニング済みのユニバーサルトランスフォーマー)や事前トレーニングなしのフルパラメータ化されたトランスフォーマーベースモデルよりも大幅に優れており、実際にはデバイス上のseq2seq生成を大幅に促進できると考えています。"EdgeFormer: オンデバイスシークセック生成のためのパラメータ効率の高いトランスフォーマー"

2022 年 3 月: DiT リリース *****

  • [x] DiT(2022年3月4日):DiTは、ドキュメントAIタスクに大規模なラベルなしテキスト画像を使用する自己教師付き事前トレーニング済みドキュメント画像トランスフォーマーモデルであり、人間がラベル付けしたドキュメント画像がないために教師ありの対応物が存在しないため不可欠です。DiTは、ドキュメント画像分類、ドキュメントレイアウト分析、テーブル検出、OCRのテキスト検出など、さまざまなビジョンベースのドキュメントAIタスクのバックボーンネットワークとして活用されています。実験結果は、自己教師ありの事前学習済みDiTモデルが、文書画像分類(91.11 → 92.69)、文書レイアウト分析(91.0 → 94.9)、テーブル検出(94.23 → 96.55)、OCRのテキスト検出(93.07 → 94.29)など、これらのダウンストリームタスクで新しい最先端の結果を達成することを示しています。"DiT:ドキュメントイメージトランスフォーマーの自己教師あり事前トレーニング
    ACM MM 2022
    "

2021年10月:WavLMリリース*****

  • [x] WavLM(2021年10月27日):フルスタックのダウンストリーム音声タスクを解決するための、新しい事前トレーニング済み音声モデルであるWavLM。 WavLMは、ゲート付き相対位置埋め込み構造と発話混合法を統合し、発話内容と話者ID保存の両方をモデル化します。WavLMは94k時間のパブリックオーディオデータでトレーニングされており、これは英語の音声モデリング用にリリースされた他のチェックポイントよりも大きいです。WavLM Largeは、SUPERBベンチマークで最先端のパフォーマンスを実現し、代表的なベンチマークでさまざまな音声処理タスクを大幅に改善します。"WavLM:フルスタック音声処理のための大規模自己教師あり事前学習"

2021 年 10 月: マークアップ LM リリース *****

  • [x] MarkupLM (2021 年 10 月 19 日): MarkupLM は、テキストおよびマークアップ言語のシンプルでありながら効果的な事前トレーニング アプローチです。Transformer アーキテクチャーでは、MarkupLM はテキスト埋め込み、位置埋め込み、XPath 埋め込みなど、さまざまな入力埋め込みを統合します。さらに、マークアップ言語を理解するために特別に設計された新しい事前トレーニング目標も提案します。事前トレーニング済みの MarkupLM モデルを WebSRC データセットと SWDE データセットで評価します。実験によると、MarkupLMはこれらのタスクでいくつかのSOTAベースラインを大幅に上回っています。"MarkupLM: 視覚的に豊かな文書理解のためのテキストとマークアップ言語の事前学習
    ACL 2022
    "

2021年9月:TrOCRリリース*****

  • [x] TrOCR(2021年9月22日):画像理解とbpeレベルのテキスト生成の両方にトランスフォーマーアーキテクチャを活用する、事前トレーニング済みモデルを使用したトランスフォーマーベースのOCR。TrOCRモデルはシンプルですが効果的(畳み込みなし)であり、大規模な合成データで事前にトレーニングし、人間がラベル付けしたデータセットで微調整できます。"TrOCR:事前学習済みモデルによるトランスフォーマーベースの光学式文字認識
    AAAI 2023
    "

2021年8月:レイアウトリーダーリリース*****

*****

August, 2021
: DeltaLM release *****

*****

July, 2021
: BEiT release *****

*****

June, 2021
: LayoutXLM | AdaLM | MiniLMv2 release *****

*****

May, 2021
: LayoutLMv2 | LayoutXLM release *****

  • [x] LayoutLM 2.0 (December 29, 2020): multimodal pre-training for visually-rich document understanding by leveraging text, layout and image information in a single framework. It is coming with new SOTA on a wide range of document understanding tasks, including FUNSD (0.7895 -> 0.8420), CORD (0.9493 -> 0.9601), SROIE (0.9524 -> 0.9781), Kleister-NDA (0.834 -> 0.852), RVL-CDIP (0.9443 -> 0.9564), and DocVQA (0.7295 -> 0.8672). "LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding
    ACL 2021
    "

*****

February, 2020
: UniLM v2 | MiniLM v1 | LayoutLM v1 | s2s-ft v1 release *****

2019 年 10 月 1 日: UniLM v1 リリース *****

  • [x] UniLM v1(2019年9月30日):「自然言語の理解と生成のための統一言語モデルの事前トレーニング」というタイトルの論文のコードと事前トレーニング済みモデル。UniLM(v1)は、抽象的な要約(ギガワードおよびCNN / DMデータセット)、質問生成(SQuAD QGデータセット)などを含むNLG(特にシーケンス間生成)タスクで新しいSOTA結果を実現します。
    NeurIPS 2019

ライセンス

このプロジェクトは、このソースツリーのルートディレクトリにあるLICENSEファイルにあるライセンスの下でライセンスされています。 ソースコードの一部は、トランスフォーマープロジェクトに基づいています。

マイクロソフト オープンソース倫理規定

連絡先

事前トレーニング済みモデルを使用するヘルプまたは問題については、GitHub の問題を送信してください。

その他の連絡については、フルウェイ()にお問い合わせください。

fuwei@microsoft.com