unilm - タスク、言語、およびモダリティにわたる大規模な自己監視型事前トレーニング

(Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities)

Created at: 2019-07-23 12:15:28
Language: Python
License: MIT

雇用

私たちはすべてのレベル(FTEの研究者やインターンを含む)で採用しています!NLPおよび大規模な事前トレーニング済みモデルでの作業に興味がある場合は、履歴書をに送信してください。[email protected]

AIの基礎

非常に深い/大きなモデル

大規模な変圧器=DeepNet+ X-MoE

DeepNet:トランスフォーマーを1,000レイヤー以上にスケーリング

X-MoE:スケーラブルで微調整可能なスパースMixture-of-Experts(MoE)

事前トレーニング済みモデル

tasks
(予測および生成)、
languages
(100以上の言語)、および
modalities
(言語、画像、音声、レイアウト/形式+言語、視覚+言語、音声+言語など)にわたる大規模な自己監視型事前トレーニング

言語と多言語

UniLM:言語の理解と生成のための統一された事前トレーニング

InfoXLM / XLM-E:100以上の言語向けの多言語/クロスリンガルの事前トレーニング済みモデル

DeltaLM / mT6:100以上の言語の言語生成と翻訳のためのエンコーダー-デコーダー事前トレーニング

MiniLM:言語の理解と生成のための小さくて高速な事前トレーニング済みモデル

EdgeLM

NEW
):エッジ/クライアントデバイスで事前にトレーニングされた小さなモデル

AdaLM:事前にトレーニングされたモデルのドメイン、言語、およびタスクの適応

ヴィジョン

BEiT

NEW
):視覚のための生成的自己監視事前トレーニング/イメージトランスフォーマーのBERT事前トレーニング

DiT

NEW
):ドキュメントイメージトランスフォーマーの自己監視型事前トレーニング

スピーチ

WavLM

NEW
):フルスタックタスクの音声事前トレーニング

マルチモーダル(X +言語)

LayoutLM / LayoutLMv2 / LayoutLMv3 :ドキュメントAI(スキャンされたドキュメント、PDFなど)のマルチモーダル(テキスト+レイアウト/フォーマット+画像)事前トレーニング

LayoutXLM:多言語ドキュメントを理解するためのマルチモーダル(テキスト+レイアウト/フォーマット+画像)事前トレーニング

MarkupLM

NEW
):視覚的に豊かなドキュメント理解のためのマークアップ言語モデルの事前トレーニング

UniSpeech:ASRの教師あり学習と教師あり学習のための統合された事前トレーニング

UniSpeech-SAT:話者を意識した事前トレーニングによる普遍的な音声表現学習

SpeechT5

NEW
):音声言語処理のためのエンコーダー-デコーダー事前トレーニング

VLMo

NEW
):統一されたビジョン言語の事前トレーニング-BEiTのマルチモーダルへ

ツールキット

s2s-ft:シーケンス間の微調整ツールキット

アプリケーション

TrOCR

NEW
):事前トレーニング済みモデルを備えた変圧器ベースのOCR

LayoutReader:読み取り順序検出のためのテキストとレイアウトの事前トレーニング

XLM-T:事前にトレーニングされたクロスリンガルエンコーダーを備えた多言語NMT

ニュース

  • 2022年4月:大規模な変圧器= DeepNet + X-MoE
  • [モデルリリース]2022年4月:LayoutLMv3-統一されたテキストと画像マスキングを使用したドキュメントAIの事前トレーニング
  • [モデルリリース]2022年3月:EdgeFormer-オンデバイスSeq2seq生成用のパラメーター効率の高いトランスフォーマー
  • [モデルリリース]2022年3月:DiT-自己監視ドキュメントイメージトランスフォーマー。デモ:ドキュメントレイアウト分析ドキュメント画像分類
  • Januray 、2022年:BEiTはICLR 2022によって口頭発表として受け入れられました(3391のうち54)。
  • [モデルリリース]2021年12月16日:手書きおよび印刷されたテキスト用のTrOCR 小型モデルで、推論が3倍高速化されました。
  • 2021年11月24日:VQAチャレンジの新しいSOTAとしてのVLMo
  • 2021年11月:大規模な多言語翻訳:10000言語ペア以上
  • [モデルリリース]2021年11月:MarkupLM-テキストとマークアップ言語(HTML / XMLなど)の事前トレーニング
  • [モデルリリース]2021年11月:VLMo -BEiTを使用した統合ビジョン言語の事前トレーニング
  • 2021年10月:WavLM Largeは、 SUPERBベンチマークで最先端のパフォーマンスを実現
  • [モデルリリース]2021年10月:WavLM-音声用の大規模な自己監視型の事前トレーニング済みモデル。
  • 【モデルリリース】2021年10月:TrOCRHuggingFaceに登場
  • 2021年9月28日:XTREMEリーダーボードのSOTAとしてのT-ULRv5(別名XLM-E / InfoXLM ) 。//ブログ
  • 【モデルリリース】2021年9月:LayoutLMケースHuggingFaceに登場
  • [モデルリリース]2021年9月:TrOCR-事前にトレーニングされたBEiTおよびRoBERTaモデルを備えたトランスベースのOCR 。
  • 2021年8月:LayoutLMv2LayoutXLMHuggingFaceに登場
  • [モデルリリース]2021年8月:LayoutReader-一般的な読み取り順序の検出を改善するためにLayoutLMで構築されました。
  • [モデルリリース]2021年8月:DeltaLM-言語生成と翻訳のためのエンコーダー-デコーダーの事前トレーニング。
  • 2021年8月:BEiTHuggingFaceに参加しています
  • 【モデルリリース】2021年7月:BEiT -CVのBERTモーメントに向けて
  • 【モデルリリース】2021年6月:LayoutLMv2LayoutXLMMiniLMv2AdaLM
  • 2021年5月:LayoutLMv2、InfoXLMv2、MiniLMv2、UniLMv3、およびAdaLMがACL2021に受け入れられました。
  • 2021年4月:LayoutXLMは、LayoutLMを多言語サポートに拡張することで実現します。多言語フォーム理解ベンチマークXFUNDも導入されています。これには、7つの言語(中国語、日本語、スペイン語、フランス語、イタリア語、ドイツ語、ポルトガル語)で人間がラベル付けしたキーと値のペアを持つフォームが含まれます。
  • 2021年3月:InfoXLMはNAACL2021に受け入れられました。
  • 2020年12月29日:LayoutLMv2には、 DocVQASROIEリーダーボードなど、さまざまなドキュメントAIタスクに関する新しいSOTAが付属しています。
  • 2020年10月8日:XTREMEリーダーボードのSOTAとしてのT-ULRv2(別名InfoXLM ) 。//ブログ
  • 2020年9月:MiniLMはNeurIPS2020に受け入れられました。
  • 2020年7月16日:InfoXLM(Multilingual UniLM) arXiv
  • 2020年6月:UniLMv2がICML2020に受け入れられました。LayoutLMはKDD2020に受け入れられました。
  • 2020年4月5日:多言語MiniLMがリリースされました!
  • 2019年9月:UniLMv1がNeurIPS2019に承認されました。

リリース

*****

New April, 2022
LayoutLMv3リリース*****

  • [x] LayoutLM 3.0(2022年4月19日):LayoutLMv3、統一されたテキストと画像マスキングを備えたドキュメントAI用のマルチモーダル事前トレーニング済みトランスフォーマー。さらに、テキスト単語の対応する画像パッチがマスクされているかどうかを予測することにより、クロスモーダルアラインメントを学習するためのワードパッチアラインメント目標も事前にトレーニングされています。シンプルな統合アーキテクチャとトレーニングの目的により、LayoutLMv3は、テキスト中心と画像中心の両方のドキュメントAIタスク用の汎用の事前トレーニング済みモデルになっています。実験結果によると、LayoutLMv3は、フォームの理解、領収書の理解、ドキュメントの視覚的な質問応答などのテキスト中心のタスクだけでなく、ドキュメントの画像分類やドキュメントのレイアウトなどの画像中心のタスクでも最先端のパフォーマンスを実現します。分析。「」LayoutLMv3:統一されたテキストと画像マスキングを使用したドキュメントAIの事前トレーニング"

*****

March, 2022
EdgeFormerリリース*****

  • [x] EdgeFormer(2022年3月18日):EdgeFormerは、デバイス上でseq2seqを生成するための最初の公的に利用可能な事前トレーニング済みのパラメーター効率の高いトランスフォーマーです。EdgeFormerにはわずか1100万のパラメーターがあり、int8の量子化と圧縮後に15MB未満のディスクサイズを使用します。これにより、2つのミドルからハイエンドのCPUコアと50MB未満で、許容可能なレイテンシーで20〜30トークンの長さのセンテンスを処理できます。メモリフットプリント。事前トレーニングされたEdgeFormerは、英語のseq2seqタスクに微調整でき、有望な結果を達成できます。これは、強力なパラメーター効率の高いTransformerベースライン(事前トレーニングされたUniversal Transformer)や、事前トレーニングなしの完全パラメーター化されたTransformerベースモデルよりも大幅に優れています。実際のデバイスでのseq2seqの生成。「」EdgeFormer:オンデバイスSeq2seq生成のためのパラメータ効率の高いトランスフォーマー"

*****

March, 2022
DiTリリース*****

  • [x] DiT(2022年3月4日):DiT、ドキュメントAIタスクに大規模なラベルなしテキスト画像を使用する自己監視の事前トレーニング済みドキュメント画像トランスフォーマーモデル。人間がラベルを付けたドキュメント画像。DiTは、ドキュメント画像の分類、ドキュメントレイアウト分析、テーブル検出、OCRのテキスト検出など、さまざまなビジョンベースのドキュメントAIタスクのバックボーンネットワークとして活用されています。実験結果は、自己監視された事前トレーニング済みDiTモデルが、ドキュメント画像分類(91.11→92.69)、ドキュメントレイアウト分析(91.0→94.9)、テーブル検出など、これらのダウンストリームタスクで新しい最先端の結果を達成することを示しています。 (94.23→96.55)およびOCRのテキスト検出(93.07→94.29)。「」DiT:ドキュメントイメージトランスフォーマーの自己管理型事前トレーニング"

*****

October, 2021
WavLMリリース*****

  • [x] WavLM(2021年10月27日):フルスタックのダウンストリーム音声タスクを解決するための、事前にトレーニングされた新しい音声モデルであるWavLM。WavLMは、ゲート付き相対位置埋め込み構造と発話ミキシング方法を統合して、話されたコンテンツと話者のアイデンティティの保存の両方をモデル化します。WavLMは、94k時間のパブリックオーディオデータでトレーニングされています。これは、英語の音声モデリング用にリリースされた他のチェックポイントよりも大きいものです。WavLM Largeは、SUPERBベンチマークで最先端のパフォーマンスを実現し、代表的なベンチマークでさまざまな音声処理タスクを大幅に改善します。「WavLM:フルスタック音声処理のための大規模な自己監視型事前トレーニング

*****

October, 2021
MarkupLMリリース*****

  • [x] MarkupLM (October 19, 2021): MarkupLM, a simple yet effective pre-training approach for text and markup language. With the Transformer architecture, MarkupLM integrates different input embeddings including text embeddings, position embeddings, and XPath embeddings. Furthermore, we also propose new pre-training objectives that are specially designed for understanding the markup language. We evaluate the pre-trained MarkupLM model on the WebSRC and SWDE datasets. Experiments show that MarkupLM significantly outperforms several SOTA baselines in these tasks. "MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding
    ACL 2022
    "

*****

September, 2021
: TrOCR release *****

  • [x] TrOCR (September 22, 2021): Transformer-based OCR with pre-trained models, which leverages the Transformer architecture for both image understanding and bpe-level text generation. The TrOCR model is simple but effective (convolution free), and can be pre-trained with large-scale synthetic data and fine-tuned with human-labeled datasets. "TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models"

*****

August, 2021
: LayoutReader release *****

*****

August, 2021
: DeltaLM release *****

*****

July, 2021
BEiTリリース*****

*****

June, 2021
LayoutXLM | AdaLM | MiniLMv2リリース*****

*****

May, 2021
LayoutLMv2 | LayoutXLMリリース*****

*****

February, 2020
UniLM v2 | MiniLM v1 | LayoutLM v1 | s2s-ftv1リリース*****

***** 2019年10月1日:UniLMv1リリース*****

ライセンス

このプロジェクトは、このソースツリーのルートディレクトリにあるLICENSEファイルにあるライセンスの下でライセンスされています。ソースコードの一部は、 transformersプロジェクトに基づいています。

マイクロソフトオープンソース行動規範

連絡先

事前にトレーニングされたモデルを使用したヘルプや問題については、GitHubの問題を送信してください。

その他の連絡については、古魏

[email protected]
)までお問い合わせください。