雇用
私たちはすべてのレベル(FTEの研究者やインターンを含む)で採用しています!NLPおよび大規模な事前トレーニング済みモデルでの作業に興味がある場合は、履歴書をに送信してください。[email protected]。
AIの基礎
非常に深い/大きなモデル
大規模な変圧器=DeepNet+ X-MoE
DeepNet:トランスフォーマーを1,000レイヤー以上にスケーリング
X-MoE:スケーラブルで微調整可能なスパースMixture-of-Experts(MoE)
事前トレーニング済みモデル
tasks
(予測および生成)、languages
(100以上の言語)、およびmodalities
(言語、画像、音声、レイアウト/形式+言語、視覚+言語、音声+言語など)にわたる大規模な自己監視型事前トレーニング
言語と多言語
UniLM:言語の理解と生成のための統一された事前トレーニング
InfoXLM / XLM-E:100以上の言語向けの多言語/クロスリンガルの事前トレーニング済みモデル
DeltaLM / mT6:100以上の言語の言語生成と翻訳のためのエンコーダー-デコーダー事前トレーニング
MiniLM:言語の理解と生成のための小さくて高速な事前トレーニング済みモデル
EdgeLM(
NEW
):エッジ/クライアントデバイスで事前にトレーニングされた小さなモデル
AdaLM:事前にトレーニングされたモデルのドメイン、言語、およびタスクの適応
ヴィジョン
BEiT(
NEW
):視覚のための生成的自己監視事前トレーニング/イメージトランスフォーマーのBERT事前トレーニング
DiT(
NEW
):ドキュメントイメージトランスフォーマーの自己監視型事前トレーニング
スピーチ
WavLM(
NEW
):フルスタックタスクの音声事前トレーニング
マルチモーダル(X +言語)
LayoutLM / LayoutLMv2 / LayoutLMv3 :ドキュメントAI(スキャンされたドキュメント、PDFなど)のマルチモーダル(テキスト+レイアウト/フォーマット+画像)事前トレーニング
LayoutXLM:多言語ドキュメントを理解するためのマルチモーダル(テキスト+レイアウト/フォーマット+画像)事前トレーニング
MarkupLM(
NEW
):視覚的に豊かなドキュメント理解のためのマークアップ言語モデルの事前トレーニング
UniSpeech:ASRの教師あり学習と教師あり学習のための統合された事前トレーニング
UniSpeech-SAT:話者を意識した事前トレーニングによる普遍的な音声表現学習
SpeechT5(
NEW
):音声言語処理のためのエンコーダー-デコーダー事前トレーニング
VLMo(
NEW
):統一されたビジョン言語の事前トレーニング-BEiTのマルチモーダルへ
ツールキット
s2s-ft:シーケンス間の微調整ツールキット
アプリケーション
TrOCR(
NEW
):事前トレーニング済みモデルを備えた変圧器ベースのOCR
LayoutReader:読み取り順序検出のためのテキストとレイアウトの事前トレーニング
XLM-T:事前にトレーニングされたクロスリンガルエンコーダーを備えた多言語NMT
ニュース
リリース
***** New April, 2022
:LayoutLMv3リリース*****
- [x] LayoutLM 3.0(2022年4月19日):LayoutLMv3、統一されたテキストと画像マスキングを備えたドキュメントAI用のマルチモーダル事前トレーニング済みトランスフォーマー。さらに、テキスト単語の対応する画像パッチがマスクされているかどうかを予測することにより、クロスモーダルアラインメントを学習するためのワードパッチアラインメント目標も事前にトレーニングされています。シンプルな統合アーキテクチャとトレーニングの目的により、LayoutLMv3は、テキスト中心と画像中心の両方のドキュメントAIタスク用の汎用の事前トレーニング済みモデルになっています。実験結果によると、LayoutLMv3は、フォームの理解、領収書の理解、ドキュメントの視覚的な質問応答などのテキスト中心のタスクだけでなく、ドキュメントの画像分類やドキュメントのレイアウトなどの画像中心のタスクでも最先端のパフォーマンスを実現します。分析。「」LayoutLMv3:統一されたテキストと画像マスキングを使用したドキュメントAIの事前トレーニング"
***** March, 2022
:EdgeFormerリリース*****
- [x] EdgeFormer(2022年3月18日):EdgeFormerは、デバイス上でseq2seqを生成するための最初の公的に利用可能な事前トレーニング済みのパラメーター効率の高いトランスフォーマーです。EdgeFormerにはわずか1100万のパラメーターがあり、int8の量子化と圧縮後に15MB未満のディスクサイズを使用します。これにより、2つのミドルからハイエンドのCPUコアと50MB未満で、許容可能なレイテンシーで20〜30トークンの長さのセンテンスを処理できます。メモリフットプリント。事前トレーニングされたEdgeFormerは、英語のseq2seqタスクに微調整でき、有望な結果を達成できます。これは、強力なパラメーター効率の高いTransformerベースライン(事前トレーニングされたUniversal Transformer)や、事前トレーニングなしの完全パラメーター化されたTransformerベースモデルよりも大幅に優れています。実際のデバイスでのseq2seqの生成。「」EdgeFormer:オンデバイスSeq2seq生成のためのパラメータ効率の高いトランスフォーマー"
***** March, 2022
:DiTリリース*****
- [x] DiT(2022年3月4日):DiT、ドキュメントAIタスクに大規模なラベルなしテキスト画像を使用する自己監視の事前トレーニング済みドキュメント画像トランスフォーマーモデル。人間がラベルを付けたドキュメント画像。DiTは、ドキュメント画像の分類、ドキュメントレイアウト分析、テーブル検出、OCRのテキスト検出など、さまざまなビジョンベースのドキュメントAIタスクのバックボーンネットワークとして活用されています。実験結果は、自己監視された事前トレーニング済みDiTモデルが、ドキュメント画像分類(91.11→92.69)、ドキュメントレイアウト分析(91.0→94.9)、テーブル検出など、これらのダウンストリームタスクで新しい最先端の結果を達成することを示しています。 (94.23→96.55)およびOCRのテキスト検出(93.07→94.29)。「」DiT:ドキュメントイメージトランスフォーマーの自己管理型事前トレーニング"
***** October, 2021
:WavLMリリース*****
- [x] WavLM(2021年10月27日):フルスタックのダウンストリーム音声タスクを解決するための、事前にトレーニングされた新しい音声モデルであるWavLM。WavLMは、ゲート付き相対位置埋め込み構造と発話ミキシング方法を統合して、話されたコンテンツと話者のアイデンティティの保存の両方をモデル化します。WavLMは、94k時間のパブリックオーディオデータでトレーニングされています。これは、英語の音声モデリング用にリリースされた他のチェックポイントよりも大きいものです。WavLM Largeは、SUPERBベンチマークで最先端のパフォーマンスを実現し、代表的なベンチマークでさまざまな音声処理タスクを大幅に改善します。「WavLM:フルスタック音声処理のための大規模な自己監視型事前トレーニング」
***** October, 2021
:MarkupLMリリース*****
- [x] MarkupLM (October 19, 2021): MarkupLM, a simple yet effective pre-training approach for text and markup language. With the Transformer architecture, MarkupLM integrates different input embeddings including text embeddings, position embeddings, and XPath embeddings. Furthermore, we also propose new pre-training objectives that are specially designed for understanding the markup language. We evaluate the pre-trained MarkupLM model on the WebSRC and SWDE datasets. Experiments show that MarkupLM significantly outperforms several SOTA baselines in these tasks. "MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding
ACL 2022
"
***** September, 2021
: TrOCR release *****
- [x] TrOCR (September 22, 2021): Transformer-based OCR with pre-trained models, which leverages the Transformer architecture for both image understanding and bpe-level text generation. The TrOCR model is simple but effective (convolution free), and can be pre-trained with large-scale synthetic data and fine-tuned with human-labeled datasets. "TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models"
***** August, 2021
: LayoutReader release *****
***** August, 2021
: DeltaLM release *****
***** July, 2021
:BEiTリリース*****
***** June, 2021
:LayoutXLM | AdaLM | MiniLMv2リリース*****
***** May, 2021
:LayoutLMv2 | LayoutXLMリリース*****
- [x] LayoutLM 2.0(2020年12月29日):単一のフレームワークでテキスト、レイアウト、および画像情報を活用することにより、視覚的に豊かなドキュメント理解のためのマルチモーダル事前トレーニング。FUNSD(0.7895-> 0.8420)、CORD(0.9493-> 0.9601)、SROIE(0.9524-> 0.9781)、Kleister-NDA(0.834-> 0.852)、 RVL-CDIP(0.9443-> 0.9564)、およびDocVQA(0.7295-> 0.8672)。「LayoutLMv2:視覚的に豊富なドキュメント理解のためのマルチモーダル事前トレーニング
ACL 2021
」
***** February, 2020
:UniLM v2 | MiniLM v1 | LayoutLM v1 | s2s-ftv1リリース*****
***** 2019年10月1日:UniLMv1リリース*****
ライセンス
このプロジェクトは、このソースツリーのルートディレクトリにあるLICENSEファイルにあるライセンスの下でライセンスされています。ソースコードの一部は、 transformersプロジェクトに基づいています。
マイクロソフトオープンソース行動規範
連絡先
事前にトレーニングされたモデルを使用したヘルプや問題については、GitHubの問題を送信してください。
その他の連絡については、古魏(
[email protected]
)までお問い合わせください。