英語|简体中文 |繁體中文 |한국어
JAX、PyTorch、TensorFlow向けの最先端の機械学習
🤗Transformers には、テキスト、視覚、オーディオなどのさまざまなモダリティでタスクを実行するための、何千もの事前トレーニング済みモデルが用意されています。
これらのモデルは、次の場所に適用できます。
- 📝テキストは、テキスト分類、情報抽出、質問応答、要約、翻訳、テキスト生成などのタスクを100以上の言語で行います。
- 🖼️画像: 画像の分類、物体検出、セグメンテーションなどのタスクに使用します。
- 🗣️オーディオ: 音声認識やオーディオ分類などのタスク用。
トランスフォーマ モデルは、テーブルの質問応答、光学式文字認識、スキャンされたドキュメントからの情報抽出、ビデオ分類、視覚的な質問応答など、いくつかのモダリティを組み合わせたタスクを実行することもできます。
🤗Transformers には、特定のテキストで事前にトレーニングされたモデルをすばやくダウンロードして使用し、独自のデータセットで微調整して、モデル ハブのコミュニティと共有するための API が用意されています。同時に、アーキテクチャを定義する各Pythonモジュールは完全にスタンドアロンであり、迅速な研究実験を可能にするように変更することができます。
🤗トランスフォーマーは、Jax、PyTorch、TensorFlowの3つの最も人気のあるディープラーニングライブラリによって支えられており、それらの間のシームレスな統合が行われています。もう一方との推論のためにモデルをロードする前に、一方を使用してモデルをトレーニングするのは簡単です。
オンラインデモ
ほとんどのモデルは、モデル ハブのページで直接テストできます。また、プライベートモデルのホスティング、バージョン管理、およびパブリックモデルとプライベートモデル用の推論APIも提供しています。
次に、いくつかの例を示します。
自然言語処理では:
コンピュータビジョンでは:
オーディオで:
マルチモーダルタスクの場合:
Hugging Faceチームによって構築されたWrite With Transformerは、このレポのテキスト生成機能の公式デモです。
ハギングフェイスチームからのカスタムサポートをお探しの場合
クイックツアー
特定の入力 (テキスト、画像、オーディオなど) でモデルをすぐに使用するために、API を提供します。パイプラインは、事前トレーニング済みモデルと、そのモデルのトレーニング中に使用された前処理をグループ化します。パイプラインをすばやく使用して、肯定的なテキストと否定的なテキストを分類する方法は次のとおりです。
pipeline
>>> from transformers import pipeline
# Allocate a pipeline for sentiment-analysis
>>> classifier = pipeline('sentiment-analysis')
>>> classifier('We are very happy to introduce pipeline to the transformers repository.')
[{'label': 'POSITIVE', 'score': 0.9996980428695679}]
コードの 2 行目は、パイプラインで使用される事前トレーニング済みモデルをダウンロードしてキャッシュし、3 行目は指定されたテキストで評価します。ここでの答えは99.97%の信頼度で「肯定的」です。
多くのタスクには、NLPだけでなく、コンピュータビジョンとスピーチでも、事前に訓練された準備ができています。たとえば、画像内で検出されたオブジェクトを簡単に抽出できます。
pipeline
>>> import requests
>>> from PIL import Image
>>> from transformers import pipeline
# Download an image with cute cats
>>> url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/coco_sample.png"
>>> image_data = requests.get(url, stream=True).raw
>>> image = Image.open(image_data)
# Allocate a pipeline for object detection
>>> object_detector = pipeline('object_detection')
>>> object_detector(image)
[{'score': 0.9982201457023621,
'label': 'remote',
'box': {'xmin': 40, 'ymin': 70, 'xmax': 175, 'ymax': 117}},
{'score': 0.9960021376609802,
'label': 'remote',
'box': {'xmin': 333, 'ymin': 72, 'xmax': 368, 'ymax': 187}},
{'score': 0.9954745173454285,
'label': 'couch',
'box': {'xmin': 0, 'ymin': 1, 'xmax': 639, 'ymax': 473}},
{'score': 0.9988006353378296,
'label': 'cat',
'box': {'xmin': 13, 'ymin': 52, 'xmax': 314, 'ymax': 470}},
{'score': 0.9986783862113953,
'label': 'cat',
'box': {'xmin': 345, 'ymin': 23, 'xmax': 640, 'ymax': 368}}]
ここでは、画像内で検出されたオブジェクトのリストを、オブジェクトを囲むボックスと信頼度スコアとともに取得します。右側に元の画像があり、左側に予測が表示されます。
API でサポートされているタスクの詳細については、このチュートリアルを参照してください。
pipeline
に加えて、特定のタスクで事前トレーニング済みモデルをダウンロードして使用するには、3 行のコードのみが必要です。ここにPyTorchのバージョンがあります:
pipeline
>>> from transformers import AutoTokenizer, AutoModel
>>> tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
>>> model = AutoModel.from_pretrained("bert-base-uncased")
>>> inputs = tokenizer("Hello world!", return_tensors="pt")
>>> outputs = model(**inputs)
そして、ここにTensorFlowの同等のコードがあります:
>>> from transformers import AutoTokenizer, TFAutoModel
>>> tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
>>> model = TFAutoModel.from_pretrained("bert-base-uncased")
>>> inputs = tokenizer("Hello world!", return_tensors="tf")
>>> outputs = model(**inputs)
トークナイザーは、事前トレーニング済みモデルが期待するすべての前処理を担当し、(上記の例のように) 1 つの文字列またはリストに対して直接呼び出すことができます。ダウンストリームコードで使用するか、**引数のアンパック演算子を使用してモデルに直接渡すことができる辞書を出力します。
モデル自体は通常のPytorch nnです。モジュール
またはTensorFlow tf.keras.Model
(バックエンドによって異なります)は、通常どおり使用できます。このチュートリアルでは、このようなモデルを従来の PyTorch または TensorFlow トレーニング ループに統合する方法、または API を使用して新しいデータセットをすばやく微調整する方法について説明します。
Trainer
なぜ変圧器を使うべきなのですか?
-
使いやすい最先端のモデル:
- 自然言語理解と生成、コンピュータビジョン、およびオーディオタスクに関する高性能。
- 教育者や実務家にとっての参入障壁が低い。
- 学習するクラスが 3 つだけのユーザー向け抽象化はほとんどありません。
- 事前トレーニング済みのすべてのモデルを使用するための統一 API。
-
コンピューティングコストの削減、二酸化炭素排出量の削減:
- 研究者は、常に再トレーニングを行う代わりに、トレーニング済みのモデルを共有できます。
- 実務家は、計算時間と生産コストを削減できます。
- すべてのモダリティにわたって60,000以上の事前トレーニング済みモデルを持つ数十のアーキテクチャ。
-
モデルの有効期間のあらゆる部分に適したフレームワークを選択します。
- 最先端のモデルを 3 行のコードでトレーニングします。
- TF2.0/PyTorch/JAXフレームワーク間で単一のモデルを自由に移動します。
- トレーニング、評価、生産のための適切なフレームワークをシームレスに選択します。
-
モデルや例をニーズに合わせて簡単にカスタマイズできます。
- 各アーキテクチャの例を提供して、元の作成者によって公開された結果を再現します。
- モデルの内部は、できるだけ一貫して公開されます。
- モデルファイルは、ライブラリとは独立して使用して、迅速な実験を行うことができます。
変圧器を使用すべきではないのはなぜですか?
- このライブラリは、ニューラルネット用のビルディングブロックのモジュラーツールボックスではありません。モデルファイル内のコードは、意図的に追加の抽象化でリファクタリングされないため、研究者は追加の抽象化/ファイルに飛び込むことなく、各モデルをすばやく反復処理できます。
- トレーニング API は、どのモデルでも動作することを意図したものではなく、ライブラリによって提供されるモデルで動作するように最適化されています。一般的な機械学習ループの場合は、別のライブラリ (場合によっては Accelerate) を使用する必要があります。
- できるだけ多くのユースケースを提示するよう努めていますが、exampleフォルダ内のスクリプトは単なる例です。特定の問題ではすぐには機能せず、ニーズに合わせて数行のコードを変更する必要があることが予想されます。
取り付け
ピップ付き
このリポジトリは Python 3.6+、Flax 0.3.2+、PyTorch 1.3.1+ および TensorFlow 2.3+ でテストされています。
トランスフォーマーは仮想環境にインストール🤗する必要があります。Python 仮想環境に慣れていない場合は、ユーザーガイドを参照してください。
まず、使用するPythonのバージョンで仮想環境を作成し、それをアクティブ化します。
次に、Flax、PyTorch、またはTensorFlowの少なくとも1つをインストールする必要があります。お使いのプラットフォームに固有のインストールコマンドについては、TensorFlowのインストールページ、PyTorchのインストールページ、および/または亜麻およびJaxのインストールページを参照してください。
これらのバックエンドの1つがインストールされている場合、🤗トランスフォーマーは次のようにpipを使用してインストールできます。
例で遊んだり、コードの最先端が必要で、新しいリリースを待つことができない場合は、ソースからライブラリをインストールする必要があります。
コンダ付き
トランスフォーマーのバージョンv4.0.0以降、我々は今、condaチャネルを持っている: 。
huggingface
🤗変圧器は、次のようにcondaを使用してインストールできます。
conda install -c huggingface transformers
Flax、PyTorch、またはTensorFlowのインストールページに従って、condaでインストールする方法を確認してください。
手記:Windows では、キャッシュの恩恵を受けるために開発者モードをアクティブにするように求められることがあります。これがあなたのためのオプションではない場合は、この問題でお知らせください。
モデルアーキテクチャ
Transformers によって提供されるすべてのモデル チェックポイントは、ユーザーや組織によって🤗直接アップロードされる huggingface.co モデル ハブからシームレスに統合されます。
チェックポイントの現在の数:
🤗トランスフォーマーは現在、次のアーキテクチャを提供しています(各アーキテクチャの概要については、こちらをご覧ください)。
-
ALBERT (Google Research と Toyota Tech Institute at Chicago) は、Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut による論文 ALBERT: A Lite BERT for Self-supervised Learning of Language Representations と共に発表した。
-
BARTは、Mike Lewis、Yinhan Liu、Naman Goyal、Marjan Ghazvininejad、Abdelrahman Mohamed、Omer Levy、Ves Stoyanov、Luke Zettlemoyerによる論文BART:Denoising Sequence-to-Sequence Pre-Training for Natural Language Generation, Translation, and Comprehension(自然言語生成、翻訳、理解のためのDenoising Sequence-to-Sequence Pre-Training for Natural Language Generation, Translation, and Comprehension)とともにリリースされました。
-
BARThez(École polytechniqueより)は、Moussa Kamal Eddine, Antoine J.-Pによる論文BARThez: a Skilled Pretrained French Sequence-to-Sequence Model でリリースされました。ティクシエ、ミカリス・ヴァジルギアニス。
-
BARTpho(VinAI Researchより)は、Nguyen Luong Tran、Duong Minh Le 、Dat Quoc Nguyenによるベトナム語の事前訓練済みシーケンス間モデルに関する論文BARTpho:Pretrained Sequence-to-Sequence Models for Vietnamese (VinAI Researchより)が論文BARTpho: Pretrained Sequence-to-Sequence Models for Vietnamese by Nguyen Luong Tran, Duong Minh Le and Dat Quoc Nguyenによってリリースされた。
-
BEiT(マイクロソフトから)は、Hangbo Bao、Li Dong、Furu Weiによる論文BEiT: BERT Pre-Training of Image Transformersでリリースされました。
-
BERT(Googleより)は、Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanovaによる論文BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding (言語理解のためのDeep Bidirectional Transformers for Language Understanding)の論文BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding by Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanovaによってリリースされた。
-
BERT For Sequence Generation (Google より) は、Sascha Rothe, Shashi Narayan, Aliaksei Severyn による論文 Leveraging Pretrained Checkpoints for Sequence Generation Tasks と共にリリースされた。
-
BERTweet(VinAI Researchより)は、Dat Quoc Nguyen、Thanh Vu、Anh Tuan Nguyenによる英語のツイートのための事前訓練された言語モデルという論文BERTweetでリリースされました。
-
BigBird-Pegasus(Google Researchより)は、Manzil Zaheer、Guru Guruganesh、Avinava Dubey、Joshua Ainslie、Chris Alberti、Santiago Ontanon、Philip Pham、Anirudh Ravula、Qifan Wang、Li Yang、Amr Ahmedによる論文Big Bird: Transformers for Longer Sequencesとともにリリースされました。
-
BigBird-RoBERTa(Google Researchより)は、Manzil Zaheer、Guru Guruganesh、Avinava Dubey、Joshua Ainslie、Chris Alberti、Santiago Ontanon、Philip Pham、Anirudh Ravula、Qifan Wang、Li Yang、Amr Ahmedによる論文Big Bird: Transformers for Longer Sequencesとともにリリースされました。
-
Blenderbot(Facebookから)は、Stephen Roller、Emily Dinan、Naman Goyal、Da Ju、Mary Williamson、Yinhan Liu、Jing Xu、Myle Ott、Kurt Shuster、Eric M. Smith、Y-Lan Boureau、Jason Westonによるオープンドメインチャットボットを構築するためのレシピ。
-
BlenderbotSmall(Facebookから)は、Stephen Roller、Emily Dinan、Naman Goyal、Da Ju、Mary Williamson、Yinhan Liu、Jing Xu、Myle Ott、Kurt Shuster、Eric M. Smith、Y-Lan Boureau、Jason Westonによるオープンドメインチャットボットを構築するためのレシピという論文とともにリリースされました。
-
BLOOM (BigScience ワークショップより) は BigSicence Workshop によってリリースされました。
-
BORT(Alexaより)は、Adrian de WynterとDaniel J. Perryによる論文Optimal Subarchitecture Extraction For BERTとともにリリースされました。
-
ByT5(Google Researchより)は、Linting Xue、Aditya Barua、Noah Constant、Rami Al-Rfou、Sharan Narang、Mihir Kale、Adam Roberts、Colin Raffelによる事前トレーニングされたバイトツーバイトモデルによるトークンフリーの未来に向けて。
-
CamemBERT(Inria/Facebook/Sorbonneより)は、Lou Martin*、Benjamin Muller*、Pedro Javier Ortiz Suárez*、Yoann Dupont、Laurent Romary、Éric Villemonte de la Clergerie、Djamé Seddah、Benoît Sagotによる論文CamemBERT: a Tasty French Language Model by Louis Martin*、Benjamin Muller*、Yoann Dupont、Laurent Romary、Éric Villemonte de la Clergerie、Djamé Seddah、Benoît Sagotによる論文でリリースされました。
-
CANINE (Google Research より) が CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language Representation by Jonathan H. Clark, Dan Garrette, Iulia Turc, John Wieting による論文「CANINE: Pre-Training an Efficient Tokenization-Free Encoder for Language Representation」でリリースされました。
-
CLIP (OpenAIより) Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda Askell、Pamela Mishkin、Jack Clark、Gretchen Krueger、Ilya Sutskeverによる論文「Learning Transferable Visual Model From Natural Language Supervision by Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever」からリリースされた。
-
CodeGen (Salesforce より) は、Erik Nijkamp、Bo Pang、Hiroaki Hayashi、Lifu Tu、Huan Wang、Yingbo Zhou、Silvio Savarese、Caim Xiong による論文 A Conversational Paradigm for Program Synthesis とともにリリースされました。
-
Conditional DETR (Microsoft Research Asiaより) は、Depu Meng、Xiaokang Chen、Zejia Fan、Gang Zeng、Houqiang Li、Yuhui Yuan、Lei Sun、Jingdong Wangによる論文Conditional DETR for Fast Training Convergenceでリリースされました。
-
ConvBERT(YituTechより)は、Zihang Jiang、Weihao Yu、Daquan Zhou、Yunpeng Chen、Jiashi Feng、Shuicheng Yanによる論文ConvBERT: Improving BERT with Span-based Dynamic Convolutionでリリースされました。
-
ConvNeXT(Facebook AIより)は、Zhuang Liu、Hanzi Mao、Chao-Yuan Wu、Christoph Feichtenhofer、Trevor Darrell、Saining Xieによる2020年代のA ConvNetという論文でリリースされました。
-
CPM(清華大学から)は、論文CPM:Zhengyan Zhang、Xu Han、Hao Zhou、Pei Ke、Yuxian Gu、Deming Ye、Yujia Qin、Yusheng Su、Haozhe Ji、Jian Guan、Fanchao Qi、Xiaozhi Wang、Yanan Zheng、Guoyang Zeng、Huanqi Cao、Shengqi Chen、Daixuan Li、Zhenbo Sun、Zhiyuan Liu、Minlie Huang、 ハン・ウェンタオ、ジエ・タン、フアンジ・リー、シャオヤン・ジュー、マオソン・サン。
-
CTRL (Salesforce より) が CTRL: A Conditional Transformer Language Model for Controllable Generation (Nitish Shirish Keskar*, Bryan McCann*, Lav R. Varshney, Caim Xiong, Richard Socher) という論文とともにリリースされました。
-
CvT(Microsoftより)は、Haiping Wu、Bin Xiao、Noel Codella、Mengchen Liu、Xiyang Dai、Lu Yuan、Lei Zhangによる論文CvT: Introducing Convolutions to Vision Transformersでリリースされました。
-
Data2Vec(Facebookより)は、Alexei Baevski、Wei-Ning Hsu、Qiantong Xu、Arun Babu、Jiatao Gu、Michael Auliによる論文Data2Vec: A General Framework for Self-Supervised Learning in Speech, Vision and Languageでリリースされました。
-
DeBERTa(Microsoftより)は、DeBERTa: Decodeding-enhanced BERT with Disentangled Attention by Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chenの論文でリリースされました。
-
DeBERTa-v2 (Microsoftより) は、DeBERTa: Decodeding-enhanced BERT with Disentangled Attention by Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen の論文でリリースされた。
-
Decision Transformer (Berkeley/Facebook/Google より) が Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, Igor Mordatch による論文 Decision Transformer: Reinforcement Learning via Sequence Modeling を収録してリリースした。
-
Deformable DETR (SenseTime Researchより) Deformable DETR: Deformable Transformers for End-to-End Object Detection by Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, Jifeng Daiによる論文でリリースされました。
-
DeiT(Facebookから)は、Hugo Touvron、Matthieu Cord、Matthijs Douze、Francisco Massa、Alexandre Sablayrolles、Hervé Jégouによる注目によるトレーニングデータ効率の高い画像トランスフォーマーと蒸留の紙をリリースしました。
-
DETR(Facebookより)は、Nicolas Carion、Francisco Massa、Gabriel Synnaeve、Nicolas Usunier、Alexander Kirillov、Sergey Zagoruykoによる論文End-to-End Object Detection with Transformersでリリースされました。
-
DialoGPT(Microsoft Researchより)は、論文DialoGPT: Large-Scale Generative Pre-Training for Conversational Response Generation by Yizhe Zhang, Siqi Sun, Michel Galley, Yen-Chun Chen, Chris Brockett, Xiang Gao, Jianfeng Gao, Jingjing Liu, Bill Dolanによる論文でリリースされました。
-
DistilBERT(HuggingFaceより)は、Victor Sanh、Lysandre Debut、Thomas WolfによるBERTの蒸留版であるDistilBERTとともにリリースされました。GPT2 を DistilGPT2 に、RoBERTa を DistilRoBERTa に、多言語 BERT を DistilmBERT に、ドイツ語版の DistilBERT に圧縮するためにも、同じ方法が適用されています。
-
DiT(Microsoft Researchより)は、Li Junlong Li、Yiheng Xu、Tengchao Lv、Lei Cui、Cha Zhang、Furu Weiによる論文DiT: Self-supered Pre-training for Document Image Transformer をリリースしました。
-
ドーナツ(NAVERより)は、キム・ギョク、チョンギュ・ホン、イム・ムンビン、ナム・ジョンギョン、パク・ジニョン、イム・ジンヨン、ファン・ウォンソク、ユン・サンドゥ、ハン・ドンユン、パク・スンヒョンによるOCRフリー文書理解トランスフォーマーとともにリリースされました。
-
DPR(Facebookより)は、Vladimir Karpukhin、Barlas Oğuz、Sewon Min、Patrick Lewis、Ledell Wu、Sergey Edunov、Danqi Chen、Wen-tau Yihによる論文Dense Passage Retrieval for Open-Domain Question Answeringでリリースされました。
-
DPT(Intel Labsより)は、René Ranftl、Alexey Bochkovskiy、Vladlen Koltunによる論文Vision Transformers for Dense Predictionとともにリリースされました。
-
ELECTRA(Google Research/Stanford Universityより)は、Kevin Clark、Minh-Thang Luong、Quoc V. Le、Christopher D. Manningによる論文ELECTRA:Pre-training text encoder as discriminator than discriminator as discriminator by Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manningの論文「ELECTRA: Pre-training text encoder as discriminator than generators」でリリースされました。
-
EncoderDecoder (Google Research より) は、Sascha Rothe、Shashi Narayan、Aliaksei Severyn による論文 Leverage Pretrained Checkpoints for Sequence Generation Tasks と共にリリースされた。
-
ERNIE(Baiduから)は、Yu Sun、Shuohuan Wang、Yukun Li、Shikun Feng、Xuyi Chen、Han Zhang、Xin Tian、Danxiang Zhu、Hao Tian、Hua Wuによる論文ERNIE:知識統合による強化された表現をリリースしました。
-
FlauBERT(CNRSより)は、Hang Le、Loïc Vial、Jibril Frej、Vincent Segonne、Maximin Coavoux、Benjamin Lecouteux、Alexandre Allauzen、Benoît Crabbé、Laurent Besacier、Didier Schwabによるフランス語のための教師なし言語モデル事前トレーニングという論文でリリースされました。
-
FLAVA(Facebook AIより)は、Amanpreet Singh、Ronghang Hu、Vedanuj Goswami、Guillaume Couairon、Wojciech Galuba、Marcus Rohrbach、Douwe Kielaによる論文FLAVA: A Foundational Language and Vision Alignment Modelとともにリリースされました。
-
FNet(Google Researchより)は、James Lee-Thorp、Joshua Ainslie、Ilya Eckstein、Santiago Ontanonによる論文FNet: Mixed Tokens with Fourier Transformsでリリースされました。
-
Funnel Transformer (CMU/Google Brainより) が論文 Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing by Zihang Dai, Guokun Lai, Yiming Yang, Quoc V. Le によってリリースされた。
-
GLPN(KAISTより)は、Kim Doyeon Kim、Woonghyun Ga、Pyungwhan An、Donggyu Joo、Sehwan Chun、Junmo Kimによる論文Global-Local Path Networks for Monocular Depth with Vertical CutDepthでリリースされました。
-
GPT(OpenAIより)は、Alec Radford、Karthik Narasimhan、Tim Salimans、Ilya SutskeverによるImproving Language Understanding by Generative Pre-Trainingという論文とともにリリースされました。
-
GPT Neo (EleutherAI から) は Sid Black、Stella Biderman、Leo Gao、Phil Wang、Connor Leahy によってリポジトリ EleutherAI/gpt-neo にリリースされた。
-
GPT NeoX(EleutherAIから)は、シド・ブラック、ステラ・ビーダーマン、エリック・ハラハン、クエンティン・アンソニー、レオ・ガオ、ローレンス・ゴールディング、ホレス・ヒー、コナー・リーヒー、カイル・マクドネル、ジェイソン・パン、マイケル・パイラー、USVSNサイ・プラシャント、シヴァンシュ・プロヒット、ラリア・レイノルズ、ジョナサン・トウ、ベン・ワン、サミュエル・ワインバックによるオープンソースの自己回帰言語モデルでリリースされました。
-
GPT NeoX Japanese (ABEJAより) - 大谷真也、真壁隆義、アヌジ・アローラ、服部京が発売。
-
GPT-2 (OpenAI から) は、Alec Radford*、Jeffrey Wu*、Rewon Child、David Luan、Dario Amodei**、Ilya Sutskever** による論文「Language Model is Unsupervised Multitask Learners by Alec Radford*」、「Jeffrey Wu*」、「Rewon Child」、「David Luan」、「Dario Amodei**」、「Ilya Sutskever**」という論文とともにリリースされました。
-
GPT-J (EleutherAI より) は Ben Wang と Aran Komatsuzaki によってリポジトリ kingoflolz/mesh-transformer-jax でリリースされた。
-
GroupViT(UCSD、NVIDIAから)は、論文GroupViT: Semantic Segmentation Emerges from Text Supervision by Jiarui Xu, Shalini De Mello, Sifei Liu, Wonmin Byeon, Thomas Breuel, Jan Kautz, Xiaolong Wangからリリースされました。
-
Hubert (Facebookより) は、Wei-Ning Hsu、Benjamin Bolte、Yao-Hung Hubert Tsai、Kushal Lakhotia、Ruslan Salakhutdinov、Abdelrahman Mohamedによる論文HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Unitsで発表した。
-
I-BERT(バークレー出身)は、I-BERT: Integer-only BERT Quantization by Sehoon Kim, Amir Gholami, Zhewei Yao, Michael W. Mahoney, Kurt Keutzerによる論文でリリースされました。
-
ImageGPT(OpenAIより)は、Mark Chen、Alec Radford、Rewon Child、Jeffrey Wu、Heewoo Jun、David Luan、Ilya SutskeverによるGenerative Pretraining from Pixelsの論文とともにリリースされました。
-
LayoutLM (Microsoft Research Asia より) が論文 LayoutLM: Pre-training of Text and Layout for Document Image Understanding by Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou によってリリースされました。
-
LayoutLMv2 (Microsoft Research Asia より) が LayoutLMv2: Multi-modal Pre-Training for Visually-Rich Document Understanding by Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Wanxiang Che, Min Zhang, Lidong Zhou による論文 LayoutLMv2: Multi-modal Pre-Training for Visually-Rich Document Understanding by Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Wanxiang Che, Min Zhang, Lidong Zhou.
-
LayoutLMv3 (Microsoft Research Asia より) が論文 LayoutLMv3: Pre-Training for Document AI with Unified Text and Image Masking by Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, Furu Wei によってリリースされた。
-
LayoutXLM (Microsoft Research Asia より) が論文 LayoutXLM: Multimodal Pre-Training for Multilingual Visually-rich Document Understanding by Yiheng Xu, Tengchao Lv, Lei Cui, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Furu Wei によってリリースされました。
-
LED(AllenAIから)は、Iz Beltagy、Matthew E. Peters、Arman Cohanによる論文Longformer: The Long-Document Transformer でリリースされました。
-
LeViT(Meta AIより)は、Ben Graham、Alaaeldin El-Nouby、Hugo Touvron、Pierre Stock、Armand Joulin、Hervé Jégou、Matthijs Douzeによる論文LeViT: A Vision Transformer in ConvNet's Clothing for Faster Inferenceとともにリリースされました。
-
Longformer (AllenAIより) が Longformer: The Long-Document Transformer by Iz Beltagy, Matthew E. Peters, Arman Cohan の論文と共にリリースした。
-
LongT5 (Google AI より) は、Mandy Guo、Joshua Ainslie、David Uthus、Santiago Ontanon、Jianmo Ni、Yun-Hsuan Sung、Yinfei Yang による論文 LongT5: Efficient Text-to-Text Transformer for Long Sequence でリリースされた。
-
LUKE(Studio Ousiaより)は、山田郁也、浅井あかり、進藤裕之、武田英明、松本祐之による論文「LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention」でリリースされました。
-
LXMERT(UNC Chapel Hillより)は、Hao TanとMohit Bansalによる論文LXMERT: Learning Cross-Modality Encoder Representations from Transformers for Open-Domain Question Answeringでリリースされました。
-
M-CTC-T (from Facebook) は、Loren Lugosch、Tatiana Likhomanenko、Gabriel Synnaeve、Ronan Collobert による論文 Pseudo-Labeling For Massively Multilingual Speech Recognition と共にリリースされた。
-
M2M100 (Facebookより) アンジェラ・ファン、シュルティ・ボサレ、ホルガー・シュウェンク、ジイ・マー、アフメド・エル・キシュキー、シッダールト・ゴヤル、マンディープ・ベインズ、オヌール・セレビ、ギヨーム・ウェンツェク、ヴィシュラヴ・チョーダリー、ナマン・ゴヤル、トム・バーチ、ヴィタリー・リプチンスキー、セルゲイ・エドゥノフ、エドゥアール・グレイヴ、マイケル・オーリ、アルマン・ジュリンによる論文「Beyond English-Centric Multilingual Machine Translation」でリリースされました。
-
MarianMT Machine translation models trained using OPUS data by Jörg Tiedemann. The Marian Framework is being developed by the Microsoft Translator Team.
-
MaskFormer (from Meta and UIUC) released with the paper Per-Pixel Classification is Not All You Need for Semantic Segmentation by Bowen Cheng, Alexander G. Schwing, Alexander Kirillov.
-
mBART (from Facebook) released with the paper Multilingual Denoising Pre-training for Neural Machine Translation by Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, Luke Zettlemoyer.
-
mBART-50 (from Facebook) released with the paper Multilingual Translation with Extensible Multilingual Pretraining and Finetuning by Yuqing Tang, Chau Tran, Xian Li, Peng-Jen Chen, Naman Goyal, Vishrav Chaudhary, Jiatao Gu, Angela Fan.
-
Megatron-BERT (from NVIDIA) released with the paper Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism by Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper and Bryan Catanzaro.
-
Megatron-GPT2 (from NVIDIA) released with the paper Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism by Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper and Bryan Catanzaro.
-
mLUKE (from Studio Ousia) released with the paper mLUKE: The Power of Entity Representations in Multilingual Pretrained Language Models by Ryokan Ri, Ikuya Yamada, and Yoshimasa Tsuruoka.
-
MobileBERT (from CMU/Google Brain) released with the paper MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices by Zhiqing Sun, Hongkun Yu, Xiaodan Song, Renjie Liu, Yiming Yang, and Denny Zhou.
-
MobileViT (from Apple) released with the paper MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer by Sachin Mehta and Mohammad Rastegari.
-
MPNet (from Microsoft Research) released with the paper MPNet: Masked and Permuted Pre-training for Language Understanding by Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, Tie-Yan Liu.
-
MT5 (from Google AI) released with the paper mT5: A massively multilingual pre-trained text-to-text transformer by Linting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, Colin Raffel.
-
MVP (from RUC AI Box) released with the paper MVP: Multi-task Supervised Pre-training for Natural Language Generation by Tianyi Tang, Junyi Li, Wayne Xin Zhao and Ji-Rong Wen.
-
Nezha (from Huawei Noah’s Ark Lab) released with the paper NEZHA: Neural Contextualized Representation for Chinese Language Understanding by Junqiu Wei, Xiaozhe Ren, Xiaoguang Li, Wenyong Huang, Yi Liao, Yasheng Wang, Jiashu Lin, Xin Jiang, Xiao Chen and Qun Liu.
-
NLLB (from Meta) released with the paper No Language Left Behind: Scaling Human-Centered Machine Translation by the NLLB team.
-
Nyströmformer (from the University of Wisconsin - Madison) released with the paper Nyströmformer: A Nyström-Based Algorithm for Approximating Self-Attention by Yunyang Xiong, Zhanpeng Zeng, Rudrasis Chakraborty, Mingxing Tan, Glenn Fung, Yin Li, Vikas Singh.
-
OPT (from Meta AI) released with the paper OPT: Open Pre-trained Transformer Language Models by Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen et al.
-
OWL-ViT (from Google AI) released with the paper Simple Open-Vocabulary Object Detection with Vision Transformers by Matthias Minderer, Alexey Gritsenko, Austin Stone, Maxim Neumann, Dirk Weissenborn, Alexey Dosovitskiy, Aravindh Mahendran, Anurag Arnab, Mostafa Dehghani, Zhuoran Shen, Xiao Wang, Xiaohua Zhai, Thomas Kipf, and Neil Houlsby.
-
Pegasus (from Google) released with the paper PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization by Jingqing Zhang, Yao Zhao, Mohammad Saleh and Peter J. Liu.
-
PEGASUS-X (from Google) released with the paper Investigating Efficiently Extending Transformers for Long Input Summarization by Jason Phang, Yao Zhao, and Peter J. Liu.
-
Perceiver IO (from Deepmind) released with the paper Perceiver IO: A General Architecture for Structured Inputs & Outputs by Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac, Carl Doersch, Catalin Ionescu, David Ding, Skanda Koppula, Daniel Zoran, Andrew Brock, Evan Shelhamer, Olivier Hénaff, Matthew M. Botvinick, Andrew Zisserman, Oriol Vinyals, João Carreira.
-
PhoBERT (from VinAI Research) released with the paper PhoBERT: Pre-trained language models for Vietnamese by Dat Quoc Nguyen and Anh Tuan Nguyen.
-
PLBart (from UCLA NLP) released with the paper Unified Pre-training for Program Understanding and Generation by Wasi Uddin Ahmad, Saikat Chakraborty, Baishakhi Ray, Kai-Wei Chang.
-
PoolFormer (from Sea AI Labs) released with the paper MetaFormer is Actually What You Need for Vision by Yu, Weihao and Luo, Mi and Zhou, Pan and Si, Chenyang and Zhou, Yichen and Wang, Xinchao and Feng, Jiashi and Yan, Shuicheng.
-
ProphetNet (from Microsoft Research) released with the paper ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training by Yu Yan, Weizhen Qi, Yeyun Gong, Dayiheng Liu, Nan Duan, Jiusheng Chen, Ruofei Zhang and Ming Zhou.
-
QDQBert (from NVIDIA) released with the paper Integer Quantization for Deep Learning Inference: Principles and Empirical Evaluation by Hao Wu, Patrick Judd, Xiaojie Zhang, Mikhail Isaev and Paulius Micikevicius.
-
RAG (from Facebook) released with the paper Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks by Patrick Lewis, Ethan Perez, Aleksandara Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe Kiela.
-
REALM (from Google Research) released with the paper REALM: Retrieval-Augmented Language Model Pre-Training by Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat and Ming-Wei Chang.
-
Reformer (from Google Research) released with the paper Reformer: The Efficient Transformer by Nikita Kitaev, Łukasz Kaiser, Anselm Levskaya.
-
RegNet (from META Platforms) released with the paper Designing Network Design Space by Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick, Kaiming He, Piotr Dollár.
-
RemBERT (from Google Research) released with the paper Rethinking embedding coupling in pre-trained language models by Hyung Won Chung, Thibault Févry, Henry Tsai, M. Johnson, Sebastian Ruder.
-
ResNet (from Microsoft Research) released with the paper Deep Residual Learning for Image Recognition by Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun.
-
RoBERTa (from Facebook), released together with the paper RoBERTa: A Robustly Optimized BERT Pretraining Approach by Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov.
-
RoFormer (from ZhuiyiTechnology), released together with the paper RoFormer: Enhanced Transformer with Rotary Position Embedding by Jianlin Su and Yu Lu and Shengfeng Pan and Bo Wen and Yunfeng Liu.
-
SegFormer (from NVIDIA) released with the paper SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers by Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo.
-
SEW (from ASAPP) released with the paper Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition by Felix Wu, Kwangyoun Kim, Jing Pan, Kyu Han, Kilian Q. Weinberger, Yoav Artzi.
-
SEW-D (from ASAPP) released with the paper Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition by Felix Wu, Kwangyoun Kim, Jing Pan, Kyu Han, Kilian Q. Weinberger, Yoav Artzi.
-
SpeechToTextTransformer (from Facebook), released together with the paper fairseq S2T: Fast Speech-to-Text Modeling with fairseq by Changhan Wang, Yun Tang, Xutai Ma, Anne Wu, Dmytro Okhonko, Juan Pino.
-
SpeechToTextTransformer2 (from Facebook), released together with the paper Large-Scale Self- and Semi-Supervised Learning for Speech Translation by Changhan Wang, Anne Wu, Juan Pino, Alexei Baevski, Michael Auli, Alexis Conneau.
-
Splinter (from Tel Aviv University), released together with the paper Few-Shot Question Answering by Pretraining Span Selection by Ori Ram, Yuval Kirstain, Jonathan Berant, Amir Globerson, Omer Levy.
-
SqueezeBERT (from Berkeley) released with the paper SqueezeBERT: What can computer vision teach NLP about efficient neural networks? by Forrest N. Iandola, Albert E. Shaw, Ravi Krishna, and Kurt W. Keutzer.
-
Swin Transformer (from Microsoft) released with the paper Swin Transformer: Hierarchical Vision Transformer using Shifted Windows by Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo.
-
Swin Transformer V2 (from Microsoft) released with the paper Swin Transformer V2: Scaling Up Capacity and Resolution by Ze Liu, Han Hu, Yutong Lin, Zhuliang Yao, Zhenda Xie, Yixuan Wei, Jia Ning, Yue Cao, Zheng Zhang, Li Dong, Furu Wei, Baining Guo.
-
T5 (from Google AI) released with the paper Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer by Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu.
-
T5v1.1 (from Google AI) released in the repository google-research/text-to-text-transfer-transformer by Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu.
-
TAPAS (from Google AI) released with the paper TAPAS: Weakly Supervised Table Parsing via Pre-training by Jonathan Herzig, Paweł Krzysztof Nowak, Thomas Müller, Francesco Piccinno and Julian Martin Eisenschlos.
-
TAPEX (from Microsoft Research) released with the paper TAPEX: Table Pre-training via Learning a Neural SQL Executor by Qian Liu, Bei Chen, Jiaqi Guo, Morteza Ziyadi, Zeqi Lin, Weizhu Chen, Jian-Guang Lou.
-
Trajectory Transformer (from the University of California at Berkeley) released with the paper Offline Reinforcement Learning as One Big Sequence Modeling Problem by Michael Janner, Qiyang Li, Sergey Levine
-
Transformer-XL (from Google/CMU) released with the paper Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context by Zihang Dai*, Zhilin Yang*, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov.
-
TrOCR (from Microsoft), released together with the paper TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models by Minghao Li, Tengchao Lv, Lei Cui, Yijuan Lu, Dinei Florencio, Cha Zhang, Zhoujun Li, Furu Wei.
-
UL2 (from Google Research) released with the paper Unifying Language Learning Paradigms by Yi Tay, Mostafa Dehghani, Vinh Q. Tran, Xavier Garcia, Dara Bahri, Tal Schuster, Huaixiu Steven Zheng, Neil Houlsby, Donald Metzler
-
UniSpeech (from Microsoft Research) released with the paper UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data by Chengyi Wang, Yu Wu, Yao Qian, Kenichi Kumatani, Shujie Liu, Furu Wei, Michael Zeng, Xuedong Huang.
-
UniSpeechSat (from Microsoft Research) released with the paper UNISPEECH-SAT: UNIVERSAL SPEECH REPRESENTATION LEARNING WITH SPEAKER AWARE PRE-TRAINING by Sanyuan Chen, Yu Wu, Chengyi Wang, Zhengyang Chen, Zhuo Chen, Shujie Liu, Jian Wu, Yao Qian, Furu Wei, Jinyu Li, Xiangzhan Yu.
-
VAN (from Tsinghua University and Nankai University) released with the paper Visual Attention Network by Meng-Hao Guo, Cheng-Ze Lu, Zheng-Ning Liu, Ming-Ming Cheng, Shi-Min Hu.
-
VideoMAE (from Multimedia Computing Group, Nanjing University) released with the paper VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training by Zhan Tong, Yibing Song, Jue Wang, Limin Wang.
-
ViLT (from NAVER AI Lab/Kakao Enterprise/Kakao Brain) released with the paper ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision by Wonjae Kim, Bokyung Son, Ildoo Kim.
-
Vision Transformer (ViT) (from Google AI) released with the paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale by Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby.
-
VisualBERT (from UCLA NLP) released with the paper VisualBERT: A Simple and Performant Baseline for Vision and Language by Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, Kai-Wei Chang.
-
ViTMAE (from Meta AI) released with the paper Masked Autoencoders Are Scalable Vision Learners by Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, Ross Girshick.
-
ViTMSN (from Meta AI) released with the paper Masked Siamese Networks for Label-Efficient Learning by Mahmoud Assran, Mathilde Caron, Ishan Misra, Piotr Bojanowski, Florian Bordes, Pascal Vincent, Armand Joulin, Michael Rabbat, Nicolas Ballas.
-
Wav2Vec2 (from Facebook AI) released with the paper wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations by Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli.
-
Wav2Vec2-Conformer (from Facebook AI) released with the paper FAIRSEQ S2T: Fast Speech-to-Text Modeling with FAIRSEQ by Changhan Wang, Yun Tang, Xutai Ma, Anne Wu, Sravya Popuri, Dmytro Okhonko, Juan Pino.
-
Wav2Vec2Phoneme (from Facebook AI) released with the paper Simple and Effective Zero-shot Cross-lingual Phoneme Recognition by Qiantong Xu, Alexei Baevski, Michael Auli.
-
WavLM (from Microsoft Research) released with the paper WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing by Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Furu Wei.
-
X-CLIP (from Microsoft Research) released with the paper Expanding Language-Image Pretrained Models for General Video Recognition by Bolin Ni, Houwen Peng, Minghao Chen, Songyang Zhang, Gaofeng Meng, Jianlong Fu, Shiming Xiang, Haibin Ling.
-
XGLM (From Facebook AI) released with the paper Few-shot Learning with Multilingual Language Models by Xi Victoria Lin, Todor Mihaylov, Mikel Artetxe, Tianlu Wang, Shuohui Chen, Daniel Simig, Myle Ott, Naman Goyal, Shruti Bhosale, Jingfei Du, Ramakanth Pasunuru, Sam Shleifer, Punit Singh Koura, Vishrav Chaudhary, Brian O'Horo, Jeff Wang, Luke Zettlemoyer, Zornitsa Kozareva, Mona Diab, Veselin Stoyanov, Xian Li.
-
XLM (from Facebook) released together with the paper Cross-lingual Language Model Pretraining by Guillaume Lample and Alexis Conneau.
-
XLM-ProphetNet (from Microsoft Research) released with the paper ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training by Yu Yan, Weizhen Qi, Yeyun Gong, Dayiheng Liu, Nan Duan, Jiusheng Chen, Ruofei Zhang and Ming Zhou.
-
XLM-RoBERTa (from Facebook AI), released together with the paper Unsupervised Cross-lingual Representation Learning at Scale by Alexis Conneau*, Kartikay Khandelwal*, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Edouard Grave, Myle Ott, Luke Zettlemoyer and Veselin Stoyanov.
-
XLM-RoBERTa-XL (from Facebook AI), released together with the paper Larger-Scale Transformers for Multilingual Masked Language Modeling by Naman Goyal, Jingfei Du, Myle Ott, Giri Anantharaman, Alexis Conneau.
-
XLNet (from Google/CMU) released with the paper XLNet: Generalized Autoregressive Pretraining for Language Understanding by Zhilin Yang*, Zihang Dai*, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le.
-
XLS-R (from Facebook AI) released with the paper XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale by Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, Alexei Baevski, Alexis Conneau, Michael Auli.
-
XLSR-Wav2Vec2 (from Facebook AI) released with the paper Unsupervised Cross-Lingual Representation Learning For Speech Recognition by Alexis Conneau, Alexei Baevski, Ronan Collobert, Abdelrahman Mohamed, Michael Auli.
-
YOLOS (from Huazhong University of Science & Technology) released with the paper You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection by Yuxin Fang, Bencheng Liao, Xinggang Wang, Jiemin Fang, Jiyang Qi, Rui Wu, Jianwei Niu, Wenyu Liu.
-
YOSO (from the University of Wisconsin - Madison) released with the paper You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli Sampling by Zhanpeng Zeng, Yunyang Xiong, Sathya N. Ravi, Shailesh Acharya, Glenn Fung, Vikas Singh.
- Want to contribute a new model? We have added a detailed guide and templates to guide you in the process of adding a new model. You can find them in the
templates
folder of the repository. Be sure to check the contributing guidelines and contact the maintainers or open an issue to collect feedbacks before starting your PR.
各モデルに Flax、PyTorch、または TensorFlow の実装があるかどうか、またはトークナイザー ライブラリによって🤗サポートされている関連するトークナイザーがあるかどうかを確認するには、次の表を参照してください。
これらの実装は、いくつかのデータセット (サンプル スクリプトを参照) でテストされており、元の実装のパフォーマンスと一致する必要があります。パフォーマンスの詳細については、ドキュメントの「例」セクションを参照してください。
詳細情報
節 |
説明: __________ |
ドキュメンテーション |
完全なAPIドキュメントとチュートリアル |
タスクの概要 |
トランスフォーマーがサポートする🤗タスク |
前処理チュートリアル |
クラスを使用してモデルのデータを準備するTokenizer |
トレーニングと微調整 |
PyTorch/TensorFlow トレーニング ループでの Transformers によって🤗提供されるモデルと API の使用Trainer |
クイックツアー:微調整/使用スクリプト |
幅広いタスクでモデルを微調整するためのスクリプトの例 |
モデルの共有とアップロード |
微調整されたモデルをアップロードしてコミュニティと共有する |
移動 |
またはからトランスフォーマーに移行する 🤗pytorch-transformers pytorch-pretrained-bert
|
引用
トランスフォーマーライブラリのために引用できる論文が🤗できました:
@inproceedings{wolf-etal-2020-transformers,
title = "Transformers: State-of-the-Art Natural Language Processing",
author = "Thomas Wolf and Lysandre Debut and Victor Sanh and Julien Chaumond and Clement Delangue and Anthony Moi and Pierric Cistac and Tim Rault and Rémi Louf and Morgan Funtowicz and Joe Davison and Sam Shleifer and Patrick von Platen and Clara Ma and Yacine Jernite and Julien Plu and Canwen Xu and Teven Le Scao and Sylvain Gugger and Mariama Drame and Quentin Lhoest and Alexander M. Rush",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
month = oct,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.emnlp-demos.6",
pages = "38--45"
}