transformers - 🤗トランスフォーマー:Pytorch、TensorFlow、JAX向けの最先端の機械学習。

(🤗 Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.)

Created at: 2018-10-29 21:56:00
Language: Python
License: Apache-2.0



建てる GitHub ドキュメンテーション GitHubリリース 寄稿者規約 DOI

英語| 简体中文| 繁體中文| 한국어

JAX、PyTorch、TensorFlow向けの最先端の機械学習

🤗トランスフォーマーは、テキスト、ビジョン、オーディオなどのさまざまなモダリティでタスクを実行するための何千もの事前トレーニング済みモデルを提供します。

これらのモデルは、次のものに適用できます。

  • 📝テキスト、100以上の言語での、テキスト分類、情報抽出、質問応答、要約、翻訳、テキスト生成などのタスク用。
  • 🖼️画像、画像分類、オブジェクト検出、セグメンテーションなどのタスク用。
  • 🗣️音声、音声認識や音声分類などのタスク用。

Transformerモデルは、テーブルの質問応答、光学式文字認識、スキャンされたドキュメントからの情報抽出、ビデオ分類、視覚的な質問応答など、いくつかのモダリティを組み合わせたタスクを実行することもできます。

🤗Transformersは、特定のテキストで事前にトレーニングされたモデルをすばやくダウンロードして使用し、独自のデータセットで微調整して、モデルハブのコミュニティと共有するためのAPIを提供します。同時に、アーキテクチャを定義する各Pythonモジュールは完全にスタンドアロンであり、迅速な調査実験を可能にするように変更できます。

🤗Transformersは、最も人気のある3つのディープラーニングライブラリ(Jax、PyTorch、TensorFlow )に支えられており、それらがシームレスに統合されています。他のモデルを推論するためにモデルをロードする前に、一方のモデルをトレーニングするのは簡単です。

オンラインデモ

ほとんどのモデルは、モデルハブのページで直接テストできます。また、パブリックモデルとプライベートモデル用のプライベートモデルのホスティング、バージョン管理、推論APIも提供しています。

次にいくつかの例を示します。

自然言語処理の場合:

コンピュータビジョンの場合:

オーディオの場合:

HuggingFaceチームによって構築されたWriteWithTransformerは、このリポジトリのテキスト生成機能の公式デモです。

HuggingFaceチームからのカスタムサポートをお探しの場合

HuggingFaceエキスパートアクセラレーションプログラム

クイックツアー

特定の入力(テキスト、画像、音声など)でモデルをすぐに使用するために、

pipeline
APIを提供しています。パイプラインは、事前にトレーニングされたモデルと、そのモデルのトレーニング中に使用された前処理をグループ化します。パイプラインをすばやく使用して、ポジティブテキストとネガティブテキストを分類する方法は次のとおりです。

>>> from transformers import pipeline

# Allocate a pipeline for sentiment-analysis
>>> classifier = pipeline('sentiment-analysis')
>>> classifier('We are very happy to introduce pipeline to the transformers repository.')
[{'label': 'POSITIVE', 'score': 0.9996980428695679}]

コードの2行目は、パイプラインで使用される事前トレーニング済みモデルをダウンロードしてキャッシュし、3行目は指定されたテキストでモデルを評価します。ここでの答えは、99.97%の信頼度で「ポジティブ」です。

多くのNLPタスクには、事前にトレーニングされた

pipeline
準備ができています。たとえば、コンテキストが与えられた場合、質問の回答を簡単に抽出できます。

>>> from transformers import pipeline

# Allocate a pipeline for question-answering
>>> question_answerer = pipeline('question-answering')
>>> question_answerer({
...     'question': 'What is the name of the repository ?',
...     'context': 'Pipeline has been included in the huggingface/transformers repository'
... })
{'score': 0.30970096588134766, 'start': 34, 'end': 58, 'answer': 'huggingface/transformers'}

回答に加えて、ここで使用される事前トレーニング済みモデルは、トークン化された文の回答の開始位置と終了位置とともに、その信頼スコアを返しました。このチュートリアル

pipeline
では、 APIでサポートされているタスクについて詳しく知ることができます。

事前にトレーニングされたモデルをダウンロードして特定のタスクで使用するには、3行のコードが必要です。PyTorchのバージョンは次のとおりです。

>>> from transformers import AutoTokenizer, AutoModel

>>> tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
>>> model = AutoModel.from_pretrained("bert-base-uncased")

>>> inputs = tokenizer("Hello world!", return_tensors="pt")
>>> outputs = model(**inputs)

TensorFlowの同等のコードは次のとおりです。

>>> from transformers import AutoTokenizer, TFAutoModel

>>> tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
>>> model = TFAutoModel.from_pretrained("bert-base-uncased")

>>> inputs = tokenizer("Hello world!", return_tensors="tf")
>>> outputs = model(**inputs)

トークナイザーは、事前トレーニングされたモデルが期待するすべての前処理を担当し、単一の文字列(上記の例のように)またはリストで直接呼び出すことができます。ダウンストリームコードで使用できる辞書を出力するか、**引数の解凍演算子を使用してモデルに直接渡すことができます。

モデル自体は、通常使用できる通常のPytorch

nn.Module
またはTensorFlow
tf.keras.Model
(バックエンドによって異なります)です。このチュートリアルでは、このようなモデルを従来のPyTorchまたはTensorFlowトレーニングループに統合する方法、または
Trainer
APIを使用して新しいデータセットをすばやく微調整する方法について説明します。

なぜ変圧器を使用する必要があるのですか?

  1. 使いやすい最先端のモデル:

    • 自然言語理解と生成、コンピュータービジョン、およびオーディオタスクでの高性能。
    • 教育者や実務家の参入障壁が低い。
    • 学ぶべきクラスが3つしかない、ユーザー向けの抽象化はほとんどありません。
    • 事前にトレーニングされたすべてのモデルを使用するための統合API。
  2. 計算コストの削減、二酸化炭素排出量の削減:

    • 研究者は、常に再トレーニングする代わりに、トレーニングされたモデルを共有できます。
    • 開業医は、計算時間と製造コストを削減できます。
    • 20,000を超える事前トレーニング済みモデルを備えた数十のアーキテクチャ、一部は100を超える言語。
  3. モデルの存続期間のすべての部分に適切なフレームワークを選択します。

    • 3行のコードで最先端のモデルをトレーニングします。
    • TF2.0 / PyTorch/JAXフレームワーク間で単一のモデルを自由に移動します。
    • トレーニング、評価、制作に適したフレームワークをシームレスに選択します。
  4. モデルまたは例をニーズに合わせて簡単にカスタマイズできます。

    • 元の作成者によって公開された結果を再現するために、各アーキテクチャの例を提供します。
    • モデルの内部は、可能な限り一貫して公開されます。
    • モデルファイルは、ライブラリとは独立して使用できるため、すばやく実験できます。

なぜ変圧器を使うべきではないのですか?

  • このライブラリは、ニューラルネットのビルディングブロックのモジュラーツールボックスではありません。モデルファイル内のコードは、意図的に追加の抽象化でリファクタリングされないため、研究者は追加の抽象化/ファイルに飛び込むことなく、各モデルをすばやく反復できます。
  • トレーニングAPIは、どのモデルでも機能することを目的としていませんが、ライブラリによって提供されるモデルで機能するように最適化されています。一般的な機械学習ループの場合は、別のライブラリを使用する必要があります。
  • 可能な限り多くのユースケースを提示するよう努めていますが、examplesフォルダー内のスクリプトは単なる例です。それらは特定の問題に対してそのままでは機能しないことが予想され、ニーズに合わせて数行のコードを変更する必要があります。

インストール

ピップ付き

このリポジトリは、Python 3.6以降、Flax 0.3.2 +、PyTorch 1.3.1以降、TensorFlow2.3以降でテストされています。

インストールする必要があります🤗仮想環境のトランスフォーマー。Python仮想環境に慣れていない場合は、ユーザーガイドを確認してください。

まず、使用するPythonのバージョンを使用して仮想環境を作成し、アクティブ化します。

次に、Flax、PyTorch、またはTensorFlowの少なくとも1つをインストールする必要があります。プラットフォームの特定のインストールコマンドについては、TensorFlowのインストールページ、PyTorchのインストールページ、FlaxおよびJaxのインストールページを参照してください。

これらのバックエンドの1つがインストールされている場合、🤗トランスフォーマーは、pipを使用して次のようにインストールできます。

pip install transformers

例を試してみたい場合、またはコードの最先端が必要で、新しいリリースを待つことができない場合は、ソースからライブラリをインストールする必要があります。

コンダ付き

Transformersバージョンv4.0.0以降、condaチャネルがあります

huggingface
。

🤗トランスフォーマーは、次のようにcondaを使用してインストールできます。

conda install -c huggingface transformers

Flax、PyTorch、またはTensorFlowのインストールページに従って、condaを使用してそれらをインストールする方法を確認してください。

モデルアーキテクチャ

によって提供されるすべてのモデルチェックポイント🤗トランスフォーマーは、huggingface.coモデルハブからシームレスに統合され、ユーザーや組織によって直接アップロードされます。

チェックポイントの現在の数:

🤗Transformersは現在、次のアーキテクチャを提供しています(それぞれの概要については、こちらを参照してください)。

  1. ALBERT ( GoogleResearchおよびシカゴの豊田工業大学)は、Zhenzhong Lan、Mingda Chen、Sebastian Goodman、Kevin Gimpel、Piyush Sharma、Radu Soricutによる論文ALBERT:A Lite BERT for Self-supervised Learning ofLanguageRepresentationsをリリースしました。
  2. 論文BARTでリリースされたBART(Facebookから)Mike Lewis、Yinhan Liu、Naman Goyal、Marjan Ghazvininejad、Abdelrahman Mohamed、Omer Levy、Ves Stoyanovによる自然言語の生成、翻訳、および理解のためのシーケンス間の事前トレーニングのノイズ除去ルーク・ゼトルモイヤー。
  3. BARThez(Écolepolytechniqueから)は、論文Moussa Kamal Eddine、AntoineJ. -Pによる熟練した事前訓練されたフランスのシーケンス間モデルでリリースされました。Tixier、Michalis Vazirgiannis
  4. BARTpho (VinAI Researchから)は、Nguyen Luong Tran、Duong Minh Le、およびDat Quoc Nguyenによる論文BARTpho:Pre-trained Sequence-to-Sequence ModelsforVietnameseでリリースされました。
  5. BEiT(Microsoftから)は、Hangbo Bao、Li Dong、Furu Weiによる論文BEiT:BERT Pre-Training ofImageTransformersでリリースされました。
  6. BERT(Googleから)は、論文Jacob Devlin、Ming-Wei Chang、Kenton Lee、KristinaToutanovaによる言語理解のためのディープ双方向トランスフォーマーの事前トレーニングでリリースされました。
  7. BERTweet(VinAI Researchから)が論文BERTweetでリリースされましたDat Quoc Nguyen、Thanh Vu、AnhTuanNguyenによる英語ツイート用の事前トレーニング済み言語モデル。
  8. BERT For Sequence Generation(Googleから)は、Sascha Rothe、Shashi Narayan、AliakseiSeverynによる論文LeveragingPre -trained Checkpoints for SequenceGenerationTasksでリリースされました。
  9. BigBird-RoBERTa(Google Researchから)が論文Big Bird:Transformers for Longer Sequences by Manzil Zaheer、Guru Guruganesh、Avinava Dubey、Joshua Ainslie、Chris Alberti、Santiago Ontanon、Philip Pham、Anirudh Ravula、Qifan Wang、Li Yang、 AmrAhmed。
  10. BigBird-Pegasus(Google Researchから)が論文Big Bird:Transformers for Longer Sequences by Manzil Zaheer、Guru Guruganesh、Avinava Dubey、Joshua Ainslie、Chris Alberti、Santiago Ontanon、Philip Pham、Anirudh Ravula、Qifan Wang、Li Yang、 AmrAhmed。
  11. Blenderbot(Facebookから)は、 Stephen Roller、Emily Dinan、Naman Goyal、Da Ju、Mary Williamson、Yinhan Liu、Jing Xu、Myle Ott、Kurt Shuster、Eric M. Smith、 Y-Lan Boureau、ジェイソンウェストン。
  12. BlenderbotSmall(Facebookから)は、 Stephen Roller、Emily Dinan、Naman Goyal、Da Ju、Mary Williamson、Yinhan Liu、Jing Xu、Myle Ott、Kurt Shuster、Eric M. Smith、 Y-Lan Boureau、ジェイソンウェストン。
  13. BORT(Alexaから)は、 AdriandeWynterとDanielJ.Perryによる論文OptimalSubarchitectureExtractionForBERTでリリースされました。
  14. ByT5(Google Researchから)が論文ByT5でリリースLinting Xue、Aditya Barua、Noah Constant、Rami Al-Rfou、Sharan Narang、Mihir Kale、Adamによる事前トレーニングされたバイトツーバイトモデルによるトークンフリーの未来に向けてロバーツ、コリン・ラフェル。
  15. CamemBERT(Inria / Facebook / Sorbonneから)が論文CamemBERTでリリースされましたLouis Martin *、Benjamin Muller *、PedroJavierOrtizSuárez*、Yoann Dupont、Laurent Romary、ÉricVillemonte de la Clergerie、DjaméSeddahによるおいしいフランス語モデルブノワサゴット。
  16. CANINE(Google Researchから)が論文CANINE:Pre-training a Efficient Tokenization-Free Encoder for Language Representation by Jonathan H.Clark、Dan Garrette、Iulia Turc、JohnWietingとともにリリースされました。
  17. ConvNeXT(Facebook AIから)は、Zhuang Liu、Hanzi Mao、Chao-Yuan Wu、Christoph Feichtenhofer、Trevor Darrell、SainingXieによる2020年代の論文AConvNetでリリースされました。
  18. CLIP(OpenAIから)は、Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda Askell、Pamela Mishkin、Jack Clark、Gretchenによる論文Learning Transferable Visual Models From NaturalLanguageSupervisionでリリースされましたクルーガー、イリヤ・サツケバー。
  19. ConvBERT (YituTechから)は、Zihang Jiang、Weihao Yu、Daquan Zhou、Yunpeng Chen、Jiashi Feng、Shuicheng Yanによる論文ConvBERT:Improving BERT with Span-basedDynamicConvolutionでリリースされました。
  20. 論文CPMでリリースされたCPM(清華大学から)Zhengyan Zhang、Xu Han、Hao Zhou、Pei Ke、Yuxian Gu、Deming Ye、Yujia Qin、Yusheng Su、HaozheJiによる大規模なジェネレーティブ中国語の事前トレーニング済み言語モデル、Jian Guan、Fanchao Qi、Xiaozhi Wang、Yanan Zheng、Guoyang Zeng、Huanqi Cao、Shengqi Chen、Daixuan Li、Zhenbo Sun、Zhiyuan Liu、Minlie Huang、Wentao Han、Jie Tang、Juanzi Li、Xiaoyan Zhu、Maosong Sun
  21. CTRL(Salesforceから)は、論文Nitish Shirish Keskar *、Bryan McCann *、Lav R. Varshney、Caiming Xiong、RichardSocherによる制御可能な生成のための条件付きトランスフォーマー言語モデルでリリースされました。
  22. Data2Vec(Facebookから)は、論文Alexei Baevski、Wei-Ning Hsu、Qiantong Xu、Arun Babu、Jiatao Gu、Michael Auliによる音声、視覚、言語の自己監視学習のための一般的なフレームワークでリリースされました。
  23. DeBERTa(Microsoftから)は、He、Xiaodong Liu、Jianfeng Gao、Weizhu Chenによる論文DeBERTa:Decoding-enhanced BERT withDisentangledAttentionでリリースされました。
  24. DeBERTa-v2(Microsoftから)は、He、Xiaodong Liu、Jianfeng Gao、Weizhu Chenによる論文DeBERTa:Decoding-enhanced BERT withDisentangledAttentionでリリースされました。
  25. 論文DecisionTransformer:Reinforcement Learning via Sequence Modeling by Lili Chen、Kevin Lu、Aravind Rajeswaran、Kimin Lee、Aditya Grover、Michael Laskin、Pieter Abbeel、Aravind Srinivas、IgorMordatchとともにリリースされたDecisionTransformer(Berkeley / Facebook / Googleから)
  26. DiT(Microsoft Researchから)は、Junlong Li、Yiheng Xu、Tengchao Lv、Lei Cui、Cha Zhang、Furu Weiによる論文DiT:Self-supervised Pre-training for DocumentImageTransformerでリリースされました。
  27. DeiT (Facebookから)は、Hugo Touvron、Matthieu Cord、Matthijs Douze、Francisco Massa、Alexandre Sablayrolles、HervéJégouによる注目によるデータ効率の高い画像変換と蒸留のトレーニングという論文でリリースされました
  28. DETR (Facebookから)は、Nicolas Carion、Francisco Massa、Gabriel Synnaeve、Nicolas Usunier、Alexander Kirillov、SergeyZagoruykoによる論文End-to-EndObject DetectionwithTransformersでリリースされました。
  29. DialoGPT(Microsoft Researchから)が論文DialoGPTでリリースされました: Yizhe Zhang、Siqi Sun、Michel Galley、Yen-Chun Chen、Chris Brockett、Xiang Gao、Jianfeng Gao、Jingjing Liu、ビルドーラン。
  30. DistilBERT (HuggingFaceから)は、BERTの蒸留バージョンである紙DistilBERTと一緒にリリースされました、Lysandre Debut、Thomas Wolfによって、より小さく、より速く、より安く、より軽くなりました。同じ方法が、GPT2をDistilGPT2に、RoBERTaをDistilRoBERTaに、多言語BERTをDistilmBERTに、ドイツ語版のDistilBERTに圧縮するために適用されています。
  31. DPR(Facebookから)は、Vladimir Karpukhin、BarlasOğuz、Sewon Min、Patrick Lewis、Ledell Wu、Sergey Edunov、Danqi Chen、Wen-tauYihによる論文「DensePassageRetrievalforOpen - DomainQuestionAnswering」でリリースされました。
  32. DPT(Intel Labsから)は、RenéRanftl、Alexey Bochkovskiy、VladlenKoltunによる論文VisionTransformers forDensePredictionでリリースされました。
  33. EncoderDecoder(Google Researchから)は、Sascha Rothe、Shashi Narayan、AliakseiSeverynによる論文「LeveragingPre - trainedCheckpoints forSequenceGenerationTasks」とともにリリースされました。
  34. ELECTRA(Google Research / Stanford Universityから)は、論文Kevin Clark、Minh-Thang Luong、Quoc V. Le、ChristopherD.Manningによるジェネレーターではなくディスクリミネーターとしてのテキストエンコーダーの事前トレーニングでリリースされました。
  35. FlauBERT(CNRSから)は、Hang Le、LoïcVial、Jibril Frej、Vincent Segonne、Maximin Coavoux、Benjamin Lecouteux、Alexandre Allauzen、BenoitCrabbé、Laurent Besacier、Didier SchwabによるFlauBERT:Unsupervised Language Model Pre-trainingforFrenchでリリースされました。
  36. FLAVA(Facebook AIから)は、Amanpreet Singh、Ronghang Hu、Vedanuj Goswami、Guillaume Couairon、Wojciech Galuba、Marcus Rohrbach、およびDouwe Kielaによる論文FLAVA:A Foundational Language And VisionAlignmentModelでリリースされました。
  37. FNet(Google Researchから)は、James Lee-Thorp、Joshua Ainslie、Ilya Eckstein、Santiago Ontanonによる論文「FNet:Mixing TokenswithFourierTransforms」でリリースされました。
  38. Funnel Transformer(CMU / Google Brainから)が論文Funnel-Transformer:Filtering out Sequential Redundancy for Efficient Language Processing by Zihang Dai、Guokun Lai、Yiming Yang、QuocV.Le。
  39. GLPN(KAISTから)は、Doyeon Kim、Woonghyun Ga、Pyungwhan Ahn、Donggyu Joo、Sehwan Chun、JunmoKimによる論文Global-LocalPath Networks for Monocular Depth Evaluation withVerticalCutDepthでリリースされました。
  40. GPT(OpenAIから)は、Alec Radford、Karthik Narasimhan、Tim Salimans、IlyaSutskeverによる「GenerativePre-Trainingによる言語理解の向上」という論文でリリースされました。
  41. 紙の言語モデルでリリースされたGPT-2(OpenAIから)は、Alec Radford *、Jeffrey Wu *、Rewon Child、David Luan、Dario Amodei **、IlyaSutskever**による教師なしマルチタスク学習者です。
  42. GPT-J(EleutherAIから)は、BenWangとAranKomatsuzakiによってリポジトリkingoflolz/mesh-transformer-jaxでリリースされました。
  43. GPT Neo (EleutherAIから)は、Sid Black、Stella Biderman、Leo Gao、Phil Wang、およびConnorLeahyによってリポジトリEleutherAI/gpt-neoでリリースされました。
  44. Hubert (from Facebook) released with the paper HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units by Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed.
  45. I-BERT (from Berkeley) released with the paper I-BERT: Integer-only BERT Quantization by Sehoon Kim, Amir Gholami, Zhewei Yao, Michael W. Mahoney, Kurt Keutzer.
  46. ImageGPT (from OpenAI) released with the paper Generative Pretraining from Pixels by Mark Chen, Alec Radford, Rewon Child, Jeffrey Wu, Heewoo Jun, David Luan, Ilya Sutskever.
  47. LayoutLM (from Microsoft Research Asia) released with the paper LayoutLM: Pre-training of Text and Layout for Document Image Understanding by Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou.
  48. LayoutLMv2 (from Microsoft Research Asia) released with the paper LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding by Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Wanxiang Che, Min Zhang, Lidong Zhou.
  49. LayoutXLM (from Microsoft Research Asia) released with the paper LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding by Yiheng Xu, Tengchao Lv, Lei Cui, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Furu Wei.
  50. LED (from AllenAI) released with the paper Longformer: The Long-Document Transformer by Iz Beltagy, Matthew E. Peters, Arman Cohan.
  51. Longformer (from AllenAI) released with the paper Longformer: The Long-Document Transformer by Iz Beltagy, Matthew E. Peters, Arman Cohan.
  52. LUKE (from Studio Ousia) released with the paper LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention by Ikuya Yamada, Akari Asai, Hiroyuki Shindo, Hideaki Takeda, Yuji Matsumoto.
  53. mLUKE (from Studio Ousia) released with the paper mLUKE: The Power of Entity Representations in Multilingual Pretrained Language Models by Ryokan Ri, Ikuya Yamada, and Yoshimasa Tsuruoka.
  54. LXMERT (from UNC Chapel Hill) released with the paper LXMERT: Learning Cross-Modality Encoder Representations from Transformers for Open-Domain Question Answering by Hao Tan and Mohit Bansal.
  55. M2M100 (from Facebook) released with the paper Beyond English-Centric Multilingual Machine Translation by Angela Fan, Shruti Bhosale, Holger Schwenk, Zhiyi Ma, Ahmed El-Kishky, Siddharth Goyal, Mandeep Baines, Onur Celebi, Guillaume Wenzek, Vishrav Chaudhary, Naman Goyal, Tom Birch, Vitaliy Liptchinsky, Sergey Edunov, Edouard Grave, Michael Auli, Armand Joulin.
  56. MarianMT Machine translation models trained using OPUS data by Jörg Tiedemann. The Marian Framework is being developed by the Microsoft Translator Team.
  57. MaskFormer (from Meta and UIUC) released with the paper Per-Pixel Classification is Not All You Need for Semantic Segmentation by Bowen Cheng, Alexander G. Schwing, Alexander Kirillov.
  58. MBart (from Facebook) released with the paper Multilingual Denoising Pre-training for Neural Machine Translation by Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, Luke Zettlemoyer.
  59. MBart-50 (from Facebook) released with the paper Multilingual Translation with Extensible Multilingual Pretraining and Finetuning by Yuqing Tang, Chau Tran, Xian Li, Peng-Jen Chen, Naman Goyal, Vishrav Chaudhary, Jiatao Gu, Angela Fan.
  60. Megatron-BERT (from NVIDIA) released with the paper Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism by Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper and Bryan Catanzaro.
  61. Megatron-GPT2 (from NVIDIA) released with the paper Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism by Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper and Bryan Catanzaro.
  62. MPNet (from Microsoft Research) released with the paper MPNet: Masked and Permuted Pre-training for Language Understanding by Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, Tie-Yan Liu.
  63. MT5 (from Google AI) released with the paper mT5: A massively multilingual pre-trained text-to-text transformer by Linting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, Colin Raffel.
  64. Nyströmformer (from the University of Wisconsin - Madison) released with the paper Nyströmformer: A Nyström-Based Algorithm for Approximating Self-Attention by Yunyang Xiong, Zhanpeng Zeng, Rudrasis Chakraborty, Mingxing Tan, Glenn Fung, Yin Li, Vikas Singh.
  65. OPT (from Meta AI) released with the paper OPT: Open Pre-trained Transformer Language Models by Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen et al.
  66. Pegasus (from Google) released with the paper PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization by Jingqing Zhang, Yao Zhao, Mohammad Saleh and Peter J. Liu.
  67. Perceiver IO (from Deepmind) released with the paper Perceiver IO: A General Architecture for Structured Inputs & Outputs by Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac, Carl Doersch, Catalin Ionescu, David Ding, Skanda Koppula, Daniel Zoran, Andrew Brock, Evan Shelhamer, Olivier Hénaff, Matthew M. Botvinick, Andrew Zisserman, Oriol Vinyals, João Carreira.
  68. PhoBERT (from VinAI Research) released with the paper PhoBERT: Pre-trained language models for Vietnamese by Dat Quoc Nguyen and Anh Tuan Nguyen.
  69. PLBart (from UCLA NLP) released with the paper Unified Pre-training for Program Understanding and Generation by Wasi Uddin Ahmad, Saikat Chakraborty, Baishakhi Ray, Kai-Wei Chang.
  70. PoolFormer (from Sea AI Labs) released with the paper MetaFormer is Actually What You Need for Vision by Yu, Weihao and Luo, Mi and Zhou, Pan and Si, Chenyang and Zhou, Yichen and Wang, Xinchao and Feng, Jiashi and Yan, Shuicheng.
  71. ProphetNet (from Microsoft Research) released with the paper ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training by Yu Yan, Weizhen Qi, Yeyun Gong, Dayiheng Liu, Nan Duan, Jiusheng Chen, Ruofei Zhang and Ming Zhou.
  72. QDQBert (from NVIDIA) released with the paper Integer Quantization for Deep Learning Inference: Principles and Empirical Evaluation by Hao Wu, Patrick Judd, Xiaojie Zhang, Mikhail Isaev and Paulius Micikevicius.
  73. REALM (from Google Research) released with the paper REALM: Retrieval-Augmented Language Model Pre-Training by Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat and Ming-Wei Chang.
  74. Reformer (from Google Research) released with the paper Reformer: The Efficient Transformer by Nikita Kitaev, Łukasz Kaiser, Anselm Levskaya.
  75. RemBERT (from Google Research) released with the paper Rethinking embedding coupling in pre-trained language models by Hyung Won Chung, Thibault Févry, Henry Tsai, M. Johnson, Sebastian Ruder.
  76. RegNet (from META Platforms) released with the paper Designing Network Design Space by Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick, Kaiming He, Piotr Dollár.
  77. ResNet (from Microsoft Research) released with the paper Deep Residual Learning for Image Recognition by Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun.
  78. RoBERTa (from Facebook), released together with the paper RoBERTa: A Robustly Optimized BERT Pretraining Approach by Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov.
  79. RoFormer (from ZhuiyiTechnology), released together with the paper RoFormer: Enhanced Transformer with Rotary Position Embedding by Jianlin Su and Yu Lu and Shengfeng Pan and Bo Wen and Yunfeng Liu.
  80. SegFormer (from NVIDIA) released with the paper SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers by Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo.
  81. SEW (from ASAPP) released with the paper Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition by Felix Wu, Kwangyoun Kim, Jing Pan, Kyu Han, Kilian Q. Weinberger, Yoav Artzi.
  82. SEW-D (from ASAPP) released with the paper Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition by Felix Wu, Kwangyoun Kim, Jing Pan, Kyu Han, Kilian Q. Weinberger, Yoav Artzi.
  83. SpeechToTextTransformer (from Facebook), released together with the paper fairseq S2T: Fast Speech-to-Text Modeling with fairseq by Changhan Wang, Yun Tang, Xutai Ma, Anne Wu, Dmytro Okhonko, Juan Pino.
  84. SpeechToTextTransformer2 (from Facebook), released together with the paper Large-Scale Self- and Semi-Supervised Learning for Speech Translation by Changhan Wang, Anne Wu, Juan Pino, Alexei Baevski, Michael Auli, Alexis Conneau.
  85. Splinter (from Tel Aviv University), released together with the paper Few-Shot Question Answering by Pretraining Span Selection by Ori Ram, Yuval Kirstain, Jonathan Berant, Amir Globerson, Omer Levy.
  86. SqueezeBert (from Berkeley) released with the paper SqueezeBERT: What can computer vision teach NLP about efficient neural networks? by Forrest N. Iandola, Albert E. Shaw, Ravi Krishna, and Kurt W. Keutzer.
  87. Swin Transformer (from Microsoft) released with the paper Swin Transformer: Hierarchical Vision Transformer using Shifted Windows by Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo.
  88. T5 (from Google AI) released with the paper Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer by Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu.
  89. T5v1.1 (from Google AI) released in the repository google-research/text-to-text-transfer-transformer by Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu.
  90. TAPAS (from Google AI) released with the paper TAPAS: Weakly Supervised Table Parsing via Pre-training by Jonathan Herzig, Paweł Krzysztof Nowak, Thomas Müller, Francesco Piccinno and Julian Martin Eisenschlos.
  91. TAPEX (from Microsoft Research) released with the paper TAPEX: Table Pre-training via Learning a Neural SQL Executor by Qian Liu, Bei Chen, Jiaqi Guo, Morteza Ziyadi, Zeqi Lin, Weizhu Chen, Jian-Guang Lou.
  92. Transformer-XL (from Google/CMU) released with the paper Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context by Zihang Dai*, Zhilin Yang*, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov.
  93. TrOCR (from Microsoft), released together with the paper TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models by Minghao Li, Tengchao Lv, Lei Cui, Yijuan Lu, Dinei Florencio, Cha Zhang, Zhoujun Li, Furu Wei.
  94. UniSpeech (from Microsoft Research) released with the paper UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data by Chengyi Wang, Yu Wu, Yao Qian, Kenichi Kumatani, Shujie Liu, Furu Wei, Michael Zeng, Xuedong Huang.
  95. UniSpeechSat (from Microsoft Research) released with the paper UNISPEECH-SAT: UNIVERSAL SPEECH REPRESENTATION LEARNING WITH SPEAKER AWARE PRE-TRAINING by Sanyuan Chen, Yu Wu, Chengyi Wang, Zhengyang Chen, Zhuo Chen, Shujie Liu, Jian Wu, Yao Qian, Furu Wei, Jinyu Li, Xiangzhan Yu.
  96. VAN (from Tsinghua University and Nankai University) released with the paper Visual Attention Network by Meng-Hao Guo, Cheng-Ze Lu, Zheng-Ning Liu, Ming-Ming Cheng, Shi-Min Hu.
  97. ViLT (from NAVER AI Lab/Kakao Enterprise/Kakao Brain) released with the paper ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision by Wonjae Kim, Bokyung Son, Ildoo Kim.
  98. Vision Transformer (ViT) (from Google AI) released with the paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale by Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby.
  99. ViTMAE (from Meta AI) released with the paper Masked Autoencoders Are Scalable Vision Learners by Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, Ross Girshick.
  100. VisualBERT (from UCLA NLP) released with the paper VisualBERT: A Simple and Performant Baseline for Vision and Language by Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, Kai-Wei Chang.
  101. WavLM (from Microsoft Research) released with the paper WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing by Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Furu Wei.
  102. Wav2Vec2 (from Facebook AI) released with the paper wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations by Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli.
  103. Wav2Vec2Phoneme (from Facebook AI) released with the paper Simple and Effective Zero-shot Cross-lingual Phoneme Recognition by Qiantong Xu, Alexei Baevski, Michael Auli.
  104. XGLM (From Facebook AI) released with the paper Few-shot Learning with Multilingual Language Models by Xi Victoria Lin, Todor Mihaylov, Mikel Artetxe, Tianlu Wang, Shuohui Chen, Daniel Simig, Myle Ott, Naman Goyal, Shruti Bhosale, Jingfei Du, Ramakanth Pasunuru, Sam Shleifer, Punit Singh Koura, Vishrav Chaudhary, Brian O'Horo, Jeff Wang, Luke Zettlemoyer, Zornitsa Kozareva, Mona Diab, Veselin Stoyanov, Xian Li.
  105. XLM (from Facebook) released together with the paper Cross-lingual Language Model Pretraining by Guillaume Lample and Alexis Conneau.
  106. XLM-ProphetNet (from Microsoft Research) released with the paper ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training by Yu Yan, Weizhen Qi, Yeyun Gong, Dayiheng Liu, Nan Duan, Jiusheng Chen, Ruofei Zhang and Ming Zhou.
  107. XLM-RoBERTa (from Facebook AI), released together with the paper Unsupervised Cross-lingual Representation Learning at Scale by Alexis Conneau*, Kartikay Khandelwal*, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Edouard Grave, Myle Ott, Luke Zettlemoyer and Veselin Stoyanov.
  108. XLM-RoBERTa-XL (from Facebook AI), released together with the paper Larger-Scale Transformers for Multilingual Masked Language Modeling by Naman Goyal, Jingfei Du, Myle Ott, Giri Anantharaman, Alexis Conneau.
  109. XLNet (from Google/CMU) released with the paper ​XLNet: Generalized Autoregressive Pretraining for Language Understanding by Zhilin Yang*, Zihang Dai*, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le.
  110. XLSR-Wav2Vec2 (from Facebook AI) released with the paper Unsupervised Cross-Lingual Representation Learning For Speech Recognition by Alexis Conneau, Alexei Baevski, Ronan Collobert, Abdelrahman Mohamed, Michael Auli.
  111. XLS-R(Facebook AIから)が論文XLS-RでリリースされましたArun Babu、Changhan Wang、Andros Tjandra、Kushal Lakhotia、Qiantong Xu、Naman Goyal、Kritika Singh、Patrickによる大規模な自己監視型クロスリンガル音声表現学習フォン・プラテン、ヤサース・サラフ、フアン・ピノ、アレクセイ・バエフスキー、アレクシス・コノー、マイケル・アウリ。
  112. YOLOS(Huazhong University of Science&Technology)は、論文「You Only Look at One Sequence:Rethinking Transformer in Vision through Object Detection through Yuxin Fang、Bencheng Liao、Xinggang Wang、Jiemin Fang、Jiyang Qi、Rui Wu、Jianwei Niu、ウェニュ劉。
  113. YOSO(ウィスコンシン大学マディソン校)は、Zhanpeng Zeng、Yunyang Xiong、Sathya N. Ravi、Shailesh Acharya、Glenn Fung、VikasSinghによるベルヌーイサンプリングによる線形コス​​トの自己注意を発表しました。 。
  114. 新しいモデルに貢献してみませんか?新しいモデルを追加するプロセスをガイドする詳細なガイドとテンプレートを追加しました。それら
    templates
    はリポジトリのフォルダにあります。PRを開始する前に、必ず貢献ガイドラインを確認し、メンテナに連絡するか、問題を開いてフィードバックを収集してください。

各モデルにFlax、PyTorch、TensorFlowの実装があるかどうか、または関連するトークナイザーがサポートされているかどうかを確認するには🤗Tokenizersライブラリについては、この表を参照してください。

これらの実装はいくつかのデータセットでテストされており(スクリプトの例を参照)、元の実装のパフォーマンスと一致する必要があります。パフォーマンスの詳細については、ドキュメントの「例」セクションを参照してください。

もっと詳しく知る

セクション 説明
ドキュメンテーション 完全なAPIドキュメントとチュートリアル
タスクの概要 によってサポートされるタスク🤗トランスフォーマー
前処理チュートリアル クラスを使用し
Tokenizer
てモデルのデータを準備する
トレーニングと微調整 によって提供されるモデルを使用する🤗PyTorch/TensorFlowトレーニングループと
Trainer
APIのトランスフォーマー
クイックツアー:微調整/使用スクリプト さまざまなタスクでモデルを微調整するためのスクリプト例
モデルの共有とアップロード 微調整されたモデルをアップロードしてコミュニティと共有する
移行 に移行する🤗
pytorch-transformers
またはからのトランスフォーマー
pytorch-pretrained-bert

引用

これで、引用できる論文ができました。🤗トランスフォーマーライブラリ:

@inproceedings{wolf-etal-2020-transformers,
    title = "Transformers: State-of-the-Art Natural Language Processing",
    author = "Thomas Wolf and Lysandre Debut and Victor Sanh and Julien Chaumond and Clement Delangue and Anthony Moi and Pierric Cistac and Tim Rault and Rémi Louf and Morgan Funtowicz and Joe Davison and Sam Shleifer and Patrick von Platen and Clara Ma and Yacine Jernite and Julien Plu and Canwen Xu and Teven Le Scao and Sylvain Gugger and Mariama Drame and Quentin Lhoest and Alexander M. Rush",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
    month = oct,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.emnlp-demos.6",
    pages = "38--45"
}