X-Decoder - ピクセル、画像、言語の一般化されたデコードのためのX-Decoderの公式実装

(Official Implementation of X-Decoder for generalized decoding for pixel, image and language)

Created at: 2022-11-28 10:02:55
Language: Python
License: MIT

X-Decoder:ピクセル、画像、および言語の一般化されたデコード

ティッカー ティッカー ティッカー

[プロジェクトページ][論文][抱きしめる顔のデモ][ビデオ]

Xueyan Zou*Zi-Yi Dou*、Jianwei Yang*、Zhe GanLinjie Li、Chunyuan LiXiyang DaiHarkirat Behl、Jianfeng Wang、Lu YuanNanyun PengLijuan WangYong Jae Lee^、Jianfeng Gao^による。

🌻ハグフェイスのデモをお試しください!

https://user-images.githubusercontent.com/11957155/209045241-916ccf73-d29d-4637-8502-027d3420875c.mp4

🎶紹介

X-Decoderは、ピクセルレベルのセグメンテーショントークンレベルのテキストをシームレスに生成できる一般化されたデコードモデルです。

それは達成します:

  • オープンボキャブラリーセグメンテーションと8つのデータセットの参照セグメンテーションに関する最先端の結果。
  • セグメンテーションおよびVLタスクに関するジェネラリストおよびスペシャリストモデルに対する優れたまたは競争力のある微調整されたパフォーマンス。
  • 効率的な微調整に適しており、斬新なタスク構成に柔軟に対応します。

それはサポートします:

  • セマンティック/インスタンス/パノプティックセグメンテーション、参照セグメンテーション、画像キャプション、および画像テキスト検索用に事前トレーニングされた1つのパラメータースイート
  • セマンティック/インスタンス/パノプティックセグメンテーション、参照セグメンテーション、画像キャプション、画像テキスト検索、および視覚的な質問応答(追加のclsヘッド付き)用に微調整された1つのモデルアーキテクチャ
  • 領域検索、参照キャプション、画像編集のためのゼロショットタスク構成

🔥最新情報

  • [2022.12.21] X-デコーダの推論コードを公開しました。
  • [2022.12.21] Focal-T事前学習済みチェックポイントを公開しました。
  • [2022.12.21] オープンボキャブラリーセグメンテーションベンチマークを公開しました。

❄️藤堂

  • [ ] リリース・トレーニングおよびプロンプト・チューニング・コード
  • [ ] 微調整されたモデルのリリース
  • [ ] リリース・ベースと大型モデル

はじめ

取り付け

pip3 install torch==1.13.1 torchvision==0.14.1 --extra-index-url https://download.pytorch.org/whl/cu113
python -m pip install 'git+https://github.com/MaureenZOU/detectron2-xyz.git'
pip install git+https://github.com/cocodataset/panopticapi.git
python -m pip install -r requirements.txt

データセットを準備するには: DATASET.md

オープンボキャブラリセグメンテーション

mpirun -n 8 python eval.py evaluate --conf_files configs/xdecoder/svlp_focalt_lang.yaml  --overrides WEIGHT /pth/to/ckpt

注: ゼロパディングのため、1 つの GPU に複数のイメージを入力すると、パフォーマンスが低下する可能性があります。

推論デモ

# For Segmentation Tasks
python demo/demo_captioning.py evaluate --conf_files configs/xdecoder/svlp_focalt_lang.yaml  --overrides WEIGHT /pth/to/xdecoder_focalt_best_openseg.pt
# For VL Tasks
python demo/demo_captioning.py evaluate --conf_files configs/xdecoder/svlp_focalt_lang.yaml  --overrides WEIGHT /pth/to/xdecoder_focalt_last_novg.pt

モデル動物園

ティッカー ADEフル 太陽 スキャン スキャン40 都市 景観 ティッカー
モデル ティッカー ケベック ティッカー mIoU mIoU mIoU ケベック mIoU mIoU ケベック 地図 mIoU ケベック mIoU
X-デコーダ ベストセグタイニー 19.1 10.1 25.1 6.2 35.7 30.3 38.4 22.4 37.7 18.5 50.2 16.9 47.6

追加の結果

  • 微調整されたADE 150(32エポック)
モデル タスク 丸太 ケベック 地図 mIoU
X-デコーダ(ダビット-d5、変形可能) パノセグ .log 52.4 38.7 59.1

承認

ハオティアン・チャンとの建設的な議論とGLIPからのインスピレーションに感謝します!また、Mask2Formerの堅実なコードベースと、デモのためにGPUを後援するHugging Faceに感謝します。

引用

@article{zou2022xdecoder,
  author      = {Zou, Xueyan and Dou, Zi-Yi and Yang, Jianwei and Gan, Zhe and Li, Linjie and Li, Chunyuan and Dai, Xiyang and Wang, Jianfeng and Yuan, Lu and Peng, Nanyun and Wang, Lijuan and Lee, Yong Jae and Gao, Jianfeng},
  title       = {Generalized Decoding for Pixel, Image and Language},
  publisher   = {arXiv},
  year        = {2022},
}