[プロジェクトページ][論文][抱きしめる顔のデモ][ビデオ]
Xueyan Zou*、Zi-Yi Dou*、Jianwei Yang*、Zhe Gan、Linjie Li、Chunyuan Li、Xiyang Dai、Harkirat Behl、Jianfeng Wang、Lu Yuan、Nanyun Peng、Lijuan Wang、Yong Jae Lee^、Jianfeng Gao^による。
X-Decoderは、ピクセルレベルのセグメンテーションとトークンレベルのテキストをシームレスに生成できる一般化されたデコードモデルです。
それは達成します:
それはサポートします:
pip3 install torch==1.13.1 torchvision==0.14.1 --extra-index-url https://download.pytorch.org/whl/cu113
python -m pip install 'git+https://github.com/MaureenZOU/detectron2-xyz.git'
pip install git+https://github.com/cocodataset/panopticapi.git
python -m pip install -r requirements.txt
データセットを準備するには: DATASET.md
mpirun -n 8 python eval.py evaluate --conf_files configs/xdecoder/svlp_focalt_lang.yaml --overrides WEIGHT /pth/to/ckpt
注: ゼロパディングのため、1 つの GPU に複数のイメージを入力すると、パフォーマンスが低下する可能性があります。
# For Segmentation Tasks
python demo/demo_captioning.py evaluate --conf_files configs/xdecoder/svlp_focalt_lang.yaml --overrides WEIGHT /pth/to/xdecoder_focalt_best_openseg.pt
# For VL Tasks
python demo/demo_captioning.py evaluate --conf_files configs/xdecoder/svlp_focalt_lang.yaml --overrides WEIGHT /pth/to/xdecoder_focalt_last_novg.pt
ティッカー | ADEフル | 太陽 | スキャン | スキャン40 | 都市 景観 | ティッカー | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
モデル | ティッカー | ケベック | ティッカー | mIoU | mIoU | mIoU | ケベック | mIoU | mIoU | ケベック | 地図 | mIoU | ケベック | mIoU |
X-デコーダ | ベストセグタイニー | 19.1 | 10.1 | 25.1 | 6.2 | 35.7 | 30.3 | 38.4 | 22.4 | 37.7 | 18.5 | 50.2 | 16.9 | 47.6 |
モデル | タスク | 丸太 | ケベック | 地図 | mIoU |
---|---|---|---|---|---|
X-デコーダ(ダビット-d5、変形可能) | パノセグ | .log | 52.4 | 38.7 | 59.1 |
ハオティアン・チャンとの建設的な議論とGLIPからのインスピレーションに感謝します!また、Mask2Formerの堅実なコードベースと、デモのためにGPUを後援するHugging Faceに感謝します。
@article{zou2022xdecoder, author = {Zou, Xueyan and Dou, Zi-Yi and Yang, Jianwei and Gan, Zhe and Li, Linjie and Li, Chunyuan and Dai, Xiyang and Wang, Jianfeng and Yuan, Lu and Peng, Nanyun and Wang, Lijuan and Lee, Yong Jae and Gao, Jianfeng}, title = {Generalized Decoding for Pixel, Image and Language}, publisher = {arXiv}, year = {2022}, }