XMem - [ECCV 2022] XMem:Atkinson-Shiffrinメモリモデルを使用した長期ビデオオブジェクトセグメンテーション

([ECCV 2022] XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model)

Created at: 2022-07-07 03:09:19
Language: Python
License: GPL-3.0

XMem

Atkinson-Shiffrinメモリモデルを使用した長期ビデオオブジェクトセグメンテーション

ホーケイチェンアレクサンダーシュウィング

イリノイ大学アーバナシャンペーン校

[arXiv] [PDF] [プロジェクトページ] Colabで開く

デモ

長期閉塞の処理:

https://user-images.githubusercontent.com/7107196/177921527-7a1bd593-2162-4598-9adf-f2112763fccf.mp4

非常に長いビデオ。マスクされたレイヤーの挿入:

https://user-images.githubusercontent.com/7107196/179089789-3d69adea-0405-4c83-ac28-45f59fe1e1c1.mp4

出典:https ://www.youtube.com/watch?v = q5Xr0F4a0iU

ドメイン外の場合:

https://user-images.githubusercontent.com/7107196/177920383-161f1da1-33f9-48b3-b8b2-09e450432e2b.mp4

出典:かぐや様は告接たい〜天才たちの恋愛頭脳戦〜Ep.3; A1 Pictures

【故障事例】

特徴

  • GPUメモリ使用量が制限された非常に長いビデオを処理します。
  • かなり速いです。長いビデオ(ハードウェアに依存)でも最大20FPSを期待します。
  • GUIが付属しています(MiVOSから変更)。

目次

  1. 序章
  2. 結果
  3. インタラクティブGUIデモ
  4. トレーニング/推論
  5. 引用

序章

フレームワーク

ビデオオブジェクトセグメンテーション(VOS)は、何よりもまず、メモリの問題として捉えています。以前の作品は主に単一のタイプの機能メモリを使用します。これは、ネットワークの重み(つまり、オンライン学習)、最後のフレームのセグメンテーション(たとえば、MaskTrack)、空間的な非表示表現(たとえば、Conv-RNNベースの方法)、空間的注意機能(たとえば、STM、STCN、 AOT)、またはある種の長期的なコンパクト機能(AFB-URRなど)。

メモリスパンが短いメソッドは変更に対して堅牢ではありませんが、メモリバンクが大きいメソッドは、計算とGPUメモリ使用量が壊滅的に増加する可能性があります。AFB-URRのような長期的な注意VOSを試みると、機能が生成されるとすぐに熱心に圧縮され、機能の解像度が失われます。

私たちの方法は、感覚記憶作業記憶長期記憶を持つアトキンソン-シフリン人間の記憶モデルに触発されています。これらのメモリストアは異なる時間スケールを持ち、メモリ読み取りメカニズムで互いに補完し合っています。短期および長期のビデオデータセットの両方で優れたパフォーマンスを発揮し、10,000フレームを超えるビデオを簡単に処理します。

トレーニング/推論

まず、 GETTING_STARTED.mdに従って、必要なPythonパッケージとデータセットをインストールします。

トレーニングについては、 TRAINING.mdを参照してください。

推論については、INFERENCE.mdを参照してください。

引用

このレポが役に立ったら、私たちの論文を引用してください!

@inproceedings{cheng2022xmem,
  title={{XMem}: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model},
  author={Cheng, Ho Kei and Alexander G. Schwing},
  booktitle={ECCV},
  year={2022}
}

このペーパーが開発された関連プロジェクト:

@inproceedings{cheng2021stcn,
  title={Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation},
  author={Cheng, Ho Kei and Tai, Yu-Wing and Tang, Chi-Keung},
  booktitle={NeurIPS},
  year={2021}
}

@inproceedings{cheng2021mivos,
  title={Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion},
  author={Cheng, Ho Kei and Tai, Yu-Wing and Tang, Chi-Keung},
  booktitle={CVPR},
  year={2021}
}

インタラクティブデモではf-BRSを使用しています:https ://github.com/saic-vul/fbrs_interactive_segmentation

そして、データセットを引用したい場合:

bibtex

@inproceedings{shi2015hierarchicalECSSD,
  title={Hierarchical image saliency detection on extended CSSD},
  author={Shi, Jianping and Yan, Qiong and Xu, Li and Jia, Jiaya},
  booktitle={TPAMI},
  year={2015},
}

@inproceedings{wang2017DUTS,
  title={Learning to Detect Salient Objects with Image-level Supervision},
  author={Wang, Lijun and Lu, Huchuan and Wang, Yifan and Feng, Mengyang 
  and Wang, Dong, and Yin, Baocai and Ruan, Xiang}, 
  booktitle={CVPR},
  year={2017}
}

@inproceedings{FSS1000,
  title = {FSS-1000: A 1000-Class Dataset for Few-Shot Segmentation},
  author = {Li, Xiang and Wei, Tianhan and Chen, Yau Pun and Tai, Yu-Wing and Tang, Chi-Keung},
  booktitle={CVPR},
  year={2020}
}

@inproceedings{zeng2019towardsHRSOD,
  title = {Towards High-Resolution Salient Object Detection},
  author = {Zeng, Yi and Zhang, Pingping and Zhang, Jianming and Lin, Zhe and Lu, Huchuan},
  booktitle = {ICCV},
  year = {2019}
}

@inproceedings{cheng2020cascadepsp,
  title={{CascadePSP}: Toward Class-Agnostic and Very High-Resolution Segmentation via Global and Local Refinement},
  author={Cheng, Ho Kei and Chung, Jihoon and Tai, Yu-Wing and Tang, Chi-Keung},
  booktitle={CVPR},
  year={2020}
}

@inproceedings{xu2018youtubeVOS,
  title={Youtube-vos: A large-scale video object segmentation benchmark},
  author={Xu, Ning and Yang, Linjie and Fan, Yuchen and Yue, Dingcheng and Liang, Yuchen and Yang, Jianchao and Huang, Thomas},
  booktitle = {ECCV},
  year={2018}
}

@inproceedings{perazzi2016benchmark,
  title={A benchmark dataset and evaluation methodology for video object segmentation},
  author={Perazzi, Federico and Pont-Tuset, Jordi and McWilliams, Brian and Van Gool, Luc and Gross, Markus and Sorkine-Hornung, Alexander},
  booktitle={CVPR},
  year={2016}
}

@inproceedings{denninger2019blenderproc,
  title={BlenderProc},
  author={Denninger, Maximilian and Sundermeyer, Martin and Winkelbauer, Dominik and Zidan, Youssef and Olefir, Dmitry and Elbadrawy, Mohamad and Lodhi, Ahsan and Katam, Harinandan},
  booktitle={arXiv:1911.01911},
  year={2019}
}

@inproceedings{shapenet2015,
  title       = {{ShapeNet: An Information-Rich 3D Model Repository}},
  author      = {Chang, Angel Xuan and Funkhouser, Thomas and Guibas, Leonidas and Hanrahan, Pat and Huang, Qixing and Li, Zimo and Savarese, Silvio and Savva, Manolis and Song, Shuran and Su, Hao and Xiao, Jianxiong and Yi, Li and Yu, Fisher},
  booktitle   = {arXiv:1512.03012},
  year        = {2015}
}

連絡先:hkchengrex@gmail.com