このリポジトリには、コンピュータビジョンモデルをトレーニングするためのソースコードが含まれています。具体的には、次のタスク用のMobileViTペーパーのソースコードが含まれています。
注:任意の画像分類バックボーンは、オブジェクト検出およびセマンティックセグメンテーションモデルで使用できます
トレーニングは2つのサンプラーで行うことができます。
マルチスケールサンプラーを使用すると、一般化機能が向上し、パフォーマンスが向上するため、使用することをお勧めします。詳細については、 MobileViTを参照してください。
CVNetは、次のコマンドを使用してローカルのPython環境にインストールできます。
git clone [email protected]:apple/ml-cvnets.git cd ml-cvnets pip install -r requirements.txt pip install --editable .
環境ではPython3.6以降とPyTorch(バージョン> = v1.8.0)を使用することをお勧めし
condaます。condaを使用したPython環境のセットアップについては、こちらを参照してください。
私たちの仕事が役に立ったと思ったら、次の論文を引用してください。
@article{mehta2021mobilevit, title={MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer}, author={Mehta, Sachin and Rastegari, Mohammad}, journal={arXiv preprint arXiv:2110.02178}, year={2021} }