ByteDance
/

Sa2VA-4B

Image-Text-to-Text

feature-extraction

Model card Files Files and versions Community

LXT commited on 5 days ago

Commit

3bf5ce3

·

verified ·

1 Parent(s): e7e9303

Update README.md

Files changed (1) hide show

README.md +10 -12

README.md CHANGED Viewed

@@ -1,21 +1,19 @@
 ---
-license: mit
 pipeline_tag: image-text-to-text
 library_name: transformers
 base_model:
-  - OpenGVLab/InternVL2-1B
-  - OpenGVLab/InternVL2_5-8B
-  - OpenGVLab/InternVL2_5-4B
-  - OpenGVLab/InternViT-300M-448px-V2_5
-  - internlm/internlm2_5-7b-chat
-  - Qwen/Qwen2-0.5B-Instruct
-  - Qwen/Qwen2.5-3B-Instruct
 base_model_relation: merge
 language:
-  - multilingual
 tags:
-  - Sa2VA
-  - custom_code
 ---
 # Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos
@@ -160,4 +158,4 @@ If you find this project useful in your research, please consider citing:
   journal={arXiv preprint},
   year={2025}
 }
-```

 ---
+license: apache-2.0
 pipeline_tag: image-text-to-text
 library_name: transformers
 base_model:
+- OpenGVLab/InternVL2-1B
+- OpenGVLab/InternVL2_5-8B
+- OpenGVLab/InternVL2_5-4B
+- OpenGVLab/InternViT-300M-448px-V2_5
+- internlm/internlm2_5-7b-chat
+- Qwen/Qwen2.5-3B-Instruct
 base_model_relation: merge
 language:
+- multilingual
 tags:
+- Sa2VA
 ---
 # Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos
   journal={arXiv preprint},
   year={2025}
 }
+```