Vision Language General - a ZhangYuanhan Collection

ZhangYuanhan 's Collections

Vision Language General

Vision Language General

updated about 2 hours ago

Vision Language General

MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks

Paper • 2410.10563 • Published Oct 14, 2024 • 38
Latent Action Pretraining from Videos

Paper • 2410.11758 • Published Oct 15, 2024 • 2
TVBench: Redesigning Video-Language Evaluation

Paper • 2410.07752 • Published Oct 10, 2024 • 5
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

Paper • 2501.03225 • Published 1 day ago • 4