VideoLLaMA 3 以图片为中心的设计理念贯穿于整个模型架构和训练过程。 通过高质量的图片文本数据为视频理解打下坚实基础,仅使用 3M 视频文本数据,实现全面超越同参数量开源模型的视频理解能力。 目前,VideoLLaMA 3 已经在 HuggingFace 上提供了图像、视频理解的 ...