字节跳动的 Seed 团队重磅发布了视觉 - 语言多模态大模型: Seed1.5-VL!
在60个主流测试中狂揽38项第一!这个模型的视觉编码器仅有532M参数,却能在零样本分类任务中硬刚17.5B参数的EVA-CLIP。
Seed1.5-VL由三个主要部分组成:视觉编码器(Seed-ViT)、MLP适配器和LLM(200亿激活参数)。
- 视觉编码器(Seed-ViT):基于Vision Transformer(ViT),包含5.32亿参数,支持动态图像分辨率,并使用2D RoPE进行位置编码。
- 视频编码:采用动态帧-分辨率采样策略,根据内容复杂性和任务需求调整采样频率和分辨率。
并且使用了3万亿个高质量的多模态标注,涵盖图像、视频、文本和人机交互数据。
性能测试:
- 视觉编码器作为零样本分类器:Seed-ViT在多个零样本分类基准上表现出色,与参数量更大的模型相当。
- 视觉任务评估:在多模态推理、文档理解、视觉定位和计数等任务上,Seed1.5-VL取得了SOTA或接近SOTA的结果。
- 视频任务评估:在短视频、长视频、流视频、视频推理和视频定位任务上,Seed1.5-VL表现出色。
- GUI代理:在多个GUI任务上,Seed1.5-VL显著优于现有模型。
- 游戏代理:在多个游戏中,Seed1.5-VL展现出强大的推理和决策能力。
主要功能:
OCR能力:使用大规模的标注和合成数据,涵盖文档、场景文本、表格、图表等。
视觉定位和计数:结合边界框、中心点和计数数据进行训练。
3D空间理解:通过相对深度排序、绝对深度估计和3D定位任务进行训练。
视频理解:涵盖视频字幕、视频问答、动作识别等任务。
STEM领域:包含数学、物理、化学和生物问题解决数据。
GUI数据:涵盖Web、应用和桌面环境的用户界面数据。
项目地址:
https://github.com/ByteDance-Seed/Seed1.5-VL/blob/main/Seed1.5-VL-Technical-Report.pdf