BLIP3-o是一个全开源统一多模态模型,结合自回归与扩散架构,采用「先理解后生成」策略,创新地使用CLIP特征与Flow Matching训练,显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先,也正拓展至图像编辑和视觉对话等多模态任务。
多模态模型卷到头了?不,真正的革新才刚开始。
就在最近,Salesforce Research携手UMD、VT、NYU、UW等机构的研究人员,发布了一组完全开源的统一多模态模型BLIP3-o。
2025年08月12日
BLIP3-o是一个全开源统一多模态模型,结合自回归与扩散架构,采用「先理解后生成」策略,创新地使用CLIP特征与Flow Matching训练,显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先,也正拓展至图像编辑和视觉对话等多模态任务。
多模态模型卷到头了?不,真正的革新才刚开始。
就在最近,Salesforce Research携手UMD、VT、NYU、UW等机构的研究人员,发布了一组完全开源的统一多模态模型BLIP3-o。
2025年08月12日
本文约2000字,建议阅读8分钟
本文提出了片段级别结构损失函数 Patch-wise Structural (PS) Loss,通过在局部片段上对相关性、方差和均值进行对齐,从而实现对时间序列结构的更细致建模。