Ming-Lite-Omni V1.5 介绍
GITHUB 🤗 Hugging Face| 🤖 ModelScope 前言 本次发布的 Ming-lite-omni V1.5 是对 Ming-lite-omni (🤗Hugging Face) 全模态能力的一次全面升级, 在包括图文理解、文档理解、视频理解、语音理解和合成、图像生成和编辑等任务上均有明显提升。Ming-lite-omni V1.5 基于Ling-lite-1.5 构建,总参数20.3B, MoE部分激活参数为3B,在各模态基准测试中取得较好的成绩。下面是我们本次更新在部分重要指标和模型架构上的提升的展示。 性能对比图 模型架构图 详细介绍 为了实现这样的提升,我们将自研方案与学术界/开源社区的最新进展相结合,在以下几个部分做了有效尝试,并取得多个重要结论。 图像/语音生成 图像生成侧采用双分支解耦策略提升模型对参考图的可学习参数量。具体来说,在图像进入 DiT 之前,我们使用不同的权重对参考图像与噪声图像分别进行处理,并增加额外两层transformer layers作为refiner进一步增强这一效果。 为了解决图像编辑时的人物ID及场景ID一致性问题,我们新增了ID & Scene Consistency Loss,增大目标图编辑区域的权重、增大参考图非编辑区域的参考强度、降低参考图编辑区域的参考强度。 引入感知增强策略。通过优化结构感知能力,如分割和关键点检测,提升模型对画面细节和空间关系的理解,增强编辑和生成过程的结构可控性,显著提高评测指标中与位置、结构、数量相关的得分,详见 表A。 引入多任务协同学习策略。通过联合训练链路实现生成与编辑的相互促进,将分割任务转化为彩色上色编辑任务,显著提升分割指标和图像局部编辑的精度与可控性,使编辑区域边缘更光滑。 语音生成解码器方面,我们实现了全新的音频解码器,直接接受来自LLM的输出特征实现上下文感知。 语音生成效率方面,为了提高韵律性能和实时生成能力,我们将离散的Audio codec token进行BPE编码,使得音频帧率降低了35%。 全方位数据升级 获取高质量人物图像数据,标准包括:图像分辨率/质量、人脸细粒度、人脸大小等。 采集名人数据,并做质量筛选和人脸裁剪获取名人图像数据。 构建边缘图、分割图、文字图、人物表情图等训练子集,扩充模型能力边界。 图像/文本/视频/语音理解 MRoPE 时空感知位置编码。引入了MRoPE,通过时间、高度、宽度三维分块位置编码,赋予模型时空感知能力,实现高效跨模态联合建模,提升对视频、复杂图像场景的理解精度。 高效全参数训练策略。优化学习率与多模态数据配比,将理解阶段需分步冻结/解冻 LLM 的预训练流程,升级为高效全参数训练,训练周期缩短 26.5%,保持性能无损。 针对视频理解任务,采用从短视频到长视频的课程学习策略,逐步提升模型处理长视频的复杂度。 针对复杂文档理解任务,引入 Chain-of-Thought 策略分步骤构建结构化推理路径,有效提升模型对复杂问题的解决能力。 全方位数据升级 预训练阶段 新增文本实体结构化数据,补全图谱盲区。 扩充高质量商品数据,提升通识能力。 指令微调阶段 提升细粒度视觉感知(目标计数/颜色/场景识别)数据精准性。 提高垂类识别(动植物/车辆/食材等)数据深度。 从数据角度优化跨学科复杂图文推理能力。 针对语音理解任务,将领域、主题、语种(包括方言)等信息引入到语音理解任务的指令文本中,增强模型的理解表现,实现对中英文,粤语,四川话,上海话,闽南语等方言的全面支持。 用户偏好对齐 为了保证我们模型的真实使用体验与常用Benchmark上的提升一致,我们自建了体验评测集,在内部进行多模型的人工对抗评分。得益于高质量的对齐偏好数据构建, Ming-lite-omni v1.5 在图文问答的内容准确性(低幻觉率)、相关性、格式美观性以及表述流畅性方面相比领先模型展现出一定优势, Ming-lite-omni v1....