GITHUB 🤗 Hugging Face| 🤖 ModelScope

前言

本次发布的 Ming-lite-omni V1.5 是对 Ming-lite-omni (🤗Hugging Face) 全模态能力的一次全面升级, 在包括图文理解、文档理解、视频理解、语音理解和合成、图像生成和编辑等任务上均有明显提升。Ming-lite-omni V1.5 基于Ling-lite-1.5 构建,总参数20.3B, MoE部分激活参数为3B,在各模态基准测试中取得较好的成绩。下面是我们本次更新在部分重要指标和模型架构上的提升的展示。

Image description

性能对比图

Image description

模型架构图

详细介绍

为了实现这样的提升,我们将自研方案与学术界/开源社区的最新进展相结合,在以下几个部分做了有效尝试,并取得多个重要结论。

图像/语音生成

  1. 图像生成侧采用双分支解耦策略提升模型对参考图的可学习参数量。具体来说,在图像进入 DiT 之前,我们使用不同的权重对参考图像与噪声图像分别进行处理,并增加额外两层transformer layers作为refiner进一步增强这一效果。
  2. 为了解决图像编辑时的人物ID及场景ID一致性问题,我们新增了ID & Scene Consistency Loss,增大目标图编辑区域的权重、增大参考图非编辑区域的参考强度、降低参考图编辑区域的参考强度。
  3. 引入感知增强策略。通过优化结构感知能力,如分割和关键点检测,提升模型对画面细节和空间关系的理解,增强编辑和生成过程的结构可控性,显著提高评测指标中与位置、结构、数量相关的得分,详见 表A
  4. 引入多任务协同学习策略。通过联合训练链路实现生成与编辑的相互促进,将分割任务转化为彩色上色编辑任务,显著提升分割指标和图像局部编辑的精度与可控性,使编辑区域边缘更光滑。
  5. 语音生成解码器方面,我们实现了全新的音频解码器,直接接受来自LLM的输出特征实现上下文感知。
  6. 语音生成效率方面,为了提高韵律性能和实时生成能力,我们将离散的Audio codec token进行BPE编码,使得音频帧率降低了35%。
  7. 全方位数据升级
    • 获取高质量人物图像数据,标准包括:图像分辨率/质量、人脸细粒度、人脸大小等。
    • 采集名人数据,并做质量筛选和人脸裁剪获取名人图像数据。
    • 构建边缘图、分割图、文字图、人物表情图等训练子集,扩充模型能力边界。

图像/文本/视频/语音理解

  1. MRoPE 时空感知位置编码。引入了MRoPE,通过时间、高度、宽度三维分块位置编码,赋予模型时空感知能力,实现高效跨模态联合建模,提升对视频、复杂图像场景的理解精度。
  2. 高效全参数训练策略。优化学习率与多模态数据配比,将理解阶段需分步冻结/解冻 LLM 的预训练流程,升级为高效全参数训练,训练周期缩短 26.5%,保持性能无损。
  3. 针对视频理解任务,采用从短视频到长视频的课程学习策略,逐步提升模型处理长视频的复杂度。
  4. 针对复杂文档理解任务,引入 Chain-of-Thought 策略分步骤构建结构化推理路径,有效提升模型对复杂问题的解决能力。
  5. 全方位数据升级
    • 预训练阶段
      • 新增文本实体结构化数据,补全图谱盲区。
      • 扩充高质量商品数据,提升通识能力。
    • 指令微调阶段
      • 提升细粒度视觉感知(目标计数/颜色/场景识别)数据精准性。
      • 提高垂类识别(动植物/车辆/食材等)数据深度。
      • 从数据角度优化跨学科复杂图文推理能力。
      • 针对语音理解任务,将领域、主题、语种(包括方言)等信息引入到语音理解任务的指令文本中,增强模型的理解表现,实现对中英文,粤语,四川话,上海话,闽南语等方言的全面支持。

用户偏好对齐

为了保证我们模型的真实使用体验与常用Benchmark上的提升一致,我们自建了体验评测集,在内部进行多模型的人工对抗评分。得益于高质量的对齐偏好数据构建, Ming-lite-omni v1.5 在图文问答的内容准确性(低幻觉率)、相关性、格式美观性以及表述流畅性方面相比领先模型展现出一定优势, Ming-lite-omni v1.5在内部对抗评测集上相比Ming-lite-omni v1 胜和率为 87.07%, 使用体验得到了明显优化。

自建体验集评测维度Qwen2.5-VL-7BMing-Omni-Lite V1.5
相关性4.3084.5
流畅性4.7654.91
内容丰富性3.8283.69
格式合理性4.7274.8
正确性3.7413.92
均分4.2744.365

Demo展示

图像编辑

为了解决图像编辑时的人物ID及场景ID一致性问题,我们新增了ID & Scene Consistency Loss,增大目标图编辑区域的权重、增大参考图非编辑区域的参考强度、降低参考图编辑区域的参考强度。

Image description
生成式图像分割 Next
User
Given the following instructions: little girl, pink, your monitors colors off friend p pink shirt girl; please perform referring segmentation on this image.
Ming-Lite-Omni V1.5
User
Please segment different classes in this image.
Ming-Lite-Omni V1.5
User
Please segment different instances in this image.
Ming-Lite-Omni V1.5

图像生成

引入感知增强策略。通过优化结构感知能力,如分割和关键点检测,提升模型对画面细节和空间关系的理解,增强编辑和生成过程的结构可控性,显著提高GenEval评测指标中与位置、结构、数量相关的得分:

1-Obj2-ObjCountingColorsPositionColor AttrAvg.
Ming-lite-omni0.990.770.680.780.460.420.64
Ming-lite-omni V1.50.990.930.860.870.900.660.87
原图生成的深度图生成的检测框生成的边缘轮廓
图文对话 Next
User
这张图片看起来设计感很强烈,可以详细描述一下它的各个设计元素?
Ming-Lite-Omni
这张图片展示了一款高端游戏鼠标,具有现代感和科技感的设计。鼠标主体为黑色,表面光滑且具有金属质感。鼠标顶部有一个蓝色的发光标志,标志下方是鼠标滚轮和左右按键区域。鼠标侧面有蓝色的灯光装饰,增加了视觉吸引力。鼠标底部有防滑纹理设计,确保使用时的稳定性。整体设计简洁而富有未来感,适合游戏玩家使用。
Ming-Lite-Omni V1.5
这张图片展示了一款设计感强烈的游戏鼠标,具有以下设计元素:
1. 颜色和材质: - 鼠标主体为黑色,表面光滑且具有金属质感。 - 鼠标边缘和按钮部分有蓝色LED灯带,增加了科技感和视觉吸引力。
2. 形状和结构: - 鼠标整体呈流线型设计,顶部略微倾斜,便于手部自然放置。 - 鼠标侧面有明显的曲线设计,符合人体工程学,提供舒适的握持感。
3. 按钮和滚轮: - 鼠标左侧有一个滚轮,滚轮上方有蓝色LED灯带。 - 鼠标右侧有额外的按钮,这些按钮也有蓝色LED灯带,增加了功能性和美观性。
4. 品牌标识: - 鼠标底部中央有一个发光的“G”标志,这是该品牌的标志性设计元素。
5. 灯光效果: - 鼠标上的蓝色LED灯带在暗色背景下显得尤为突出,增强了科技感和未来感。
6. 纹理和细节: - 鼠标顶部有纹理设计,可能是为了增加防滑效果。 - 鼠标侧面有细长的纹理设计,增加了视觉上的层次感。
整体来看,这款鼠标的设计结合了现代科技感和人体工程学设计,既美观又实用,适合游戏玩家使用。
User
图中的书法为什么好?
Ming-Lite-Omni
这幅书法作品展示了高超的书法技巧和深厚的文化底蕴。笔法流畅自然,字形结构严谨,布局合理,体现了书法家的深厚功力和艺术修养。
Ming-Lite-Omni V1.5
这幅书法作品展示了几个显著的特点,使其成为一件优秀的书法作品:
1. 笔法精湛:书法的笔法流畅自然,线条粗细变化丰富,表现出书法家的深厚功力和熟练技巧。
2. 结构严谨:每个字的结构都经过精心设计,笔画之间的衔接自然,字与字之间保持了良好的平衡和协调。
3. 章法布局:整幅作品的章法布局合理,行距和字距均匀,给人一种整齐有序的感觉。
4. 墨色变化:墨色的浓淡变化自然,增添了作品的层次感和立体感。
5. 内容优美:书法内容是一篇优美的古文,文字内容富有哲理和文学价值,增加了作品的文化内涵。
6. 印章点缀:作品上有红色的印章,印章的使用不仅增加了作品的装饰性,还起到了点缀和平衡的作用。
这些特点共同构成了这幅书法作品的高超艺术价值,使其成为一件值得欣赏和学习的佳作。
User
图中这款手机适合给父母买吗?
Ming-Lite-Omni
这款手机外观简约时尚,适合追求简约风格的父母使用。相机配置也较为先进,适合喜欢拍照的用户。
Ming-Lite-Omni V1.5
这款手机适合给父母购买,原因如下:
1. 外观设计:手机采用简约时尚的设计,白色机身显得干净利落,符合现代审美。
2. 摄像头配置:后置摄像头设计独特,排列整齐,可能提供良好的拍照体验。
3. 品牌:荣耀(Honor)品牌在智能手机市场上有良好的口碑,提供稳定可靠的产品。
4. 功能:通常这类手机会配备大容量电池和长续航能力,适合日常使用。
5. 易用性:可能提供简洁的用户界面和易于操作的功能,适合不太熟悉复杂操作的用户。
6. 性价比:荣耀手机通常以高性价比著称,适合预算有限但希望获得良好体验的用户。
当然,具体是否适合还需考虑父母的实际需求和偏好。
User
如何使用图中软件购买机票?请列出具体操作步骤
Ming-Lite-Omni
使用图中软件购买机票的具体操作步骤如下:
1. 打开携程app。 2. 点击“机票”选项。 3. 在机票页面选择出发地、目的地、出发日期和返回日期。 4. 点击搜索按钮,查看可用的航班信息。 5. 选择合适的航班后,点击“预订”按钮。 6. 填写乘客信息并选择支付方式。 7. 确认订单信息并提交支付,完成购票。
Ming-Lite-Omni V1.5
使用携程软件购买机票的具体操作步骤如下:
1. 下载并安装携程App: - 如果您还没有安装携程App,可以在应用商店(如苹果App Store或安卓应用市场)搜索“携程旅行”并下载安装。
2. 打开携程App: - 安装完成后,打开携程App。
3. 选择“机票”选项: - 在首页的导航栏中,点击“机票”选项。
4. 输入出发地和目的地: - 在机票预订页面,输入您的出发地和目的地。
5. 选择出发日期和返回日期: - 选择您的出发日期和返回日期(如果是往返票)。
6. 选择乘客信息: - 输入乘客人数和座位类型(成人、儿童、婴儿)。
7. 选择航班: - 浏览并选择您喜欢的航班。
8. 填写乘客信息: - 输入乘客的姓名、身份证号码、联系方式等信息。
9. 选择支付方式: - 选择您喜欢的支付方式(如支付宝、微信支付、银行卡等)。
10. 确认订单并支付: - 确认订单信息无误后,点击“支付”按钮完成支付。
11. 接收电子机票: - 支付成功后,您将收到电子机票,可以通过App内的“我的订单”查看或下载。
通过以上步骤,您就可以使用携程App轻松购买机票了。
User
根据图表计算样本之间的 Δct 在哪一个引物下相差最小? | 根据图表计算样本之间的 Δct 在 cGAS-qF+qR 引物下相差最小。(图片来源:互联网公开-舒桐科技公众号)
Ming-Lite-Omni
根据图表计算样本之间的 Δct 在 cGAS-qF+qR 引物下相差最小。
Ming-Lite-Omni V1.5
EGFP-cGAS单克隆 引物下,样本之间的 Δct 相差最小。

计算过程:
1. 理解 Δct 的含义: Δct 是目标基因(cGAS-qF+qR 或 EGFP-cGAS)与内参基因(cTubulin)的相对表达量差值。Δct 越小,说明目标基因与内参基因的表达量差异越小。
2. 比较不同引物下的 Δct:
- cGAS-qF+qR 引物: - 野生型:Δct = 8.06 - EGFP-cGAS单克隆:Δct = -0.15 - 差异:8.06 - (-0.15) = 8.21
- EGFP-cGAS单克隆 引物: - 野生型:Δct = 10.44 - EGFP-cGAS单克隆:Δct = -2.9 - 差异:10.44 - (-2.9) = 13.34
- EGFP-cGAS-qF+qR 引物: - 野生型:Δct = 21.43 - EGFP-cGAS单克隆:Δct = -13.45 - 差异:21.43 - (-13.45) = 34.88
3. 结论:EGFP-cGAS单克隆 引物下,样本之间的 Δct 差异最小(Δct 差异为 13.34),说明该引物下样本之间的表达量差异最小。

总结:EGFP-cGAS单克隆 引物下,样本之间的 Δct 相差最小。

语音合成

输入文本Ming-lite-omniMing-lite-omni V1.5
Tyler, Lucy, Michelle, we’re going to space!
what is the forecast for California for rain
Television can make you dumb, but it can also be good education.
OCR文档理解 Next
User
在判断题第95题中,考生答题的手写内容是什么?若考生的手写答案为√则输出对,若考生的手写答案为×则输出错,请输出对或错
Ming-Lite-Omni
Ming-Lite-Omni V1.5
User
Output the content of the CAPTCHA directly. Characters are only numbers and uppercase/lowercase letters.
Ming-Lite-Omni
9743
Ming-Lite-Omni V1.5
9742
User
What is the Latex tag for mathematical expression in images?
Ming-Lite-Omni
A C = C B \therefore C D / / B E
Ming-Lite-Omni V1.5
A C = C B \because C D / / B E
User
从图中提取: 日期
Ming-Lite-Omni
日期:2019年12月03日05时08分 从图中提取: 里程 里程:23.9公里 从图中提取: 金额 金额:52.6元 从图中提取: 状态 状态: 从图中提取: 客票印务 客票印务2019年12月印900000卷 从图中提取: 号码 号码从00000001至90000000止
Ming-Lite-Omni V1.5
日期: 2021年03月05日
User
What is the difference in value between Lamb and Corn?’ You FIRST think about the reasoning process as an internal monologue and then provide the final answer. The reasoning process MUST BE enclosed within [think] [/think] tags. The final answer MUST BE put in \boxed{}.'
Ming-Lite-Omni
0.37
Ming-Lite-Omni V1.5
[think]
The value for Lamb is 103.7 and for Corn is 103.13. To find the difference, subtract the smaller value from the larger value: 103.7 - 103.13 = 0.57.
[/think]
\boxed{0.57}

视频理解

Users
视频里的小女孩在做什么?
Ming-Lite-Omni视频中的场景发生在一家商店里,可能是超市或大型零售店,货架上摆满了各种商品,包括零食和家庭用品。视频里的小女孩正在拉动一个展示架,看起来她在尝试移动或者玩耍这个展示架。价格标签清晰可见,其中一个显著地标记着蓝色和白色的'18,690'字样。店内照明良好,荧光灯照亮了整个区域。如需更详细的分析或其他帮助,请告诉我!
Ming-Lite-Omni V1.5小女孩坐在购物车里睡觉。
Users
描述下视频中主人公的穿着。
Ming-Lite-Omni视频中,主人公穿着红色上衣,肩上背着一个彩色图案的包。
Ming-Lite-Omni V1.5视频中的主人公穿着一件红色的高领毛衣。
Users
推测一下这个视频的拍摄时间和位置。
Ming-Lite-Omni从视频中的画面来看,这应该是在纽约的中央公园拍摄的。画面中可以看到中央公园的标志性建筑和景观,比如中央公园的湖泊、桥梁和雕像。此外,视频中还有游客在公园内散步、拍照和享受户外活动,这进一步确认了拍摄地点为纽约的中央公园。
Ming-Lite-Omni V1.5从视频中的场景来看,拍摄地点位于纽约中央公园。视频展示了公园内的多个景点,包括湖泊、桥梁、雕像和喷泉等。拍摄时间似乎是在白天,阳光明媚,天气晴朗,适合户外活动。

开始使用 Ming-lite-omni v1.5

Ming-lite-omni v1.5的模型和代码已开源,诚邀大家试用、反馈和交流。值得期待的是,我们即将发布量化加速版本的Ming-lite-omni,该版本将不仅进一步优化全模态效果,还使Ming-lite-omni更加轻量化,同时强化多模推理和生成能力。欢迎持续关注!