GITHUB 🤗 Hugging Face| 🤖 ModelScope
前言
本次发布的 Ming-lite-omni V1.5 是对 Ming-lite-omni (🤗Hugging Face) 全模态能力的一次全面升级, 在包括图文理解、文档理解、视频理解、语音理解和合成、图像生成和编辑等任务上均有明显提升。Ming-lite-omni V1.5 基于Ling-lite-1.5 构建,总参数20.3B, MoE部分激活参数为3B,在各模态基准测试中取得较好的成绩。下面是我们本次更新在部分重要指标和模型架构上的提升的展示。

性能对比图

模型架构图
详细介绍
为了实现这样的提升,我们将自研方案与学术界/开源社区的最新进展相结合,在以下几个部分做了有效尝试,并取得多个重要结论。
图像/语音生成
- 图像生成侧采用双分支解耦策略提升模型对参考图的可学习参数量。具体来说,在图像进入 DiT 之前,我们使用不同的权重对参考图像与噪声图像分别进行处理,并增加额外两层transformer layers作为refiner进一步增强这一效果。
- 为了解决图像编辑时的人物ID及场景ID一致性问题,我们新增了ID & Scene Consistency Loss,增大目标图编辑区域的权重、增大参考图非编辑区域的参考强度、降低参考图编辑区域的参考强度。
- 引入感知增强策略。通过优化结构感知能力,如分割和关键点检测,提升模型对画面细节和空间关系的理解,增强编辑和生成过程的结构可控性,显著提高评测指标中与位置、结构、数量相关的得分,详见 表A。
- 引入多任务协同学习策略。通过联合训练链路实现生成与编辑的相互促进,将分割任务转化为彩色上色编辑任务,显著提升分割指标和图像局部编辑的精度与可控性,使编辑区域边缘更光滑。
- 语音生成解码器方面,我们实现了全新的音频解码器,直接接受来自LLM的输出特征实现上下文感知。
- 语音生成效率方面,为了提高韵律性能和实时生成能力,我们将离散的Audio codec token进行BPE编码,使得音频帧率降低了35%。
- 全方位数据升级
- 获取高质量人物图像数据,标准包括:图像分辨率/质量、人脸细粒度、人脸大小等。
- 采集名人数据,并做质量筛选和人脸裁剪获取名人图像数据。
- 构建边缘图、分割图、文字图、人物表情图等训练子集,扩充模型能力边界。
图像/文本/视频/语音理解
- MRoPE 时空感知位置编码。引入了MRoPE,通过时间、高度、宽度三维分块位置编码,赋予模型时空感知能力,实现高效跨模态联合建模,提升对视频、复杂图像场景的理解精度。
- 高效全参数训练策略。优化学习率与多模态数据配比,将理解阶段需分步冻结/解冻 LLM 的预训练流程,升级为高效全参数训练,训练周期缩短 26.5%,保持性能无损。
- 针对视频理解任务,采用从短视频到长视频的课程学习策略,逐步提升模型处理长视频的复杂度。
- 针对复杂文档理解任务,引入 Chain-of-Thought 策略分步骤构建结构化推理路径,有效提升模型对复杂问题的解决能力。
- 全方位数据升级
- 预训练阶段
- 新增文本实体结构化数据,补全图谱盲区。
- 扩充高质量商品数据,提升通识能力。
- 指令微调阶段
- 提升细粒度视觉感知(目标计数/颜色/场景识别)数据精准性。
- 提高垂类识别(动植物/车辆/食材等)数据深度。
- 从数据角度优化跨学科复杂图文推理能力。
- 针对语音理解任务,将领域、主题、语种(包括方言)等信息引入到语音理解任务的指令文本中,增强模型的理解表现,实现对中英文,粤语,四川话,上海话,闽南语等方言的全面支持。
- 预训练阶段
用户偏好对齐
为了保证我们模型的真实使用体验与常用Benchmark上的提升一致,我们自建了体验评测集,在内部进行多模型的人工对抗评分。得益于高质量的对齐偏好数据构建, Ming-lite-omni v1.5 在图文问答的内容准确性(低幻觉率)、相关性、格式美观性以及表述流畅性方面相比领先模型展现出一定优势, Ming-lite-omni v1.5在内部对抗评测集上相比Ming-lite-omni v1 胜和率为 87.07%, 使用体验得到了明显优化。
| 自建体验集评测维度 | Qwen2.5-VL-7B | Ming-Omni-Lite V1.5 |
|---|---|---|
| 相关性 | 4.308 | 4.5 |
| 流畅性 | 4.765 | 4.91 |
| 内容丰富性 | 3.828 | 3.69 |
| 格式合理性 | 4.727 | 4.8 |
| 正确性 | 3.741 | 3.92 |
| 均分 | 4.274 | 4.365 |
Demo展示
图像编辑
为了解决图像编辑时的人物ID及场景ID一致性问题,我们新增了ID & Scene Consistency Loss,增大目标图编辑区域的权重、增大参考图非编辑区域的参考强度、降低参考图编辑区域的参考强度。




图像生成
引入感知增强策略。通过优化结构感知能力,如分割和关键点检测,提升模型对画面细节和空间关系的理解,增强编辑和生成过程的结构可控性,显著提高GenEval评测指标中与位置、结构、数量相关的得分:
| 1-Obj | 2-Obj | Counting | Colors | Position | Color Attr | Avg. | |
|---|---|---|---|---|---|---|---|
| Ming-lite-omni | 0.99 | 0.77 | 0.68 | 0.78 | 0.46 | 0.42 | 0.64 |
| Ming-lite-omni V1.5 | 0.99 | 0.93 | 0.86 | 0.87 | 0.90 | 0.66 | 0.87 |
| 原图 | 生成的深度图 | 生成的检测框 | 生成的边缘轮廓 |
|---|---|---|---|
![]() | ![]() | ![]() | ![]() |

1. 颜色和材质: - 鼠标主体为黑色,表面光滑且具有金属质感。 - 鼠标边缘和按钮部分有蓝色LED灯带,增加了科技感和视觉吸引力。
2. 形状和结构: - 鼠标整体呈流线型设计,顶部略微倾斜,便于手部自然放置。 - 鼠标侧面有明显的曲线设计,符合人体工程学,提供舒适的握持感。
3. 按钮和滚轮: - 鼠标左侧有一个滚轮,滚轮上方有蓝色LED灯带。 - 鼠标右侧有额外的按钮,这些按钮也有蓝色LED灯带,增加了功能性和美观性。
4. 品牌标识: - 鼠标底部中央有一个发光的“G”标志,这是该品牌的标志性设计元素。
5. 灯光效果: - 鼠标上的蓝色LED灯带在暗色背景下显得尤为突出,增强了科技感和未来感。
6. 纹理和细节: - 鼠标顶部有纹理设计,可能是为了增加防滑效果。 - 鼠标侧面有细长的纹理设计,增加了视觉上的层次感。
整体来看,这款鼠标的设计结合了现代科技感和人体工程学设计,既美观又实用,适合游戏玩家使用。

1. 笔法精湛:书法的笔法流畅自然,线条粗细变化丰富,表现出书法家的深厚功力和熟练技巧。
2. 结构严谨:每个字的结构都经过精心设计,笔画之间的衔接自然,字与字之间保持了良好的平衡和协调。
3. 章法布局:整幅作品的章法布局合理,行距和字距均匀,给人一种整齐有序的感觉。
4. 墨色变化:墨色的浓淡变化自然,增添了作品的层次感和立体感。
5. 内容优美:书法内容是一篇优美的古文,文字内容富有哲理和文学价值,增加了作品的文化内涵。
6. 印章点缀:作品上有红色的印章,印章的使用不仅增加了作品的装饰性,还起到了点缀和平衡的作用。
这些特点共同构成了这幅书法作品的高超艺术价值,使其成为一件值得欣赏和学习的佳作。

1. 外观设计:手机采用简约时尚的设计,白色机身显得干净利落,符合现代审美。
2. 摄像头配置:后置摄像头设计独特,排列整齐,可能提供良好的拍照体验。
3. 品牌:荣耀(Honor)品牌在智能手机市场上有良好的口碑,提供稳定可靠的产品。
4. 功能:通常这类手机会配备大容量电池和长续航能力,适合日常使用。
5. 易用性:可能提供简洁的用户界面和易于操作的功能,适合不太熟悉复杂操作的用户。
6. 性价比:荣耀手机通常以高性价比著称,适合预算有限但希望获得良好体验的用户。
当然,具体是否适合还需考虑父母的实际需求和偏好。

1. 打开携程app。 2. 点击“机票”选项。 3. 在机票页面选择出发地、目的地、出发日期和返回日期。 4. 点击搜索按钮,查看可用的航班信息。 5. 选择合适的航班后,点击“预订”按钮。 6. 填写乘客信息并选择支付方式。 7. 确认订单信息并提交支付,完成购票。
1. 下载并安装携程App: - 如果您还没有安装携程App,可以在应用商店(如苹果App Store或安卓应用市场)搜索“携程旅行”并下载安装。
2. 打开携程App: - 安装完成后,打开携程App。
3. 选择“机票”选项: - 在首页的导航栏中,点击“机票”选项。
4. 输入出发地和目的地: - 在机票预订页面,输入您的出发地和目的地。
5. 选择出发日期和返回日期: - 选择您的出发日期和返回日期(如果是往返票)。
6. 选择乘客信息: - 输入乘客人数和座位类型(成人、儿童、婴儿)。
7. 选择航班: - 浏览并选择您喜欢的航班。
8. 填写乘客信息: - 输入乘客的姓名、身份证号码、联系方式等信息。
9. 选择支付方式: - 选择您喜欢的支付方式(如支付宝、微信支付、银行卡等)。
10. 确认订单并支付: - 确认订单信息无误后,点击“支付”按钮完成支付。
11. 接收电子机票: - 支付成功后,您将收到电子机票,可以通过App内的“我的订单”查看或下载。
通过以上步骤,您就可以使用携程App轻松购买机票了。

计算过程:
1. 理解 Δct 的含义: Δct 是目标基因(cGAS-qF+qR 或 EGFP-cGAS)与内参基因(cTubulin)的相对表达量差值。Δct 越小,说明目标基因与内参基因的表达量差异越小。
2. 比较不同引物下的 Δct:
- cGAS-qF+qR 引物: - 野生型:Δct = 8.06 - EGFP-cGAS单克隆:Δct = -0.15 - 差异:8.06 - (-0.15) = 8.21
- EGFP-cGAS单克隆 引物: - 野生型:Δct = 10.44 - EGFP-cGAS单克隆:Δct = -2.9 - 差异:10.44 - (-2.9) = 13.34
- EGFP-cGAS-qF+qR 引物: - 野生型:Δct = 21.43 - EGFP-cGAS单克隆:Δct = -13.45 - 差异:21.43 - (-13.45) = 34.88
3. 结论: 在 EGFP-cGAS单克隆 引物下,样本之间的 Δct 差异最小(Δct 差异为 13.34),说明该引物下样本之间的表达量差异最小。
总结: 在 EGFP-cGAS单克隆 引物下,样本之间的 Δct 相差最小。
语音合成
| 输入文本 | Ming-lite-omni | Ming-lite-omni V1.5 |
|---|---|---|
| Tyler, Lucy, Michelle, we’re going to space! | ||
| what is the forecast for California for rain | ||
| Television can make you dumb, but it can also be good education. |





The value for Lamb is 103.7 and for Corn is 103.13. To find the difference, subtract the smaller value from the larger value: 103.7 - 103.13 = 0.57.
[/think]
\boxed{0.57}
视频理解
| Users | 视频里的小女孩在做什么? |
| Ming-Lite-Omni | 视频中的场景发生在一家商店里,可能是超市或大型零售店,货架上摆满了各种商品,包括零食和家庭用品。视频里的小女孩正在拉动一个展示架,看起来她在尝试移动或者玩耍这个展示架。价格标签清晰可见,其中一个显著地标记着蓝色和白色的'18,690'字样。店内照明良好,荧光灯照亮了整个区域。如需更详细的分析或其他帮助,请告诉我! |
| Ming-Lite-Omni V1.5 | 小女孩坐在购物车里睡觉。 |
| Users | 描述下视频中主人公的穿着。 |
| Ming-Lite-Omni | 视频中,主人公穿着红色上衣,肩上背着一个彩色图案的包。 |
| Ming-Lite-Omni V1.5 | 视频中的主人公穿着一件红色的高领毛衣。 |
| Users | 推测一下这个视频的拍摄时间和位置。 |
| Ming-Lite-Omni | 从视频中的画面来看,这应该是在纽约的中央公园拍摄的。画面中可以看到中央公园的标志性建筑和景观,比如中央公园的湖泊、桥梁和雕像。此外,视频中还有游客在公园内散步、拍照和享受户外活动,这进一步确认了拍摄地点为纽约的中央公园。 |
| Ming-Lite-Omni V1.5 | 从视频中的场景来看,拍摄地点位于纽约中央公园。视频展示了公园内的多个景点,包括湖泊、桥梁、雕像和喷泉等。拍摄时间似乎是在白天,阳光明媚,天气晴朗,适合户外活动。 |
开始使用 Ming-lite-omni v1.5
Ming-lite-omni v1.5的模型和代码已开源,诚邀大家试用、反馈和交流。值得期待的是,我们即将发布量化加速版本的Ming-lite-omni,该版本将不仅进一步优化全模态效果,还使Ming-lite-omni更加轻量化,同时强化多模推理和生成能力。欢迎持续关注!



