MMBench

3个月前发布 0 0

MMBench是什么 MMBench是多模态基准测试，由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员联合推出。MMBench推出一个综合评估流程，从感知到认知能力逐级细分评估，覆盖20项细粒度能力，从互联网与权威基准数据集采集约3000道单项选择题。打破常规一问一答基于规则匹配提取选项进行评测，循环打...

收录时间：

2025-11-14

打开网站手机查看

AI工具集 AI模型评测

广告也精彩

正文上方广告位

MMBench是什么

MMBench是多模态基准测试，由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员联合推出。MMBench推出一个综合评估流程，从感知到认知能力逐级细分评估，覆盖20项细粒度能力，从互联网与权威基准数据集采集约3000道单项选择题。打破常规一问一答基于规则匹配提取选项进行评测，循环打乱选项验证输出结果的一致性，基于ChatGPT精准匹配模型回复至选项。MMBench涵盖多种任务类型，如视觉问答、图像描述生成等，基于综合多维度指标，为模型提供全面的性能评估。MMBench 的排行榜展示不同模型在这些任务上的表现，帮助研究者和开发者了解当前多模态技术的发展水平，推动相关领域的技术进步。

cca89d398beda1fd55b0f46c22b4a717

MMBench主要功能

细粒度能力评估：将多模态能力细分为多个维度（如感知、推理等），针对每个维度设计相关问题，全面评估模型的细粒度能力。
大规模多模态数据集：提供约 3000 个多项选择题，覆盖 20 种能力维度，支持模型在多种场景下的性能测试。
创新评估策略：采用“循环评估”策略，用多次循环推理测试模型的稳定性，减少噪声影响，提供更可靠的评估结果。
多语言支持：提供英文和中文版本的数据集，支持对模型在不同语言环境下的能力评估。
数据可视化：支持数据样本的可视化，帮助用户更好地理解数据结构和内容。
官方评估工具：提供 VLMEvalKit，支持对多模态模型的标准化评估，并可用于提交测试结果获取准确率。
基准测试与排行榜：排行榜展示不同模型在 MMBench 数据集上的性能表现，为研究者提供参考。

b6de3e84c52191621a7bdc651cb3b115

正文底部广告位

相关导航

像素蛋糕PixCake

像素蛋糕是什么？像素蛋糕PixCake是一款简单易用的像素...

触手AI绘画

触手AI是为插画、漫画、设计等用户打造的国产AI绘画创作平台...

OpenBMB

清华团队支持发起的大规模预训练语言模型库与相关工具 Open...

大语言模型DeepSeek

DeepSeek是杭州深度求索人工智能基础技术研究有限公司推...

志设

志设是什么志设是专业的AI图片生成平台，基于AI技术为用户...

Keevx

Keevx是什么 Keevx是AI数字人视频创作工具，帮助用...

fast.ai

深度学习正在改变世界，而fast.ai项目便致力于让深度学习...

妙播

妙播是什么妙播是腾讯广告推出的AI直播电商解决方案。基于新...

评论上方广告位

footer 广告位