多模态 AI 测试框架横向对比

对比多模态 AI 测试框架——FlagEvalMM、MAEV、AILuminate、CityBench 及医疗基准——覆盖通用、安全与领域评测三大场景。

模型解读

如果要用一句话总结：没有任何单一框架能覆盖全部，所以我会用一个宽覆盖的基准做长期追踪，再用一个领域测试做发布前的检查。

先看简版结论：

FlagEvalMM 适合宽覆盖的图像、视频和文本测试
MAEV 考察音频-视频-文本融合，并揭示模型与人类之间仍有多大差距
AILuminate 多模态版用于跨 12 个危害类别的安全风险测试
CityBench 专为城市场景与地理空间推理打造
医疗类框架聚焦临床风险、多轮推理以及以影像为主的验证

有几个数字一眼就很突出：

MAEV 使用来自 700 段视频的 2,556 个问题
人类在 MAEV 上得分 92.8%，而顶尖模型接近 64%
AILuminate 包含 7,000+ 文本-图像提示词
CityBench 横跨 13 座城市的 8 项城市任务
GMAI-MMBench 覆盖 39 种医学影像模态
MedBench v5 横跨 63 项临床任务

对我来说，这意味着一件很简单的事：宽覆盖工具有助于回归追踪，而领域测试能抓住通用基准漏掉的高风险失效。如果需要快速发布检查，我会先依靠数值评分；如果需要在上线前更仔细地把关，我会再加上基于评判模型的复核和领域测试。

超越文本——多模态 AI 评测

快速对比

框架	主要输入类型	主要用途	主要短板
FlagEvalMM	文本、图像、视频	通用多模态基准测试	无内置安全检查；不支持音频
MAEV	音频、视频、文本	音视频融合测试	无安全或稳定性检查
AILuminate Multimodal	文本、图像	安全与红队测试	部署更重；数据集访问受限
CityBench	街景、卫星、地图、城市数据	城市推理与决策任务	领域范围狭窄
医疗类框架	医学影像、文本、多轮临床数据	临床验证	复核工作量大；仍缺音频

所以如果你要快速选型，我会用两层思路来考虑：

通用基准用于版本间追踪
领域或安全基准用于上线/不上线的决策

这就是本文的核心要点。

1. FlagEvalMM

FlagEvalMM

FlagEvalMM 是 BAAI 用于多模态评测的开源框架。它支持文本、图像和视频。核心任务包括 VQA、图像检索、文生图以及基于 ROME 的图表评测。音频不在其覆盖范围内，因此以音频为先的工作流不在它能处理的范围内。

评测重点

当任务高度依赖推理时，FlagEvalMM 还支持面向图表推理的 LLM-judge 评测。它同样包含 RelScene 和 LRM-Eval，将其能力延伸到场景理解和推理密集型评估。

安全与公平性覆盖

在信任与合规检查方面存在缺口：它不自带内置的安全、公平性或幻觉检查。

部署适配

FlagEvalMM 的模型库支持对 QwenVL、LLaVA 和 Janus 等开源模型进行本地推理。它也支持对 GPT、Claude 和 HuanYuan 等模型进行基于 API 的评测。在此之上，它还新增了 OpenRouter 支持，让团队在一处获得更多 API 选项。

这样的配置很适合那些希望在单一框架内同时对本地和托管多模态模型进行基准测试的团队。如果你的团队还需要音频评测或内置安全测试，那就要在它之外再搭配额外的工具。

2. MAEV

MAEV 通过测试音频-视频-文本融合，把评测拓展到了纯视觉之外。

模态覆盖

MAEV 也称为 MAVERIX，于 2026 年 3 月 14 日发布。它同时测试视频、音频和文本。数据集包含来自 700 段视频的 2,556 个问题，并同时使用多选和开放式两种格式 ^[2]。要得出正确答案，模型必须把看到的和听到的结合起来。

评测重点

该基准考察智能体任务中的跨模态理解。说白了，模型不能只是识别物体或转写语音，它必须融合音频和视频信号才能做出决策。

这个差距目前还相当大。人类专家在 MAEV 上得分 92.8%，而 Qwen 2.5 Omni 和 Gemini 2.5 Flash-Lite 等顶尖模型约为 64%，相差近 29 个百分点 ^[2]。正因如此，MAEV 很适合用来发现音视频融合开始失效的地方。

安全与公平性覆盖

MAEV 不包含针对安全、公平性或鲁棒性的专门检查。

部署适配

MAEV 附带公开工具包和标准化协议，帮助团队每次都以相同方式运行基准 ^[2]。它适合依赖音视频上下文的智能体视频任务，但对领域专属评测的用处较小 ^[2]。

3. AILuminate 多模态版

AILuminate

与前面几个基准不同，AILuminate 关注的是多模态模型是否安全，而不仅仅是表现好不好。

模态覆盖与评测重点

AILuminate 多模态版跨 12 个危害类别检查文本-图像的安全风险。这些类别从暴力、自残到仇恨言论、隐私，再到健康或选举建议等语境敏感的情形，无所不包。多模态试点数据集包含 7,000+ 文本-图像提示词 ^[4]，该基准已被用于测试 109 个不同的模型。

它有一点与众不同，那就是对语言的处理方式。AILuminate 没有依赖翻译，而是使用为本地相关性专门撰写、再由 印地语、泰米尔语、马来语、韩语和日语母语者核对过的提示词 ^[4]。这很重要。同一个提示词在一种语言里管用，换到另一种语言里效果可能截然不同，在安全测试中尤其如此。

因此，尽管这个基准也能产出分数，但它更适合用于红队测试，而非宽泛的基准对比。

安全与可靠性覆盖

AILuminate 专为红队测试和部署前安全审计打造，尤其面向全球市场中使用的消费级聊天机器人和视觉-语言助手。它的方法建立在 2025 年的 MSTS 研究之上 ^[4]。

说白了，这类框架适用于安全失效会带来真实代价的场景。如果一个模型给出危险建议、误处理私密图像，或在高风险场景下应答不当，这个基准就是为在上线前暴露这些薄弱环节而设计的。

部署适配

使用 AILuminate 比轻量验证工具更费功夫。评分需要 Modelbench 以及一组安全评估器的集成，且完整数据集仅限 MLCommons 成员获取 ^[5]。这让该框架更重，也更难落地。

它最适合安全攸关的场景，在这些场景中，深度检查比速度更重要。对逐版本的安全复核而言，它是一个强有力的选择，但当团队需要在众多模型更新间快速测试时，它就不那么实用了。

4. CityBench

CityBench

前面几个框架关注的是宽泛的多模态性能和安全，而 CityBench 则聚焦于城市推理。

模态覆盖与评测重点

CityBench 检查模型能否读懂城市场景、在地理空间数据上进行推理，并在快速变化的城市环境中做出决策。它的强项是城市尺度的推理，而非宽泛的多模态覆盖面。

为此，CityBench 汇集了卫星影像、街景图像、路网、POI/AoI、起讫点流量和签到记录，以测试视觉和地理空间推理 ^[7]。它覆盖感知和决策两组共 8 项城市任务 ^[7]，其中包括 GeoQA、地理定位、移动性预测和交通信号控制等任务 ^[7]。

它的 CityData/CitySimu 配置更进一步。它对细粒度的城市动态进行建模，并支持决策任务的闭环测试 ^[7]。说白了，这意味着你可以测试模型在城市条件持续变化时如何应对，而不是仅凭静态输入来评判它。该基准还针对 30 个 LLM 和 VLM 运行过，以确立基线性能 ^[7]。

安全与公平性覆盖

需搭配单独的安全与公平性复核一起使用。

部署适配

CityBench 很适合城市 AI 研究和智慧城市工作，包括交通优化、移动性预测和城市规划 ^[7]。它还横跨 13 座全球城市 ^[7]，这给团队提供了比单城市配置更广的测试基础。

不过，这仍是一个专门化基准。它是为城市尺度任务打造的，而非日常的人类任务，也不涵盖第一人称的基于运动的导航。还有一个值得留意的缺口：像 CityBench 这样的现有城市基准往往局限于单视角输入，并未充分测试街景与卫星影像之间的跨视角推理 ^[6]。

所以使用 CityBench 的最佳方式是把它当作一个领域专属层。把它加入更大的评测体系时效果很好，但它不应是你唯一的多模态基准。

5. 面向医疗的一体化多模态评测框架

在通用和领域专属基准之后，医疗模型还需要针对临床风险、纵向推理和模态融合进行更严苛的测试。在医疗领域，错误不只是拉低一个分数，它可能影响诊断和治疗。因此，业界打造了多个面向临床使用的框架，每一个针对的都是不同类型的失效。

模态覆盖与评测重点

在影像覆盖方面，GMAI-MMBench 是这一组里覆盖最广的框架。它横跨 18 个临床科室的 39 种医学影像模态，取材自 285 个数据集 ^[10]。它在图像、框、掩膜和轮廓四个感知层级上对模型评分 ^[10]。

MedAtlas 针对医疗基准测试中一个常见的薄弱点：许多基准仍聚焦于单图、单轮任务，而非纵向的多模态临床推理 ^[8]。它测试跨就诊记录的推理和多轮视觉问答，考察模型能否把影像发现与患者病史结合起来以支持诊断 ^[8]。

MedBench v5 覆盖跨 63 项临床任务的语言、视觉-语言和智能体系统 ^[9]。它的突出之处在于压力测试。它会插入缺失或相互矛盾的发现，看模型是能发现这种不一致，还是照旧继续 ^[9]。Asclepius 则在专科上增加了广度，基于 3,232 道原创多模态题目，覆盖 15 个医学专科、8 项诊断能力和 79 个身体部位 ^[11]。

安全与公平性覆盖

MedBench v5 包含一个 SafetyAgent，用于检查医学错误信息、危险工具指令、隐私泄露和伦理违规 ^[9]。它还会追踪在多轮之间延续的无依据主张 ^[9]。它的压力测试主要针对矛盾检测、诊断更新和幻觉控制 ^[9]。

GMAI-MMBench 指出了另一类安全问题：有些模型因内置安全协议而拒绝回答临床问题，这可能在实践中削弱其临床可用性 ^[10]。

有一个缺口在这四个框架里都出现了：音频仍然缺席，尚未成为一个被整合的主要模态 ^[8]^[9]^[10]^[11]。

部署适配

每个框架都对应一种不同的临床失效模式，因此正确的选择取决于手头的任务。

框架	最适配的工作负载
GMAI-MMBench	需要框级、掩膜级或轮廓级评分的交互式诊断助手 ^[10]
MedAtlas	需要整合多图和患者病史的病例 ^[8]
MedBench v5	安全攸关的决策支持和临床智能体 ^[9]
Asclepius	放射科和病理科的专科专属验证 ^[11]

这里的取舍很直接：一个框架覆盖的范围越广，验证工作往往就越重。

优缺点

下表总结了主要的取舍：覆盖范围、评分方式和领域适配。当团队需要在不牺牲太多覆盖面的前提下快速为新模型版本设卡时，这些取舍最为关键。请把它看作一份发布设卡指南，而非通用的工具清单。

框架	优点	缺点	最适合
FlagEvalMM	多模态覆盖面广；将推理与评测分离	自动化生成评分仍不完美——在提示词一致性上，VQAScore 与人类判断的相关性为 0.76 ^[12]	在同一流水线里同时运行理解与生成基准的团队
MAEV	在智能体任务中测试音频-视频-文本融合；标准化协议支持可复现的运行 ^[2]	无专门的安全、公平性或鲁棒性检查 ^[2]	依赖音视频上下文的智能体视频任务
AILuminate Multimodal	跨 12 个危害类别、覆盖 7,000+ 文本-图像提示词；提示词由 5 种语言的母语者复核 ^[4]	需要 Modelbench 和一组安全评估器；完整数据集仅限 MLCommons 成员 ^[5]	视觉-语言模型的部署前安全审计和红队测试
CityBench	测试横跨 13 座全球城市的 8 项城市任务；支持闭环决策评测 ^[7]	仅专门用于城市尺度任务；不涵盖第一人称的基于运动的导航 ^[7]	城市 AI 研究、交通优化和智慧城市应用
面向医疗的框架	为受监管的临床验证打造	验证开销大；当模型拒绝临床提示时覆盖面下降	安全攸关的临床验证

最大的分野归结为快速数值评分与较慢的语义判断之间的差异。

数值指标快速且可复现，因而很适合 CI 检查。但速度是有代价的：这些指标可能漏掉组合性错误。一个模型在纸面上看起来没问题，却仍可能在输出变得更开放时以要紧的方式失效。

依赖 LLM-as-Judge 的框架在开放式语义判断上做得更好 ^[1]^[3]。当你需要审视细微之处、而不只是数正确答案的数量时，它们就更有用。缺点也很直白：它们增加成本，而且仍可能把评测误差带入流程。

对既需要速度又需要深入复核的团队来说，分层配置通常最合理：

用数值指标做 CI 检查
在重大发布前用语义评分

这样一来，你既能在早期获得快速的通过/不通过信号，又能在版本发布前做一次更仔细的复核。

结论

把这些框架并排来看，有一点很清楚：多模态测试大致落入四个主要类别——通用、安全、城市和临床场景。

FlagEvalMM 和 MAEV 是宽泛多模态评测的最强选择。AILuminate Multimodal 为安全测试而生。CityBench 适合城市推理。而医疗类框架则聚焦临床验证。

在所有这些框架里，取舍始终不变：宽覆盖更容易扩展，但专门化基准更善于抓住更高风险的失效。

一个务实的配置很简单：

用一个宽覆盖基准做回归追踪
用一个领域专属基准做发布设卡

最优配置归结为：让基准与你需要抓住的失效模式相匹配。

常见问题

我该如何在通用基准和领域专属基准之间取舍？

别只选一个而忽略另一个——两个都用。

先用通用基准缩小范围、确立基线，它们是很好的第一道筛选。

然后用你自己的数据构建一套自定义评测集。对于专门化的工作流，这样一套测试集——尤其是在包含边界情形和失效模式时——能比单靠基准分数更好地反映模型在生产环境中的表现。

什么时候该用数值评分，而不是基于评判模型的复核？

当你需要在自动化流水线中获得快速、可重复的系统时，用数值评分。它很适合 CI/CD 设卡，因为你无需停下来等人工复核就能做出通过/不通过的判断。这种方式在语义对齐和标准基准上效果最好，因为在这些场景中准确性可以被清晰、客观地衡量。

当工作依赖细微之处时，用基于评判模型的复核。这包括美学、语气，或医学、法律和金融领域的专业决策，在这些地方专家判断仍然重要。

哪个框架最适合测试支持音频的多模态模型？

这取决于你要测什么。

AU-Harness 更适合大型音频语言模型的音频转文本评测。lmms-eval 则是更宽泛的选择，它支持音频、文本、图像和视频任务，因此当你的测试超出音频本身时会很顺手。

对于音视频推理，AVI-Bench 和 MAVERIX 专为检查模型融合声音与视觉输入的能力而打造。如果你想用一个统一层把这些模型接入你的测试体系，APIMart 可以帮你在整条流水线上统一访问。

看完就试试

去模型市场挑选你想要的模型

在 APIMart 模型市场尝试聊天、图像和视频模型，用统一 API 快速体验模型能力。

聊天模型图像模型视频模型

进入模型市场

多模态 AI 测试框架横向对比

超越文本——多模态 AI 评测

快速对比

1. FlagEvalMM

评测重点

安全与公平性覆盖

部署适配

2. MAEV

模态覆盖

评测重点

安全与公平性覆盖

部署适配

3. AILuminate 多模态版

模态覆盖与评测重点

安全与可靠性覆盖

部署适配

4. CityBench

模态覆盖与评测重点

安全与公平性覆盖

部署适配

5. 面向医疗的一体化多模态评测框架

模态覆盖与评测重点

安全与公平性覆盖

部署适配

优缺点

结论

常见问题

我该如何在通用基准和领域专属基准之间取舍？

什么时候该用数值评分，而不是基于评判模型的复核？

哪个框架最适合测试支持音频的多模态模型？

去模型市场挑选你想要的模型

Vidu Omni Pro 深度解析 · 1080p AI 视频生成模型

GPT-Image-2 角色动画的功能与价格

AI API 定价中的隐藏费用详解