
マルチモーダルAIテストフレームワーク徹底比較
マルチモーダルAIテストフレームワーク(FlagEvalMM、MAEV、AILuminate、CityBench、医療系ベンチマーク)を汎用・安全性・ドメイン評価の観点で比較します。
一言でまとめるなら、すべてを網羅する単一のフレームワークは存在しないので、私ならトラッキング用に広範なベンチマークを1つ、リリースチェック用にドメインテストを1つ使い分けます。
要点は次のとおりです。
- FlagEvalMM は広範な画像・動画・テキストのテストに適する
- MAEV は 音声・動画・テキストの融合 を検証し、モデルが人間にどれだけ及ばないかを示す
- AILuminate Multimodal は 12のハザードカテゴリ にわたる 安全性リスクテスト 向け
- CityBench は 都市シーンと地理空間推論 のために構築されている
- 医療系フレームワーク は 臨床リスク、マルチターン推論、画像中心の検証 に注力する
いくつかの数値がすぐに目を引きます。
- MAEV は 700本の動画 から 2,556問 を使用する
- MAEVで人間は 92.8% を記録するが、上位モデルは 64% 前後にとどまる
- AILuminate には 7,000件以上のテキスト画像プロンプト が含まれる
- CityBench は 13都市 にわたる 8つの都市タスク をカバーする
- GMAI-MMBench は 39の医用画像モダリティ を網羅する
- MedBench v5 は 63の臨床タスク にわたる
私にとってこれが意味するところはシンプルです。広範なツールは回帰トラッキングに役立ち、ドメインテストは汎用ベンチマークが見逃す高リスクの失敗を捉えます。 迅速なリリースチェックが必要なら、まず数値スコアリングに頼ります。ローンチ前にもっと詳しく読み込む必要があるなら、ジャッジベースのレビューとドメインテストを追加します。

テキストを超えて - マルチモーダルAI評価
クイック比較
| フレームワーク | 主な入力タイプ | 主な用途 | 主な弱点 |
|---|---|---|---|
| FlagEvalMM | テキスト、画像、動画 | 汎用マルチモーダルベンチマーク | 組み込みの安全性チェックなし、音声非対応 |
| MAEV | 音声、動画、テキスト | 音声映像融合テスト | 安全性・安定性チェックなし |
| AILuminate Multimodal | テキスト、画像 | 安全性とレッドチーミング | セットアップが重い、データセットアクセスに制限 |
| CityBench | ストリートビュー、衛星、地図、都市データ | 都市推論と意思決定タスク | ドメイン範囲が狭い |
| 医療系フレームワーク | 医用画像、テキスト、マルチターン臨床データ | 臨床検証 | レビュー作業が重い、音声は依然として欠如 |
素早く選ぶなら、私は 2つのレイヤー で考えます。
- バージョン間トラッキング用の 汎用ベンチマーク
- 出荷可否の判断用の ドメインまたは安全性ベンチマーク
これが本記事の中核的な要点です。
1. FlagEvalMM

FlagEvalMM は BAAI によるマルチモーダル評価向けのオープンソースフレームワークです。テキスト、画像、動画に対応します。コアタスクにはVQA、画像検索、テキストから画像への生成、ROMEベースの図表評価が含まれます。音声はパッケージに含まれていないため、音声を第一とするワークフローは対応範囲外となります。
評価の焦点
推論に大きく傾いたタスクでは、FlagEvalMM は図表推論のためのLLMジャッジ評価もサポートします。RelSceneとLRM-Evalも含んでおり、シーン理解や推論中心の評価へと対応範囲を広げています。
安全性と公平性のカバレッジ
信頼性とポリシーのチェックにはギャップがあります。組み込みの安全性・公平性・ハルシネーションチェックは付属していません。
導入への適合性
FlagEvalMM のモデルズーは、QwenVL、LLaVA、Janus といったオープンソースモデルのローカル推論をサポートします。また、GPT、Claude、HuanYuan などのモデルに対するAPIベースの評価もサポートします。さらに OpenRouter サポートも追加され、チームは1か所でより多くのAPIオプションを利用できるようになりました。
このセットアップは、ローカルとホスト型の両方のマルチモーダルモデルを単一のフレームワーク内でベンチマークしたいチームに適しています。チームが音声評価や組み込みの安全性テストも必要とする場合は、これと併せて追加のツールが必要になります。
2. MAEV
MAEV は 音声・動画・テキストの融合 をテストすることで、視覚のみのセットアップを超えて評価を拡張します。
モダリティのカバレッジ
MAEV は MAVERIX とも呼ばれ、2026年3月14日 に公開されました。動画、音声、テキストをまとめてテストします。データセットには 700本の動画 から 2,556問 が含まれ、多肢選択式 と 自由記述式 の両方の形式を使用します [2]。正しい答えを得るには、モデルは見たものと聞いたものを組み合わせなければなりません。
評価の焦点
このベンチマークはエージェント的タスクにおけるクロスモーダル理解を見ます。平たく言えば、モデルは物体を認識したり音声を書き起こしたりするだけでは不十分です。音声と映像の信号を融合して判断を下さなければなりません。
そのギャップはまだかなり大きいです。人間の専門家はMAEVで 92.8% を記録しますが、Qwen 2.5 Omni や Gemini 2.5 Flash-Lite といった上位モデルは約 64% にとどまります。これはほぼ 29パーセントポイント の差です [2]。そのため、MAEV は音声映像融合がどこで破綻し始めるかを見つけるのに有用です。
安全性と公平性のカバレッジ
MAEV は安全性・公平性・ロバスト性に特化したチェックを 含みません。
導入への適合性
MAEV には公開ツールキットと標準化されたプロトコルが付属しており、チームが毎回同じ方法でベンチマークを実行するのに役立ちます [2]。音声映像コンテキストに依存するエージェント的動画タスクに適しています。ドメイン特化型の評価にはあまり向いていません [2]。
3. AILuminate Multimodal

これまでのベンチマークとは異なり、AILuminate はマルチモーダルモデルが単に高性能かどうかではなく、安全 かどうかを見ます。
モダリティのカバレッジと評価の焦点
AILuminate Multimodal は12のハザードカテゴリにわたってテキスト画像の安全性リスクをチェックします。これらは暴力や自傷行為から、ヘイトスピーチ、プライバシー、健康や選挙助言のような文脈依存のケースまで多岐にわたります。マルチモーダルのパイロットデータセットには 7,000件以上のテキスト画像プロンプト が含まれ [4]、このベンチマークはすでに 109の異なるモデル のテストに使用されています。
際立った特徴の1つは言語の扱い方です。翻訳に頼る代わりに、AILuminate はローカルの関連性を考慮して書かれたプロンプトを使用し、それを ヒンディー語、タミル語、マレー語、韓国語、日本語 のネイティブスピーカーがチェックします [4]。これは重要です。ある言語で機能するプロンプトが、別の言語では非常に異なる受け取られ方をすることがあり、特に安全性テストでは顕著です。
したがって、このベンチマークはスコアを算出できますが、広範なベンチマーク比較よりも レッドチーミング に有用です。
安全性と信頼性のカバレッジ
AILuminate はレッドチーミングとデプロイ前の安全性監査のために構築されており、特にグローバル市場で使用される消費者向けチャットボットや視覚言語アシスタント向けです。その手法は 2025年のMSTS研究 に基づいています [4]。
平たく言えば、これは安全性の失敗が実際のコストを伴う場合に使うタイプのフレームワークです。モデルが危険な助言を与えたり、プライベートな画像を不適切に扱ったり、リスクの高い状況で不適切に反応したりする場合、このベンチマークはローンチ前にそうした弱点を洗い出すために構築されています。
導入への適合性
AILuminate を使うのは軽量な検証ツールよりも手間がかかります。スコアリングには Modelbench と安全性評価器のアンサンブルが必要で、完全なデータセットは MLCommons の メンバー に限定されます [5]。そのため、このフレームワークは実運用に載せるのが重く、時間がかかります。
深いチェックが速度よりも重要な安全性クリティカルな設定に最も適しています。バージョンごとの安全性レビューには強力な選択肢ですが、チームが多数のモデル更新にわたって迅速なテストを必要とする場合にはあまり実用的ではありません。
4. CityBench

これまでのフレームワークが広範なマルチモーダル性能と安全性を見るのに対し、CityBench は 都市推論 にズームインします。
モダリティのカバレッジと評価の焦点
CityBench は、モデルが都市シーンを読み取り、地理空間データを推論し、めまぐるしく変化する都市環境で意思決定を行えるかどうかをチェックします。その強みは、広範なマルチモーダル対応ではなく 都市スケールの推論 にあります。
そのために、CityBench は衛星画像、ストリートビュー画像、道路網、POI/AoI、出発地・目的地フロー、チェックイン記録を組み合わせて、視覚的および地理空間的推論をテストします [7]。知覚と意思決定という2つのグループにわたる 8つの都市タスク をカバーします [7]。これにはGeoQA、ジオローカリゼーション、モビリティ予測、交通信号制御といったタスクが含まれます [7]。
そのCityData/CitySimuのセットアップはさらに一歩踏み込んでいます。詳細な都市ダイナミクスをモデル化し、意思決定タスクのためのクローズドループテストをサポートします [7]。平たく言えば、静的な入力だけで判断するのではなく、都市の状況が変化し続ける中でモデルがどう反応するかをテストできるということです。このベンチマークはベースライン性能を設定するために 30のLLMおよびVLM に対しても実行されています [7]。
安全性と公平性のカバレッジ
別途、安全性と公平性のレビューと組み合わせてください。
導入への適合性
CityBench は、交通最適化、モビリティ予測、都市計画を含む都市AI研究やスマートシティの取り組みによく適合します [7]。また 13のグローバル都市 にわたるため [7]、単一都市のセットアップよりも幅広いテスト基盤をチームに提供します。
とはいえ、これは特化型のベンチマークです。日常的な人間のタスクではなく、都市スケールのタスク向けに構築されています。また、一人称視点の動きに基づくナビゲーションはカバーしていません。そしてもう1つ注目すべきギャップがあります。CityBench のような既存の都市ベンチマークは、しばしば単一視点の入力に限定されており、ストリートレベルと衛星画像の間のクロスビュー推論を十分にはテストしていません [6]。
したがって、CityBench を使う最善の方法は ドメイン特化型のレイヤー としてです。より大きな評価スタックに追加するとうまく機能しますが、これを唯一のマルチモーダルベンチマークにすべきではありません。
5. 医療向け統合マルチモーダル評価フレームワーク
汎用およびドメイン特化型のベンチマークの後、医療モデルには臨床リスク、経時的推論、モダリティ融合に対するより厳しいテストが必要です。医療では、ミスは単にスコアを下げるだけではありません。診断や治療に影響を及ぼしかねません。そのため、臨床利用向けにいくつかのフレームワークが構築され、それぞれ異なる種類の失敗を追求しています。
モダリティのカバレッジと評価の焦点
画像カバレッジについては、GMAI-MMBench がこのセットの中で最も広範なフレームワークです。18の臨床科にわたる 39の医用画像モダリティ を網羅し、285のデータセットから構成されています [10]。画像、ボックス、マスク、輪郭という4つの知覚レベルでモデルをスコアリングします [10]。
MedAtlas は医療ベンチマークにおける共通の弱点を追求します。多くのベンチマークは、経時的でマルチモーダルな臨床推論ではなく、いまだに単一画像・単一ターンのタスクに焦点を当てています [8]。MedAtlas は複数回の受診にまたがる推論とマルチターンの視覚的Q&Aをテストし、モデルが画像所見と患者の病歴を組み合わせて診断を支援できるかを問います [8]。
MedBench v5 は 63の臨床タスク にわたって 言語、視覚言語、エージェントシステム をカバーします [9]。際立っているのはそのストレステストです。欠落した所見や矛盾する所見を挿入して、モデルが不整合を見抜くのか、それとも気づかずに進んでしまうのかを確認します [9]。Asclepius は各専門分野にわたる幅を追加し、3,232の独自マルチモーダル問題に基づいて、15の医療専門分野、8つの診断能力、79の身体部位をカバーします [11]。
安全性と公平性のカバレッジ
MedBench v5 には、医療の誤情報、危険なツールコマンド、プライバシー漏洩、倫理違反をチェックする SafetyAgent が含まれています [9]。また、ターンをまたいで引き継がれる根拠のない主張も追跡します [9]。そのストレステストは主に矛盾検出、診断の更新、ハルシネーション制御を対象としています [9]。
GMAI-MMBench は別の安全性問題を指摘します。一部のモデルは組み込みの安全性プロトコルのために臨床的な質問への回答を拒否し、実際の臨床利用を低下させることがあります [10]。
4つのフレームワークすべてに共通して現れるギャップが1つあります。音声が主要な統合モダリティとして依然として欠けているのです [8][9][10][11]。
導入への適合性
各フレームワークは異なる臨床の失敗モードに対応するため、適切な選択は目の前のタスク次第です。
| フレームワーク | 最適なワークロード |
|---|---|
| GMAI-MMBench | ボックス・マスク・輪郭レベルのスコアリングを必要とするインタラクティブな診断アシスタント [10] |
| MedAtlas | 複数画像と患者病歴の統合を必要とするケース [8] |
| MedBench v5 | 安全性クリティカルな意思決定支援と臨床エージェント [9] |
| Asclepius | 放射線科と病理学における専門分野特化の検証 [11] |
トレードオフは単純です。フレームワークがカバーする範囲が広いほど、検証作業は重くなる傾向があります。
長所と短所
以下の表は、カバレッジ、スコアリングスタイル、ドメイン適合性という主要なトレードオフをまとめたものです。これらのトレードオフは、チームがカバレッジをあまり犠牲にすることなく 迅速に 新しいモデルバージョンをゲートする必要がある場合に最も重要になります。これは汎用的なツールリストではなく、リリースゲーティングのガイドと考えてください。
| フレームワーク | 長所 | 短所 | 最適な用途 |
|---|---|---|---|
| FlagEvalMM | 広範なマルチモーダルカバレッジ、推論と評価を分離 | 自動生成スコアリングはまだ不完全 - VQAScoreはプロンプト整合性について人間の判断と0.76で相関する [12] | 理解と生成のベンチマークを同じパイプラインで実行するチーム |
| MAEV | エージェント的タスクにおける音声・動画・テキストの融合をテスト、標準化されたプロトコルが再現可能な実行を支える [2] | 安全性・公平性・ロバスト性に特化したチェックなし [2] | 音声映像コンテキストに依存するエージェント的動画タスク |
| AILuminate Multimodal | 7,000件以上のテキスト画像プロンプトにわたる12のハザードカテゴリをカバー、5言語でのネイティブスピーカーによるプロンプトレビュー [4] | Modelbenchと安全性評価器のアンサンブルが必要、完全なデータセットはMLCommonsメンバーに限定 [5] | 視覚言語モデルのデプロイ前安全性監査とレッドチーミング |
| CityBench | 13のグローバル都市にわたる8つの都市タスクをテスト、クローズドループの意思決定評価をサポート [7] | 都市スケールのタスクに特化、一人称視点の動きに基づくナビゲーションは非対応 [7] | 都市AI研究、交通最適化、スマートシティ応用 |
| 医療向けフレームワーク | 規制対象の臨床検証向けに構築 | 検証オーバーヘッドが重い、モデルが臨床プロンプトを拒否するとカバレッジが低下 | 安全性クリティカルな臨床検証 |
最大の分かれ目は、高速な数値スコアリング 対 より遅い意味的判断 に帰着します。
数値指標は高速かつ再現可能で、CIチェックに適しています。しかし速度には落とし穴があります。これらの指標は構成的な誤りを見逃すことがあります。モデルは書面上は問題なく見えても、出力がよりオープンエンドになると重要な形で失敗することがあります。
LLM-as-Judgeに依存するフレームワークは、オープンエンドな意味的判断をよりうまく処理します [1][3]。そのため、正解数を数えるだけでなくニュアンスを検査する必要がある場合により有用です。欠点はかなり明白で、コストが増え、それでも評価誤差をプロセスに持ち込む可能性があります。
速度と深いレビューの両方を必要とするチームには、通常、分割型のセットアップが最も理にかなっています。
- CIチェックには数値指標を使用する
- 主要なリリース前には意味的スコアリングを使用する
そうすれば、早い段階で高速な合否シグナルを得て、バージョンがリリースされる前により詳しく読み込むことができます。
結論
並べて比較すると、これらのフレームワークは1つのことを明確にします。マルチモーダルテストは主に4つのバケット、すなわち汎用、安全性、都市、臨床のユースケースに分類されます。
FlagEvalMM と MAEV は広範なマルチモーダル評価に最も強い選択肢です。AILuminate Multimodal は安全性テスト向けに構築されています。CityBench は都市推論に適しています。そして医療系フレームワークは臨床検証に注力します。
トレードオフはすべてに共通して同じです。広範なカバレッジはスケールしやすいですが、特化型ベンチマークはよりリスクの高い失敗を捉えるのに優れています。
実用的なセットアップはシンプルです。
- 回帰トラッキングには広範なベンチマークを1つ使用する
- リリースゲーティングにはドメイン特化型のベンチマークを1つ使用する
最善のセットアップは、捉えるべき失敗モードにベンチマークを合わせることに帰着します。
よくある質問
汎用ベンチマークとドメイン特化型ベンチマークのどちらを選べばよいですか?
どちらか一方を選んで他方を無視するのではなく、両方を使いましょう。
まず汎用ベンチマークで対象を絞り込み、ベースラインを設定します。これらは最初のパスとして適しています。
次に、自分自身のデータを使ってカスタム評価セットを構築します。特化型のワークフローでは、そのテストセット、特にエッジケースや失敗モードを含む場合は、ベンチマークスコアだけよりも、モデルが本番環境でどう機能するかをはるかに正確に読み取れます。
ジャッジベースのレビューではなく数値スコアリングを使うべきなのはいつですか?
自動化されたパイプラインで高速かつ反復可能なシステムが必要な場合は 数値スコアリング を使用します。人間のレビューのために止まることなく合否判定を下せるため、CI/CDゲーティングに適しています。このアプローチは、意味的整合性や標準ベンチマークのように、精度を明確かつ客観的に測定できる場合に最も効果を発揮します。
ニュアンスに依存する作業には ジャッジベースのレビュー を使用します。これには美的感覚、トーン、あるいは専門家の判断がなお重要となる医療・法律・金融のドメイン特化型の意思決定などが含まれます。
音声対応のマルチモーダルモデルのテストに最適なフレームワークはどれですか?
何をテストするかによります。
AU-Harness は大規模音声言語モデルにおける音声からテキストへの評価に適しています。lmms-eval はより広範な選択肢です。音声、テキスト、画像、動画のタスクをサポートするため、テストが音声だけにとどまらない場合に便利です。
音声視覚推論には、AVI-Bench と MAVERIX が、モデルが音声と視覚入力をどれだけうまく組み合わせられるかをチェックするために構築されています。これらのモデルをテストセットアップに結びつける1つのレイヤーが欲しい場合は、APIMart がパイプライン全体でのアクセス統一を支援できます。
モデルマーケットで使いたいモデルを選ぶ
APIMart のモデルマーケットでチャット、画像、動画モデルを試し、統一 API でモデルの能力をすばやく体験できます。