
Сравнение фреймворков для тестирования мультимодального ИИ
Сравниваем фреймворки тестирования мультимодального ИИ — FlagEvalMM, MAEV, AILuminate, CityBench и медицинские бенчмарки — для общей, безопасностной и доменной оценки.
Если сформулировать одной фразой: ни один фреймворк не охватывает всё, поэтому я бы взял один широкий бенчмарк для отслеживания и один доменный тест для проверок перед релизом.
Вот краткая версия:
- FlagEvalMM подходит для широкого тестирования изображений, видео и текста
- MAEV проверяет слияние аудио-видео-текста и показывает, насколько сильно модели всё ещё отстают от человека
- AILuminate Multimodal предназначен для тестирования рисков безопасности по 12 категориям угроз
- CityBench создан для анализа городских сцен и геопространственных рассуждений
- Медицинские фреймворки сфокусированы на клинических рисках, многоходовых рассуждениях и валидации с упором на визуализацию
Несколько цифр сразу бросаются в глаза:
- MAEV использует 2,556 вопросов из 700 видео
- Люди набирают 92.8% в MAEV, тогда как лучшие модели около 64%
- AILuminate включает 7,000+ текстово-графических промптов
- CityBench охватывает 8 городских задач в 13 городах
- GMAI-MMBench покрывает 39 модальностей медицинских изображений
- MedBench v5 охватывает 63 клинические задачи
Для меня вывод прост: широкие инструменты помогают отслеживать регрессии, а доменные тесты ловят высокорисковые сбои, которые пропускают универсальные бенчмарки. Если мне нужны быстрые проверки перед релизом, я бы сначала опирался на числовую оценку. Если нужен более внимательный анализ перед запуском, я бы добавил оценку на основе судьи-модели и доменное тестирование.

За пределами текста — оценка мультимодального ИИ
Быстрое сравнение
| Фреймворк | Основные типы ввода | Основное применение | Основной пробел |
|---|---|---|---|
| FlagEvalMM | Текст, изображение, видео | Общий мультимодальный бенчмаркинг | Нет встроенных проверок безопасности; нет аудио |
| MAEV | Аудио, видео, текст | Тестирование аудиовизуального слияния | Нет проверок безопасности или стабильности |
| AILuminate Multimodal | Текст, изображение | Безопасность и red teaming | Более сложная настройка; ограничения доступа к датасету |
| CityBench | Панорамы улиц, спутник, карты, городские данные | Городские рассуждения и задачи принятия решений | Узкий доменный охват |
| Медицинские фреймворки | Медицинские изображения, текст, многоходовые клинические данные | Клиническая валидация | Большой объём проверки; аудио по-прежнему отсутствует |
Так что если вы выбираете быстро, я бы мыслил в два слоя:
- Общий бенчмарк для отслеживания от версии к версии
- Доменный или безопасностный бенчмарк для решений «выпускать / не выпускать»
Это и есть главный вывод статьи.
1. FlagEvalMM

FlagEvalMM — это опенсорсный фреймворк для мультимодальной оценки от BAAI. Он работает с текстом, изображениями и видео. Основные задачи включают VQA, поиск изображений, генерацию текста в изображение и оценку диаграмм на базе ROME. Аудио не входит в пакет, поэтому рабочие процессы с приоритетом аудио остаются за пределами его возможностей.
Фокус оценки
Когда задача сильно завязана на рассуждениях, FlagEvalMM также поддерживает оценку с судьёй-LLM для рассуждений по диаграммам. Он включает RelScene и LRM-Eval, которые расширяют его охват на понимание сцен и оценку с упором на рассуждения.
Охват безопасности и справедливости
По части проверок доверия и политики есть пробел: он не поставляется со встроенными проверками безопасности, справедливости или галлюцинаций.
Пригодность для развёртывания
Model zoo от FlagEvalMM поддерживает локальный инференс для опенсорсных моделей вроде QwenVL, LLaVA и Janus. Он также поддерживает оценку через API для таких моделей, как GPT, Claude и HuanYuan. Вдобавок добавлена поддержка OpenRouter, которая даёт командам больше API-опций в одном месте.
Такая конфигурация хорошо подходит командам, которые хотят тестировать как локальные, так и хостинговые мультимодальные модели в рамках единого фреймворка. Если вашей команде также нужна оценка аудио или встроенное тестирование безопасности, вам понадобится дополнительный инструментарий в придачу.
2. MAEV
MAEV расширяет оценку за пределы только визуальных конфигураций, тестируя слияние аудио-видео-текста.
Охват модальностей
MAEV, также называемый MAVERIX, был опубликован 14 марта 2026 года. Он тестирует видео, аудио и текст вместе. Датасет включает 2,556 вопросов из 700 видео и использует как формат множественного выбора, так и открытые форматы [2]. Чтобы дать правильный ответ, модель должна объединить то, что видит, с тем, что слышит.
Фокус оценки
Бенчмарк смотрит на кросс-модальное понимание в агентных задачах. Проще говоря, модель не может просто распознать объекты или расшифровать речь. Она должна слить аудио- и видеосигналы, чтобы принять решение.
Этот разрыв всё ещё довольно велик. Эксперты-люди набирают 92.8% в MAEV, тогда как лучшие модели вроде Qwen 2.5 Omni и Gemini 2.5 Flash-Lite выходят примерно на 64%. Это разница почти в 29 процентных пунктов [2]. Именно поэтому MAEV полезен для выявления того, где начинает давать сбой аудиовизуальное слияние.
Охват безопасности и справедливости
MAEV не включает специальных проверок безопасности, справедливости или устойчивости.
Пригодность для развёртывания
MAEV поставляется с публичным инструментарием и стандартизированными протоколами, что помогает командам запускать бенчмарк одинаково каждый раз [2]. Он подходит для агентных видеозадач, зависящих от аудиовизуального контекста. Он менее полезен для доменно-специфичной оценки [2].
3. AILuminate Multimodal

В отличие от предыдущих бенчмарков, AILuminate смотрит, безопасны ли мультимодальные модели, а не только на то, хорошо ли они работают.
Охват модальностей и фокус оценки
AILuminate Multimodal проверяет риски безопасности «текст-изображение» по 12 категориям угроз. Они варьируются от насилия и самоповреждения до языка ненависти, приватности и контекстно-чувствительных случаев вроде советов по здоровью или выборам. Пилотный мультимодальный датасет включает 7,000+ текстово-графических промптов [4], и бенчмарк уже использовался для тестирования 109 разных моделей.
Одна вещь выделяет его — то, как он работает с языком. Вместо опоры на перевод AILuminate использует промпты, написанные с учётом локальной релевантности, а затем проверенные носителями языка на хинди, тамильском, малайском, корейском и японском [4]. Это важно. Промпт, который работает на одном языке, может восприниматься совершенно иначе на другом, особенно в тестировании безопасности.
Так что хотя этот бенчмарк может выдавать оценки, он полезнее для red teaming, чем для широких сравнений бенчмарков.
Охват безопасности и надёжности
AILuminate создан для red teaming и аудитов безопасности перед развёртыванием, особенно для потребительских чат-ботов и визуально-языковых ассистентов, используемых на глобальных рынках. Его метод основан на исследовании MSTS 2025 года [4].
Проще говоря, это тот тип фреймворка, который вы используете, когда сбой в безопасности несёт реальную цену. Если модель даёт рискованный совет, неправильно обрабатывает приватное изображение или плохо реагирует в ситуации с высокими ставками, этот бенчмарк создан, чтобы выявить эти слабые места до запуска.
Пригодность для развёртывания
Использование AILuminate требует больше труда, чем лёгкий инструмент валидации. Для оценки нужны Modelbench и ансамбль оценщиков безопасности, а полные датасеты доступны только участникам MLCommons [5]. Это делает фреймворк тяжелее и медленнее во внедрении.
Он лучше всего подходит для критичных к безопасности сценариев, где более глубокие проверки важнее скорости. Для безопасностного ревью от версии к версии это сильный вариант, но он менее практичен, когда командам нужно быстрое тестирование множества обновлений моделей.
4. CityBench

Там, где предыдущие фреймворки смотрят на широкую мультимодальную производительность и безопасность, CityBench фокусируется на городских рассуждениях.
Охват модальностей и фокус оценки
CityBench проверяет, может ли модель читать городские сцены, рассуждать по геопространственным данным и принимать решения в быстро меняющихся городских условиях. Его сила — рассуждения в масштабе города, а не широкий мультимодальный диапазон.
Для этого CityBench объединяет спутниковые снимки, панорамы улиц, дорожные сети, POI/AoI, потоки «origin-destination» и записи чекинов, чтобы тестировать визуальные и геопространственные рассуждения [7]. Он покрывает 8 городских задач в двух группах: восприятие и принятие решений [7]. Сюда входят такие задачи, как GeoQA, геолокализация, прогнозирование мобильности и управление светофорами [7].
Его конфигурация CityData/CitySimu идёт ещё дальше. Она моделирует детальную городскую динамику и поддерживает замкнутое тестирование для задач принятия решений [7]. Проще говоря, это означает, что вы можете проверить, как модель реагирует, когда городские условия постоянно меняются, а не оценивать её только на статических входных данных. Бенчмарк также был прогнан на 30 LLM и VLM, чтобы задать базовую производительность [7].
Охват безопасности и справедливости
Сочетайте его с отдельным ревью безопасности и справедливости.
Пригодность для развёртывания
CityBench хорошо подходит для исследований городского ИИ и работы над умным городом, включая оптимизацию трафика, прогнозирование мобильности и городское планирование [7]. Он также охватывает 13 глобальных городов [7], что даёт командам более широкую тестовую базу, чем конфигурация с одним городом.
Тем не менее это специализированный бенчмарк. Он создан для задач масштаба города, а не для повседневных человеческих задач. Он также не покрывает навигацию от первого лица на основе движения. И есть ещё один пробел, который стоит отметить: существующие городские бенчмарки вроде CityBench часто ограничены вводом с одного ракурса и не полностью тестируют кросс-видовые рассуждения между уличными и спутниковыми снимками [6].
Так что лучший способ использовать CityBench — как доменно-специфичный слой. Он хорошо работает, когда добавлен к более крупному стеку оценки, но не должен быть вашим единственным мультимодальным бенчмарком.
5. Интегрированные фреймворки мультимодальной оценки, ориентированные на здравоохранение
После общих и доменно-специфичных бенчмарков медицинским моделям нужны более жёсткие тесты на клинические риски, лонгитюдные рассуждения и слияние модальностей. В здравоохранении ошибки не просто снижают оценку. Они могут повлиять на диагноз и лечение. Поэтому несколько фреймворков были созданы для клинического применения, и каждый нацелен на свой вид сбоя.
Охват модальностей и фокус оценки
По охвату визуализации GMAI-MMBench — самый широкий фреймворк в этом наборе. Он охватывает 39 модальностей медицинских изображений в 18 клинических отделениях и опирается на 285 датасетов [10]. Он оценивает модели на четырёх перцептивных уровнях: изображение, рамка, маска и контур [10].
MedAtlas нацелен на распространённое слабое место в медицинском бенчмаркинге: многие бенчмарки всё ещё фокусируются на задачах с одним изображением и одним ходом вместо лонгитюдных мультимодальных клинических рассуждений [8]. Он тестирует рассуждения по нескольким визитам и многоходовые визуальные вопросы-ответы, проверяя, может ли модель объединить находки визуализации с историей пациента для поддержки диагноза [8].
MedBench v5 покрывает языковые, визуально-языковые и агентные системы по 63 клиническим задачам [9]. Что выделяется — это его стресс-тестирование. Он вставляет отсутствующие или противоречивые находки, чтобы посмотреть, заметит ли модель несоответствие или просто продолжит дальше [9]. Asclepius добавляет широту по специальностям, с покрытием 15 медицинских специальностей, 8 диагностических возможностей и 79 частей тела, на основе 3,232 оригинальных мультимодальных вопросов [11].
Охват безопасности и справедливости
MedBench v5 включает SafetyAgent, который проверяет медицинскую дезинформацию, опасные команды инструментов, утечку приватности и нарушения этики [9]. Он также отслеживает необоснованные утверждения, переносящиеся между ходами [9]. Его стресс-тесты в основном нацелены на обнаружение противоречий, обновление диагнозов и контроль галлюцинаций [9].
GMAI-MMBench указывает на другую проблему безопасности: некоторые модели отказываются отвечать на клинические вопросы из-за встроенных протоколов безопасности, что может снизить клиническое применение на практике [10].
Один пробел проявляется во всех четырёх фреймворках: аудио по-прежнему отсутствует как основная интегрированная модальность [8][9][10][11].
Пригодность для развёртывания
Каждый фреймворк соответствует своему типу клинического сбоя, поэтому правильный выбор зависит от конкретной задачи.
| Фреймворк | Наиболее подходящая нагрузка |
|---|---|
| GMAI-MMBench | Интерактивные диагностические ассистенты, которым нужна оценка на уровне рамки, маски или контура [10] |
| MedAtlas | Случаи, требующие интеграции нескольких изображений и истории пациента [8] |
| MedBench v5 | Критичная к безопасности поддержка принятия решений и клинические агенты [9] |
| Asclepius | Специализированная валидация в радиологии и патологии [11] |
Компромисс прост: чем больше охватывает фреймворк, тем тяжелее, как правило, работа по валидации.
Плюсы и минусы
Таблица ниже подытоживает основные компромиссы: охват, стиль оценки и доменная пригодность. Эти компромиссы важнее всего, когда команде нужно быстро отсеять новые версии моделей, не жертвуя слишком большим охватом. Считайте это руководством по гейтингу релизов, а не универсальным списком инструментов.
| Фреймворк | Плюсы | Минусы | Лучше всего для |
|---|---|---|---|
| FlagEvalMM | Широкий мультимодальный охват; отделяет инференс от оценки | Автоматическая оценка генерации всё ещё несовершенна — VQAScore коррелирует с человеческим суждением на 0.76 по согласованности промптов [12] | Команды, запускающие бенчмарки понимания и генерации в одном пайплайне |
| MAEV | Тестирует слияние аудио-видео-текста в агентных задачах; стандартизированные протоколы поддерживают воспроизводимые прогоны [2] | Нет специальных проверок безопасности, справедливости или устойчивости [2] | Агентные видеозадачи, зависящие от аудиовизуального контекста |
| AILuminate Multimodal | Покрывает 12 категорий угроз на 7,000+ текстово-графических промптах; ревью промптов носителями на 5 языках [4] | Требует Modelbench и ансамбль оценщиков безопасности; полные датасеты доступны только участникам MLCommons [5] | Аудиты безопасности перед развёртыванием и red teaming для визуально-языковых моделей |
| CityBench | Тестирует 8 городских задач в 13 глобальных городах; поддерживает замкнутую оценку принятия решений [7] | Специализирован только на задачах масштаба города; не покрывает навигацию от первого лица на основе движения [7] | Исследования городского ИИ, оптимизация трафика и приложения умного города |
| Медицинские фреймворки | Созданы для регулируемой клинической валидации | Большие накладные расходы на валидацию; сниженный охват при отказах моделей отвечать на клинические промпты | Критичная к безопасности клиническая валидация |
Самое большое разделение сводится к быстрой числовой оценке против более медленного семантического суждения.
Числовые метрики быстры и воспроизводимы, что делает их хорошим выбором для CI-проверок. Но у скорости есть подвох: эти метрики могут пропустить композиционные ошибки. Модель может выглядеть нормально на бумаге, но при этом сбоить теми способами, которые важны, как только выводы становятся более открытыми.
Фреймворки, опирающиеся на LLM-as-Judge, лучше справляются с открытым семантическим суждением [1][3]. Это делает их полезнее, когда нужно исследовать нюансы, а не просто считать правильные ответы. Обратная сторона довольно очевидна: они добавляют стоимость и всё ещё могут вносить ошибку оценки в процесс.
Для команд, которым нужны и скорость, и более глубокое ревью, обычно разумнее всего раздельная конфигурация:
- Используйте числовые метрики для CI-проверок
- Используйте семантическую оценку перед крупными релизами
Так вы получаете быстрые сигналы pass/fail на раннем этапе, а затем более внимательный анализ перед выходом версии.
Заключение
Поставленные рядом, эти фреймворки проясняют одну вещь: мультимодальное тестирование распадается на четыре основные корзины — общие, безопасностные, городские и клинические сценарии использования.
FlagEvalMM и MAEV — сильнейшие варианты для широкой мультимодальной оценки. AILuminate Multimodal создан для тестирования безопасности. CityBench — правильный выбор для городских рассуждений. А медицинские фреймворки фокусируются на клинической валидации.
Компромисс остаётся одним и тем же для всех них: широкий охват легче масштабировать, но специализированные бенчмарки лучше ловят более рискованные сбои.
Практичная конфигурация проста:
- Используйте один широкий бенчмарк для отслеживания регрессий
- Используйте один доменно-специфичный бенчмарк для гейтинга релизов
Лучшая конфигурация сводится к сопоставлению бенчмарка с тем типом сбоя, который вам нужно поймать.
Часто задаваемые вопросы
Как выбрать между общим бенчмарком и доменно-специфичным?
Не выбирайте один и не игнорируйте другой — используйте оба.
Начните с общих бенчмарков, чтобы сузить поле и задать базовый уровень. Это хороший первый проход.
Затем постройте кастомный набор для оценки, используя собственные данные. Для специализированных рабочих процессов такой тестовый набор — особенно когда он включает пограничные случаи и режимы сбоев — даёт вам гораздо лучшее представление о том, как модель поведёт себя в продакшене, чем одни только оценки бенчмарков.
Когда использовать числовую оценку вместо ревью на основе судьи-модели?
Используйте числовую оценку, когда вам нужна быстрая, повторяемая система в автоматизированном пайплайне. Она хорошо подходит для гейтинга CI/CD, потому что вы можете принимать решения pass/fail, не останавливаясь на человеческое ревью. Этот подход работает лучше всего для семантического выравнивания и стандартных бенчмарков, где точность можно измерить чётким, объективным образом.
Используйте ревью на основе судьи-модели для работы, зависящей от нюансов. Сюда входят такие вещи, как эстетика, тон или доменно-специфичные решения в медицине, праве и финансах, где экспертное суждение всё ещё имеет значение.
Какой фреймворк лучше всего для тестирования мультимодальных моделей с поддержкой аудио?
Это зависит от того, что вы тестируете.
AU-Harness лучше подходит для оценки «аудио-в-текст» в больших аудиоязыковых моделях. lmms-eval — более широкий выбор. Он поддерживает задачи с аудио, текстом, изображением и видео, поэтому удобен, когда ваше тестирование выходит за пределы только аудио.
Для аудиовизуальных рассуждений AVI-Bench и MAVERIX созданы, чтобы проверить, насколько хорошо модели объединяют звук и визуальный ввод. Если вы хотите один слой, чтобы связать эти модели с вашей тестовой конфигурацией, APIMart может помочь унифицировать доступ через весь пайплайн.
Выберите нужную модель в маркетплейсе моделей
Попробуйте чат, изображения и видео в маркетплейсе APIMart и быстро оцените возможности моделей через единый API.