Сравнение фреймворков для тестирования мультимодального ИИ

Сравниваем фреймворки тестирования мультимодального ИИ — FlagEvalMM, MAEV, AILuminate, CityBench и медицинские бенчмарки — для общей, безопасностной и доменной оценки.

Обзор модели

Если сформулировать одной фразой: ни один фреймворк не охватывает всё, поэтому я бы взял один широкий бенчмарк для отслеживания и один доменный тест для проверок перед релизом.

Вот краткая версия:

FlagEvalMM подходит для широкого тестирования изображений, видео и текста
MAEV проверяет слияние аудио-видео-текста и показывает, насколько сильно модели всё ещё отстают от человека
AILuminate Multimodal предназначен для тестирования рисков безопасности по 12 категориям угроз
CityBench создан для анализа городских сцен и геопространственных рассуждений
Медицинские фреймворки сфокусированы на клинических рисках, многоходовых рассуждениях и валидации с упором на визуализацию

Несколько цифр сразу бросаются в глаза:

MAEV использует 2,556 вопросов из 700 видео
Люди набирают 92.8% в MAEV, тогда как лучшие модели около 64%
AILuminate включает 7,000+ текстово-графических промптов
CityBench охватывает 8 городских задач в 13 городах
GMAI-MMBench покрывает 39 модальностей медицинских изображений
MedBench v5 охватывает 63 клинические задачи

Для меня вывод прост: широкие инструменты помогают отслеживать регрессии, а доменные тесты ловят высокорисковые сбои, которые пропускают универсальные бенчмарки. Если мне нужны быстрые проверки перед релизом, я бы сначала опирался на числовую оценку. Если нужен более внимательный анализ перед запуском, я бы добавил оценку на основе судьи-модели и доменное тестирование.

Сравнение фреймворков для тестирования мультимодального ИИ: охват, сценарии использования и ключевая статистика

За пределами текста — оценка мультимодального ИИ

Быстрое сравнение

Фреймворк	Основные типы ввода	Основное применение	Основной пробел
FlagEvalMM	Текст, изображение, видео	Общий мультимодальный бенчмаркинг	Нет встроенных проверок безопасности; нет аудио
MAEV	Аудио, видео, текст	Тестирование аудиовизуального слияния	Нет проверок безопасности или стабильности
AILuminate Multimodal	Текст, изображение	Безопасность и red teaming	Более сложная настройка; ограничения доступа к датасету
CityBench	Панорамы улиц, спутник, карты, городские данные	Городские рассуждения и задачи принятия решений	Узкий доменный охват
Медицинские фреймворки	Медицинские изображения, текст, многоходовые клинические данные	Клиническая валидация	Большой объём проверки; аудио по-прежнему отсутствует

Так что если вы выбираете быстро, я бы мыслил в два слоя:

Общий бенчмарк для отслеживания от версии к версии
Доменный или безопасностный бенчмарк для решений «выпускать / не выпускать»

Это и есть главный вывод статьи.

1. FlagEvalMM

FlagEvalMM

FlagEvalMM — это опенсорсный фреймворк для мультимодальной оценки от BAAI. Он работает с текстом, изображениями и видео. Основные задачи включают VQA, поиск изображений, генерацию текста в изображение и оценку диаграмм на базе ROME. Аудио не входит в пакет, поэтому рабочие процессы с приоритетом аудио остаются за пределами его возможностей.

Фокус оценки

Когда задача сильно завязана на рассуждениях, FlagEvalMM также поддерживает оценку с судьёй-LLM для рассуждений по диаграммам. Он включает RelScene и LRM-Eval, которые расширяют его охват на понимание сцен и оценку с упором на рассуждения.

Охват безопасности и справедливости

По части проверок доверия и политики есть пробел: он не поставляется со встроенными проверками безопасности, справедливости или галлюцинаций.

Пригодность для развёртывания

Model zoo от FlagEvalMM поддерживает локальный инференс для опенсорсных моделей вроде QwenVL, LLaVA и Janus. Он также поддерживает оценку через API для таких моделей, как GPT, Claude и HuanYuan. Вдобавок добавлена поддержка OpenRouter, которая даёт командам больше API-опций в одном месте.

Такая конфигурация хорошо подходит командам, которые хотят тестировать как локальные, так и хостинговые мультимодальные модели в рамках единого фреймворка. Если вашей команде также нужна оценка аудио или встроенное тестирование безопасности, вам понадобится дополнительный инструментарий в придачу.

2. MAEV

MAEV расширяет оценку за пределы только визуальных конфигураций, тестируя слияние аудио-видео-текста.

Охват модальностей

MAEV, также называемый MAVERIX, был опубликован 14 марта 2026 года. Он тестирует видео, аудио и текст вместе. Датасет включает 2,556 вопросов из 700 видео и использует как формат множественного выбора, так и открытые форматы ^[2]. Чтобы дать правильный ответ, модель должна объединить то, что видит, с тем, что слышит.

Фокус оценки

Бенчмарк смотрит на кросс-модальное понимание в агентных задачах. Проще говоря, модель не может просто распознать объекты или расшифровать речь. Она должна слить аудио- и видеосигналы, чтобы принять решение.

Этот разрыв всё ещё довольно велик. Эксперты-люди набирают 92.8% в MAEV, тогда как лучшие модели вроде Qwen 2.5 Omni и Gemini 2.5 Flash-Lite выходят примерно на 64%. Это разница почти в 29 процентных пунктов ^[2]. Именно поэтому MAEV полезен для выявления того, где начинает давать сбой аудиовизуальное слияние.

Охват безопасности и справедливости

MAEV не включает специальных проверок безопасности, справедливости или устойчивости.

Пригодность для развёртывания

MAEV поставляется с публичным инструментарием и стандартизированными протоколами, что помогает командам запускать бенчмарк одинаково каждый раз ^[2]. Он подходит для агентных видеозадач, зависящих от аудиовизуального контекста. Он менее полезен для доменно-специфичной оценки ^[2].

3. AILuminate Multimodal

AILuminate

В отличие от предыдущих бенчмарков, AILuminate смотрит, безопасны ли мультимодальные модели, а не только на то, хорошо ли они работают.

Охват модальностей и фокус оценки

AILuminate Multimodal проверяет риски безопасности «текст-изображение» по 12 категориям угроз. Они варьируются от насилия и самоповреждения до языка ненависти, приватности и контекстно-чувствительных случаев вроде советов по здоровью или выборам. Пилотный мультимодальный датасет включает 7,000+ текстово-графических промптов ^[4], и бенчмарк уже использовался для тестирования 109 разных моделей.

Одна вещь выделяет его — то, как он работает с языком. Вместо опоры на перевод AILuminate использует промпты, написанные с учётом локальной релевантности, а затем проверенные носителями языка на хинди, тамильском, малайском, корейском и японском ^[4]. Это важно. Промпт, который работает на одном языке, может восприниматься совершенно иначе на другом, особенно в тестировании безопасности.

Так что хотя этот бенчмарк может выдавать оценки, он полезнее для red teaming, чем для широких сравнений бенчмарков.

Охват безопасности и надёжности

AILuminate создан для red teaming и аудитов безопасности перед развёртыванием, особенно для потребительских чат-ботов и визуально-языковых ассистентов, используемых на глобальных рынках. Его метод основан на исследовании MSTS 2025 года ^[4].

Проще говоря, это тот тип фреймворка, который вы используете, когда сбой в безопасности несёт реальную цену. Если модель даёт рискованный совет, неправильно обрабатывает приватное изображение или плохо реагирует в ситуации с высокими ставками, этот бенчмарк создан, чтобы выявить эти слабые места до запуска.

Пригодность для развёртывания

Использование AILuminate требует больше труда, чем лёгкий инструмент валидации. Для оценки нужны Modelbench и ансамбль оценщиков безопасности, а полные датасеты доступны только участникам MLCommons ^[5]. Это делает фреймворк тяжелее и медленнее во внедрении.

Он лучше всего подходит для критичных к безопасности сценариев, где более глубокие проверки важнее скорости. Для безопасностного ревью от версии к версии это сильный вариант, но он менее практичен, когда командам нужно быстрое тестирование множества обновлений моделей.

4. CityBench

CityBench

Там, где предыдущие фреймворки смотрят на широкую мультимодальную производительность и безопасность, CityBench фокусируется на городских рассуждениях.

Охват модальностей и фокус оценки

CityBench проверяет, может ли модель читать городские сцены, рассуждать по геопространственным данным и принимать решения в быстро меняющихся городских условиях. Его сила — рассуждения в масштабе города, а не широкий мультимодальный диапазон.

Для этого CityBench объединяет спутниковые снимки, панорамы улиц, дорожные сети, POI/AoI, потоки «origin-destination» и записи чекинов, чтобы тестировать визуальные и геопространственные рассуждения ^[7]. Он покрывает 8 городских задач в двух группах: восприятие и принятие решений ^[7]. Сюда входят такие задачи, как GeoQA, геолокализация, прогнозирование мобильности и управление светофорами ^[7].

Его конфигурация CityData/CitySimu идёт ещё дальше. Она моделирует детальную городскую динамику и поддерживает замкнутое тестирование для задач принятия решений ^[7]. Проще говоря, это означает, что вы можете проверить, как модель реагирует, когда городские условия постоянно меняются, а не оценивать её только на статических входных данных. Бенчмарк также был прогнан на 30 LLM и VLM, чтобы задать базовую производительность ^[7].

Охват безопасности и справедливости

Сочетайте его с отдельным ревью безопасности и справедливости.

Пригодность для развёртывания

CityBench хорошо подходит для исследований городского ИИ и работы над умным городом, включая оптимизацию трафика, прогнозирование мобильности и городское планирование ^[7]. Он также охватывает 13 глобальных городов ^[7], что даёт командам более широкую тестовую базу, чем конфигурация с одним городом.

Тем не менее это специализированный бенчмарк. Он создан для задач масштаба города, а не для повседневных человеческих задач. Он также не покрывает навигацию от первого лица на основе движения. И есть ещё один пробел, который стоит отметить: существующие городские бенчмарки вроде CityBench часто ограничены вводом с одного ракурса и не полностью тестируют кросс-видовые рассуждения между уличными и спутниковыми снимками ^[6].

Так что лучший способ использовать CityBench — как доменно-специфичный слой. Он хорошо работает, когда добавлен к более крупному стеку оценки, но не должен быть вашим единственным мультимодальным бенчмарком.

5. Интегрированные фреймворки мультимодальной оценки, ориентированные на здравоохранение

После общих и доменно-специфичных бенчмарков медицинским моделям нужны более жёсткие тесты на клинические риски, лонгитюдные рассуждения и слияние модальностей. В здравоохранении ошибки не просто снижают оценку. Они могут повлиять на диагноз и лечение. Поэтому несколько фреймворков были созданы для клинического применения, и каждый нацелен на свой вид сбоя.

Охват модальностей и фокус оценки

По охвату визуализации GMAI-MMBench — самый широкий фреймворк в этом наборе. Он охватывает 39 модальностей медицинских изображений в 18 клинических отделениях и опирается на 285 датасетов ^[10]. Он оценивает модели на четырёх перцептивных уровнях: изображение, рамка, маска и контур ^[10].

MedAtlas нацелен на распространённое слабое место в медицинском бенчмаркинге: многие бенчмарки всё ещё фокусируются на задачах с одним изображением и одним ходом вместо лонгитюдных мультимодальных клинических рассуждений ^[8]. Он тестирует рассуждения по нескольким визитам и многоходовые визуальные вопросы-ответы, проверяя, может ли модель объединить находки визуализации с историей пациента для поддержки диагноза ^[8].

MedBench v5 покрывает языковые, визуально-языковые и агентные системы по 63 клиническим задачам ^[9]. Что выделяется — это его стресс-тестирование. Он вставляет отсутствующие или противоречивые находки, чтобы посмотреть, заметит ли модель несоответствие или просто продолжит дальше ^[9]. Asclepius добавляет широту по специальностям, с покрытием 15 медицинских специальностей, 8 диагностических возможностей и 79 частей тела, на основе 3,232 оригинальных мультимодальных вопросов ^[11].

Охват безопасности и справедливости

MedBench v5 включает SafetyAgent, который проверяет медицинскую дезинформацию, опасные команды инструментов, утечку приватности и нарушения этики ^[9]. Он также отслеживает необоснованные утверждения, переносящиеся между ходами ^[9]. Его стресс-тесты в основном нацелены на обнаружение противоречий, обновление диагнозов и контроль галлюцинаций ^[9].

GMAI-MMBench указывает на другую проблему безопасности: некоторые модели отказываются отвечать на клинические вопросы из-за встроенных протоколов безопасности, что может снизить клиническое применение на практике ^[10].

Один пробел проявляется во всех четырёх фреймворках: аудио по-прежнему отсутствует как основная интегрированная модальность ^[8]^[9]^[10]^[11].

Пригодность для развёртывания

Каждый фреймворк соответствует своему типу клинического сбоя, поэтому правильный выбор зависит от конкретной задачи.

Фреймворк	Наиболее подходящая нагрузка
GMAI-MMBench	Интерактивные диагностические ассистенты, которым нужна оценка на уровне рамки, маски или контура ^[10]
MedAtlas	Случаи, требующие интеграции нескольких изображений и истории пациента ^[8]
MedBench v5	Критичная к безопасности поддержка принятия решений и клинические агенты ^[9]
Asclepius	Специализированная валидация в радиологии и патологии ^[11]

Компромисс прост: чем больше охватывает фреймворк, тем тяжелее, как правило, работа по валидации.

Плюсы и минусы

Таблица ниже подытоживает основные компромиссы: охват, стиль оценки и доменная пригодность. Эти компромиссы важнее всего, когда команде нужно быстро отсеять новые версии моделей, не жертвуя слишком большим охватом. Считайте это руководством по гейтингу релизов, а не универсальным списком инструментов.

Фреймворк	Плюсы	Минусы	Лучше всего для
FlagEvalMM	Широкий мультимодальный охват; отделяет инференс от оценки	Автоматическая оценка генерации всё ещё несовершенна — VQAScore коррелирует с человеческим суждением на 0.76 по согласованности промптов ^[12]	Команды, запускающие бенчмарки понимания и генерации в одном пайплайне
MAEV	Тестирует слияние аудио-видео-текста в агентных задачах; стандартизированные протоколы поддерживают воспроизводимые прогоны ^[2]	Нет специальных проверок безопасности, справедливости или устойчивости ^[2]	Агентные видеозадачи, зависящие от аудиовизуального контекста
AILuminate Multimodal	Покрывает 12 категорий угроз на 7,000+ текстово-графических промптах; ревью промптов носителями на 5 языках ^[4]	Требует Modelbench и ансамбль оценщиков безопасности; полные датасеты доступны только участникам MLCommons ^[5]	Аудиты безопасности перед развёртыванием и red teaming для визуально-языковых моделей
CityBench	Тестирует 8 городских задач в 13 глобальных городах; поддерживает замкнутую оценку принятия решений ^[7]	Специализирован только на задачах масштаба города; не покрывает навигацию от первого лица на основе движения ^[7]	Исследования городского ИИ, оптимизация трафика и приложения умного города
Медицинские фреймворки	Созданы для регулируемой клинической валидации	Большие накладные расходы на валидацию; сниженный охват при отказах моделей отвечать на клинические промпты	Критичная к безопасности клиническая валидация

Самое большое разделение сводится к быстрой числовой оценке против более медленного семантического суждения.

Числовые метрики быстры и воспроизводимы, что делает их хорошим выбором для CI-проверок. Но у скорости есть подвох: эти метрики могут пропустить композиционные ошибки. Модель может выглядеть нормально на бумаге, но при этом сбоить теми способами, которые важны, как только выводы становятся более открытыми.

Фреймворки, опирающиеся на LLM-as-Judge, лучше справляются с открытым семантическим суждением ^[1]^[3]. Это делает их полезнее, когда нужно исследовать нюансы, а не просто считать правильные ответы. Обратная сторона довольно очевидна: они добавляют стоимость и всё ещё могут вносить ошибку оценки в процесс.

Для команд, которым нужны и скорость, и более глубокое ревью, обычно разумнее всего раздельная конфигурация:

Используйте числовые метрики для CI-проверок
Используйте семантическую оценку перед крупными релизами

Так вы получаете быстрые сигналы pass/fail на раннем этапе, а затем более внимательный анализ перед выходом версии.

Заключение

Поставленные рядом, эти фреймворки проясняют одну вещь: мультимодальное тестирование распадается на четыре основные корзины — общие, безопасностные, городские и клинические сценарии использования.

FlagEvalMM и MAEV — сильнейшие варианты для широкой мультимодальной оценки. AILuminate Multimodal создан для тестирования безопасности. CityBench — правильный выбор для городских рассуждений. А медицинские фреймворки фокусируются на клинической валидации.

Компромисс остаётся одним и тем же для всех них: широкий охват легче масштабировать, но специализированные бенчмарки лучше ловят более рискованные сбои.

Практичная конфигурация проста:

Используйте один широкий бенчмарк для отслеживания регрессий
Используйте один доменно-специфичный бенчмарк для гейтинга релизов

Лучшая конфигурация сводится к сопоставлению бенчмарка с тем типом сбоя, который вам нужно поймать.

Часто задаваемые вопросы

Как выбрать между общим бенчмарком и доменно-специфичным?

Не выбирайте один и не игнорируйте другой — используйте оба.

Начните с общих бенчмарков, чтобы сузить поле и задать базовый уровень. Это хороший первый проход.

Затем постройте кастомный набор для оценки, используя собственные данные. Для специализированных рабочих процессов такой тестовый набор — особенно когда он включает пограничные случаи и режимы сбоев — даёт вам гораздо лучшее представление о том, как модель поведёт себя в продакшене, чем одни только оценки бенчмарков.

Когда использовать числовую оценку вместо ревью на основе судьи-модели?

Используйте числовую оценку, когда вам нужна быстрая, повторяемая система в автоматизированном пайплайне. Она хорошо подходит для гейтинга CI/CD, потому что вы можете принимать решения pass/fail, не останавливаясь на человеческое ревью. Этот подход работает лучше всего для семантического выравнивания и стандартных бенчмарков, где точность можно измерить чётким, объективным образом.

Используйте ревью на основе судьи-модели для работы, зависящей от нюансов. Сюда входят такие вещи, как эстетика, тон или доменно-специфичные решения в медицине, праве и финансах, где экспертное суждение всё ещё имеет значение.

Какой фреймворк лучше всего для тестирования мультимодальных моделей с поддержкой аудио?

Это зависит от того, что вы тестируете.

AU-Harness лучше подходит для оценки «аудио-в-текст» в больших аудиоязыковых моделях. lmms-eval — более широкий выбор. Он поддерживает задачи с аудио, текстом, изображением и видео, поэтому удобен, когда ваше тестирование выходит за пределы только аудио.

Для аудиовизуальных рассуждений AVI-Bench и MAVERIX созданы, чтобы проверить, насколько хорошо модели объединяют звук и визуальный ввод. Если вы хотите один слой, чтобы связать эти модели с вашей тестовой конфигурацией, APIMart может помочь унифицировать доступ через весь пайплайн.

Готовы попробовать?

Выберите нужную модель в маркетплейсе моделей

Попробуйте чат, изображения и видео в маркетплейсе APIMart и быстро оцените возможности моделей через единый API.

Чат-моделиМодели изображенийВидео-модели

Открыть маркетплейс моделей

Сравнение фреймворков для тестирования мультимодального ИИ

За пределами текста — оценка мультимодального ИИ

Быстрое сравнение

1. FlagEvalMM

Фокус оценки

Охват безопасности и справедливости

Пригодность для развёртывания

2. MAEV

Охват модальностей

Фокус оценки

Охват безопасности и справедливости

Пригодность для развёртывания

3. AILuminate Multimodal

Охват модальностей и фокус оценки

Охват безопасности и надёжности

Пригодность для развёртывания

4. CityBench

Охват модальностей и фокус оценки

Охват безопасности и справедливости

Пригодность для развёртывания

5. Интегрированные фреймворки мультимодальной оценки, ориентированные на здравоохранение

Охват модальностей и фокус оценки

Охват безопасности и справедливости

Пригодность для развёртывания

Плюсы и минусы

Заключение

Часто задаваемые вопросы

Как выбрать между общим бенчмарком и доменно-специфичным?

Когда использовать числовую оценку вместо ревью на основе судьи-модели?

Какой фреймворк лучше всего для тестирования мультимодальных моделей с поддержкой аудио?

Выберите нужную модель в маркетплейсе моделей

Vidu Omni Pro — обзор модели генерации видео 1080p

GPT-Image-2: анимация персонажей и цены

Скрытые платежи в тарифах на AI API объяснены