Apimart
Сравнение фреймворков для тестирования мультимодального ИИ

Сравнение фреймворков для тестирования мультимодального ИИ

Сравниваем фреймворки тестирования мультимодального ИИ — FlagEvalMM, MAEV, AILuminate, CityBench и медицинские бенчмарки — для общей, безопасностной и доменной оценки.

Обзор модели

Если сформулировать одной фразой: ни один фреймворк не охватывает всё, поэтому я бы взял один широкий бенчмарк для отслеживания и один доменный тест для проверок перед релизом.

Вот краткая версия:

  • FlagEvalMM подходит для широкого тестирования изображений, видео и текста
  • MAEV проверяет слияние аудио-видео-текста и показывает, насколько сильно модели всё ещё отстают от человека
  • AILuminate Multimodal предназначен для тестирования рисков безопасности по 12 категориям угроз
  • CityBench создан для анализа городских сцен и геопространственных рассуждений
  • Медицинские фреймворки сфокусированы на клинических рисках, многоходовых рассуждениях и валидации с упором на визуализацию

Несколько цифр сразу бросаются в глаза:

  • MAEV использует 2,556 вопросов из 700 видео
  • Люди набирают 92.8% в MAEV, тогда как лучшие модели около 64%
  • AILuminate включает 7,000+ текстово-графических промптов
  • CityBench охватывает 8 городских задач в 13 городах
  • GMAI-MMBench покрывает 39 модальностей медицинских изображений
  • MedBench v5 охватывает 63 клинические задачи

Для меня вывод прост: широкие инструменты помогают отслеживать регрессии, а доменные тесты ловят высокорисковые сбои, которые пропускают универсальные бенчмарки. Если мне нужны быстрые проверки перед релизом, я бы сначала опирался на числовую оценку. Если нужен более внимательный анализ перед запуском, я бы добавил оценку на основе судьи-модели и доменное тестирование.

Сравнение фреймворков для тестирования мультимодального ИИ: охват, сценарии использования и ключевая статистика
Сравнение фреймворков для тестирования мультимодального ИИ: охват, сценарии использования и ключевая статистика

За пределами текста — оценка мультимодального ИИ

Быстрое сравнение

ФреймворкОсновные типы вводаОсновное применениеОсновной пробел
FlagEvalMMТекст, изображение, видеоОбщий мультимодальный бенчмаркингНет встроенных проверок безопасности; нет аудио
MAEVАудио, видео, текстТестирование аудиовизуального слиянияНет проверок безопасности или стабильности
AILuminate MultimodalТекст, изображениеБезопасность и red teamingБолее сложная настройка; ограничения доступа к датасету
CityBenchПанорамы улиц, спутник, карты, городские данныеГородские рассуждения и задачи принятия решенийУзкий доменный охват
Медицинские фреймворкиМедицинские изображения, текст, многоходовые клинические данныеКлиническая валидацияБольшой объём проверки; аудио по-прежнему отсутствует

Так что если вы выбираете быстро, я бы мыслил в два слоя:

  1. Общий бенчмарк для отслеживания от версии к версии
  2. Доменный или безопасностный бенчмарк для решений «выпускать / не выпускать»

Это и есть главный вывод статьи.

1. FlagEvalMM

FlagEvalMM

FlagEvalMM — это опенсорсный фреймворк для мультимодальной оценки от BAAI. Он работает с текстом, изображениями и видео. Основные задачи включают VQA, поиск изображений, генерацию текста в изображение и оценку диаграмм на базе ROME. Аудио не входит в пакет, поэтому рабочие процессы с приоритетом аудио остаются за пределами его возможностей.

Фокус оценки

Когда задача сильно завязана на рассуждениях, FlagEvalMM также поддерживает оценку с судьёй-LLM для рассуждений по диаграммам. Он включает RelScene и LRM-Eval, которые расширяют его охват на понимание сцен и оценку с упором на рассуждения.

Охват безопасности и справедливости

По части проверок доверия и политики есть пробел: он не поставляется со встроенными проверками безопасности, справедливости или галлюцинаций.

Пригодность для развёртывания

Model zoo от FlagEvalMM поддерживает локальный инференс для опенсорсных моделей вроде QwenVL, LLaVA и Janus. Он также поддерживает оценку через API для таких моделей, как GPT, Claude и HuanYuan. Вдобавок добавлена поддержка OpenRouter, которая даёт командам больше API-опций в одном месте.

Такая конфигурация хорошо подходит командам, которые хотят тестировать как локальные, так и хостинговые мультимодальные модели в рамках единого фреймворка. Если вашей команде также нужна оценка аудио или встроенное тестирование безопасности, вам понадобится дополнительный инструментарий в придачу.

2. MAEV

MAEV расширяет оценку за пределы только визуальных конфигураций, тестируя слияние аудио-видео-текста.

Охват модальностей

MAEV, также называемый MAVERIX, был опубликован 14 марта 2026 года. Он тестирует видео, аудио и текст вместе. Датасет включает 2,556 вопросов из 700 видео и использует как формат множественного выбора, так и открытые форматы [2]. Чтобы дать правильный ответ, модель должна объединить то, что видит, с тем, что слышит.

Фокус оценки

Бенчмарк смотрит на кросс-модальное понимание в агентных задачах. Проще говоря, модель не может просто распознать объекты или расшифровать речь. Она должна слить аудио- и видеосигналы, чтобы принять решение.

Этот разрыв всё ещё довольно велик. Эксперты-люди набирают 92.8% в MAEV, тогда как лучшие модели вроде Qwen 2.5 Omni и Gemini 2.5 Flash-Lite выходят примерно на 64%. Это разница почти в 29 процентных пунктов [2]. Именно поэтому MAEV полезен для выявления того, где начинает давать сбой аудиовизуальное слияние.

Охват безопасности и справедливости

MAEV не включает специальных проверок безопасности, справедливости или устойчивости.

Пригодность для развёртывания

MAEV поставляется с публичным инструментарием и стандартизированными протоколами, что помогает командам запускать бенчмарк одинаково каждый раз [2]. Он подходит для агентных видеозадач, зависящих от аудиовизуального контекста. Он менее полезен для доменно-специфичной оценки [2].

3. AILuminate Multimodal

AILuminate

В отличие от предыдущих бенчмарков, AILuminate смотрит, безопасны ли мультимодальные модели, а не только на то, хорошо ли они работают.

Охват модальностей и фокус оценки

AILuminate Multimodal проверяет риски безопасности «текст-изображение» по 12 категориям угроз. Они варьируются от насилия и самоповреждения до языка ненависти, приватности и контекстно-чувствительных случаев вроде советов по здоровью или выборам. Пилотный мультимодальный датасет включает 7,000+ текстово-графических промптов [4], и бенчмарк уже использовался для тестирования 109 разных моделей.

Одна вещь выделяет его — то, как он работает с языком. Вместо опоры на перевод AILuminate использует промпты, написанные с учётом локальной релевантности, а затем проверенные носителями языка на хинди, тамильском, малайском, корейском и японском [4]. Это важно. Промпт, который работает на одном языке, может восприниматься совершенно иначе на другом, особенно в тестировании безопасности.

Так что хотя этот бенчмарк может выдавать оценки, он полезнее для red teaming, чем для широких сравнений бенчмарков.

Охват безопасности и надёжности

AILuminate создан для red teaming и аудитов безопасности перед развёртыванием, особенно для потребительских чат-ботов и визуально-языковых ассистентов, используемых на глобальных рынках. Его метод основан на исследовании MSTS 2025 года [4].

Проще говоря, это тот тип фреймворка, который вы используете, когда сбой в безопасности несёт реальную цену. Если модель даёт рискованный совет, неправильно обрабатывает приватное изображение или плохо реагирует в ситуации с высокими ставками, этот бенчмарк создан, чтобы выявить эти слабые места до запуска.

Пригодность для развёртывания

Использование AILuminate требует больше труда, чем лёгкий инструмент валидации. Для оценки нужны Modelbench и ансамбль оценщиков безопасности, а полные датасеты доступны только участникам MLCommons [5]. Это делает фреймворк тяжелее и медленнее во внедрении.

Он лучше всего подходит для критичных к безопасности сценариев, где более глубокие проверки важнее скорости. Для безопасностного ревью от версии к версии это сильный вариант, но он менее практичен, когда командам нужно быстрое тестирование множества обновлений моделей.

4. CityBench

CityBench

Там, где предыдущие фреймворки смотрят на широкую мультимодальную производительность и безопасность, CityBench фокусируется на городских рассуждениях.

Охват модальностей и фокус оценки

CityBench проверяет, может ли модель читать городские сцены, рассуждать по геопространственным данным и принимать решения в быстро меняющихся городских условиях. Его сила — рассуждения в масштабе города, а не широкий мультимодальный диапазон.

Для этого CityBench объединяет спутниковые снимки, панорамы улиц, дорожные сети, POI/AoI, потоки «origin-destination» и записи чекинов, чтобы тестировать визуальные и геопространственные рассуждения [7]. Он покрывает 8 городских задач в двух группах: восприятие и принятие решений [7]. Сюда входят такие задачи, как GeoQA, геолокализация, прогнозирование мобильности и управление светофорами [7].

Его конфигурация CityData/CitySimu идёт ещё дальше. Она моделирует детальную городскую динамику и поддерживает замкнутое тестирование для задач принятия решений [7]. Проще говоря, это означает, что вы можете проверить, как модель реагирует, когда городские условия постоянно меняются, а не оценивать её только на статических входных данных. Бенчмарк также был прогнан на 30 LLM и VLM, чтобы задать базовую производительность [7].

Охват безопасности и справедливости

Сочетайте его с отдельным ревью безопасности и справедливости.

Пригодность для развёртывания

CityBench хорошо подходит для исследований городского ИИ и работы над умным городом, включая оптимизацию трафика, прогнозирование мобильности и городское планирование [7]. Он также охватывает 13 глобальных городов [7], что даёт командам более широкую тестовую базу, чем конфигурация с одним городом.

Тем не менее это специализированный бенчмарк. Он создан для задач масштаба города, а не для повседневных человеческих задач. Он также не покрывает навигацию от первого лица на основе движения. И есть ещё один пробел, который стоит отметить: существующие городские бенчмарки вроде CityBench часто ограничены вводом с одного ракурса и не полностью тестируют кросс-видовые рассуждения между уличными и спутниковыми снимками [6].

Так что лучший способ использовать CityBench — как доменно-специфичный слой. Он хорошо работает, когда добавлен к более крупному стеку оценки, но не должен быть вашим единственным мультимодальным бенчмарком.

5. Интегрированные фреймворки мультимодальной оценки, ориентированные на здравоохранение

После общих и доменно-специфичных бенчмарков медицинским моделям нужны более жёсткие тесты на клинические риски, лонгитюдные рассуждения и слияние модальностей. В здравоохранении ошибки не просто снижают оценку. Они могут повлиять на диагноз и лечение. Поэтому несколько фреймворков были созданы для клинического применения, и каждый нацелен на свой вид сбоя.

Охват модальностей и фокус оценки

По охвату визуализации GMAI-MMBench — самый широкий фреймворк в этом наборе. Он охватывает 39 модальностей медицинских изображений в 18 клинических отделениях и опирается на 285 датасетов [10]. Он оценивает модели на четырёх перцептивных уровнях: изображение, рамка, маска и контур [10].

MedAtlas нацелен на распространённое слабое место в медицинском бенчмаркинге: многие бенчмарки всё ещё фокусируются на задачах с одним изображением и одним ходом вместо лонгитюдных мультимодальных клинических рассуждений [8]. Он тестирует рассуждения по нескольким визитам и многоходовые визуальные вопросы-ответы, проверяя, может ли модель объединить находки визуализации с историей пациента для поддержки диагноза [8].

MedBench v5 покрывает языковые, визуально-языковые и агентные системы по 63 клиническим задачам [9]. Что выделяется — это его стресс-тестирование. Он вставляет отсутствующие или противоречивые находки, чтобы посмотреть, заметит ли модель несоответствие или просто продолжит дальше [9]. Asclepius добавляет широту по специальностям, с покрытием 15 медицинских специальностей, 8 диагностических возможностей и 79 частей тела, на основе 3,232 оригинальных мультимодальных вопросов [11].

Охват безопасности и справедливости

MedBench v5 включает SafetyAgent, который проверяет медицинскую дезинформацию, опасные команды инструментов, утечку приватности и нарушения этики [9]. Он также отслеживает необоснованные утверждения, переносящиеся между ходами [9]. Его стресс-тесты в основном нацелены на обнаружение противоречий, обновление диагнозов и контроль галлюцинаций [9].

GMAI-MMBench указывает на другую проблему безопасности: некоторые модели отказываются отвечать на клинические вопросы из-за встроенных протоколов безопасности, что может снизить клиническое применение на практике [10].

Один пробел проявляется во всех четырёх фреймворках: аудио по-прежнему отсутствует как основная интегрированная модальность [8][9][10][11].

Пригодность для развёртывания

Каждый фреймворк соответствует своему типу клинического сбоя, поэтому правильный выбор зависит от конкретной задачи.

ФреймворкНаиболее подходящая нагрузка
GMAI-MMBenchИнтерактивные диагностические ассистенты, которым нужна оценка на уровне рамки, маски или контура [10]
MedAtlasСлучаи, требующие интеграции нескольких изображений и истории пациента [8]
MedBench v5Критичная к безопасности поддержка принятия решений и клинические агенты [9]
AsclepiusСпециализированная валидация в радиологии и патологии [11]

Компромисс прост: чем больше охватывает фреймворк, тем тяжелее, как правило, работа по валидации.

Плюсы и минусы

Таблица ниже подытоживает основные компромиссы: охват, стиль оценки и доменная пригодность. Эти компромиссы важнее всего, когда команде нужно быстро отсеять новые версии моделей, не жертвуя слишком большим охватом. Считайте это руководством по гейтингу релизов, а не универсальным списком инструментов.

ФреймворкПлюсыМинусыЛучше всего для
FlagEvalMMШирокий мультимодальный охват; отделяет инференс от оценкиАвтоматическая оценка генерации всё ещё несовершенна — VQAScore коррелирует с человеческим суждением на 0.76 по согласованности промптов [12]Команды, запускающие бенчмарки понимания и генерации в одном пайплайне
MAEVТестирует слияние аудио-видео-текста в агентных задачах; стандартизированные протоколы поддерживают воспроизводимые прогоны [2]Нет специальных проверок безопасности, справедливости или устойчивости [2]Агентные видеозадачи, зависящие от аудиовизуального контекста
AILuminate MultimodalПокрывает 12 категорий угроз на 7,000+ текстово-графических промптах; ревью промптов носителями на 5 языках [4]Требует Modelbench и ансамбль оценщиков безопасности; полные датасеты доступны только участникам MLCommons [5]Аудиты безопасности перед развёртыванием и red teaming для визуально-языковых моделей
CityBenchТестирует 8 городских задач в 13 глобальных городах; поддерживает замкнутую оценку принятия решений [7]Специализирован только на задачах масштаба города; не покрывает навигацию от первого лица на основе движения [7]Исследования городского ИИ, оптимизация трафика и приложения умного города
Медицинские фреймворкиСозданы для регулируемой клинической валидацииБольшие накладные расходы на валидацию; сниженный охват при отказах моделей отвечать на клинические промптыКритичная к безопасности клиническая валидация

Самое большое разделение сводится к быстрой числовой оценке против более медленного семантического суждения.

Числовые метрики быстры и воспроизводимы, что делает их хорошим выбором для CI-проверок. Но у скорости есть подвох: эти метрики могут пропустить композиционные ошибки. Модель может выглядеть нормально на бумаге, но при этом сбоить теми способами, которые важны, как только выводы становятся более открытыми.

Фреймворки, опирающиеся на LLM-as-Judge, лучше справляются с открытым семантическим суждением [1][3]. Это делает их полезнее, когда нужно исследовать нюансы, а не просто считать правильные ответы. Обратная сторона довольно очевидна: они добавляют стоимость и всё ещё могут вносить ошибку оценки в процесс.

Для команд, которым нужны и скорость, и более глубокое ревью, обычно разумнее всего раздельная конфигурация:

  • Используйте числовые метрики для CI-проверок
  • Используйте семантическую оценку перед крупными релизами

Так вы получаете быстрые сигналы pass/fail на раннем этапе, а затем более внимательный анализ перед выходом версии.

Заключение

Поставленные рядом, эти фреймворки проясняют одну вещь: мультимодальное тестирование распадается на четыре основные корзины — общие, безопасностные, городские и клинические сценарии использования.

FlagEvalMM и MAEV — сильнейшие варианты для широкой мультимодальной оценки. AILuminate Multimodal создан для тестирования безопасности. CityBench — правильный выбор для городских рассуждений. А медицинские фреймворки фокусируются на клинической валидации.

Компромисс остаётся одним и тем же для всех них: широкий охват легче масштабировать, но специализированные бенчмарки лучше ловят более рискованные сбои.

Практичная конфигурация проста:

  • Используйте один широкий бенчмарк для отслеживания регрессий
  • Используйте один доменно-специфичный бенчмарк для гейтинга релизов

Лучшая конфигурация сводится к сопоставлению бенчмарка с тем типом сбоя, который вам нужно поймать.

Часто задаваемые вопросы

Как выбрать между общим бенчмарком и доменно-специфичным?

Не выбирайте один и не игнорируйте другой — используйте оба.

Начните с общих бенчмарков, чтобы сузить поле и задать базовый уровень. Это хороший первый проход.

Затем постройте кастомный набор для оценки, используя собственные данные. Для специализированных рабочих процессов такой тестовый набор — особенно когда он включает пограничные случаи и режимы сбоев — даёт вам гораздо лучшее представление о том, как модель поведёт себя в продакшене, чем одни только оценки бенчмарков.

Когда использовать числовую оценку вместо ревью на основе судьи-модели?

Используйте числовую оценку, когда вам нужна быстрая, повторяемая система в автоматизированном пайплайне. Она хорошо подходит для гейтинга CI/CD, потому что вы можете принимать решения pass/fail, не останавливаясь на человеческое ревью. Этот подход работает лучше всего для семантического выравнивания и стандартных бенчмарков, где точность можно измерить чётким, объективным образом.

Используйте ревью на основе судьи-модели для работы, зависящей от нюансов. Сюда входят такие вещи, как эстетика, тон или доменно-специфичные решения в медицине, праве и финансах, где экспертное суждение всё ещё имеет значение.

Какой фреймворк лучше всего для тестирования мультимодальных моделей с поддержкой аудио?

Это зависит от того, что вы тестируете.

AU-Harness лучше подходит для оценки «аудио-в-текст» в больших аудиоязыковых моделях. lmms-eval — более широкий выбор. Он поддерживает задачи с аудио, текстом, изображением и видео, поэтому удобен, когда ваше тестирование выходит за пределы только аудио.

Для аудиовизуальных рассуждений AVI-Bench и MAVERIX созданы, чтобы проверить, насколько хорошо модели объединяют звук и визуальный ввод. Если вы хотите один слой, чтобы связать эти модели с вашей тестовой конфигурацией, APIMart может помочь унифицировать доступ через весь пайплайн.

Готовы попробовать?

Выберите нужную модель в маркетплейсе моделей

Попробуйте чат, изображения и видео в маркетплейсе APIMart и быстро оцените возможности моделей через единый API.

Чат-моделиМодели изображенийВидео-модели
Открыть маркетплейс моделей