Гид по Vidu MoE API: видео на основе Mixture-of-Experts

Гид разработчика по видео-API Vidu MoE (Vidu Q3): уровни моделей, структура запроса, параметры, цены и асинхронный цикл submit-poll-download в APIMart.

Туториал

Если коротко, в одну строку: Vidu MoE — это API для коротких видео для команд, которым нужны клипы длиной 1–16 секунд, до 1080p, 24 fps, асинхронная доставка и опциональный звук в одном запросе.

Если вы оцениваете пригодность для продакшена, вот короткий ответ: он работает лучше всего, когда вы можете обрабатывать асинхронные задачи, закладывать бюджет на повторы и выбирать подходящий уровень модели для каждого этапа. Я бы использовал viduq3-turbo для превью и viduq3-pro для финального результата. Большинство задач завершается примерно за 60–120 секунд на 720p и 90–180 секунд на 1080p, с пиковым временем ожидания около 4 минут.

Вот что важнее всего:

Режимы ввода: text-to-video, анимация одного изображения, альтернативы Grok Imagine Video, видео по двум кадрам start/end и ввод с несколькими референсными изображениями
Ограничения по длине клипа: от 1 до 16 секунд
Вывод: до 1080p при 24 fps
Звук: можно включить в том же запросе
Референсы изображений: до 7 изображений в расширенном наборе возможностей модели
Главное правило API: если вы отправляете URL изображений, не отправляйте aspect_ratio
Доставка: асинхронная с task_id, опросом или коллбэком
Пример цены: Pro стоит примерно $0.60 за 5 секунд и $1.44 за 12 секунд
Реальность бюджета: планируйте 2–3 попытки на каждый утверждённый клип

Несколько деталей выделяются. API использует простой JSON-запрос с model, prompt и опциональными медиа-вводами. Выбор модели прост: turbo для более дешёвого тестирования, pro для рендеров более высокого уровня. Контроль seed помогает удерживать вывод в схожем направлении между повторами, хотя и не как точные совпадения.

Если бы я оценивал это для продуктовой команды, я бы сосредоточился на трёх вопросах:

Может ли моё приложение чисто обрабатывать асинхронную обработку?
Нужна ли мне генерация только по промпту, управление через изображение или контроль начального/конечного кадра?
Работает ли мой бюджет после повторов, а не только при стоимости первого прохода?

Быстрое сравнение

Пункт	Что нужно знать
Лучше всего для	Маркетинговые клипы, видео о продуктах, объясняющие ролики, варианты рекламы
Выбор модели	`viduq3-turbo`, `viduq3-pro`, `viduq3`
Контроль ввода	Только промпт, 1 изображение, 2 изображения или генерация на основе референсов
Задержка	Обычно 1–3 минуты, иногда дольше в пиковые часы
Разрешение	`540p`, `720p`, `1080p`
Звук	Поддерживается внутри запроса
Подходит для рабочих процессов	Команды, которые могут подождать несколько минут и сохранить файлы после завершения
На что обратить внимание	Истекающие URL вывода, стоимость повторов и ошибки запросов из-за плохих комбинаций параметров

Итак, прежде чем читать полный гид, вывод прост: Vidu MoE хорошо подходит для короткой видео-генерации на основе API, когда вам нужны несколько режимов ввода, встроенный звук и контроль стоимости за счёт переключения между turbo и pro. Остальное сводится к настройке запроса, обработке статуса и выбору метода ввода, который соответствует вашему рабочему процессу.

Обзор Vidu MoE API и основные возможности

Vidu MoE

На уровне API Vidu MoE сводится к небольшому набору имён моделей, рабочих процессов и полей вывода.

Vidu MoE появляется в API как viduq3-mix, сбалансированная модель Q3. viduq3-turbo склоняется к скорости, тогда как viduq3-pro склоняется к большей детализации.

Что означает Mixture-of-Experts в генерации видео

Mixture-of-experts направляет разные части процесса генерации в специализированные компоненты. На практике это помогает с движением, композицией сцены и следованием промпту.

Серия Q3 также поддерживает интеллектуальное переключение сцен и интеллектуальное переключение камеры ^[2]^[4]. Это важнее всего в многокадровых последовательностях, где непрерывность может быстро разрушиться, если модель теряет след сцены.

Поддерживаемые рабочие процессы: Text-to-Video, Image-to-Video и генерация на основе референсов

Дальше основное различие сводится к типу ввода, который вы отправляете.

viduq3-mix поддерживает четыре рабочих процесса:

Text-to-Video только из промпта
Image-to-Video из одного начального изображения
Reference-to-Video из 1–7 изображений для согласованности внешнего вида и стиля
Start-End to Video из двух кадров, определяющих переход

Промпты поддерживают до 5 000 символов ^[3]^[4]. viduq3-mix не поддерживает библиотеку сущностей Subjects.

Входы и выходы с одного взгляда

Рабочий процесс	Типичные поля ввода	Возвращаемые поля
Text-to-Video	`model`, `prompt`, `duration`, `aspect_ratio`, `audio`	`task_id`, `state`, `credits`, `video_url`
Image-to-Video	`model`, `images` (1 начальный кадр), `prompt`, `audio`	`task_id`, `state`, `credits`, `video_url`
Reference-to-Video	`model`, `images` (1–7), `prompt`, `audio`	`task_id`, `state`, `credits`, `video_url`
Start-End to Video	`model`, `images` (2 кадра), `prompt`, `resolution`	`task_id`, `state`, `credits`, `video_url`

Каждая задача возвращает task_id и state, а финальный video_url становится доступен после обработки.

Видео Q3 работают на 24 fps, поддерживают длительность от 1 до 16 секунд (сопоставимо с возможностями Sora 2) и предлагают вывод в 540p, 720p или 1080p ^[2]. Входные изображения ограничены 50 МБ на файл ^[4]^[1].

Эти варианты рабочих процессов формируют payload, который вы отправляете дальше, и следующий раздел разбирает его на аутентификацию и формат запроса.

Аутентификация, структура запроса и настройка APIMart

GccAi

Чтобы генерировать видео Vidu MoE, нужно отправить аутентифицированный JSON-запрос. Тело запроса зависит от режима ввода: только текст, одно изображение или несколько изображений.

Получение учётных данных API и установка заголовков запроса

Сгенерируйте ваш API-ключ на странице управления API-ключами APIMart ^[6]. Сохраните его как APIMART_API_KEY, затем загружайте его во время выполнения с помощью os.environ.get("APIMART_API_KEY") в Python или process.env.APIMART_API_KEY в Node.js.

Включайте эти заголовки в каждый запрос:

Authorization: Bearer YOUR_API_KEY
Content-Type: application/json

Минимальный payload запроса для задачи генерации видео

Стандартный эндпоинт APIMart для генераций Vidu Q3 (MoE) — https://api.apimart.ai/v1/videos/generations ^[6]. API определяет режим по image_urls:

0 URL = text-to-video
1 URL = image-to-video
2 URL = первый-последний кадр

Вот основные поля и когда их использовать ^[6]:

Параметр	Обязательный	По умолчанию	Примечания
`model`	Да	-	`viduq3-pro`, `viduq3-turbo` или `viduq3`
`prompt`	Условно	-	Обязателен для text-to-video; макс. 2 000 символов
`image_urls`	Условно	-	Обязателен для image-to-video (1 URL) или первого-последнего кадра (2 URL)
`duration`	Нет	5 сек	Диапазон: 1–16 секунд
`resolution`	Нет	`720p`	Варианты: `540p`, `720p`, `1080p`
`aspect_ratio`	Нет	`16:9`	Только text-to-video; опускайте при передаче `image_urls`
`audio`	Нет	`true`	Установите `false` для видео без звука
`seed`	Нет	-	Целое число от `-1` до `2^32-1` для воспроизводимости

Одна частая ошибка здесь: не отправляйте aspect_ratio вместе с image_urls. Когда вы включаете изображения, API берёт соотношение сторон из исходного изображения. Если вы всё равно отправите aspect_ratio, запрос вернёт ошибку 400.

Когда payload готов, вы можете отправить задачу и начать опрос результата.

Пример вызова API и шаблон ответа

Пример запроса text-to-video:

curl -X POST https://api.apimart.ai/v1/videos/generations \
  -H "Authorization: Bearer $APIMART_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "viduq3-turbo",
    "prompt": "A product shot of a glass perfume bottle on a marble surface, camera slowly zooms in, soft studio lighting",
    "duration": 5,
    "resolution": "720p",
    "aspect_ratio": "16:9",
    "audio": false
  }'

Успешная отправка возвращает task_id и статус submitted ^[6]:

{
  "code": 200,
  "data": [{
    "status": "submitted",
    "task_id": "task_xxxxxxxxxx"
  }]
}

API работает асинхронно. Это значит, что первый ответ лишь сообщает вам, что задача принята. Используйте task_id, чтобы опрашивать эндпоинт «Get Task Status». Когда задача завершается, ответ включает ссылку(и) на MP4, обычно действительные 7 дней ^[6].

Простой ритм опроса работает хорошо:

Опрашивайте каждые 5 секунд в первые 5 минут
После этого опрашивайте раз в минуту
Продолжайте опрос, пока статус не станет completed

В этот момент скачайте и сохраните возвращённую ссылку(и) на видео.

Далее настройте длительность, разрешение, соотношение сторон и референсные вводы, чтобы контролировать финальное видео. Для проектов, требующих разных кинематографических стилей, вы также можете сравнить возможности Kling V3 для высококлассной видео-генерации.

Рабочий процесс генерации, параметры и контроль вывода

Сквозной процесс: отправка, мониторинг, получение и сохранение результатов

После того как вы отправили задачу, главное продакшен-решение простое: использовать коллбэк или опрашивать статус. В большинстве случаев callback_url — лучший выбор для продакшена. Опрос работает, но он должен быть вашим запасным планом. Когда вы используете коллбэк, API отправляет финальный статус на ваш эндпоинт. Если доставка не удалась, он повторяет до трёх раз ^[3].

Затем задача проходит по фиксированному пути статусов: created → queueing → processing → success или failed ^[3]^[4]. Если задача попадает в failed, ответ включает код ошибки. Логируйте этот код и обрабатывайте его в своём рабочем процессе, чтобы ваша команда могла замечать закономерности и быстрее устранять проблемы.

Когда статус достигает success, скачивайте вывод немедленно и сохраняйте его в надёжное хранилище. Этот шаг важен, потому что URL, размещённые на API, могут истечь ^[9].

Ключевые параметры, влияющие на композицию, движение, длительность и согласованность

Когда задача запущена, несколько параметров формируют то, как выглядит результат, насколько он стабилен от прогона к прогону и сколько кредитов вы тратите.

Параметр	Что контролирует	Эффект на визуал / качество	Влияние на стоимость
`seed`	Рандомизация	Используйте тот же seed с тем же промптом, чтобы воспроизвести похожее движение и композицию	Нет прямого влияния на стоимость ^[3]^[6]
`off_peak`	Планирование задач	Нет визуального эффекта; направляет низкоприоритетные задачи на обработку в непиковые часы	Может снизить расход кредитов; может задержать завершение до 48 часов ^[11]
`audio_type`	Звуковой слой	Выберите `Speech_only`, `Sound-effect_only` или `All` (похоже на поддержку звука в kling-v2-6)	Нет доплаты за стандартные опции звука ^[1]^[4]
`is_rec`	ИИ-улучшение промпта	Улучшает соответствие промпт-изображение, когда ручное промптирование даёт несогласованные результаты	Стоит 10 дополнительных кредитов за задачу ^[1]

Один параметр стоит отслеживать с самого начала: seed. Если вы получили паттерн движения, который вам нравится, запишите это целое число и сохраните его. Тогда, корректируя промпт позже, вы можете переиспользовать тот же seed, чтобы удержать похожую общую композицию вместо того, чтобы начинать с нуля.

Когда использовать только промпты, референсы изображений или и то, и другое

Эти режимы ввода позволяют менять скорость на контроль. Выбирайте тот, который соответствует тому, насколько зафиксировано ваше визуальное направление.

Только промпт (text-to-video): Лучше всего для ранней проработки идей, тестов стиля и экспериментов со сценами до того, как визуальные ассеты финализированы. Используйте viduq3-turbo на 540p или 720p, чтобы снизить стоимость итераций, или сравните с WAN 2.6 как альтернативой с высокой согласованностью ^[7].
Одно изображение (image-to-video): Лучше всего, когда вы хотите анимировать что-то конкретное, например фото продукта, иллюстрацию персонажа или брендовый визуал. Это сильно подходит для e-commerce и маркетинга.
Два изображения (первый-последний кадр): Лучше всего, когда переход должен прийти к заданному результату, например продукт поворачивается на определённый угол или персонаж переходит в заданную позу ^[5].

Если ручное промптирование даёт неравномерные результаты, включите is_rec: true. API сгенерирует оптимизированный промпт из вашего изображения, что может помочь соответствию изображение-промпт, но это добавляет 10 кредитов за задачу ^[1].

Производительность, цены и реальные сценарии интеграции

Vidu MoE API: Model Tiers, Pricing & Performance at a Glance — Vidu MoE API: уровни моделей, цены и производительность с одного взгляда

Как оценивать задержку, надёжность и стоимость за видео

После того как вы зафиксировали формат запроса, следующее, на что стоит посмотреть, — скорость, цена и доля успешных задач. Это асинхронный рабочий процесс, поэтому ваше приложение должно отправить задачу, сохранить task_id и получить финальный MP4 позже через опрос или коллбэк ^[3]^[6].

Задачи обычно проходят по простому пути: в очереди, завершено или провалено. Когда задача проваливается, кредиты часто возвращаются автоматически ^[3]^[10]. Это важно в продакшене, потому что повторы — часть процесса, а не какой-то крайний случай.

Что касается времени обработки, генерации 720p обычно завершаются за 60–120 секунд. Для 1080p ожидайте скорее 90–180 секунд. Время в очереди часто составляет 15–30 секунд в непиковые часы, тогда как пиковая задержка p95 может растягиваться примерно до 4 минут ^[7]. Так что да, это может хорошо работать в продакшене — но только если ваша система построена так, чтобы чисто обрабатывать асинхронное завершение.

По ценам, ставка Pro ставит 5-секундный клип на $0.60 и 12-секундный клип на $1.44 ^[10]. На практике большинству команд стоит закладывать бюджет на 2–3 попытки на каждый утверждённый ассет. Это ставит финальную стоимость пригодного клипа в диапазон $1.20–$4.32 в зависимости от длины ^[10]. Если вы в режиме тестирования, viduq3-turbo стоит примерно вдвое дешевле Pro и больше подходит для быстрых итераций. Pro лучше приберечь для финальных рендеров ^[10].

Уровень объёма	Видео в месяц	Средняя длительность	Базовая месячная стоимость (USD)
Лёгкий	50	12s	$72.00
Средний	200	12s	$288.00
Тяжёлый	500	12s	$720.00

Эти числа покрывают только базовую генерацию. Они не включают повторы. Если ваша команда ожидает несколько проходов — а большинство ожидает — умножьте итоги на 2–3 для бюджета, который ближе к повседневному продакшену.

Сценарии использования: маркетинговые видео, обучающие клипы и e-commerce визуалы продуктов

Когда стоимость и время ожидания ясны, следующий шаг — выбор правильного режима ввода для ассета, который вам нужно выпустить. Лучший выбор в основном сводится к одному: сколько визуального контроля у вас уже есть.

Сценарий	Рекомендуемый тип ввода	Ожидания от вывода	Операционные заметки
Маркетинговые креативы	Reference-to-Video	Согласованные брендовые аватары или маскоты в разных клипах	Передавайте референсы персонажа и фона вместе для визуальной согласованности.
E-Commerce визуалы	Image-to-Video	Согласованный внешний вид продукта	Начните с одного качественного каталожного изображения; качество вывода следует за входным кадром.
Обучающие клипы	Первый-последний кадр	Плавные переходы между состояниями	Предоставьте начальное и конечное изображение, чтобы направить движение.
Реклама в соцсетях	Text-to-Video	Вертикальные (9:16) или квадратные (1:1) клипы	Используйте короткие вертикальные или квадратные промпты для быстрых вариантов рекламы.

Простой способ об этом думать:

Если важна согласованность бренда, используйте Reference-to-Video
Если исходное изображение уже выглядит хорошо, используйте Image-to-Video
Если вам нужно движение между двумя состояниями, используйте First-Last Frame
Если вы хотите много вариантов рекламы быстро, используйте Text-to-Video или рассмотрите MiniMax Hailuo 2.3 для профессиональных выводов с высокой согласованностью.

Для команд, которые пытаются сократить время монтажа, нативный звук меняет рабочий процесс больше всего. Нативный звук убирает отдельную работу по подбору и монтажу ^[8], что может устранить дополнительные шаги пост-продакшена для команд, желающих получить готовый клип из одного прохода генерации. Именно здесь модель становится наиболее полезной: когда цель — приблизиться к готовому к выпуску ассету без прогона файла через долгую цепочку передач.

Заключение: как решить, подходит ли Vidu MoE вашему продакшен-процессу

Vidu MoE имеет смысл, когда вам нужны короткие клипы до 12–16 секунд, несколько режимов ввода и нативный звук в асинхронной API-схеме. Параметр seed может помочь удержать повторяемые задачи движущимися примерно в одном направлении, но вам не стоит ожидать, что одинаковые входы дадут побитно совпадающие выводы ^[6]^[10]. Проваленные задачи также обычно вызывают автоматический возврат кредитов ^[3]^[10].

Это подходит командам, которые производят короткие видео в масштабе, могут подождать несколько минут результата и имеют место в бюджете для повторов. Если это похоже на ваш рабочий процесс, APIMart даёт вам аккуратный способ прогонять маркетинговые креативы, визуалы продуктов и объясняющий контент через один API-интерфейс.

Частые вопросы

Какую модель Vidu MoE использовать первой?

Для большинства разработчиков viduq3-turbo — лучшее место для старта. Она даёт вам самые быстрые скорости генерации, сильное соотношение цена-производительность и продвинутые возможности вроде аудиовизуальной синхронизации и интеллектуального переключения сцен.

Выбирайте viduq3-pro, если хотите самый полный набор возможностей. Он включает генерацию раскадровки и аудиовизуальное выравнивание высшего качества. Обе модели поддерживают видео от 1 до 16 секунд и разрешения до 1080p.

Как мне обрабатывать проваленные или задержанные видео-задачи?

Используйте task ID в своём асинхронном рабочем процессе.

Для задач, которые занимают больше времени, либо время от времени опрашивайте API статуса, либо задайте callback URL, чтобы получить уведомление, когда задача достигнет терминального состояния.

Если задача проваливается, проверьте коллбэк или ответ статуса на детали ошибки.

Для стабильности в продакшене используйте экспоненциальную выдержку (backoff) при опросе, чтобы не натолкнуться на лимиты запросов.

Непиковые задачи, выполняющиеся дольше 48 часов, отменяются автоматически, и баллы возвращаются.

Какой режим ввода даёт больше всего контроля?

Multi-Frame Generation даёт вам больше всего контроля над тем, как видео движется от одного момента к следующему. Вместо опоры на один промпт или схему из двух кадров вы можете расписать последовательность до 9 ключевых кадров.

Этот дополнительный контроль важен. Для каждого перехода вы можете добавить конкретное изображение и кастомный промпт, так что визуальная история следует по пути, который вы хотите, кадр за кадром.

Чтобы использовать это, отправьте свои изображения и промпты на эндпоинт multiframe в массиве image_settings.

Готовы попробовать?