Руководство по ценам на LLM — сравнение 500+ AI-моделей

Сравните цены на LLM и медиа-API по 500+ моделям от OpenAI, Anthropic, Google, Meta, xAI, Mistral и других — по стоимости токенов, изображений и видео.

Обзор модели

Расходы на AI могут быстро вырасти: компании в США сейчас тратят в среднем $85,500 в месяц на AI. Мой главный вывод прост: самая дешёвая на бумаге модель не всегда оказывается вариантом с самыми низкими затратами, если учесть длину вывода, размер контекста, повторные попытки, плату за инструменты и лимиты тарифов.

Если бы я выбирал по этому руководству, я бы в первую очередь смотрел на четыре вещи:

Цена за единицу: токены, изображения или секунды видео
Лимиты: RPM, TPM, окна контекста и ограничения тарифов
Модальность: поддержка текста, изображений, аудио, видео и зрения
Стоимость готового вывода: а не просто ценник

В статье сравниваются APIMart, OpenAI, Anthropic, Google AI, Meta, xAI, Mistral, Cohere, Runway, Stability AI, Black Forest Labsи Kling AI.

Выделяется несколько чётких закономерностей:

Цены на текст сильно различаются. У OpenAI диапазон составляет от $0.05 до $30.00 за 1M входных токенов.
Вывод часто намного дороже ввода. В некоторых случаях вывод обходится в 4–6 раз дороже.
Длинный контекст может изменить счёт. OpenAI добавляет более высокую цену после 270,000 токенов, а Google меняет ставки выше 200,000 токенов.
Пакетные задания могут снизить затраты. OpenAI, Anthropic и Mistral указывают скидки 50% за асинхронную обработку.
Затраты на видео растут с повторными попытками. Дешёвая ставка за секунду всё равно может обернуться гораздо более высокой стоимостью готового клипа.
Единый биллинг важен для команд, использующих много форматов. Идея APIMart — один API и один счёт на 500+ моделей.

Если нужна короткая версия:
используйте бюджетные модели для больших объёмов текста, модели среднего уровня для продакшн-приложений, премиальные модели только тогда, когда качество вывода влияет на бизнес-результаты, и создавайте черновики видео в низком разрешении, прежде чем платить за финальный рендер.

Что такое токены LLM и цены на API? (Для начинающих)

Быстрое сравнение

Сравнение цен на AI-модели: стоимость за 1M токенов по провайдерам (2026)

Провайдер	Главное преимущество	На что обратить внимание	Кому подходит
APIMart	Один API для 500+ моделей текста, изображений, видео и аудио	Затраты на использование всё равно растут с объёмом	Команды, которым нужен единый биллинг
OpenAI	Широкий выбор моделей и понятные цены на токены и советы по затратам	Топовые модели быстро дорожают	Универсальный текст, изображения, аудио, видео
Anthropic	Сильны в кодинге и длинном контексте	Высокие ставки за вывод	Агенты, кодинг, длинные промпты
Google AI	Недорогие варианты Flash и большой контекст	Более высокие ставки выше 200K токенов	Приложения с большим объёмом текста и мультимодальные
Meta	Очень низкие цены на Llama при хостинге или self-hosting	Цены и лимиты зависят от хоста	Команды, ориентированные на затраты, с возможностями хостинга
xAI	Меньший разрыв между ценой ввода и вывода	Вызовы инструментов добавляют доплаты	Приложения с длинными ответами и инструментами
Mistral	Низкие цены на токены и скидки за пакеты	Некоторые инструменты стоят дополнительно	Утилитарный текст, кодинг, использование в ЕС
Cohere	Хорошо подходит для RAG, эмбеддингов и реранка	Меньше подходит для генерации медиа	Поиск, извлечение, базы знаний
Runway	Платформа для видео с понятной кредитной математикой	Повторы могут повышать итоговую стоимость	Создание и редактирование видео
Stability AI	Низкие цены на изображения и инструменты редактирования	Более узкая специализация, чем у текстовых вендоров	Большие объёмы работы с изображениями и аудио
Black Forest Labs	Точное ценообразование за изображения по размеру	Затраты растут с повторами и референсами	Генерация и редактирование изображений
Kling AI	Недорогая генерация коротких видео	Ограничения по длине клипа и параллелизму	Короткие видео

Итак, прежде чем сравнивать цены построчно, я бы начал с одного вопроса: За что я плачу больше всего — за токены, изображения, секунды или повторы?

1. APIMart

GccAi

APIMart использует биллинг по факту использования без ежемесячных минимумов и без скрытых комиссий. Цены зависят от модальности, поэтому текст, изображения, видео и аудио тарифицируются по-разному.

Цены за единицу

Цены различаются по модальности, как показано в таблице ниже.

Модальность	Единица тарификации	Пример модели	Цена APIMart
Текст	За 1M токенов	Qwen2.5-VL-72B	$20.00
Изображение	За вызов	GPT Image 2	$0.006
Изображение	За вызов	Wan 2.7 Image	$0.0216
Видео	За секунду	Sora 2	$0.08
Видео	За секунду	Kling V3 (720p)	$0.0672

Стоимость генерации изображений может сильно меняться в зависимости от уровня качества. Например, вызов GPT-Image-2-Official 1024×1024 стоит около $0.00488 при низком качестве, $0.04232 при среднем и $0.16872 при высоком. Этот разрыв быстро накапливается. Если топовое качество вывода не требуется, использование более низкого уровня может сократить расходы на вызов.

Включённые лимиты

Аккаунты по умолчанию поставляются с лимитами RPM и TPM. Корпоративные аккаунты могут запросить каналы с более высокой пропускной способностью.

Охват моделей

APIMart поддерживает модели текста, изображений, видео и аудио через один API. Сюда входят такие модели, как GPT-5, Claude, Sora 2, Midjourney и Kling V3.

Стоимость на вывод

Главный плюс здесь — консолидированный биллинг по всем модальностям. Вместо того чтобы жонглировать отдельными счетами за текст, изображения и видео, вы получаете единую настройку, которая упрощает контроль расходов.

Далее в руководстве сравнивается, как основные провайдеры структурируют цены на модели текста, изображений и видео.

2. OpenAI

OpenAI

OpenAI использует ценовую модель оплаты за токен для текста. И разрыв между моделями огромен.

По состоянию на июнь 2026 года цены начинаются от $0.05 за 1M входных токенов для GPT-5 nano и доходят до $30.00 за 1M входных токенов для GPT-5.5 Pro ^[3]^[5]. Проще всего читать цены OpenAI по уровню модели, потому что ставки на ввод, вывод и кэшированные токены могут сильно различаться от модели к модели.

Цены за единицу

Модель	Ввод (за 1M)	Кэшированный ввод	Вывод (за 1M)
GPT-5.5 Pro	$30.00	-	$180.00
GPT-5.5 (Standard)	$5.00	$0.50	$30.00
GPT-5.4	$2.50	$0.25	$15.00
GPT-5.4 mini	$0.75	$0.075	$4.50
GPT-5.4 nano	$0.20	$0.02	$1.25
GPT-5 nano	$0.05	$0.005	$0.40

По моделям OpenAI выходные токены стоят в 4–6 раз дороже, чем входные ^[6]. Это очень важно, когда ваше приложение выдаёт длинные ответы, резюме или ответы в стиле агента. OpenAI также предлагает уровни Batch и Flex с фиксированной скидкой 50% на все модели, поэтому ввод GPT-5.5 падает с $5.00 до $2.50 за 1M токенов ^[5].

Затраты снова могут вырасти, когда использование длинного контекста попадает под доплаты.

Включённые лимиты

OpenAI удваивает ставки как на ввод, так и на вывод, как только общий контекст превышает 270,000 токенов ^[3]^[5]. Если вы работаете с обзором длинных документов или многоходовыми агентскими циклами, скользящее резюмирование — один из самых простых способов оставаться ниже этой границы.

OpenAI использует ту же схему ценообразования и для моделей изображений, аудио и видео.

Охват моделей

OpenAI тарифицирует генерацию изображений, аудио и видео отдельно. Sora-2 стоит $0.10 за секунду для видео 720p, тогда как Sora-2-pro в 1080p стоит $0.70 за секунду по стандартной ставке ^[5].

Для других медиа:

Цены на изображения варьируются от $2.50 до $8.00 за 1M токенов
Транскрипция Whisper стоит $0.006 за минуту
TTS (tts-1) стоит $0.015 за 1,000 символов ^[3]^[4]

Стоимость на вывод

Один из самых быстрых способов сократить расходы прост: отправляйте менее ценную работу более дешёвым моделям. Обработка 10,000 обращений в поддержку стоит около $16 с GPT-4.1, $3.20 с GPT-4.1 mini и $0.80 с GPT-4.1 nano ^[4].

3. Anthropic

Anthropic

Anthropic делит свою линейку Claude API на четыре ценовых уровня: Frontier/Research (Claude Fable 5 / Mythos 5), Flagship (Claude Opus 4.5–4.8), Mid-tier (Claude Sonnet 4.5–4.6) и Budget (Claude Haiku 4.5) ^[9]^[10]. Закономерность довольно очевидна. По мере продвижения вверх по уровням вы получаете больше глубины рассуждений и лучший вывод, но и счёт тоже быстро растёт. Для большинства покупателей выбор сводится к следующему: Haiku — недорогой вариант, Sonnet — золотая середина, а Opus/Fable созданы для более тяжёлых задач.

Цены за единицу

Anthropic тарифицирует выходные токены в 5 раз выше ставки ввода по всей текущей линейке уровней ^[7]^[6]. Цены ниже указаны в USD за 1 миллион токенов ^[13]^[15].

Модель	Ввод (за 1M)	Чтение кэша (за 1M)	Вывод (за 1M)
Claude Fable 5 / Mythos 5	$10.00	$1.00	$50.00
Claude Opus 4.8	$5.00	$0.50	$25.00
Claude Sonnet 4.6	$3.00	$0.30	$15.00
Claude Haiku 4.5	$1.00	$0.10	$5.00

Кэширование промптов может сократить затраты, когда вы снова и снова переиспользуете один и тот же префикс. Запись в кэш стоит 1.25x от базовой ставки ввода при TTL 5 минут или 2x при TTL 1 час. Чтение из кэша стоит 10% от стандартного ввода. На практике кэширование начинает иметь смысл после четырёх и более использований одного и того же префикса ^[3]^[9]^[12].

Включённые лимиты

Большинство текущих флагманских моделей и моделей среднего уровня Anthropic — включая Fable 5, Mythos 5, Opus 4.6–4.8 и Sonnet 4.6 — поставляются с окном контекста 1M токенов по стандартной цене ^[9]^[11]. Claude Haiku 4.5 доходит до 200,000 токенов. Лимиты запросов следуют многоуровневой схеме, от Tier 1 до Enterprise, с ограничениями RPM и TPM, заданными тарифом ^[13]^[15].

Охват моделей

Модели Anthropic обрабатывают текстовые и визуальные входные данные, а Computer Use добавляет дополнительный расход токенов. Некоторые надстройки тарифицируются отдельно:

Веб-поиск стоит $10 за 1,000 поисков
Managed Agents стоят $0.08 за активный час сессии, плюс плата за токены

Batch API сокращает затраты на токены на 50% для асинхронных заданий со сроком выполнения 24 часа ^[8]^[9]^[11].

Стоимость на вывод

Вот где ценообразование становится практичным: какой уровень остаётся экономичным для повторяющихся задач, работы с длинным контекстом и агентских потоков?

Часовая сессия кодинга на Claude Opus 4.8 с использованием 50,000 входных токенов, из которых 40,000 — чтение из кэша, и 15,000 выходных токенов стоит около $0.525, включая комиссию за сессию агента $0.08 ^[9]^[12]. Это даёт неплохое представление о том, как ведут себя цены Anthropic в реальном использовании, а не только в ценовой таблице.

Для продакшн-задач вроде ассистентов кодинга и многошаговых агентов Claude Sonnet 4.6 обычно предлагает лучший баланс между стоимостью и возможностями ^[6]^[3].

Далее сравним цены Google AI по текстовым и мультимодальным моделям Gemini.

4. Google AI

Google AI

Google тарифицирует свои модели в зависимости от выбранной модели и размера окна контекста. Одно правило ценообразования важно сразу: держите промпты ниже 200,000 токенов, если хотите избежать более высокой ставки ^[14]^[3].

Цены за единицу

Модель	Ввод (за 1M)	Вывод (за 1M)	Окно контекста
Gemini 3.1 Pro (≤200K)	$2.00	$12.00	1M–2M
Gemini 3.1 Pro (>200K)	$4.00	$18.00	1M–2M
Gemini 2.5 Pro (≤200K)	$1.25	$10.00	2M
Gemini 3.5 Flash	$1.50	$9.00	1M
Gemini 3 Flash	$0.50	$3.00	1M
Gemini 2.5 Flash	$0.30	$2.50	1M
Gemini 3.1 Flash-Lite	$0.25	$1.50	1M
Gemini 2.5 Flash-Lite	$0.10	$0.40	1M
Gemini 3 4B	$0.04	$0.08	131K

Для генерации изображений Imagen 4 Fast начинается от $0.01–$0.02 за изображение, тогда как Imagen 4 Ultra стоит $0.06 за изображение. Видео Veo 3.1 тарифицируется посекундно. Standard работает по $0.40 за секунду для 720p и 1080p, а Light — по $0.05–$0.08 за секунду ^[17].

Включённые лимиты

Цена модели — лишь часть истории. Лимиты пропускной способности и настройки данных могут сильно изменить ваши общие расходы.

Главный компромисс Google довольно очевиден: низкая цена модели с одной стороны и лимиты пропускной способности плюс ограничения на данные с другой. В Google AI Studio бесплатный уровень даёт около 15 RPM, бесплатные токены и использование данных для улучшения продукта. Платный уровень поднимает до примерно 1,000–2,000 RPM, отключает использование данных для улучшения продукта и добавляет кэширование контекста плюс Batch API. Корпоративные тарифы добавляют выделенную пропускную способность, объёмные скидки и функции соответствия требованиям ^[17]^[18].

Кэширование контекста — один из самых больших рычагов затрат здесь. Запись в кэш бесплатна, а чтение из него стоит 25% от стандартной ставки ввода ^[18].

Охват моделей

Линейка Google охватывает текстовые, мультимодальные, графические и видеомодели. Она также поддерживает ввод изображений, начиная от $0.0025 за изображение ^[3].

Стоимость на вывод

Для чат-ботов, резюмирования и классификации Gemini 2.5 Flash или Gemini 3.1 Flash-Lite обычно имеют наибольший смысл. Они дешевле и хорошо подходят для многих повседневных нагрузок. Приберегите Gemini 3.1 Pro для случаев, когда вам нужно большее окно контекста, и используйте скользящее резюмирование, чтобы оставаться ниже порога в 200,000 токенов ^[3]^[6].

Есть также простой ценовой аспект, который стоит отметить. При $2.00 за 1M входных токенов Gemini 3.1 Pro дешевле флагманских моделей вроде GPT-5.5 ($5.00) и Claude Opus 4.8 ($5.00) для промптов стандартной длины ^[2].

Далее сравним цены и охват моделей Meta.

5. Meta

Meta работает немного иначе, чем провайдеры закрытых моделей выше. Её модели Llama имеют открытые веса, поэтому ваши затраты зависят от того, где вы их размещаете или используете. На практике это означает, что одна и та же модель может иметь очень разные цены у разных провайдеров. Например, Llama 3.3 70B указывалась по цене всего $0.10 за 1M входных токенов. Meta также не публикует собственный прайс-лист API, поэтому цены могут так сильно колебаться между хостами ^[1]^[19]^[20].

Цены за единицу

Текущее ценообразование сосредоточено на Llama 4 Scout и Llama 4 Maverick ^[21]^[22].

Модель	Ввод (за 1M)	Вывод (за 1M)	Окно контекста
Llama 4 Scout	$0.08 – $0.17	$0.15 – $0.66	До 10,000,000 токенов
Llama 4 Maverick	$0.15 – $0.24	$0.60 – $0.97	1,000,000 токенов
Llama 3.3 70B	$0.10 – $0.72	$0.32 – $0.72	128K – 131K токенов
Llama 3.2 1B Instruct	$0.01 – $0.02	$0.01 – $0.02	60K – 131K токенов
Llama 3.1 405B Instruct	$0.90 – $3.00	$0.90 – $3.00	128K – 131K токенов

Этот низкий ценник отлично выглядит на бумаге. Но он помогает только в том случае, если лимиты контекста и пропускной способности хоста соответствуют вашей нагрузке.

Включённые лимиты

Нет единого стандартного тарифа Meta с общими лимитами запросов или встроенным бесплатным уровнем. Хосты устанавливают собственные лимиты пропускной способности, ограничения контекста и правила кэширования. Поэтому если вы планируете работу с длинным контекстом на Llama 4 Scout, сначала проверьте потолок контекста хоста, а не предполагайте, что получите весь заявленный диапазон.

Охват моделей

Llama 4 Scout и Llama 4 Maverick обе поддерживают текстовый и визуальный ввод, плюс вызов инструментов и режим JSON у основных провайдеров ^[21]^[22]. Более старые варианты тоже имеют своё место. Llama 3.2 11B Vision всё ещё может справляться с задачами с большим объёмом зрения, тогда как Llama 3.2 1B Instruct нацелена на развёртывания на периферии, где важнее всего низкая задержка и экономное использование вычислений ^[21]^[22].

Стоимость на вывод

Если вы выполняете задачи большого объёма с длинными промптами, Scout выделяется. Задача кодинга с 40K входных и 8K выходных токенов стоит около $0.005 за задачу, что составляет примерно 200 задач за $1. Та же задача на GPT-5.5 стоит около $0.44, или всего 2.3 задачи за $1 ^[6].

Для клиентских задач или мультимодальной работы Llama 4 Maverick обычно подходит лучше. Она превосходит GPT-4o в бенчмарках, стоя при этом гораздо меньше по цене ввода: $0.15/M ввод против $2.50/M ввод ^[6]. Её меньший разрыв между ценой ввода и вывода также делает её хорошим выбором, когда вы ожидаете более длинные ответы.

Далее сравним цены и охват моделей xAI.

6. xAI

xAI

xAI держит цены на ввод и вывод низкими, что помогает, когда ответы становятся длинными. Grok 4.3 берёт $1.25 за 1 миллион входных токенов и $2.50 за 1 миллион выходных токенов. Этот разрыв в 2x имеет значение, когда модель много пишет вам в ответ ^[6]^[24].

Цены за единицу

Модель	Ввод (за 1M)	Кэшированный ввод	Вывод (за 1M)	Окно контекста
Grok 4.3 (Flagship)	$1.25	$0.20	$2.50	1M токенов
Grok 4.20 (Reasoning)	$1.25	$0.20	$2.50	2M токенов
Grok Build 0.1 (Coding)	$1.00	$0.20	$2.00	256K токенов
Grok 4.1 Fast (Budget)	$0.20	$0.05	$0.50	2M токенов

Для работы с изображениями Grok Imagine 1.5 Edit стоит $0.01875 за вызов ^[23]. Генерация видео через Imagine API идёт от $0.08 до $0.25 за секунду в зависимости от разрешения ^[24].

Включённые лимиты

xAI использует биллинг по факту использования с лимитами запросов на основе потребления. Корпоративные тарифы могут добавить кастомные лимиты запросов и выделенную инфраструктуру ^[25]^[26].

Есть одна вещь, за которой стоит следить: использование инструментов может быстро набежать. Поиск и выполнение кода тарифицируются отдельно, поэтому низкая цена за токен не всегда означает низкий итоговый счёт. Web Search, X Search и Code Execution каждый стоят $5.00 за 1,000 вызовов ^[24].

Если ваши задачи не срочны, Batch API может сократить затраты на 20–50% для задач, обрабатываемых в течение 24 часов ^[24].

Охват моделей

xAI покрывает сценарии использования текста, изображений и видео ^[24]^[16]. Grok 4.20 создан для более быстрого использования инструментов, а Grok Build 0.1 нацелен на работу с большим объёмом кодинга ^[6]^[2].

Стоимость на вывод

Для стандартной задачи кодинга с 40K входных токенов и 8K выходных токенов Grok 4.3 стоит около $0.07 за задачу. Это составляет примерно 14 задач за $1 ^[6].

Далее в руководстве сравнивается ценовая структура другого провайдера, или вы можете использовать единый LLM API для доступа к этим моделям через одну интеграцию.

7. Mistral AI

Mistral AI

Mistral Large 3 стоит $0.50 за 1M входных токенов и $1.50 за 1M выходных токенов. Это ставит его в лагерь недорогих флагманов. Заголовочные ставки выглядят сильно, но итоговый счёт может измениться, как только вы учтёте плату за инструменты и биллинговые уровни Mistral.

Вот текущая линейка.

Цены за единицу

Модель	Ввод (за 1M)	Кэшированный ввод	Вывод (за 1M)
Mistral Large 3 (Flagship)	$0.50	$0.05	$1.50
Mistral Medium 3.5 (Balanced)	$1.50	-	$7.50
Mistral Small 4 (Efficient)	$0.10	$0.01	$0.30
Magistral Medium (Reasoning)	$2.00	-	$5.00
Codestral (Coding)	$0.30	$0.03	$0.90
Devstral 2 (Coding)	$0.40	$0.04	$2.00
Pixtral Large (Multimodal)	$2.00	-	$6.00

Mistral также берёт отдельную плату за OCR по $4.00 за 1,000 страниц, эмбеддинги по $0.10 за 1M токенов, а веб-поиск плюс выполнение кода по $30 за 1,000 вызовов ^[27].

Включённые лимиты

Mistral использует биллинг по факту использования с четырьмя уровнями лимитов запросов, которые открываются при $20, $100 и $500 накопленных расходов ^[31]. Тариф Team поставляется с минимальным обязательством в $50 в месяц ^[27].

Здесь есть два рычага, которые могут быстро сократить затраты:

Batch API снижает цены на все модели на 50% для асинхронных заданий ^[27]^[31].
Кэширование промптов может снизить затраты на кэшированные токены до 90%, когда общий префикс имеет длину не менее 64 токенов ^[31].

Эти правила ценообразования важнее всего, когда вы выполняете нагрузки большого объёма или асинхронные нагрузки.

Охват моделей

Mistral покрывает сценарии текста, рассуждений, кодинга, мультимодальности и периферии. Codestral поддерживает fill-in-the-middle (FIM), что делает его хорошим выбором для рабочих процессов в IDE. Серия Ministral — 3B, 8B и 14B — нацелена на недорогие или локальные развёртывания ^[30]^[32].

Mistral также предлагает эндпоинты с хостингом в ЕС и обработку данных, дружественную к GDPR, без дополнительной платы ^[29]^[31].

Стоимость на вывод

Для утилитарной работы большого объёма вроде извлечения сущностей, классификации и резюмирования Mistral Small 4 — самый сильный выбор ^[28]^[31]. Если вам нужно больше мощности рассуждений, но вы всё же хотите низкие цены на токены, Mistral Large 3 имеет больше смысла ^[28]^[31].

Для задач с большим объёмом рассуждений Magistral Medium стоит $5.00 за 1M выходных токенов и на 37% дешевле по выводу, чем o3 от OpenAI ^[29].

Далее сравним цены Cohere для корпоративных текстовых нагрузок и нагрузок извлечения.

8. Cohere

Cohere

Cohere создан в основном для извлечения и корпоративного поиска. Его цены это отражают: недорогие варианты для работы с извлечением с большим объёмом текста и более дорогие модели для мультимодальных или более требовательных задач.

Цены за единицу

Cohere делит свою линейку на три корзины: недорогие модели извлечения, корпоративные мультимодальные модели и отдельные инструменты для эмбеддингов и реранжирования.

Модель	Ввод (за 1M)	Вывод (за 1M)	Окно контекста
Command R7B	$0.0375	$0.15	128K
Command R	$0.15	$0.60	128K
Command R+	$2.50	$10.00	128K
Command A (Multimodal)	$2.50	$10.00	256K
Aya Expanse (8B/32B)	$0.50	$1.50	128K
Embed v3	$0.10	-	-
Rerank v3	$2.00	-	-

Rerank тарифицируется с использованием поисковых единиц: один запрос плюс до 100 документов. Если фрагменты превышают 500 токенов, они считаются отдельно ^[33]^[35].

Включённые лимиты

Cohere даёт вам бесплатные пробные ключи для тестирования с лимитом 1,000 вызовов в месяц и 20 RPM ^[37]. Продакшн-ключи используют цены по факту использования, с до 500 RPM для стандартных моделей. Биллинг происходит в конце месяца или когда ваш баланс достигает $250 ^[33]^[37].

Некоторые топовые модели Cohere требуют одобрения отдела продаж перед полным продакшн-использованием. Сюда входят Command A+, A Reasoning и A Vision. Пока не будет получено это одобрение, самообслуживаемый доступ остаётся на лимитах пробного уровня ^[37].

Если вашей команде нужна выделенная пропускная способность, Cohere также предлагает Model Vault. Цены начинаются от $2,500 в месяц за инстанс Embed 4 Small ^[33].

Охват моделей

Cohere подходит для текстовых корпоративных рабочих процессов, а не для генерации медиа.

Компания строит свою линейку вокруг текста, извлечения и корпоративного поиска, а не генерации изображений или видео. Главное исключение — Command A, которая поддерживает ввод изображений и мультимодальные задачи. Она также поставляется с окном контекста 256,000 токенов — самым большим в линейке Cohere ^[34]^[36].

Aya Expanse поддерживает 49 языков, что делает её надёжным выбором для глобальных развёртываний ^[37].

Стоимость на вывод

Если вы строите RAG-пайплайны, низкая цена ввода Cohere — главная приманка. Эти рабочие процессы обычно сжигают гораздо больше входных токенов, чем выходных, поэтому Command R по $0.15 за 1M входных токенов помогает не давать промптам с большим объёмом документов становиться слишком дорогими.

Простой пример проясняет разрыв: запуск 100,000 взаимодействий чат-бота поддержки на Command R стоит около $123 в месяц, тогда как тот же объём на Command R+ выходит примерно в $2,050 в месяц ^[39].

Для чистой классификации и резюмирования в масштабе Command R7B — самый недорогой вариант в линейке ^[34]^[38].

Практичный способ подумать об этом:

Используйте Command R7B для классификации и резюмирования большого объёма.
Используйте Command R для RAG и чат-ботов.
Используйте Command R+ только тогда, когда вам нужна дополнительная мощность модели.

Далее сравним цены Runway или изучите альтернативы для кинематографической AI-генерации видео.

9. Runway

Runway

Runway построен вокруг видео, поэтому его цены привязаны к сгенерированным или отредактированным секундам. Он использует кредитную систему для работы с видео и изображениями. Кредиты вы получаете через подписку или покупая пакеты пополнения по $0.01 за кредит с минимумом $10. API-кредиты тарифицируются отдельно. Главное, за чем нужно следить, — как меняется расход кредитов от одной модели к другой.

Цены за единицу

Модель	Ставка API (кредиты/сек)	Стоимость USD/сек
Gen-4.5 (Flagship)	12 /sec	$0.12
Gen-4 Video	12 /sec	$0.12
Gen-4 Turbo	5 /sec	$0.05
Aleph 2.0 (Video Editing)	28 /sec	$0.28
Act-Two (Animation)	5 /sec	$0.05
Gen-4 Image (1080p)	8 /img	$0.08

Включённые лимиты

На годовых тарифах ^[40]^[43] Runway включает следующие ежемесячные лимиты кредитов:

Тариф	Ежемесячная стоимость (годовая)	Кредиты/месяц	Перенос
Free	$0	125 (единоразово)	Нет
Standard	$12	625	Нет
Pro	$28	2,250	Нет
Max	$76	9,500	1 месяц

Тариф Free включает водяные знаки и не разрешает коммерческое использование. Платные тарифы снимают оба ограничения ^[40]^[44]. Кредиты Standard и Pro не переносятся, а неиспользованные кредиты сгорают в течение 24 часов после следующей даты биллинга ^[40]^[43]^[46]. Только Max даёт вам один месяц переноса ^[40]^[43]^[46].

Охват моделей

Runway покрывает текст-в-видео, изображение-в-видео, редактирование видео, текст-в-изображение, изображение-в-изображение, плюс инструменты аудио и постобработки ^[42]. Этот диапазон даёт ему больший охват, чем у инструмента, который делает только генерацию. Но цена сама по себе не рассказывает всю историю. Качество вывода меняет то, сколько вы в итоге платите на практике.

Стоимость на вывод

Вот где всё становится дороже, чем кажется на первый взгляд. Повторы быстро набегают. Большинство готовых клипов требуют 3–5 генераций, что поднимает Gen-4.5 до примерно $0.50–$0.80 за готовую секунду ^[43]^[44]^[47].

Распространённый способ держать расходы под контролем — использовать Gen-4 Turbo по $0.05/сек для черновиков и концепт-тестов, а затем переходить на Gen-4.5 по $0.12/сек для финальных рендеров ^[41]^[45]. Такая схема имеет смысл, если вы не хотите жечь премиальные кредиты, пока всё ещё разбираетесь с движением, кадрированием или таймингом.

Есть также жёсткий потолок на тарифах более низкого уровня. 625 кредитов Standard покрывают только около 52 секунд видео Gen-4.5 в месяц ^[40]^[44]. Этого достаточно для горстки отполированных клипов, но не хватит для устойчивого продакшн-процесса.

В качестве альтернативы вы можете изучить MiniMax Hailuo 2.3 для генерации видео с высокой согласованностью. Далее сравним цены на изображения и видео от Stability AI.

10. Stability AI

Stability AI

Stability AI выделяется в рабочих процессах с изображениями и аудио, где цена за актив часто важнее ежемесячного тарифа. Он использует кредитную систему, и 1 кредит = $0.01. Новые пользователи получают 25 бесплатных кредитов, чего достаточно примерно на 3 флагманские генерации или 8 изображений SD 3.5 Large. Доступ к API также включает права на коммерческое использование ^[48].

Вот цены по услугам.

Цены за единицу

Услуга	Кредиты	USD
Stable Image Ultra	8	$0.08
Stable Diffusion 3.5 Large	6.5	$0.065
Stable Diffusion 3.5 Large Turbo	4	$0.04
Stable Image Core	3	$0.03
Stable Diffusion 3.5 Flash	2.5	$0.025
SDXL 1.0	От 0.9	От $0.009
Replace Background & Relight	8	$0.08
Erase / Inpaint / Remove Background	5	$0.05
Creative Upscaler (до 4K)	60	$0.60
Fast Upscaler	2	$0.02
Stable Fast 3D	10	$0.10
Stable Audio 3.0 (до 6 мин)	26	$0.26

Включённые лимиты

Цены на API — по факту использования, с индивидуальным ценообразованием и оптовыми скидками для команд с большим объёмом ^[49].

Охват моделей

Stability AI покрывает текст-в-изображение, редактирование изображений, генерацию 3D-ассетов и генерацию аудио ^[48]. Проще говоря, он создан для продакшн-работы. Вы можете генерировать изображения, редактировать их, превращать ассеты в 3D-выводы и создавать аудиоклипы, не переключаясь между кучей инструментов.

Набор для редактирования включает аутпейнтинг, замену фона, релайтинг и перенос стиля ^[48]. Stable Fast 3D обрабатывает генерацию 3D-ассетов, а Stable Audio 3.0 поддерживает аудиоклипы длиной до шести минут ^[48]. Так что это меньше про чат и больше про то, чтобы выполнять медиа-работу.

Этот разрыв в ценах проявляется больше всего, когда вы работаете в масштабе, особенно с задачами редактирования и апскейлинга.

Стоимость на вывод

Creative Upscaler стоит 60 кредитов ($0.60) за изображение. Это в 30 раз дороже, чем Fast Upscaler, который стоит 2 кредита ($0.02). Так что если ваша главная цель — простое увеличение разрешения, Fast Upscaler — более дешёвый выбор ^[48].

Stable Image Core выходит примерно в $30/месяц за 1,000 изображений ^[48]. А если вы масштабируетесь до 10,000 изображений/месяц с SD 3.5 Large, стоимость выходит около $650 ^[48].

Вы также можете генерировать и редактировать изображения, используя другие высокопроизводительные модели. Далее сравним цены на изображения от Black Forest Labs.

11. Black Forest Labs

Black Forest Labs

Black Forest Labs — удобный ценовой ориентир для генерации изображений, потому что счёт меняется в зависимости от размера вывода и того, используете ли вы референсные изображения. Его система основана на кредитах, где 1 кредит = $0.01. Цены FLUX.2 привязаны к мегапикселям, а референсные изображения тарифицируются сверху. Одна вещь, за которой нужно следить: каждое изображение и каждое референсное изображение округляется вверх до следующего мегапикселя из расчёта 1,024 × 1,024 px.

Цены за единицу

Линейка FLUX.2 представлена в четырёх уровнях: Max, Pro, Klein и Flex. Каждый делает свой компромисс между качеством изображения, скоростью и ценой.

Модель	1-й MP (База)	Доп. MP	Реф. изображение (за MP)	Режим генерации
FLUX.2 [max]	$0.07	$0.03	$0.03	Text-to-Image / Edit
FLUX.2 [pro] (Text-to-Image)	$0.03	$0.015	$0.015	Text-to-Image
FLUX.2 [pro] (Edit)	$0.045	$0.015	$0.015	Image Editing
FLUX.2 [klein] 9B	$0.015	$0.002	$0.002	Text-to-Image / Edit
FLUX.2 [klein] 4B	$0.014	$0.001	$0.001	Text-to-Image / Edit
FLUX.2 [flex]	$0.05	$0.05	$0.05	Text-to-Image / Edit

Более старые модели FLUX1.1 и FLUX.1 используют вместо этого фиксированные цены за изображение.

Модель	Цена за изображение	Описание
FLUX1.1 [pro]	$0.04	Стандартная высокоскоростная генерация
FLUX1.1 [pro] Ultra	$0.06	Сверхвысокое разрешение
FLUX1.1 [pro] Raw	$0.06	Эстетика документальной фотографии
FLUX.1 Kontext [max]	$0.08	Максимальное качество контекстного редактирования
FLUX.1 Kontext [pro]	$0.04	Контекстное редактирование, готовое к коммерческому использованию
FLUX.1 Fill [pro]	$0.05	Точечный инпейнтинг изображений
FLUX.1 [schnell]	$0.003	Дистиллирована для максимальной скорости

Включённые лимиты

Доступ к API — по факту использования, но у Black Forest Labs также есть уровни подписки с ежемесячными лимитами на изображения ^[50].

Тариф	Ежемесячный лимит	Ключевые особенности
Builder	10,000 изображений/месяц	Модели Klein, 10 пользователей, права на дообучение
Platform	100,000 изображений/месяц	Модели Klein 9B + Dev, 10 пользователей
Professional	100,000 изображений/месяц	Модели Dev, 3 домена, 10 пользователей
Enterprise	Индивидуально	Все модели, кастомный объём, доступ к API и весам

Охват моделей

Black Forest Labs сосредоточен на генерации и редактировании изображений. Модели FLUX.2 поддерживают размеры вывода до 4 MP, а всё, что выше, автоматически масштабируется ^[50]. Если скорость важнее всего, FLUX.2 [klein] 4B выделяется субсекундным инференсом, что делает его хорошим выбором для сценариев, близких к реальному времени ^[52].

Для работы с редактированием в линейке также есть пара чётких вариантов. FLUX.1 Fill [pro] справляется с точечным инпейнтингом по $0.05 за изображение, а FLUX.1 Kontext [pro] стоит $0.04 за изображение для контекстного редактирования, готового к коммерческому использованию ^[51].

Стоимость на вывод

Готовое изображение 4 MP FLUX.2 [max] стоит около $0.30 с учётом генерации, апскейлинга и двух повторов. Референсные изображения тарифицируются отдельно по той же ставке за мегапиксель ^[50]^[51]. Если вы занимаетесь концепт-артом или ранним прототипированием, FLUX.2 [klein] 4B по $0.014 за изображение — недорогой способ протестировать идеи перед переходом к финальным рендерам ^[50].

Далее: цены на видео Kling AI.

12. Kling AI

Kling AI

Kling AI делит цены на две полосы: веб-приложение использует кредиты, а API тарифицирует посекундно. На стороне API стоимость меняется в зависимости от длины клипа, разрешения и того, включаете ли вы синхронизированное аудио.

Цены за единицу

Для стандартного немого видео цены начинаются от $0.0672/сек при 720p и доходят до $0.0896/сек при 1080p. Kling V3 Omni, который обрабатывает ввод текст-плюс-изображение и рабочие процессы видео-в-видео, стоит $0.1792/сек при 1080p.

Конфигурация	Разрешение	Цена/сек	Ориентир. стоимость клипа 10с
Kling V3 – Silent	720p	$0.0672	$0.67
Kling V3 – Silent	1080p	$0.0896	$0.90
Kling V3 – With Audio	1080p	$0.1120	$1.12
Kling V3 Omni (Ref)	1080p	$0.1792	$1.79
Kling V3 – Silent	4K	$0.4286	$4.29

Так что да, Kling находится на более дешёвой стороне видео-API.

Включённые лимиты

Kling держит цены веб-приложения и API раздельно, а значит, вам нужно проверить оба, прежде чем выбирать тариф. Ставка API — лишь одна часть математики. Кредиты и параллелизм сильно влияют на то, сколько работы вы можете пропустить.

Бесплатный уровень поставляется с 66 кредитами в день, и эти кредиты сбрасываются каждые 24 часа без переноса. Платные тарифы начинаются от $6.99/месяц за 660 кредитов на Standard и доходят до $180/месяц за 26,000 кредитов на Ultra. Если платить за Ultra ежегодно, эффективная ставка падает на 34% ^[54].

Для пользователей API стандартный параллелизм ограничен 10 параллельными заданиями. Аккаунты пробного уровня получают только 3. Этот разрыв может сильно повлиять, если вы пытаетесь пакетно рендерить, а не ждать клипы по одному.

Охват моделей

Kling V3 и Kling V3 Omni поддерживают клипы длиной до 15 секунд, что делает их подходящими для кинематографической и нарративной работы. V2.6 ограничивает длину клипа 10 секундами и добавляет синхронизированное аудио. V2.5 Turbo примерно на 30% дешевле уровня Master.

Стоимость на вывод

Распространённый способ держать расходы под контролем — делать черновики в немом режиме 720p и подниматься до 1080p или 4K только для финальных рендеров. Такой подход помогает, потому что многим пользователям нужно 2–4 попытки генерации, чтобы получить пригодный клип, и это повышает стоимость готового видео ^[53].

Предоплаченные Resource Packages могут сократить эффективную цену за единицу на 10–30% в зависимости от размера пакета ^[53].

Далее сравним эти модели по цене за единицу, лимитам тарифов, охвату модальностей и стоимости на вывод.

Разбор цен по критериям сравнения

Таблицы ниже сжимают предыдущие детали по каждому провайдеру в четыре фильтра для покупки: цена за единицу, лимиты тарифов, охват модальностей и стоимость вывода.

Цены за единицу по текстовым, графическим и видео-API

Модель	Провайдер	Ввод ($/1M токенов)	Вывод ($/1M токенов)	Уровень
GPT-5 Nano	OpenAI	$0.05	$0.40	Budget
Gemini 2.5 Pro	Google	$1.25	$10.00	Mid-range
GPT-5.5	OpenAI	$5.00	$30.00	Premium

Для генерации изображений FLUX.1 [schnell] — недорогой ориентир по $0.003 за изображение, тогда как Stable Image Ultra находится на верхнем конце по $0.08 за изображение. Для видео Kling V3 стоит $0.0672/сек при 720p на нижнем конце, а Veo 3.1 идёт по $0.40/сек на верхнем конце.

Сырые ставки важны. Но на практике лимиты тарифов часто решают, сколько вы на самом деле потратите.

Включённые лимиты в подписках и тарифах платформ

При объёме менее примерно 5 миллионов входных токенов в месяц чат-тарифы за $20 могут выиграть у API-биллинга для случайного использования.

Провайдер	Тариф	Ежемесячная цена	Включённое использование	Ключевые лимиты	Командный тариф
OpenAI	ChatGPT Plus	$20	С лимитом (динамич.)	Динамические лимиты сообщений; нет доступа к API	Да
Anthropic	Claude Pro	$20	С лимитом (динамич.)	Лимиты использования зависят от спроса; нет доступа к API	Да
Google	Gemini Advanced	$20	С лимитом (динамич.)	Привязан к Google One; нет доступа к API	Да (Workspace)

Модели рассуждений также добавляют нюанс: скрытые токены рассуждений тарифицируются по ставкам вывода, что может повысить общую стоимость в 2–7 раз.^[3]

Охват моделей по модальностям

Цены имеют значение только тогда, когда модальность модели подходит для задачи.

Провайдер	Текст	Мультимодальный ввод	Ген. изображений	Зрение	Ген. видео	Доступ к API
APIMart	✓	✓	✓	-	✓	Единый API
OpenAI	✓	✓	✓	✓	✓	Прямой
Google	✓	✓	✓	✓	✓	Прямой
Anthropic	✓	✓	✗	✓	✗	Прямой
Meta	✓	✓	✗	✓	✗	Единый/Хостинг
Mistral AI	✓	✓	✗	✓	✗	Прямой
Stability AI	✗	✗	✓	✗	✓	Прямой

Дешёвая модель — не выгодная сделка, если она не может работать с нужным вам форматом. Текстовые вендоры, например, не сильно помогут, если ваш рабочий процесс зависит от вывода изображений или видео.

Стоимость на вывод по распространённым сценариям

Это те затраты, которые команды обычно ощущают, когда всё выходит в продакшн.

Текстовые нагрузки (за 1M выходных токенов):

Сценарий	Модель	Стоимость вывода	Уровень	Ключевой компромисс
Чат-бот большого объёма	GPT-5 Nano	$0.40	Budget	Меньшая глубина рассуждений
Извлечение из документов	Gemini Flash Lite	$0.30	Budget	Ограниченное творческое письмо
Генерация кода	Gemini 2.5 Pro	$10.00	Mid-range	Доплата выше контекста 200K ^[3]
Агентские рабочие процессы	Claude Sonnet 4.6	$15.00	Mid-range	Нужно кэширование промптов для ROI ^[3]
Сложные рассуждения	Claude Opus 4.8	$25.00	Premium	Высокая стоимость; более высокая задержка

Видеонагрузки (за клип 10 секунд):

Сценарий	Модель	Стоимость вывода	Уровень	Ключевой компромисс
Короткое видео (черновик)	Kling V3	~$0.67	Budget	720p; ограничение 15-секундными клипами
Короткое видео (финал)	Sora 2	$1.00	Mid-range	Сбалансированное качество и стоимость
Кинематографическое видео	Veo 3.1	$4.00	Premium	Наивысшее качество; наибольшие расходы

Вот простая версия: цена за токен или за секунду — лишь часть истории. Больший фактор часто в том, как вы используете модель. Чат-бот, работающий весь день, документный пайплайн и видеостудия могут выглядеть дёшево на бумаге и быстро становиться дорогими, как только включается объём вывода.

Практичное эмпирическое правило: пакетная обработка снижает затраты на 50% у OpenAI, Anthropic и Mistral для нагрузок, которые могут выдержать срок выполнения 24 часа.^[3] Для видео черновик в более низком разрешении и повышение только финальных рендеров — самый надёжный способ контролировать расходы на вывод.

Плюсы и минусы

Таблица ниже сводит компромиссы к тому, что обычно определяет решение: стоимость, модальность и соответствие нагрузке. Если вы выбираете между провайдерами, это даёт вам краткую версию без необходимости заново копаться в каждом разделе о ценах.

Субъект	Плюсы	Минусы	Кому подходит
APIMart	500+ моделей под одним API; один счёт за текст, изображения и видео	Ценообразование по использованию означает, что затраты растут с объёмом вывода	Команды, которым нужен единый мультимодальный доступ
OpenAI	Понятный биллинг по токенам	Флагманские модели дороги	Универсальные текстовые нагрузки
Anthropic	Кэширование промптов снижает затраты на повторную работу	Топовые модели несут высокие ставки за вывод	Кодинг и рабочие процессы с длинным контекстом
Google AI	Flash-Lite дёшев	Pro дорожает выше 200K токенов	Текстовые нагрузки большого объёма и с длинным контекстом
Meta (Llama)	Недорого, если можете self-host	Нет собственного API — вы сами занимаетесь хостингом и аптаймом	Чувствительные к затратам нагрузки с возможностью self-hosting
xAI (Grok)	Конкурентные цены среднего уровня	Меньшая линейка моделей	Приложения с данными реального времени из веба и соцсетей
Mistral AI	Недорогие малые модели и многоязычный охват	Меньше мультимодальных функций	Многоязычные текстовые приложения
Cohere	Embed, Rerank и Command R7B подходят для RAG	Command R+ дорог для своего уровня	Генерация с извлечением (RAG) и базы знаний
Stability AI	Очень низкие цены на генерацию изображений	Только изображения — ограничивает более широкие процессы	Генерация изображений большого объёма
Kling AI	Недорогие короткие видео	Ограничение 15-секундными видео на базовом тарифе	Генерация коротких видео

Простой способ это прочитать:

Если вам нужен один API для многих типов моделей, APIMart выделяется.
Если вам важнее всего простое текстовое использование и понятный биллинг, OpenAI или Google AI могут быть более удобным выбором.
Если ваша работа склоняется к кодингу, длинным промптам или повторяющемуся контексту, Anthropic может иметь смысл.
Если вы держите затраты низкими и можете запускать всё сами, Meta (Llama) трудно игнорировать.
Если ваш стек построен вокруг RAG, у Cohere есть инструменты, которые хорошо ложатся на такую настройку.

Для задач с большим объёмом изображений Stability AI — недорогой выбор. Для коротких видеоклипов Kling AI держит начальные затраты низкими, хотя базовый тариф остаётся привязанным к 15-секундным выводам.

Заключение

Глядя на разбор цен выше, лучшая модель — не самая дорогая и не самая дешёвая. Это та, которая подходит вашей нагрузке, модальности и объёму.

Задачи большого объёма и низкой сложности должны работать на самых недорогих моделях, которые вы можете себе позволить.

По мере роста сложности расходы должны расти только тогда, когда вывод это оправдывает. Модели среднего уровня хорошо подходят для продакшн-приложений, которым нужна стабильная производительность без цены топового уровня.

Как только вы переходите к премиальным рассуждениям или генерации медиа, стоимость на вывод начинает иметь большее значение, чем сырая цена за токен. Премиальные модели имеют смысл, когда качество напрямую влияет на результаты. А для видео ценообразование работает иначе: API вроде WAN 2.7, Sora 2 ($0.08/сек) и Kling V3 ($0.0672/сек при 720p) тарифицируют посекундно, а не по токенам.

Для команд, использующих модели текста, изображений и видео вместе, APIMart даёт доступ к 500+ моделям через один API. Это значит, что мультимодальная работа может уместиться под одним API и одним счётом.

Часто задаваемые вопросы

Как оценить общую стоимость на вывод?

Оцените общую стоимость на основе того, как тарифицируется модель.

Для текстовых моделей цены обычно делятся на входные токены и выходные токены за 1 миллион токенов. Выходные токены часто стоят дороже, поэтому ожидаемая длина ответа сильнее всего влияет на общие расходы.

Для нетекстовых сценариев модели изображений часто тарифицируются за вызов, а видеомодели — за сгенерированную секунду.

Простой способ оценить стоимость:

используйте счётчик токенов, чтобы измерить объём промпта
проверьте ставку модели для каждой единицы тарификации
примените эту ставку к ожидаемому использованию

Это даёт вам практичную оценку стоимости, прежде чем масштабировать что-либо.

Когда кэширование промптов экономит деньги?

Кэширование промптов сокращает затраты, когда ваше приложение снова и снова отправляет один и тот же префикс промпта. Обычно это означает длинные системные инструкции, большие наборы документов или общую историю разговора, переиспользуемую во многих запросах.

Вместо того чтобы каждый раз платить полную цену входных токенов, вы платите меньше за повторяющуюся часть. Во многих случаях это может снизить затраты на ввод на 50–90%.

Это работает лучше всего, когда объём высок, а контекст остаётся в основном неизменным. Хороший пример — чат-бот поддержки клиентов: бот может переиспользовать одни и те же правила, информацию о бренде и справочные документы в тысячах чатов.

Это плохо подходит, когда контекст постоянно меняется. Если ваше приложение всё время переписывает промпт с нуля при каждом запросе, повторяющегося текста для кэширования меньше, поэтому экономия быстро падает.

Что использовать — подписки или цены на API?

Для большинства разработчиков и компаний цены на API имеют больше смысла. При биллинге по факту использования вы платите за токены, которые используете — без ежемесячных минимумов, без неожиданных комиссий и без фиксированных начислений, висящих над вами, когда трафик низкий. Ваши затраты движутся вместе с использованием, что часто гораздо лучше подходит, чем фиксированный периодический счёт.

APIMart даёт вам один API, который подключается к 500+ AI-моделям, с понятными ценами за токен и автоматическими объёмными скидками по мере роста вашего использования.

Связанные статьи блога

Выбор правильного AI API для вашего следующего проекта

Готовы попробовать?

Выберите нужную модель в маркетплейсе моделей

Попробуйте чат, изображения и видео в маркетплейсе APIMart и быстро оцените возможности моделей через единый API.

Чат-моделиМодели изображенийВидео-модели

Открыть маркетплейс моделей