
MiniMax Hailuo 03 API:1080p 영상 생성
MiniMax Hailuo 03 API로 1080p AI 영상을 만드세요:텍스트-투-비디오, 이미지-투-비디오, 비동기 작업, 초당 $0.08 가격, 그리고 개발자를 위한 프로덕션 팁까지.
API로 1080p AI 영상을 만들고 싶다면, 핵심 제약은 단순합니다: 최대 5초 클립, 비동기 작업 처리, 그리고 초당 $0.08의 비용입니다. 저는 Hailuo 03을 GPU를 직접 돌리지 않고 텍스트-투-비디오나 이미지-투-비디오가 필요한 앱을 위한 숏폼 영상 모델로 다루겠습니다.
쉽게 풀어 쓴 이 글의 요점은 다음과 같습니다:
- 무엇을 하는가: 1080p MP4 영상을 생성합니다
- 입력 유형: 텍스트 프롬프트, 이미지-투-비디오, 첫-마지막 프레임, 그리고 피사체 레퍼런스
- 클립 한도: 1080p에서 5초
- 가격: 5초 1080p 클립당 $0.40
- API 흐름: 작업을 제출한 뒤
task_id를 폴링하거나callback_url을 사용 - 프롬프트 제어:
[Pan left]이나[Zoom in]같은 대괄호 표기 카메라 무빙 - 파일 처리: 최종 영상 URL은 24시간 후 만료됩니다
- 이미지 규칙: 20 MB 미만, 종횡비는 2:5에서 5:2 사이
- 신뢰성 참고: 이 글은 99.9% 가동 시간 SLA를 인용합니다
가장 중요한 것은 이것입니다: 프롬프트만으로는 안 되고 백엔드 로직이 필요합니다. 즉, 비동기 상태 확인을 처리하고, MP4를 즉시 저장하고, 429와 5xx에서 재시도하고, 5초보다 긴 것이 필요하면 클립을 이어붙여야 합니다.
제가 이걸 셋업한다면, 먼저 낮은 해상도에서 프롬프트를 테스트하고, 모션 표현을 고정한 다음, 지출을 통제하기 위해 최종 실행에서만 1080p로 옮겨가겠습니다.
시청: MiniMax 영상 생성 자동화하기
핵심 기능과 1080p 출력 옵션
첫 요청을 보내기 전에, Hailuo 03의 입력 모드, 모션 제어, 출력 한도를 명확히 해두세요.
지원 입력: 텍스트 프롬프트, 이미지, 모션 지시
Hailuo 03은 네 가지 입력 모드를 지원합니다: 텍스트-투-비디오, 이미지-투-비디오(I2V), 첫-마지막 프레임 영상, 피사체-레퍼런스 영상 [2].
모션 제어의 경우, [Pan left, Pedestal up]처럼 하나의 대괄호 지시 안에 최대 세 개의 카메라 무빙을 조합할 수 있습니다 [3]. 이는 추가 메타데이터 없이 프레이밍과 장면 움직임을 안내하는 간단한 방법을 제공합니다.
이 모드들은 다음 섹션에서 다루는 요청 필드와 맞아떨어집니다.
개발자가 확인해야 할 1080p 출력 사양
1080p 출력은 5초 클립으로 제한됩니다. 더 긴 시퀀스가 필요하면 여러 클립을 생성한 뒤 백엔드에서 이어붙이세요. 통합 오디오가 필요한 프로젝트라면 대안으로 구글의 Veo 3.1을 고려하세요.
이 한도는 요청 설정과 백엔드 조립 로직 모두를 좌우해야 합니다.
Hailuo 03 사양
| 사양 | 상세 |
|---|---|
| 입력 모드 | 텍스트-투-비디오, 이미지-투-비디오, 첫-마지막 프레임 영상, 피사체-레퍼런스 영상 |
| 모션 제어 | 대괄호 지시당 최대 세 개의 카메라 무빙 |
| 최대 클립 길이 | 5초 |
| 출력 해상도 | 1080p |
APIMart에서 MiniMax Hailuo 03 API 호출하는 방법


Hailuo 03이 무엇을 만들 수 있는지 봤으니, 이제 앱에 연결할 차례입니다.
인증, 베이스 URL, 헤더
APIMart로 보내는 모든 요청은 Authorization 헤더에 Bearer 토큰을 사용하며, 함께 Content-Type: application/json을 씁니다. 단일 APIMart API 키로 모든 요청을 처리합니다.
POST https://api.apimart.ai/v1/videos/generations
Authorization: Bearer YOUR_API_KEY
Content-Type: application/json
텍스트-투-비디오와 이미지-투-비디오 요청 예시
매번 동일한 엔드포인트와 동일한 인증 설정을 사용합니다. 바뀌는 것은 프롬프트, 해상도, 길이, 그리고 입력 URL입니다.
model 필드는 Hailuo 03을 가리킵니다. resolution은 출력 품질을 제어합니다. 그리고 1080p를 원한다면 duration은 반드시 5여야 합니다.
텍스트-투-비디오 요청:
{
"model": "MiniMax-Hailuo-03",
"prompt": "A product designer sketching at a sunlit desk, [Pan left, Zoom in], cinematic depth of field",
"resolution": "1080p",
"duration": 5,
"prompt_optimizer": true
}
이미지-투-비디오 요청:
{
"model": "MiniMax-Hailuo-03",
"prompt": "The product rotates slowly on a white surface, [Orbit right]",
"resolution": "1080p",
"duration": 5,
"first_frame_image": "https://your-storage.com/product-shot.jpg",
"prompt_optimizer": true
}
이미지-투-비디오의 경우, 먼저 이미지를 업로드하고 반환된 URL을 first_frame_image에 사용하세요. 이미지는 20 MB 미만이어야 하며, 종횡비는 2:5에서 5:2 사이를 유지해야 합니다. 그 범위를 벗어나면 API는 400 오류를 반환합니다. 생성 전에 프롬프트를 다듬길 원한다면 prompt_optimizer를 true로 설정하세요.
비동기 응답, 작업 상태, 최종 영상 URL
영상 생성은 비동기로 실행되므로, 앱이 상태를 폴링하거나 콜백을 사용해야 합니다.
"작업을 제출한 후, task_id를 사용해 성공하거나 실패할 때까지 상태를 폴링하세요." - MiniMax API 문서 [2]
이 엔드포인트를 15~30초마다 폴링하세요:
GET https://api.apimart.ai/v1/tasks/{task_id}
status 필드는 몇 단계를 거칩니다:
| 상태 | 의미 |
|---|---|
submitted / Preparing | 요청 수신, 초기화 중 |
queued / Queueing | GPU 자원 대기 중 |
processing | 영상이 실제로 렌더링 중 |
completed / Success | 완료 - 영상 URL 사용 가능 |
failed / Fail | 오류 발생; error_message 확인 |
상태가 completed에 도달하면 응답에 최종 MP4 URL이 포함됩니다. 링크는 24시간 후 만료되므로 MP4를 즉시 다운로드하세요 [4].
많은 작업을 처리한다면, 폴링 대신 첫 요청에서 callback_url을 전달하세요. 작업이 끝나면 서버가 POST 콜백을 받게 되며, 3초 이내에 챌린지 값을 반환해야 합니다 [3].
작업 흐름이 셋업되면, 다음 단계는 프로덕션을 위한 품질과 비용을 조율하는 것입니다. 대안적인 시네마틱 영상 스타일을 위해 Kling V3도 고려해 볼 수 있습니다.
1080P 워크로드를 위한 파라미터, 성능, 가격
프로덕션에서 중요한 품질 제어
요청 형식이 정해지면, 다음 단계는 출력 품질, 속도, 지출을 조율하는 것입니다. 대부분의 1080P 작업에서는 세 가지 설정이 거의 모든 일을 합니다: resolution, duration, prompt_optimizer.
prompt_optimizer는 모션과 구도를 더 명확하게 만들기 위해 프롬프트를 재작성합니다 [1][3]. 대부분의 프로덕션 사례에서는 켜두는 것이 가장 좋습니다. 하지만 프롬프트가 브랜드 용어나 정확한 표현을 그대로 따라야 한다면, 시스템이 유지해야 할 언어를 재작성하지 않도록 false로 설정하세요 [3].
fast_pretreatment를 사용해 프롬프트 준비 시간을 줄일 수도 있습니다. 트레이드오프는 출력 품질이 소폭 떨어지는 것입니다 [1][3].
카메라 움직임의 경우, 대괄호 명령으로 모션 방향을 프롬프트에 직접 넣으세요. 예로는 [Pan left]과 [Zoom in]이 있습니다. 하나의 프롬프트에서 이런 명령을 최대 세 개까지 사용할 수 있습니다 [3][5].
USD 기준 지연 시간과 비용 계획
이러한 제어가 정해지면, 비용은 대부분 클립 길이로 귀결됩니다. 생성이 비동기로 실행되므로, 제출-폴링 흐름을 계획하세요. 백엔드가 결과를 자동으로 받길 원한다면, 작업이 끝났을 때 알림을 받도록 callback_url을 사용하세요 [4].
초당 $0.08이므로, 5초 1080P 클립은 $0.40입니다.
낭비를 줄이는 간단한 방법 하나는 먼저 768P에서 프롬프트를 테스트하고, 프롬프트 동작과 카메라 모션이 제대로 보이면 1080P로 전환하는 것입니다 [1][6].
통합 패턴과 다음 단계
마케팅, 제품, 교육 앱을 위한 백엔드 워크플로
요청 처리와 작업 상태가 셋업되면, 다음 단계는 Hailuo 03을 실제 제품 흐름에 넣는 것입니다. 핵심 작업 흐름은 앱 유형에 관계없이 동일하게 유지됩니다. 바뀌는 것은 프롬프트 스타일, 보내는 입력, 그리고 클립이 해야 할 일입니다.
마케팅 광고 클립에는 텍스트-투-비디오를 사용하세요. 프롬프트는 짧고 직접적으로 유지하고, [Pan left]이나 [Tracking shot] 같은 카메라 큐를 포함하세요. 제품 비주얼에는 이미지-투-비디오를 사용하고 제품 샷을 레퍼런스 이미지로 전달하세요. 교육용 설명 영상에서는, 더 긴 클립이 필요할 때 768P가 종종 실용적인 선택입니다.
규모에 맞는 스토리지, 전달, 사용량 추적
렌더링이 끝나면, 전달과 추적을 위해 파일을 영구 스토리지로 옮기세요. 각 MP4를 즉시 다운로드해 전달을 위해 자체 시스템에 저장하세요. 신뢰성을 위해 429와 5xx 응답에 지수 백오프를 추가하세요. 대량으로 처리한다면 폴링 대신 callback_url을 사용하세요. 모든 영상 작업에 걸쳐 사용량을 한곳에서 추적하세요. 이런 셋업은 볼륨이 늘어나도 전달을 안정적으로 유지하는 데 도움이 됩니다.
결론: 개발자를 위한 핵심 포인트
용도에 맞는 입력 유형으로 작업을 제출하고, 비동기 흐름을 신중하게 처리하고, 출력을 즉시 저장하세요 - 그런 다음 거기서부터 확장해 나가세요.
자주 묻는 질문
1080p 영상은 보통 생성에 얼마나 걸리나요?
고품질 1080p 영상 생성은 보통 1분 38초에서 5분이 걸리지만, 일부 작업은 30초에서 90초 안에 마무리됩니다.
정확한 시간은 두 가지로 귀결됩니다: 프롬프트가 얼마나 복잡한지와 영상을 얼마나 길게 원하는지입니다. 생성이 비동기로 실행되므로, 앱은 완료될 때까지 작업 상태를 폴링해야 합니다.
5초보다 긴 영상을 만드는 가장 좋은 방법은 무엇인가요?
MiniMax Hailuo API로 5초보다 긴 영상을 만들려면, 더 낮은 해상도를 사용하세요.
1080p는 모델 버전에 따라 5초 또는 6초 클립만 지원합니다. 768p는 최대 10초 클립을 지원합니다.
따라서 10초 영상을 원한다면, 다음과 같이 설정하세요:
resolution을768p로duration을10으로
API 요청에서는 실제로 이런 식이 됩니다: 해상도에 768p를, 길이에 10을 사용하세요.
prompt_optimizer를 언제 꺼야 하나요?
영상 출력을 더 면밀하게 제어하고 싶을 때 prompt_optimizer를 끄세요. 기본적으로 시스템은 결과를 개선하기 위해 설명을 재작성합니다.
프롬프트를 작성한 그대로 사용하고 싶다면, 특히 이미 미세 조정을 마쳤고 아무것도 바뀌길 원치 않는다면, 이를 끄세요.