Apimart
音声字幕変換 API 厳選 7 選:価格・精度・用途の徹底比較

音声字幕変換 API 厳選 7 選:価格・精度・用途の徹底比較

主要な音声字幕 API 7 種(APIMart、Cleanvoice、Rev AI、Deepgram、OpenAI Whisper、AssemblyAI、Google Cloud)を価格・精度・ユースケースの観点から徹底比較する。

モデル解説

最新の API のおかげで、音声から字幕を作成することはかつてないほど簡単になりました。これらのツールは、発話された音声を SRT や VTT といったタイムコード付きテキストファイルに変換し、動画をより見やすく、魅力的で、共有しやすいものにします。視聴者の 69% が音声をオフにして動画を見ている うえに、字幕付き動画は 15% も多く共有される という事実を踏まえれば、字幕はコンテンツクリエイター、教育者、企業にとってもはや必須要素です。

音声字幕変換に使える 7 つの主要 API を簡単に俯瞰しておきます。

  • APIMart:Whisper-1 を含む 500+ の AI モデルにアクセスでき、詳細な出力と多言語対応を備えます。
  • Cleanvoice:フィラーや吃音を除去して音声をクリーンにすることに特化しており、洗練された字幕作成に最適です。
  • Rev AI:高精度な転写を提供し、リアルタイム/バッチ処理と人手によるバックアップにも対応します。
  • Deepgram:高い精度と 300ms 未満のレイテンシで知られ、騒音環境下のリアルタイム転写に向いています。
  • OpenAI Whisper API:99 言語をサポートし、堅牢なノイズ耐性と正確なタイムスタンプを備えます。
  • AssemblyAI:転写にとどまらず、感情分析や PII 除去などの機能を提供します。
  • Google Cloud Speech-to-Text:高度なモデルを備えたスケーラブルなソリューションで、企業向けのワークフローに適しています。

クイック比較

API最適な用途字幕フォーマット価格主要機能
APIMart統合的な AI ワークフローSRT, VTT, JSON$0.006/min500+ AI モデルへのアクセス
Cleanvoice字幕作成前の音声クリーニングSRT, VTT$0.75-$2.20/hrフィラーやノイズを自動除去
Rev AIシンプルな統合SRT, VTT, JSON$0.02-$0.035/min人手転写へのフォールバック
Deepgramリアルタイム転写SRT, VTT, JSON$0.0043-$0.0077/min騒音下でも高精度
OpenAI Whisper API多言語のバッチ処理SRT, VTT, JSON$0.006/min99 言語に対応
AssemblyAI高度な音声インテリジェンスSRT, VTT, JSON$0.12-$0.45/hr感情分析と PII 除去
Google Cloud STTエンタープライズ動画ワークフローSRT, VTT, JSON$0.004-$0.016/min125+ 言語、高いスケーラビリティ

各 API はリアルタイム字幕から大規模なエンタープライズワークフローまで、それぞれ異なるニーズに合わせて作られています。スピード、言語対応、高度な機能──自分の目的に最も合うものを選びましょう。

Top 7 Speech-to-Subtitle APIs Compared: Pricing, Features & Use Cases
2026 年の音声字幕変換 API 7 選を価格・機能・用途で比較

2026 年に最も高精度な音声認識 API

1. APIMart

GccAi

APIMart は単一の統合ポイントから 500+ の AI モデルにアクセスでき、さまざまな AI タスクをこなせる汎用ツールです。音声字幕変換には whisper-1 モデルを利用しており、多様なアクセントやノイズの多い音声環境でも高い精度を維持します [1]

プラットフォームは、単語単位のタイムスタンプ、セグメントメタデータ(開始時刻と終了時刻)、avg_logprobno_speech_prob などの信頼度指標を含む詳細な字幕を生成します。これらは verbose_json レスポンス形式で返されます [2]。さらに、自動句読点付与、キャピタライズ、調整可能なサンプリング温度(0 から 1 の範囲で、0.2 のような低い値ほど結果が安定する)といった機能が、出力の可読性と信頼性を高めます [2]

APIMart は ISO-639-1 コードを用いて 99 を超える言語の転写をサポートし、特定の専門用語に合わせて結果を微調整するためのオプションの prompt も指定できます [2]。字幕の出力は SRT と VTT に加え、JSON とプレーンテキストにも対応します。対応する音声ファイル形式は mp3、mp4、mpeg、mpga、m4a、wav、webm で、最大ファイルサイズは 25 MB です [2]

価格は競争力があり、whisper-1 モデルを基準として 1 分あたりおよそ $0.006 から利用できます [1][3]。APIMart の際立った特徴の一つは統一された API 構造で、プロジェクトのニーズに応じてモデルを切り替えたり組み合わせたりしても、統合コードを変更する必要がない柔軟性を備えています。

詳細な出力と柔軟な統合オプションにより、APIMart は主要な AI ソリューションの中でも有力な選択肢として際立っています。

2. Cleanvoice

Cleanvoice

Cleanvoice は、転写と自動音声クリーニングを組み合わせたツールです。"uh"、"um"、"like" といったフィラーや、吃音、口の中の音などを音声と転写の双方から取り除きます。これにより、洗練された誤りのない字幕の作成に最適です。タイムスタンプ同期と自動話者ラベリングが組み込まれており、複数の出演者がいるポッドキャストや録音に特に便利です [4]

プラットフォームは 20 を超える言語とアクセントに対応し、バッチ処理が可能で、ワークフロー自動化のために Make.com と連携できます。Adobe PremiereDaVinci ResolveAudacity などのツールとシームレスに連携できる EDL(Edit Decision List)も出力可能です。Cleanvoice はジョブベースのモデルで動作するため、リアルタイムストリーミングではなくポストプロダクションでの利用に最適です [4][7]。その機能はポストプロダクション工程で字幕作成を効率化したいユーザーに合わせて設計されています。

料金プラン

Cleanvoice は使用量ベースで柔軟な料金体系を提供します:

プランタイプ時間数価格(USD)実質単価
Pay-As-You-Go5 hrs$11$2.20/hr
Pay-As-You-Go30 hrs$45$1.50/hr
月額サブスクリプション10 hrs/mo$11/mo$1.10/hr
月額サブスクリプション100 hrs/mo$90/mo$0.90/hr
年額サブスクリプション100 hrs/mo$900/yr~$0.75/hr
エンタープライズ200+ hrs/moカスタムカスタム

新規ユーザーは 30 分の無料クレジットで Cleanvoice を試せます。さらに、サブスクリプションクレジットは最大 3 ヶ月繰り越せるため、契約量の最大 3 倍まで積み上げられます。大量利用が必要なチーム向けには、エンタープライズ層でカスタムエンドポイントと優先サポートが提供されます [4][7]

「Cleanvoice はすべてをやろうとはしません。本当に必要な部分だけを直してくれます。フィラーを取り、無音を整え、口の音や背景のクリック音を取り除きつつ、自然なトーンはそのまま残してくれます。」 - Tomas Loucky、《Produced By》ホスト [5]

3. Rev AI

Rev AI

Rev AI は、音声から字幕を作成する選択肢として確実な存在です。ASR モデルは 700 万時間に及ぶ人手検証済み音声で訓練されており、その結果として非常に高精度な転写を実現しています [10][8]。サービスは JSON 形式で単語単位のタイムスタンプを返すため、字幕の正確な位置合わせが可能です [9]

可読性を高めるため、Rev AI は句読点、キャピタライズ、ITN("June twentieth" を "June 20th" に変換するなど)といった機能を備えています。また、約 600 語からなるフィラーや不適切表現のリストを自動的にフィルタリングします [9]。これにより、最小限の手作業で済むクリーンな出力が得られます。

プラットフォームは柔軟性も特長で、YouTube や Vimeo との連携を含む非同期 API によるバッチ処理、WebSocket や RTMP プロトコルによるリアルタイム転写ストリーミング API の両方をサポートします [13][15]。SRT、WebVTT、Scenarist (.scc) を含む 14 以上の出力フォーマットに対応し、Python、Node.js、Java の SDK を提供しています [14]

Rev AI は大規模な転写ニーズに対応する設計で、10 分あたり最大 10,000 件のリクエストを処理できます。短いジョブは通常 5 分未満で完了します [11]

「Rev API を使ってユーザーインタビューを文字起こしすることで、すべてのプロジェクトで何時間も節約できています。」 - David Kahn、Instapanel CEO [12]

料金プラン

プラン価格含まれる AI 分数
Free$045 min/month
Essentials$25.49/seat/month(年払い)5,000 min/month
Pro$47.99/seat/month(年払い)10,000 min/month
Unlimitedカスタム無制限
Pay-as-you-go$0.035/min-
Enterprise$0.020/min から大量利用割引あり

人手検証済みのキャプションが必要な場合は ファイルあたり $1.99 から利用でき、クリアな音声では少なくとも 99% の精度が保証されます [12]。焼き付け字幕(open captions)はアドオンとして音声 1 分あたり $0.30 で利用可能です [15]。スタートアップは 1 年間の無料利用と $5,000 分のクレジット が利用できる場合もあります [14]

4. Deepgram

Deepgram

Deepgram は厳しい音声環境下でも印象的な精度とスピードを発揮します。Nova-3 モデル は英語ベンチマークで 5.26% の Word Error Rate (WER) を達成しており [20]、騒音環境、重なり合う発話、低品質な電話録音でも高い性能を示します。

字幕においては、Deepgram は 単語単位のタイムスタンプフレーズ単位の "utterances" を組み合わせるユニークなアプローチを提供し、SRT や WebVTT のタイミングフォーマットと完全に整合します [16]。さらに Smart Formatting 機能が句読点、キャピタライズ、日付、通貨を自動処理し、すべてのプランで追加料金なしに洗練された転写を保証します [17]

Deepgram は 2 つの転写モードに対応します:REST API による録音済みファイルの バッチ処理 と、WebSocket による リアルタイムストリーミング です。ライブキャプションでは端から端までのレイテンシは約 200-400ms です [20]。開発者は Node.js、Python、.NET、Go、Rust などの SDK を利用できます [16]。バッチ転写は リアルタイムの 100 倍 で動作し、アーカイブの迅速な処理に最適です [21]。プラットフォームはバッチでは 45+ 言語、リアルタイム多言語転写では 10+ 言語に対応します [17][18]

料金は透明で、音声の 正確な秒数 に基づいて課金され、分単位で切り上げられることはありません [17]。新規ユーザーには $200 分の無料クレジット が付与され、約 43,000 分の転写に相当します [17]

プランNova-3 Monolingual(Batch)Nova-3 Monolingual(Streaming)話者分離アドオン
Pay As You Go$0.0043/min$0.0077/min+$0.0020/min
Growth(年間 $4,000 から)$0.0036/min$0.0065/min+$0.0017/min

Growth プラン は Pay As You Go と比べておよそ 20% の割引 が得られます [17]。より高い制御性を必要とするユースケースでは、Deepgram はオンプレミス導入もサポートし、SOC 2 Type 2 と HIPAA の基準に準拠しています [17]

次は、音声字幕ワークフローをさらに簡素化する別のソリューションを取り上げます。

5. OpenAI Whisper API

OpenAI Whisper API

OpenAI Whisper API は、SRT や VTT といった標準的な字幕フォーマットを標準サポートしつつ、極めて高精度な字幕を生成できます。これにより、追加のステップなしに字幕を動画編集ワークフローへシームレスに組み込めます [24]。API は単語単位とセグメント単位の両方のタイムスタンプを提供し、字幕と音声の整合に対する精緻な制御を可能にします [24]

Whisper は複数の言語で強い精度を発揮します。独立テストによれば、音声がクリアな場合の精度はスペイン語 97%、イタリア語 96%、英語 95.8% に達します [22]。モデルは 98 言語にまたがる 680,000 時間の多言語コンテンツという大規模データセットで訓練されています。そのうち 57 言語は単語誤り率 50% 未満という業界標準を満たしています [23]translations エンドポイントも便利で、サポート言語を直接英語テキストに変換できるため、外国語動画から英語字幕を作成するための優れたツールとなります [24]

際立った機能の一つが prompt によるガイドです。短い prompt を入力してモデルの出力を誘導でき、特定の句読点スタイルを維持したり、専門用語を保持したり、"uh" や "umm" のようなフィラーを除去したりできます。たとえば "Hello, welcome to my lecture" のような prompt は、意図した句読点と表現を維持するのに役立ちます [24]。さらに細かい制御が必要なら、verbose_json 形式が信頼度スコア(avg_logprob)と無音検出(no_speech_prob)などのメタデータを提供します。これらを使えば、背景ノイズや無関係な音声を取り除いて結果を微調整できます [25]

統合面では、whisper-1 モデルは REST API を介して最大 25 MB のファイルのバッチアップロードをサポートし、Python と Node.js の SDK が利用可能です [24]。それより大きい音声ファイルは、文脈を保ちつつ小さなセグメントに分割する必要があります [24]。ライブ転写を行う場合、gpt-4o-transcribe モデルは stream=true パラメータでストリーミングをサポートします。加えて、Realtime API は継続的な音声ストリームを処理するためにサーバーサイドの Voice Activity Detection(VAD)を使用します [26][27]。これらの機能により、この API は動画編集と転写のワークフローを効率化する柔軟なツールとなります。

料金体系は明快で、whisper-1 モデルは 1 分あたり $0.006、GPT-4o モデルを用いるリアルタイム転写は 1 分あたり $0.017 です [27]。レート制限は毎分 500 から 10,000 リクエストの範囲で、小規模プロジェクトから大量処理ワークフローまで API をスケールさせられます。

機能whisper-1gpt-4o-transcribe
価格$0.006/min$0.017/min(Realtime)
ストリーミング非対応対応(stream=true
字幕フォーマットSRT, VTTJSON、テキストのみ
タイムスタンプ粒度単語およびセグメント単位限定的
話者分離非対応対応(diarize バリアント経由)

6. AssemblyAI

AssemblyAI

AssemblyAI はミリ秒単位の単語と文のタイムスタンプを正確に提供し、字幕同期をスムーズに行えます [28]。自動句読点とケース処理も備えており、転写の手作業によるクリーンアップから解放されます。さらに、chars_per_caption パラメータ(例:32 に設定)により字幕は簡潔で読みやすい長さに保たれます [29][30]

Universal-3 Pro モデルは複数の英語ドメイン横断で 6.3% の平均 Word Error Rate (WER) を達成し、人名・メール・電話番号などのエンティティ認識で 92.7% の精度を実現しています [32]。Universal-2 が 99+ 言語をサポートする一方、Universal-3 Pro は英語、スペイン語、ドイツ語、フランス語、イタリア語、ポルトガル語に重点を置き、リアルタイム prompting やコードスイッチングといった高度な機能を備えます [32][34]

高精度を背景に、AssemblyAI はバッチ REST API とリアルタイム WebSocket ストリーミングを含む柔軟な統合オプションを提供します。ライブシナリオでは、エンドツーエンドのレイテンシは 200ms 未満に達します [32]。開発者は Python SDK と、TwilioLiveKit のようなプラットフォームとのネイティブ連携を活用できます。字幕はメディアプレーヤー用に SRT、HTML5 Web プレーヤー用に VTT として書き出せます [31]

料金は秒単位の使用量に基づきます。バッチ処理は Universal-2 で 1 時間あたり $0.15 から、Universal-3 Pro で 1 時間あたり $0.21 から始まります。Universal-3 Pro のリアルタイムストリーミングは 1 時間あたり $0.45 で、オプションのストリーミング話者分離アドオンが 1 時間あたり $0.12 で利用可能です。新規ユーザーには $50 の無料クレジットが付与されます [33][34]

2025 年、セールス分析プラットフォームの Siro は AssemblyAI の Speech-to-Text 技術を導入し、より正確な転写のおかげで顧客クレームとサポートチケットが 90% 減少したと報告しています [34]。大量負荷を扱うチームでは、AssemblyAI が同時ストリームを自動でスケールし、1 分あたり 100 セッションから始まり、現行上限の 70% に達するたびに 10% ずつキャパシティを増やします [34]

7. Google Cloud Speech-to-Text

Google Cloud Speech-to-Text

最後に、Google Cloud Speech-to-Text は強力な Chirp 3 モデルを用いて、背景ノイズや多様なアクセントといった厳しい環境でも高品質な字幕を作成します。このモデルは 20 億パラメータという巨大な基盤の上に構築され、何百万時間もの音声と 100 以上の言語にまたがる 280 億の文で訓練されています [35][36]。これだけ大規模な訓練のおかげで、カスタム訓練なしにさまざまなアクセント、騒音環境、専門用語に対応できます。動画や複数話者のコンテンツのインデックス作成や字幕付与に特に効果的です。最初から高品質な同期音声付きで AI 動画を生成したい場合は、プロフェッショナルな生成ツールが効率的な代替手段になります。

V2 API は BatchRecognize メソッドを採用してワークフローを簡素化し、.srt と .vtt の字幕ファイルを直接生成するため、後処理が不要です。Word time offsets を有効にすれば単語単位の正確なタイムスタンプが得られ、字幕は音声と完璧に整合します [37]。自動句読点機能は可読性をさらに高めます [35]。話者分離や音声適応といった追加機能は、特に技術的・専門的なコンテンツで精度を底上げします。

この API は 125+ 言語と地域バリアントをサポートし、Multiple Language Recognition 機能で音声コンテンツに最適な言語を自動的に特定します [39]。混在言語の録音では、主言語と最大 3 つの代替言語を指定でき、システムが最適なものを選択します。Media Translation API も用意されており、音声を 100 以上の言語に同時に転写・翻訳できます [38]。統合オプションには、短い音声向けの同期モード、最長 8 時間ファイルまで対応する非同期バッチ処理、リアルタイムストリーミングがあります。プラットフォームは各リージョンで最大 300 の同時ストリーミングセッションと毎分 150 のバッチリクエストを処理でき [40]、大規模なエンタープライズ動画ワークフローに最適です。

標準 V2 API の料金は 1 分あたり $0.016 から始まります [35]。時間にあまり敏感でないタスクでは、Dynamic Batch オプションがコストを 75% 削減し、24 時間以内に結果を得られる場合で 1 分あたり約 $0.004 まで下がります [36][41]。年間 100,000 時間以上処理する大口ユーザーはカスタム料金の対象になる可能性があります。新規顧客は $300 分の無料クレジット と、毎月 60 分の転写を提供する無料枠を利用できます [35][41]。ただし、Cloud Storage(約 $0.020/GB)やデータ送信料といった関連の Google Cloud サービスから追加料金が発生する場合があるため注意が必要です。コストを効果的に管理するには、Google Cloud コンソールで予算アラートを設定するのが賢明です [41]

比較表

この表は各 API の概要から重要なポイントを集約しており、料金モデル、対応フォーマット、際立った機能を並べて比較しやすくしています。

API最適な用途字幕フォーマット料金モデル際立った機能
APIMart音声と他の AI モデルを必要とする統合 AI ワークフローSRT, VTT, JSON使用量ベース;1 つの API で 500+ モデルにアクセス音声、動画、言語を含む 500+ AI モデルへの単一 API アクセス
Cleanvoice字幕作成前のポッドキャストおよび音声クリーニングSRT, VTTサブスクリプション + 使用量フィラーとノイズを自動除去
Rev AIシンプルな REST 統合でのアプリ組み込みSRT, VTT, JSON$0.02/min(async)/ $0.035/min(streaming)$1.99/min の人手転写フォールバックで 99%+ の精度 [19]
Deepgramリアルタイム・高ボリュームの転写SRT, VTT, JSON$0.0043/min(batch)/ $0.0077/min(streaming)Nova-3 モデルで 300ms 未満のレイテンシ [6][19]
OpenAI Whisper API多言語のバッチ処理SRT, VTT, JSON$0.006/min99 言語をサポートし、強いノイズ耐性 [6]
AssemblyAI音声インテリジェンスを必要とするコンテンツチームSRT, VTT, JSON$0.12-$0.21/hr(batch)/ $0.15-$0.45/hr(streaming)要約、PII 除去、感情分析を内蔵 [6][19]
Google Cloud STTGCP ネイティブのアプリとエンタープライズ動画ワークフローJSON(ネイティブ);BatchRecognize 経由で SRT/VTT$0.016-$0.024/min大規模スケーラビリティを備えた Chirp 3 モデル [6]

いくつか重要なポイントが浮かび上がります。リアルタイム転写では、Deepgram が最も競争力のある料金を提供し、そのストリーミング価格は Google Cloud の同等精度に比べて 3〜10 倍も低い場合があります [19]。さらに、話者分離のような機能は総コストを押し上げる場合があるため、プロバイダを比較するときはこうした付帯費用も考慮することが重要です [19]

この俯瞰によって意思決定が簡単になり、自分のニーズに合った API を選びやすくなります。

まとめ

ここで取り上げたすべての API には強みがあり、それぞれ異なるニーズに合わせて作られています。Deepgram は 300ms 未満の超低レイテンシで、リアルタイム・高ボリュームの転写に優れています。OpenAI Whisper API は多言語のバッチ処理で際立っており、1 分あたり $0.006 という費用対効果の高い柔軟性を提供します。AssemblyAI は転写を超えて、追加の音声インサイトのために感情分析のような機能を統合しています。Rev AI は容易な REST 統合と精度向上のための人手転写オプションを提供します。一方、Google Cloud Speech-to-Text はすでに GCP を使っている企業に自然にフィットします。最後に、Cleanvoice は音声のクリアさを高め、字幕ワークフローに最適な選択肢になります。

API を選ぶときは、次の 3 つの質問を考えてみてください:どれくらい速く結果が必要か? どれだけ多くの言語をサポートする必要があるか? 転写の後に何をするか? ライブイベントでは速度が重要、グローバルコンテンツでは多言語精度が優先、エンタープライズレベルの動画ライブラリではコンプライアンスとスケーラビリティが要となります。自分のニーズをこれらの要素に合わせることで、現在の要求にも今後の成長にも応えられる選択ができます。

Magic Hour の CEO、Runbo Li 氏は、これらツールの重要性を見事に言い表しています。

「字幕 API はアクセシビリティ、成長、自動化の交差点に位置しています。もはや『あれば便利』ではなく、インフラそのものです。」 - Runbo Li、Magic Hour CEO [1]

転写を超えて高度な動画編集や生成まで広がる複雑なワークフローを扱うチームには、APIMart のようなプラットフォームがプロセスを簡素化してくれます。音声、動画、言語タスクにまたがる 500+ の AI モデルへのアクセスを通じて、APIMart は複数のニーズを単一の統合に集約し、時間と労力を節約します。

字幕はオプションからベースライン要件へと位置を変えました。今日適切な API を選ぶことが、増え続ける需要に応えるスケーラブルなワークフローの基盤になります。

よくある質問

自分のニーズに最適な字幕 API はどう選べばよいですか?

最適な字幕 API を見つけるには、まずプロジェクトで最も重要なものを特定します:精度スピード統合要件 の三点です。多言語対応、リアルタイムまたはバッチ処理、特定の出力フォーマット(SRT や VTT など)が必要かどうかを判断します。API が自分のプラットフォームに無理なく組み込めるか、予算内に収まるかを確認しましょう。鍵は、API の能力を自分の目標に合わせること──プロ用途で最高精度が必要なのか、カスタムワークフローで柔軟性が欲しいのか、それともすばやい実装のしやすさを優先するのか、ということです。

25 MB を超える音声ファイルを扱う最良の方法は何ですか?

音声テキスト変換 API で 25 MB を超える音声ファイルを扱うには、ストリーミング または バッチ処理 のオプションが頼りになります。ストリーミングを使えば、巨大なファイルを一度にアップロードすることなく、音声を小さな部分に分けてリアルタイムに処理できます。あるいは、音声を小さなセグメントに分割すればサイズ制限を回避でき、遅延も最小化できます。API が大きなファイルの転写をサポートしているか確認し、効率的な処理に合わせて方法を調整しましょう。

専門用語や人名の字幕精度を上げる方法は?

専門用語や特定の人名を扱うとき字幕の精度を上げるには、多くの音声テキスト変換 API が提供する カスタム語彙(custom vocabulary) 機能を活用できます。phrase boostingkeyword hints といったツールを使えば、API が優先すべき用語を定義できます。これらの専門用語や固有名詞を含めることで、API は分野固有の言語や固有名詞をより適切に扱えるようになり、技術的・ニッチなコンテンツでも、より正確で精密な転写が得られます。

関連記事