UStackUStack
HeyGen icon

HeyGen

HeyGen DevelopersのAPIでアバター動画生成・翻訳・リップシンク。TTS音声モデルも連携し、スケールする制作ワークフローに対応。

HeyGen

HeyGenとは?

HeyGen Developersは、APIで本番動画ワークフローを構築するための開発者向けプラットフォームです。Video Agentワークフロー、動画生成、動画翻訳、リップシンクを含む一連の動画モデルへのアクセスを提供し、音声生成(TTS)も併用可能です。

主な目的は、開発者がAPIコール(およびCLIなどの関連ツール)を通じてアバターおよび動画出力を生成・変換・スケールし、アプリケーションやエージェントパイプラインに統合可能な構造化レスポンスを取得することです。

主な機能

  • Video Agent APIエンドポイント:1つのプロンプトからアバター動画を生成。クライアントワークフローでアバター選択やスクリプト作成を別途必要とせず、完成動画を出力。
  • アバターIVモデル(Digital TwinおよびPhoto Avatar):実動画からリアルなアバターを作成(Digital Twin)または静止画1枚からトーキングヘッドをアニメーション化(Photo Avatar)、提供スクリプトと音声で話す動画を生成。
  • 175言語以上の動画翻訳:コンテキスト認識の自然なリップシンクと性別検知で175言語以上に翻訳。「自分の声」で出力。
  • 翻訳モード:「Speed」(高速ダビング)と「Precision」(リップシンクダビング)の両方をプラットフォームの翻訳機能でサポート。
  • オーディオリプレースメント付きリップシンク:提供オーディオファイルで動画の音声をダビング・置換し、リップを新音声に同期。
  • Voices / Starfish TTS:HeyGenのTTSエンジンでテキストから音声オーディオを生成。
  • 本番対応開発ツール:v3 APIとv3機能をラップしたエージェント優先CLIを強調。構造化JSONを返し、ターミナルベースのワークフローをサポート。
  • APIリファレンス+「Try It」コンソールとガイド:認証/動画作成のチュートリアル、エンドポイントリファレンス(リクエスト形式とレスポンススキーマ)、API更新の「Changelog」を含むドキュメント。
  • セキュリティとコンプライアンス:SOC 2 Type IIおよびGDPR準拠を独立監査/認証で明記。

HeyGenの使い方

  1. v3エンドポイント経由で認証とAPI使用の開発者ドキュメントにアクセス。
  2. モデルワークフローのいずれか(例:Video Agent、Video Generation、Video Translate、Lipsync)から始め、対応APIエンドポイントをコール。
  3. リクエストヘッダーにAPIキーを使用(サイト例ではJSONペイロード付きx-api-keyを送信)。
  4. 選択モデルに必須入力を提供(例:Video Agent/アバター駆動生成ではプロンプトに加えアバターと音声識別子)。
  5. 構造化JSONレスポンスを確認し、アプリケーション、CIパイプライン、エージェントワークフローで結果を使用。

ユースケース

  • アバター駆動のマーケティング/アウトリーチ動画作成:アバター選択やフルスクリプト編集をクライアント側で手動せず、1つのプロンプトで洗練された動画を出力。
  • 人物の写真をソーシャルコンテンツに:Photo Avatarフローで静止画1枚からトーキングヘッド動画をアニメーション化し、選択音声で同期出力。
  • 実動画からデジタル存在をクローン:実動画で訓練したDigital Twinを使い、カメラやスタジオ不要でスクリプトから新動画を生成。
  • 製品/トレーニング動画のローカライズ:既存動画を175言語以上にリップシンクダビングで翻訳。高速出力または高精度リップシンクのバリエーション対応。
  • 既存映像の再ダビング/ナレーション調整:Lipsyncワークフローにオーディオファイルを提供し、音声を置換して話者のリップ動作を自動同期。

FAQ

APIリクエストの認証方法は?

開発者ドキュメントと例では、x-api-keyヘッダーにAPIキーを含めてリクエスト。

翻訳とリップシンクの「Speed」と「Precision」の違いは?

サイトでは「Speed」を高速ダビング、「Precision」をリップシンクダビングと記述。翻訳とリップシンクワークフローで両方利用可能。

動画翻訳でサポート言語は?

HeyGenの動画翻訳は175言語以上をサポート。

動画翻訳なしでテキストから音声を生成可能?

はい。サイトにVoices / Starfish TTS機能があり、テキストから音声オーディオを生成。

ターミナルからHeyGenを使用可能?

サイトではv3 APIをラップしたエージェント優先HeyGen CLIを記述。開発者/エージェントがコマンドラインでアバター動画を作成・ポーリング・ダウンロードし、構造化JSONレスポンスを取得。

代替案

  • 汎用ビデオ編集・ダビングワークフロー:手動ボイスオーバー、再タイミング、リップマッチを別ステップで行うツールを使用;HeyGenに比べ、通常は制作労力が増え、手動制御が厳密になる。
  • その他のダビング/音声・アバター描画向け開発者API:API経由のビデオダビングや音声駆動アバター生成を提供するプラットフォームを探す;違いは通常、言語カバレッジ、リップシンク品質制御(速度 vs 精度)、アバター訓練オプション(画像 vs 動画素材)の有無。
  • オフライン/ローカルホストAIビデオ生成スタック:プライバシーや運用理由でセルフホストパイプラインを好むチーム;HeyGenのホストv3 APIおよびCLIに比べ、セットアップとスケーリング責任がユーザに移る。
  • メディアコネクタ付きエージェントオーケストレーションプラットフォーム:「エージェント式ビデオ生成」が目標なら、サードパーティメディア生成サービスと統合するエージェントプラットフォームを検討;HeyGenのv3優先アプローチに比べ、統合は専用ビデオエンドポイントではなくコネクタ経由が多い。