顔出しなしのYouTubeショートに、ElevenLabsの多言語ナレーションを乗せる

たとえば、こんな夜

平日の夜、自分のYouTubeショートをコツコツ作る時間があります。「名古屋の喫茶店紹介」のような60秒ショートを撮るとき、声を出すとキャラ作りが必要になって続かない。かといって、機械音声の棒読みは聞き疲れる。顔も声も出さずに、どうやって動画に温度感を乗せるか、という悩みが残ります。

こんなふうに使える

ElevenLabsの多言語ナレーション機能を使うと、同じ原稿を日本語・英語・スペイン語など74言語で生成できます。海外向けに横展開しやすくなります。感情タグ([whispers] [sighs]など)を埋め込めるので、機械的でない朗読が作れます。Sound EffectsやMusicも同じアカウントで使えるので、動画一本の音まわりが一つにまとまります。

想像してみると

「[whispers]朝の名古屋。喫茶店のドアを開けると、コーヒーの香りが先に出迎えてくれる。モーニングセット、380円。[sighs]これだけでパンとゆで卵とサラダが付いてくる」と300字くらいの原稿を書いてElevenLabsに貼り付けてみる。10秒で音声がダウンロードできて、CapCutに映像と一緒に並べる。同じ原稿をDeepLで英訳・西訳して、同じ声で生成すると、3言語ぶんの動画が30分くらいで揃います。海外向けの動画ハードルがぐっと下がる感覚が流れます。

この記事でできること

クライアントのTikTok運用とは別に、自分のYouTubeショートをコツコツ作ることがあります。顔出しはしたくないけれど、機械音声みたいな読み上げも避けたい。そんなときにElevenLabsの多言語ナレーション機能を使うと、ちょうどよい温度感のナレーション動画が作れます。

  • 同じ原稿を日本語・英語・スペイン語など74言語で生成できるので、海外向けに横展開しやすいです
  • 感情タグ([whispers] [sighs]など)を埋め込めるので、機械的でない朗読が作れます
  • Sound EffectsやMusicも同じアカウントで使えるので、動画一本の音まわりが一つにまとまります

使うもの: ElevenLabs Creatorプラン($22/月) + CapCutなどの動画編集アプリ かかる時間: 原稿用意20分 + ナレーション生成5分 + 動画編集30分くらい 必要なスキル: 動画編集アプリで音声を貼り付けられればOK

こんな場面で活きる

自分のチャンネルではゆるい雑学・地域ネタを淡々と流したい、というケースがあります。声を出すとキャラ作りが必要になって続かないので、ナレーションは音声AIに任せたい、でも棒読みは嫌、というのがありがちな悩みです。

ElevenLabs(イレブンラボ、音声合成AI)は2025年中盤から日本語の品質が上がっていて、感情タグも埋め込めるので、Creatorプラン($22/月、初月$11)で試せます(Source: ElevenLabs Pricing)。

手順:1本のショート動画に多言語ナレーションを乗せる

ステップ1:原稿を書いて感情タグを差し込む

「名古屋の喫茶店モーニング」の60秒ショート用の原稿を300字くらいで書きます。

[whispers]朝の名古屋。喫茶店のドアを開けると、コーヒーの香りが先に出迎えてくれる。
モーニングセット、380円。[sighs]これだけでパンとゆで卵とサラダが付いてくる。
名古屋に住んでいてよかった、と毎朝思う瞬間。

ElevenLabsのv3モデルは感情タグ([laughs] [whispers] [sighs]など)をテキスト中に直接埋め込めて、その通りに抑揚をつけてくれます(Source: Eleven v3)。

ステップ2:日本語ナレーションを生成する

管理画面で声を選んで、原稿を貼り付けて生成。Multilingual v2モデルでも生成できますが、感情タグを使うならv3がおすすめです(Source: ElevenLabs Models)。

10秒くらいで音声ファイルがダウンロードできます。少し聞き返して、抑揚が違うところだけ原稿を直して再生成すれば仕上がります。

ステップ3:英語版・スペイン語版も同じ原稿から作る

ここがいちばん効率が出るポイントです。日本語の原稿をDeepLで英訳・西訳して、同じ声(クローンではなく、ElevenLabsの既製ライブラリ声)で言語を切り替えて生成すると、同じ雰囲気のナレーションが3言語ぶんできあがります。

「Nagoya in the morning. As you open the door of the kissaten…」のような英語ナレーションが、日本語版と同じトーンで聞こえてくると、海外向けの動画ハードルがぐっと下がる感覚があります。

ステップ4:CapCutで動画に貼り付ける

CapCut Proに、映像、ナレーション、軽いBGMの順で乗せていきます。BGMはElevenLabsのMusic機能(2025-08ローンチ、著作権クリアのBGM生成)で作ったローファイ系のものが使えます(Source: ElevenLabs Music)。

書き出して、YouTube ShortとTikTokに上げて完了。1本の原稿から3言語ぶんの動画が30分くらいで作れる流れです。

つまずきやすい点

感情タグを入れすぎると、ナレーションが「演技しすぎ」になります。[whispers]を3回入れると全体的にささやき声になってしまい、聞き取りにくい音声に。

感情タグは1段落に1つくらいに抑えて、ふつうの文章のなかにアクセントとして差し込むくらいがちょうどよいです。

もう一つ、英語ナレーションの発音は90点くらいで、ネイティブが聞けば違和感はあるレベル。「英語圏のユーザーに本気で見せる動画には足りないかも」と感じる場面では、英語版はあくまで補助的なリーチ用に使う、という割り切りが現実的です。

解決のコツ:声は「ライブラリ声」のままにする

クローン声(自分の声のIVC)で作ろうとすると、自分の声を多言語で合成したときに、なんだか別人がしゃべっている違和感が強くなりがちです。

ライブラリにあるElevenLabsの既製声(プロのナレーター声をElevenLabsが正式に提供しているもの)を使うほうが、多言語展開しても声のキャラがブレません。クローン声は「自分のチャンネル感」を出したい日本語動画だけに使う、と運用を分けるのがおすすめです。

ポイント:海外向けは「翻訳」より「展開」

翻訳して動画を作り直すのは、これまで手間がかかりすぎて踏み出しにくかった領域です。ElevenLabsの多言語生成を組み込むと、ハードルが「原稿を翻訳する」だけになって、ナレーション収録の工程が消えます。

著作権論争のあるAI動画ツール(Sora2、Runway Gen-3など)と比べると、音声AIは原稿が自分のものであれば権利関係がクリアにしやすいのも、続けやすいポイントです(Source: ElevenLabs Safety)。

注意しておきたいこと

  • Creatorプラン($22/月)は月10万文字、約2時間の音声生成が可能です(Source: ElevenLabs Pricing)。ショート動画なら月20〜30本は作れる計算です
  • 多言語ナレーションは便利ですが、ネイティブ品質ではないので「翻訳版」「字幕付き」と明記しておくとリスナーの期待値とずれません
  • 商用利用にはStarter以上のプランが必要です。Free版は非商用かつElevenLabsアトリビューション必須(Source: ElevenLabs Pricing)

使ったツール

ElevenLabs について詳しく見る →