Sunoで作った曲にMVをつけたくなったら、Runway FramesとGen-4で組み立てる

たとえば、こんな夜

副業で Suno を使ってロー・ファイのインスト曲を量産し、Spotify と Apple Music に配信している夜があります。1年半で62トラック、月間ストリームが14万回くらい、副業月収の平均は7万円弱、というような温度感の夜もあります。ずっと気になっているのは、自分の曲にMVが1本もないこと。Spotify の Canvas や Apple Music for Artists の動画も、ジャケ画像のスライドショーで済ませているケースが多い。動画編集は得意じゃないし、撮影機材もない、というような夜があります。

こんなふうに使える

Runway の Frames でキービジュアルを作って、Gen-4 で5秒チャンクを連結すると、1曲分のMVが組み上げられます。Suno で作った曲 → Frames で世界観のキーフレーム → Gen-4 で動画化、という流れで進められます。Standard プラン($15/月)で商用利用OK・ウォーターマークなしになって、Spotify Canvas や YouTube に直接アップできるようになります。

想像してみると

3分のロー・ファイ曲を、5秒チャンクに切り分けてみる夜があります。3分=180秒なので、ざっくり36カット。Aメロ、Bメロ、サビ、ブリッジ、それぞれに「夜の渋谷スクランブル、雨上がりのネオン」「深夜のコンビニ、蛍光灯」「電車の窓、流れる街明かり」みたいに、ロー・ファイらしい都会の夜の景色を箇条書きでメモする時間が流れます。Frames で「Late night Tokyo, rainy neon street, lo-fi aesthetic, cinematic」と打ち込んで基準画像を5枚作って、Worlds に登録。その基準画像を Image to Video の参照に放り込んで、Gen-4 Turbo で5秒動画を1カットずつ生成していく夜があります。生成した36本を CapCut に並べて、Suno の曲のWAVと一緒にタイムラインに載せて、シーンの変わり目に軽くトランジション。3分のMVを組み上げると、初めて自分の曲をフルで「映像と一緒に」聴き直すことになって、自分の曲なのにこんなに濡れた音だったのか、と気づく場面が流れます。

この記事でできること

Sunoで作って配信しているロー・ファイのインスト曲に、初めてMVをつける使い方です。Frames でキービジュアル、Gen-4 で5秒チャンクを連結。Standardプラン1ヶ月分のクレジットで、3分のMVが組み上がります。

  • Suno で作った曲 → Frames で世界観のキーフレーム → Gen-4 で動画化、の流れで作れます
  • 5秒チャンクを連結して1曲分のMVに仕上げられます
  • Standard プラン($15/月)で商用利用OK・ウォーターマークなしになります

使うもの: Runway(Standard $15/月、625クレジット)、Suno(既に配信中の自作曲) かかる時間: 約30時間(3分の曲のMVを組み立てる場合) 必要なスキル: 動画編集の基礎(CapCut等)

手順:Suno → Frames → Gen-4 の3段ロケット

ステップ1:曲の構造を5秒ごとに分解する

3分のロー・ファイ曲を、5秒チャンクに切り分けます。3分=180秒なので、ざっくり36カット。Aメロ、Bメロ、サビ、ブリッジ、それぞれに「どんな世界観の映像が合うか」を箇条書きでメモします。

「夜の渋谷スクランブル、雨上がりのネオン」「深夜のコンビニ、蛍光灯」「電車の窓、流れる街明かり」みたいに、ロー・ファイらしい都会の夜の景色を中心にする組み立てが想像できます。

ステップ2:Frames で「世界観の基準画像」を作る

Runway の Frames は、シネマトグラフィに最適化された画像生成モデルで、Worlds 機能で「世界観」を一貫保持して連続生成できる、と公式にあります。

「Late night Tokyo, rainy neon street, lo-fi aesthetic, cinematic」とプロンプトを入れて、Frames で5枚くらい基準画像を作ります。Worlds 機能でその5枚を1つのWorldとして登録すると、後続の生成も同じ色味・グレーディングを保ってくれます。

ステップ3:Gen-4 Turbo で5秒チャンクを量産

基準画像を Image to Video の参照に放り込んで、Gen-4 Turbo で5秒動画を1カットずつ生成。「Camera slowly pans right, neon reflection on wet street」のような短いプロンプトで指示します。

Gen-4 Turbo は Gen-4 の約7倍速・約1/5のクレジット消費なので、Standardプランの625クレジット/月で、5秒動画が60〜80本生成できる計算になります。3分のMV(36カット)+ 試行錯誤分でちょうど1ヶ月の予算です。

ステップ4:CapCut で連結 + Suno の曲を載せる

生成した36本の5秒動画を CapCut にインポートして、Suno の曲のWAVと一緒にタイムラインに並べます。曲のテンポに合わせて少しトリミングして、シーンの変わり目に軽くトランジション。クライアント納品じゃないので、編集は2時間で済む温度感があります。

つまずきやすいポイント

最初の10カットくらいは、5秒ごとに世界観がバラバラになりがちです。1カット目は雨の渋谷なのに、3カット目はなぜか昼の田舎道、みたいな。Frames の Worlds 機能をちゃんと使わずに、単発のImage to Imageで基準画像を作るのが原因です。

Worlds に5枚の基準画像を登録し直すと、生成された動画の色味とグレーディングがピタッと揃います。Frames を「シネマトグラフィに最適化された世界観固定の画像生成」だと最初から認識しておけば、早く気づけるポイントです。

もう1つ、リップシンクが要らない曲ならスムーズですが、ボーカル曲のMVを作るなら ElevenLabs などとの組み合わせも検討する必要がありそうです。Runwayの日本語リップシンクは英語よりズレが大きいとWikiにも書かれています。

解決の方向性:世界観を最初に固定する

うまく回り始めるのは、Frames の Worlds で世界観を最初に固定するフローに切り替えてからです。

  • Step 0: 曲の世界観を1行で言語化(「深夜の東京、ロー・ファイ、雨上がりのネオン」)
  • Step 1: Frames で基準画像を5枚、Worlds に登録
  • Step 2: 5秒チャンクごとのプロンプトは「カメラワーク」だけにする
  • Step 3: 生成した動画はそのまま使う、レタッチしない

このフローにすると、36カットが全部同じ世界の中で起きている感覚になります。

学び・気づき:MVは「自分の曲を、もう一度聴き直す装置」

3分のMVを組み上げると、初めて自分の曲をフルで「映像と一緒に」聴き直すことになります。自分の曲なのに、こんなに濡れた音だったのか、と気づく場面が流れます。

Standard プラン($15/月)で商用利用OK・ウォーターマークなしになり、Spotify Canvas や YouTube に直接アップできる温度感があります。Frames で世界観を固定、Gen-4 Turbo でチャンク量産、CapCut で連結という3段構造は、量産フローとして定着させやすい組み合わせです。

「効率化」というよりも、自分の曲がやっと「映像と並ぶ作品」になるという、創作の階段を1段上がる感覚に近い体験があります。

次に試したい

  • Suno新曲リリースと同時にMV公開: 配信日にYouTubeで同時公開する量産フロー
  • ElevenLabs と組み合わせたボーカル曲MV: 試験的にナレーション入りのアンビエント曲で
  • Frames の Worlds を曲ジャンルごとに保存: ロー・ファイ用、アンビエント用、ハウス用、と世界観ライブラリ化

注意しておきたいこと

  • Standardプラン($15/月、年払い$12)で商用利用OK・ウォーターマーク削除になります — Source: runwayml.com/pricing
  • Suno で作った曲を商用利用する場合、Suno 側の規約も確認してください。Suno Pro 以上で生成した曲は商用利用可能になります
  • Frames や Gen-4 で生成した映像も、既存のキャラクター・実在の人物に似せた生成は著作権・肖像権リスクがあります。世界観の参考に留めるのが安全です

使ったツール

Runway について詳しく見る →