top of page

Speech-to-Videoリリース! 静止画からの音声駆動による動画生成 - ComfyUI 0.55 Wan2.2 S2V 先行試験中



2025年8月29日、Comfy Orgは、先進的な音声駆動の動画生成モデルであるWan2.2-S2V(Speech-to-Video: 音声からの動画生成)が、ComfyUIでネイティブサポートされたことを発表しました。


AiCutyの音楽担当Nao Verdeです。今回は最先端のオープンな動画生成AI「Wan」で「音楽から動画が作れるようになった」というお話を聞いたので試してみます。この強力なAIモデルは、静止画と音声入力からダイナミックな動画コンテンツを生成できるそうなので、会話、歌、パフォーマンスなど、様々なクリエイティブコンテンツのニーズに対応できる可能性があります。




まずはモデルの公式情報

  • 音声駆動による動画生成: 静止画と音声を同期した動画に変換。

  • 映画品質: 自然な表情と動きを持つ、映画品質の動画を生成。

  • 分単位の生成: 長尺動画の作成に対応。

  • マルチフォーマット対応: 全身および半身のキャラクターに対応。

  • 強化されたモーションコントロール: テキスト指示からアクションや環境を生成。



公式セットアップより

☆自分のWindowsPCで利用する場合、VRAMが20GB程度搭載した環境でも公式ワークフローはは動作しませんでした。AICUの共有ComfyUIの試験環境を借りて実験していますが、公式ワークフローにもちょっとしたバグがあるようです。


詳しいことはComfyUI Wikiおよび公式ドキュメントに記載があります。



  1. ComfyUIを最新バージョンにアップデートしてください(ComfyUI 0.3.55以降)

  2. ワークフローへのアクセス: Workflow → Browse Templates → Video に進み、Wan2.2 S2V workflow を選択します。

  3. ポップアップダイアログの案内に従ってモデルをダウンロードします。


こちらからモデルを入手可能ですComfy-Org/Wan_2.2_ComfyUI_RepackagedApache-2.0 license

ComfyUIのmodels以下のフォルダに配置してください

diffusion_models


audio_encoders

vae

text_encoders


ComfyUI/

├───📂 models/

│ ├───📂 diffusion_models/

│ │ ├─── wan2.2_s2v_14B_fp8_scaled.safetensors

│ │ └─── wan2.2_s2v_14B_bf16.safetensors

│ ├───📂 text_encoders/

│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors

│ ├───📂 audio_encoders/ # 新規作成してください

│ │ └─── wav2vec2_large_english_fp16.safetensors

│ └───📂 vae/

│ └── wan_2.1_vae.safetensors


4.テンプレート内のガイドに従い、ワークフローを実行します。AiCutyでやってみた!


(VRAM20GBでも動きませんでした…)




サンプルのオーディオファイルとリファレンス画像を入手します。






バッチサイズ

バッチサイズは、ワークフローに追加した Video S2V Extend サブグラフの数によって異なります。Video S2V Extend サブグラフ 1 つにつき、最終出力に 77 フレームが追加されます。

例:Video S2V Extend サブグラフを 1 つ追加した場合、バッチサイズは 2 に設定する必要があります。Video S2V Extend サブグラフを 2 つ追加したので、バッチサイズの値は 3 です。


チャンク長

77 は、WAN2.2S2V の公式コードにおけるデフォルト長です。このモデルでは少なくとも 73 フレームが必要です。値を高く設定しすぎると、メモリ不足の問題が発生する可能性があります。そのため、77 のままで問題ありません。


プロンプト

The man is playing the guitar. He looks down at his hands playing the guitar and sings affectionately and gently.

(男性がギターを弾いています。ギターを弾く手を見下ろしながら、優しく愛情を込めて歌っています。)


positive prompt

色调艳丽,过曝,静态,细节模糊不清,字幕,风格,作品,画作,画面,静止,整体发灰,最差质量,低质量,JPEG压缩残留,丑陋的,残缺的,多余的手指,画得不好的手部,画得不好的脸部,畸形的,毁容的,形态畸形的肢体,手指融合,静止不动的画面,杂乱的背景,三条腿,背景人很多,倒着走

(鮮やかな色彩、露出オーバー、静止画、ぼやけた細部、字幕、スタイル、アートワーク、絵画、静止画、全体的に灰色がかっている、最低品質、低品質、JPEG 圧縮の残留物、醜い、損傷している、余分な指、下手な手、下手な顔、変形している、傷ついている、奇形の手足、癒合した指、静止画、雑然とした背景、3 本の足、混雑した背景、後ろ向きに歩いている)


Negative Prompt


エラー発生!

  • WanSoundImageToVideoExtend の length:整数(INT)が必要なのに、小数(FLOAT)が流れ込んでいる

  • KSampler の cfg:小数(FLOAT)が必要なのに、整数(INT)が流れ込んでいる


改変したワークフォローをAICUの共有ComfyUI 3号機で改変したワークフローを確認済みなのでモデル自体は動くようです。


先行試験中!

VRAM 20GBの環境でもメモリが足りなくなるようです。共有ComfyUI環境において量子化して実験中です。


3号機(RTX 4000 ada / VRAM 20GB)にて:動作確認済みです


15秒という長尺動画の歌唱動画の生成に成功しています。




生成時間は2070秒、1秒の動画生成に138秒、2.3分ほどかかる計算です。

もうちょっと高速化できないか、検討してみたいと思います。

この記事の続きはこちらから https://note.com/aicu/n/nc22c26127a8c

Originally published at note.com/aicu on Sep 1, 2025.


 
 
 

コメント


bottom of page