「ACE-Step 1.5」オープンリリース!Suno使いがガッツリ評価してみたぞ
- AICU Japan

- 2 日前
- 読了時間: 11分

2026年2月4日、ACE Studioはオープンソース音楽生成モデル「ACE-Step v1.5」 をMITライセンスでオープンリリースしました。ACE-Step v1.5 は、主要な商用モデル/既存のオープンソースモデルと比較して一般的なベンチマークで上回る性能を達成しています。さらに、PC / Mac でローカル実行可能、・LoRA によるファインチューニング対応、・モデルを自分で所有・運用できる OSSという点も大きな特長です。

やぁ、みんな。AiCutyの音楽担当、Nao Verde(ナオ・ヴェルデ)だ。今日は音楽制作の現場から、ちょっとした革命的なニュースを届けに来たよ。僕たちクリエイターにとって、手元のPCで「商用レベルの楽曲」が爆速で作れるようになる……そんな未来が、今日からComfyUIで始まったんだ。
今回紹介するのは、ついに公開されたオープンソースの音楽生成モデル「ACE-Step 1.5」。これがどれだけヤバいのか、僕の視点で解説していくね。まずは前回の紹介記事から。
ACE-Step 1.5:ローカル音楽生成の「新基準」
「AIで曲を作る」っていうと、これまではSunoやUdioみたいなクラウドサービスが主流だったよね。でも、このACE-Step 1.5は「自分のPC(ローカル)」で動かせるのが最大の強みなんだ。
ここが「革命的」な4つのポイント
圧倒的なスピード: RTX 5090ならフル楽曲が約1秒、RTX 3090でも10秒かからない。
低スペックPCでもOK: なんとVRAM 4GB未満でも動作する。ノートPCでも曲が作れるレベルだね。
商用利用が可能: MITライセンスで公開されているから、作った曲の権利関係で悩む必要もない。
多言語サポート: 日本語を含む50カ国語以上に対応。歌詞の再現度もかなり高い。
どうやって動いているの?(技術の裏側)
ACE-Step 1.5がこれほど速くて賢いのは、「ハイブリッド・アーキテクチャ」を採用しているからなんだ。
LM(言語モデル) + DiT(拡散トランスフォーマー)
まず言語モデルが「曲の設計図(構成や歌詞の割り振り)」を作り、それをDiTが「実際の音」としてレンダリングする。この2段構えが、長尺でも破綻しない一貫性を生んでいるんだ。さらに、Chain-of-Thought(思考の連鎖)を使って、メタデータや歌詞をじっくり「考えて」から音にするから、プロンプトへの忠実度がめちゃくちゃ高い。
自分だけのスタイルを作る「LoRA」対応
これが僕が一番ワクワクしている機能なんだけど、ACE-Step 1.5はLoRAによる微調整(ファインチューニング)をサポートしているんだ。
数曲から数十曲のデータがあれば、自分独自の「歌声」や「音楽スタイル」を学習させたLoRAが作れる。ローカルで実行するから、自分の大事な楽曲データが外に漏れる心配もない。クリエイターの個性を守りつつ、AIを相棒にできるっていうわけ。
論文が伝える「数値」の裏付け
なぜACE-Step 1.5が「商用レベル」なのか。論文の数値が示している。

Musical Coherence (音楽的一貫性): 初代 ACE-Step 1.0は3.85だったことを考えると ACE-Step 1.5の 4.72 という数値は、現行のトップ商用モデル Suno-v5 と肩を並べる値といっていいだろう。あくまで数字だけの問題なので体感はまた別だけど。
Generation Speed: A100で2秒。これは他のモデルの10〜120倍速い。
このスピードと一貫性を両立させるには、上記のような「構成(構造)・楽器・ボーカルの質感・ミックスの仕上げ」を網羅した詳細なプロンプトが不可欠らしい。実際、デモを見ても楽曲制作の現場に適した分離ができるのはありがたい。論文のプロンプトを分析すると、共通の「構文」が見えてくる。自分で書く時もこの構成を守るといいはずだ。
ジャンルとエネルギー: (例: explosive, high-energy K-pop)
リズムとベースライン: (例: relentless four-on-the-floor beat)
楽器構成と展開: (例: opens with bright piano... slamming into main groove)
ボーカルのディテール: (例: anthemic melody, energetic ad-libs)
プロダクション/ミックス: (例: dense with layered synthesizers, tape-stop effect)
バッチ生成を活用: AIはたまに気まぐれだから、batch_size を8か16にして、一番「刺さる」、再現性のあるテイクを選ぶのがプロのやり方だ。APIを詳しく調べたらSeedなんかも制御できるのかもしれない。
ComfyUIで使える!
ComfyOrgもゼロデイサポートをしてきた。使い方はシンプル。最新のComfyUIにアップデートして、以下の手順を踏むだけ。
テンプレートを選択: Template Library → Audio から ACE-Step 1.5 を選ぶ。
プロンプトを入力: ジャンル、楽器、雰囲気などをタグで指定(例:J-pop, energetic, female vocal)。
歌詞を入力: [verse], [chorus] などのタグで構造を指定して、歌詞を書く。
実行: あとは数秒待つだけ。
公式デモから読み解く!
以上が公式発表なんだけど、リリースと同時にHuggingFace Spacesで公開されているACE-Step 1.5のプレイグラウンドUI、かなり実戦的な作りになっているね。単に「曲を作る」だけじゃなく、クリエイターが納得いくまで追い込めるような工夫が随所に見える。画面の主要な要素を、僕なりの視点で解説していくよ。 https://huggingface.co/spaces/ACE-Step/Ace-Step-v1.5
🎛️ ACE-Step 1.5 Playground
🎛️ 主要な機能の読み解き
1. 制作の出発点「Generation Mode」
Simple: 説明文ひとつでまるっとお任せ。
Custom: Simpleモードで設定を変えると選ばれる。
Cover: 手持ちの音源(Reference Audio)の構造を活かして、別のスタイルに着せ替える(後述)。
Repaint: 生成した曲の一部を選んで「塗りつぶす」ように修正する。
2. インプット・セクション
Reference Audio: ここに好きな曲を放り込めば、そのテンポや雰囲気をAIが「理解」してくれる。
Prompt & Lyrics: 上で話した通り、ここは具体的に書くのがコツ。[verse] や [chorus] といったタグで構成を教えるのを忘れずに。
Thinking: これが面白い!生成前にAIが「どんな曲にするか」をじっくり練るプロセスを可視化・制御できるんだ。
3. クリエイターを支える「便利ボタン」
まずは「Generate Music」を押してみよう。

Instrumental: オフボーカル版が手に入る。これは助かる。
Get Scores: 生成された曲のクオリティをAIが客観的に数値化してくれる。
Get LRC: LRCとは音楽ファイル(MP3など)の再生に合わせて歌詞を表示するための「同期テキストファイル」。音楽データそのものではなく、時間情報付きの歌詞データです。つまり歌詞のタイムスタンプ(歌詞カードデータ)を自動生成、カラオケ動画を作る時なんかには必須だね。…っていうかこの機能だけでDTMやカラオケ業界はマジで涙出そうなんですけど!!日本語の漢字の読みもしっかり同期される、この点はすごい。
実用レベルかどうか検証! Cusom/Coverモード
AiCuty楽曲「向日葵が終わる頃に」をCoverしてみた!
みんなも権利をきちんと持った楽曲をアップロードしような!
権利を持っていない楽曲をこのモデルにアップロードする行為は、複製権、公衆送信権、さらに楽曲だけでなく歌詞についても侵害することになる。なにより、クリエイターとしてのオリジナリティの尊厳が問われるよ?
まずは一番気になる「Cover」を試してみよう。SunoV5を上回る楽曲になるかどうかが採用ラインだからね。
acestep-v15-turbo-shift3
生成結果のパラメータを見てみよう。
Total generation time (2 songs): 3.54s =これはAIが「音そのもの」を生み出すのにかかった純粋な時間だ。
1.77s per song: 1曲あたり2秒を切っている。論文で「10〜120倍速い」と謳われていた通りの爆速ぶりだね。
DiT phase (2 songs): 3.54s: ここが重要。今回の生成では、LM(言語モデル)による「思考(Thinking)」をスキップしたか、あるいは拡散トランスフォーマー(Diffusion Transformer)が直接音を生成した時間がこれだ。まさにACE-Stepのエンジンがフル回転した証拠。
Total processing time (2 songs): 42.19s = 「音を作った後」の後処理にかかった時間だ。実は生成そのものより、こっちに時間がかかる。
to mp3: 31.49s: 生成された生データを、僕たちが聴けるmp3形式にエンコード(圧縮)している時間。地味だけど一番時間がかかる工程だね。
scoring: 6.74s: UIにあった「Get Scores」の機能だ。論文にある評価指標(Table 1)に基づいて、AIが自分の作った曲に「何点」つけるか計算している。
LRC detection: 3.96s: これもUIの「Get LRC」。歌詞と音を突き合わせて、カラオケのようなタイムスタンプ付きの歌詞データを作っている時間だ。
Nao's Analysis
ログを見ると、「音を作るのは一瞬(3.5秒)だけど、それをファイルにして採点して歌詞をつけるのに合計42秒かかった」ということになる。生成時間(DiT phase)がこれだけ短いのは、ACE-Step 1.5が「コンシューマー向けハードウェアで商用グレードを実現する」という論文の目標を、このPlayground環境でしっかり達成している証拠だね。
ちなみにモデルは「acestep-v15-turbo」と比較してみたけど、「shift3」のほうが個性的でいい気もする。プロンプトを入れずに比べてみたのだけど、前者のモデルは10回試行しても「公開するレベルの生成」はできなかった。つまりSunoV5の方に軍配をあげるしかなかった。日本語の歌は難しい。
Customモードは使える
上位の通り「Cover」モードは実用的かというとそこまでではない感じがした。UIを見るとCustomモードこそが「フルコントロールの司令塔」だね。
"copy this J-POP duo." とにかくコピーしろ!というプロンプトで実験
Get Scores(採点機能)」UIにある Quality Score の詳細を見てみて。
dit lyrics alignment score: 0.0675: これは単なる『良し悪し』の採点じゃなく、『歌詞とメロディがどれだけ正確に一致しているか(Alignment)』をAIが判定しているようだ。この数値が高いほど、リズムと歌詞がバッチリ噛み合っているといえるかもしれない。こういう機能はSunoにはないし、曲の改善や評価の客観性にいいね。
LM phase(思考)の時間の意味
今回のログには LM phase (2 songs): 1.30s と出ている。Customモードでは、入力した歌詞をどうメロディに割り振るか、LM(言語モデル)が1.3秒で『建設計画』を立ててから音を作っている。 このわずかな『思考』があるから、長い歌詞でも破綻せずに歌い上げられるとみている。今回の「向日葵が終わる頃に」の生成結果、4分28秒という長尺の曲が、歌詞の構成(VerseからFinal Chorusまで)を完璧に維持して出力されているのは驚異的だね。なによりLyrics Timestmpsが取得できるのはリリックビデオをつくる上ではとてもありがたいじゃないか!
「Repaint」(リペイント)モード!
Start=27, End=-1といった形で秒数を指定してリミックスできる。

原曲の前半だけ置き換えてみた。秒数指定できるのは便利かもしれないな。
でも後半はダメだ!メロディラインがポップスとして気持ち悪いし、楽曲として古臭いのは変わらない。
これは本当は公開したくないけど、モデルを公開しているACE STEPに敬意を表して、このレベル、というところは公開しておきたい。
最後にちょっとまともに使いこなせたかも?という例も公開しておく。
UIを深掘りしたおかげで、ACE-Step 1.5が単なる「おもちゃ」じゃなく、「構成を制御できるプロ用AIツールを目指している」ということがより鮮明になった!これからも頑張って欲しい!!
ACE-Step 1.5 公式プロンプト・マスターデータ
論文のTableやExampleに掲載されている、モデルが最も得意とする記述形式を入手したよ。これをそのままPlaygroundの「Prompt」欄にコピーして使って体験するのが最高ってわけ。
1. Heavy Metal (High-Energy & Aggressive)
Prompt: An aggressive, high-energy heavy metal track that explodes from the start with dual, heavily distorted guitars playing tight, chugging riffs over a powerful, driving drum beat. The male vocalist delivers a forceful, slightly raspy performance in a mid-to-high range, perfectly matching the song's intensity. The arrangement features a classic metal structure, highlighted by a melodic and technical guitar solo filled with fast runs and expressive bends. The production is clean yet powerful, emphasizing the punch of the drums and the sharp attack of the guitars, creating an anthemic and rebellious mood.
2. K-Pop & EDM (Explosive & Modern)
Prompt: An explosive, high-energy K-pop and EDM track driven by a relentless four-on-the-floor beat and a pulsing synth bassline. The arrangement opens with a bright piano melody and shimmering arpeggiated synths before slamming into the main groove. A powerful, clear male lead vocal delivers an anthemic melody, punctuated by energetic ad-libs and hype-man shouts. The production is dense with layered synthesizers, including soaring leads, atmospheric pads, and dynamic FX like risers and sweeps that build tension into the explosive choruses. A mid-song instrumental break features a melodic synth lead and vocal chops, leading into a final, climactic chorus and an abrupt ending with a tape-stop sound effect.
3. Jazzy Lo-Fi Hip-Hop (Smooth & Atmospheric)
Prompt: A smooth, jazzy lo-fi hip-hop track built on a foundation of a gentle piano melody and a relaxed, steady drum machine groove. A warm, round bassline provides a solid harmonic base. The song features a duet between a clear, melodic female vocalist and a smooth, conversational male vocalist who trade verses and harmonize beautifully in the choruses. The arrangement is punctuated by tasteful, melodic saxophone fills that enhance the jazzy, late-night atmosphere. The track concludes with an extended instrumental outro where the saxophone takes center stage with an expressive, improvisational solo over the core piano and rhythm section, before fading out with a final, lingering piano chord and a soft whoosh effect.
4. Phonk (Eastern & Gritty)
Prompt: An aggressive, high-energy phonk track, driven by a sharp, repetitive cowbell pattern that defines the groove. Dark minor-key synths blend with Japanese-inspired instruments such as koto plucks, shamisen-style melodies, and taiko-like percussion hits, creating an eastern atmosphere layered over a gritty trap framework. The rhythm is powered by a punchy, hard-clipped drum kit and an overdriven, distorted 808 bass typical of phonk. A deep, low-pitched male vocal delivers a raw rap performance, characterized by a monotone, chant-like flow and heavy processing including saturation, phasing, distortion, and tape-style compression.
つまりSunoで通用していたこういうプロンプトではなく…
Bright J-pop track featuring female vocals atop a brisk fingerpicked acoustic guitar. Verses are sparse, with syncopated claps and minimal bass under the lively guitar, while choruses burst with layered harmonies, hand percussion, and playful digital effects enriching the acoustic base.
こう書けってこと!(ありがとうGemini!)
A bright, high-energy J-pop track characterized by its organic yet polished production. The arrangement is driven by a brisk, intricate fingerpicked acoustic guitar that maintains a lively pace throughout. Verses are intentionally sparse and rhythmic, featuring syncopated hand claps and a warm, minimal synth bass that sits subtly under the acoustic guitar's movement. The transition into the chorus brings a sudden burst of energy, layering lush, crystalline female vocal harmonies over the core acoustic foundation. This section is further enriched by spirited hand percussion—including shakers and tambourines—and a variety of playful digital effects, such as shimmering synth arpeggios and subtle glitch textures, creating a feel-good, danceable atmosphere. The track concludes with a brief, melodic acoustic guitar outro that fades out with a sense of joyful resonance.
結びに
ACE-Step 1.5の登場、特にこのプレイグラウンドが無料で公開されているってのは大変な出来事だ。音楽制作のハードルはさらに下がった。でも、使えるかどうか?使いこなせたかどうかでいうと、ちょっと微妙な感想だった。これをどう組み合わせて「心を動かす音楽」を作るかは、僕ら人間にしかできない仕事だと思う。さらにいうと、いくら無料であったとしても、SunoやUdioが取り組んでいる著作権者、つまり既存の音楽のクリエイターに対する対価解決機関としての報酬やサブスクリプションは一定の意味を持つと思う。とはいえ、学生のボクがサブスクしまくるわけにもいかないから、まずは次の新曲のアイデア、このモデルを使って自作ツールを使って形にしてみようかな?
Originally published at note.com/aicu on Feb 4, 2026.

![[OpenAI]地殻変動級!?開発の常識を変えるツール「Codex app」登場!!](https://static.wixstatic.com/media/3801de_5e1193053092425487de64fe87789b74~mv2.png/v1/fill/w_980,h_513,al_c,q_90,usm_0.66_1.00_0.01,enc_avif,quality_auto/3801de_5e1193053092425487de64fe87789b74~mv2.png)


コメント