日本語 English

Meta「SAM Audio」で音源分離が変わる

Metaが「SAM Audio」を公開──音源分離AIの概念が変わる瞬間

2024年、画像セグメンテーションAI「SAM(Segment Anything Model)」で世界を驚かせたMetaが、今度はその技術を音声・音楽領域に拡張した「SAM Audio」を発表しました。テキスト、映像フレーム、タイムスタンプといった複数の方法で「切り出したい音」を指定できるこのモデルは、従来の音源分離AIとはまったく異なるアプローチを取っています。

これまでの音源分離ツールは「ボーカルを抜く」「ドラムだけ残す」といった固定カテゴリでの分離が主流でした。しかしSAM Audioは、「この映像に映っているギタリストの音だけ抜いて」「0:32〜0:48秒のカウベルだけ取り出して」といった、より直感的で自由度の高い指定が可能になっています。これはDTMer・音楽プロデューサーにとって、非常に重大なパラダイムシフトと言えるでしょう。

SAM Audioの3つの指定方法と、それぞれの実用シーン

1. テキスト指定(Text Prompt)

「acoustic guitar」「crowd noise」「dog barking」のように、自然言語で抜き出したい音を記述するだけで分離が可能です。効果音ライブラリや既成曲から特定の楽器音素材を作りたいときに特に有効です。サンプリング制作やリミックスのワークフローが大きく変わる可能性があります。

2. 映像フレーム指定(Visual Prompt)

動画内で「この物体・この人物が出している音」を指定して分離する方法です。演奏動画から特定の演奏者の音だけを取り出す、ライブ映像のマルチトラック化など、映像制作・MV制作との連携が広がります。

3. タイムスタンプ指定(Temporal Prompt)

「この時間帯に鳴っている音」を基準に、前後の楽曲全体から同じ音を追跡・分離します。フィールドレコーディング素材の整理や、収録済み音源のパーツ取りに非常に便利なアプローチです。

従来の音源分離AIとの違い──Demucsとの比較で理解する

現在多くのDTMツールで使われているオープンソースの音源分離モデルDemucs(Metaが以前開発したモデル)は、ボーカル・ドラム・ベース・その他という4〜6カテゴリへの分離を行います。精度は高く実用的ですが、「カテゴリ外の音」を個別に取り出すことは困難でした。

SAM Audioはこの制約を取り払い、任意の音響イベントを意味的に理解して分離する方向へ進化しています。音楽制作だけでなく、映像編集、ポッドキャスト、ゲーム開発など、あらゆるオーディオ作業の効率化につながるポテンシャルを持っています。

なお、ブラウザDAWのLA Studioでは、DemucsをWebGPUで高速動作させるAIステム分離機能をすでに無料で提供しています。インストール不要でボーカル・ドラム・ベース・その他の4ステム分離がブラウザ上で完結するため、SAM Audioのような次世代モデルへの移行ベースとしても注目されます。

DTMerにとって「SAM Audio」が重要な3つの理由

① サンプリング・リミックス制作の自由度が爆上がり

既存楽曲から「このフレーズのベルの音だけ」「イントロのアンビエンスだけ」といった超ピンポイントな素材抽出が現実的になります。サンプルパックを自分で作りたいクリエイターには福音となるでしょう。

② フィールドレコーディング・SE制作のワークフロー革命

環境音の収録で「目的の音以外のノイズが入ってしまった」という悩みは音響制作の永遠の課題です。テキストや映像で対象を指定して分離できれば、収録環境の制約を大幅に緩和できます。

③ ライブ・マルチカム映像のポストプロダクション効率化

単一の録音素材から複数楽器の音を個別に抽出し、仮想マルチトラックを構築する用途も考えられます。中小規模ライブのミックスダウン作業が大幅に簡略化される可能性があります。

SAM Audioの現状と今後の展望

現時点でSAM Audioは研究発表・デモ公開の段階であり、一般ユーザーが即座にDAWへ組み込める状況ではありません。しかし、Metaはオープンソース戦略を基本としており、モデルの公開・コミュニティへの統合が進むのは時間の問題と見られています。

過去にDemucsが公開されてから数年でブラウザDAWや無料ツールに組み込まれた流れを見ると、SAM Audioも遠くない将来に一般的なDTMワークフローへ浸透するシナリオは十分に現実的です。今のうちに「AIによる音源分離とは何か」「自分の制作にどう活かせるか」を整理しておくことが、数年後の制作スピードに直結するでしょう。

まとめ:AI音源分離ツールを今すぐ試したいなら

SAM Audioの登場は、AIによる音源分離が「固定カテゴリ分離」から「意味的・文脈的分離」へと進化する転換点を示しています。DTMerとして最新トレンドをキャッチアップしつつ、現在利用可能なAI分離技術を実際に使い込んでおくことが重要です。

インストール不要・完全無料でDemucsによる高精度ステム分離やAIノイズ除去を試したい方は、ブラウザDAW LA Studio をぜひ使ってみてください。WebGPU対応でネイティブアプリ並みの処理速度を、ブラウザだけで体験できます。

LA Studioで無料で試す