トップページへ戻る

ニュース

HOME > ニュース > Gadgetニュース

公開日 2022/12/19 16:41
音を絵で表すスペクトログラムを学習

入力テキストを音楽にするAI「Riffusion」公開。文字を画像化し音に変換

Munenori Taniguchi
音楽を生成するAIというのはすでに何種類か存在するが、Seth Forsgren氏とHayk Martiros氏が趣味のプロジェクトとして開発した「Riffusion」は、テキストの構文をもとに音の視覚的な表現であるスペクトログラムを作成し、それをオーディオとして再生するという、一風変わったAIモデルだ。

テキスト入力で画像を生成するAIとしては、拡散モデルを使った「DALL・E 2」が少し前に話題になった。そのDALL・E 2と同じ種類の「Stable Diffusion 1.5」が、この音楽生成AIのベースとなっている。

音を画像で表現するスペクトログラムは、X 軸で時間、Y 軸で音の周波数を表し、色で音の振幅を表現する。ForsgrenとMartirosは、サウンドを表現するスペクトログラムのサンプルを大量に作成し、その画像にblues guitar、jazz piano、afrobeatなどといった、関連する音楽を示すワードを紐付けた。

そして、これを使ってAIモデルをトレーニングすることで、ある音が「どのようなものか」「どのように再現したり組み合わせられるか」などといったことが次第にわかり、スペクトログラムと拡散モデルによって、音色を他の音色に変えるようなことも可能になったという。

Riffusionのウェブページでは、画面の左側に、入力されたテキストによって生成されたスペクトログラムが連続して表示され、それをもとにしたオーディオをリアルタイムで再生するようになっている。音楽スタイルを組み合わせてこれまでにない音楽ジャンルを生み出すことも可能だ。

ただ、自分で入力したテキストでは思ったような音楽が出力されないこともある。そのときは、テキスト入力窓の左にあるサイコロのアイコンをクリックすれば、プリセットされた構文が表示されるのでこれを実行してみると良いだろう。きっと、ああなるほどな、と思える音楽が再生できるはずだ。

Forsgren氏は「Haykと私は単に音楽が好きなもの同士というだけだったので、Stable DiffusionというAIがオーディオに変換できるほど、ちゃんとしたスペクトログラムを生成できるのかもわからなかった」とTechCrunchに述べ「ひとつのアイデアが次のアイデアへと次々につながっていった」結果、Riffusionができあがったとしている。

音楽生成AIモデルはRiffusionが初めてというわけではない。少し前にはロンドンのAIスタートアップHarmonaiが、やはりStable Diffusionをベースに拡散モデルを使った「Dance Diffusion」なる音楽生成AIを公開している。また仕組みは違うが、2020年にはOpenAIが、ニューラルネットワークで音楽を生成する「Jukebox」を発表していた。さらにノンストップで音楽を生成するSoundrawのようなサービスもすでに存在する。

RiffusionはこれらのAIに比べると、もっとホビーの領域にあるものであり、生成される音楽もまだまだリスニング用途に耐えるものではない。それでも潜在拡散モデルの応用例としては、注目を集めそうだ。

Source: Riffusion
via: Ars Technica

新着クローズアップ

クローズアップ

アクセスランキング RANKING
1 “身近で入りやすい”オーディオ専門店「オーディオスクエア」が池袋に誕生。お客様の心をがっしりと掴み好発進
2 MUSIN、冬のヘッドフォン祭miniでiBasso Audio新DAP「DX270」初公開へ
3 AirPodsとiPhone/Macの自動接続、うっとうしかったらこれで止められます
4 Shokz、イヤーカフ型イヤホン「OpenDots ONE」が2割引きになるバレンタインキャンペーン
5 オクタヴィア・レコード、『ショスタコーヴィチ:交響曲第7番「レニングラード」』の回収・交換対応を実施
6 デスクトップオーディオを格上げ! ゾノトーンのインターコネクトケーブル3兄弟を徹底比較
7 サンワサプライ、独自チューニングで遅延を抑えたテレビ向けBluetoothイヤホン「400-BTAD014」
8 Bang & Olufsen、ヘッドホン「Beoplay H100」にG-Dragonとのコラボモデル。世界限定188台
9 サウンドクリエイト、リンのLP12強化アイテム「KLIMAX RADIKAL」「KEEL SE」の展示開始
10 違いのわかる大人のためのカーオーディオ。ボルボ・XC90とB&Wが奏でる豊かなハーモニー
2/4 10:46 更新

WEB