ガジェット 公開日 2022/12/19 16:41

入力テキストを音楽にするAI「Riffusion」公開。文字を画像化し音に変換

音を絵で表すスペクトログラムを学習
Gadget Gate
Munenori Taniguchi
  • Twitter
  • FaceBook
  • LINE
音楽を生成するAIというのはすでに何種類か存在するが、Seth Forsgren氏とHayk Martiros氏が趣味のプロジェクトとして開発した「Riffusion」は、テキストの構文をもとに音の視覚的な表現であるスペクトログラムを作成し、それをオーディオとして再生するという、一風変わったAIモデルだ。

テキスト入力で画像を生成するAIとしては、拡散モデルを使った「DALL・E 2」が少し前に話題になった。そのDALL・E 2と同じ種類の「Stable Diffusion 1.5」が、この音楽生成AIのベースとなっている。

音を画像で表現するスペクトログラムは、X 軸で時間、Y 軸で音の周波数を表し、色で音の振幅を表現する。ForsgrenとMartirosは、サウンドを表現するスペクトログラムのサンプルを大量に作成し、その画像にblues guitar、jazz piano、afrobeatなどといった、関連する音楽を示すワードを紐付けた。

そして、これを使ってAIモデルをトレーニングすることで、ある音が「どのようなものか」「どのように再現したり組み合わせられるか」などといったことが次第にわかり、スペクトログラムと拡散モデルによって、音色を他の音色に変えるようなことも可能になったという。

Riffusionのウェブページでは、画面の左側に、入力されたテキストによって生成されたスペクトログラムが連続して表示され、それをもとにしたオーディオをリアルタイムで再生するようになっている。音楽スタイルを組み合わせてこれまでにない音楽ジャンルを生み出すことも可能だ。

ただ、自分で入力したテキストでは思ったような音楽が出力されないこともある。そのときは、テキスト入力窓の左にあるサイコロのアイコンをクリックすれば、プリセットされた構文が表示されるのでこれを実行してみると良いだろう。きっと、ああなるほどな、と思える音楽が再生できるはずだ。

Forsgren氏は「Haykと私は単に音楽が好きなもの同士というだけだったので、Stable DiffusionというAIがオーディオに変換できるほど、ちゃんとしたスペクトログラムを生成できるのかもわからなかった」とTechCrunchに述べ「ひとつのアイデアが次のアイデアへと次々につながっていった」結果、Riffusionができあがったとしている。

音楽生成AIモデルはRiffusionが初めてというわけではない。少し前にはロンドンのAIスタートアップHarmonaiが、やはりStable Diffusionをベースに拡散モデルを使った「Dance Diffusion」なる音楽生成AIを公開している。また仕組みは違うが、2020年にはOpenAIが、ニューラルネットワークで音楽を生成する「Jukebox」を発表していた。さらにノンストップで音楽を生成するSoundrawのようなサービスもすでに存在する。

RiffusionはこれらのAIに比べると、もっとホビーの領域にあるものであり、生成される音楽もまだまだリスニング用途に耐えるものではない。それでも潜在拡散モデルの応用例としては、注目を集めそうだ。

Source: Riffusion
via: Ars Technica

この記事をシェアする

  • Twitter
  • FaceBook
  • LINE

トピック

クローズアップCLOSEUP
アクセスランキング RANKING
1 “ゴジラ”も唸る低域再生力。リビングユースにもGood、トライアングルのアクティブスピーカー「Borea BR03 Connect」
2 ダリ「KUPID」&JBL「4312G」が2位に大差をつけスピーカー両部門で首位譲らず<ハイファイオーディオ売れ筋ランキング5月>
3 女子プロゴルフ「EARTH MONDAMIN CUP」6/25から4日間の放送・配信予定
4 MUSE HiFi、世界初の電子管・ニキシー管同時搭載機「M6 Double」などポタアン2モデル
5 【moraアニソンランキング】『学マス』デュエット楽曲「SUGAR FLAVOR」が初登場首位!桑田佳祐書き下ろし『あかね噺』エンディングが続く
6 4K UHD BD『28年後... 白骨の神殿』、クライマックスは炎と轟音が満ちる、まさに光と闇の饗宴
7 クリエイティブ、バイアンプ駆動でHi-Fi音質追求した卓上アクティブスピーカー「XF1」
8 バイワイヤリングは専用ケーブルが効く!オーディオクエスト「Lone Ranger」&低域専用「Big Foot」を検証
9 ディズニープラス、d払い/au PAY/ソフトバンクまとめて支払いに対応。携帯料金との合算払いも
10 DJI、デュアルカメラ搭載の小型ジンバルカメラ「Osmo Pocket 4P」を6/29に国内発売。ティザー映像を公開
6/25 10:36 更新
音元出版の雑誌
オーディオアクセサリー 201号
季刊・オーディオアクセサリー
最新号
Vol.201
世界のオーディオアクセサリーブランド大全2025
特別増刊
世界のオーディオアクセサリーブランド大全2025
最新号
プレミアムヘッドホンガイドマガジン vol.23 2025冬
別冊・プレミアムヘッドホンガイドマガジン
最新号
Vol.23
プレミアムヘッドホンガイド Vol.33 2025 SUMMER
プレミアムヘッドホンガイド
(フリーマガジン)
最新号
Vol.33(電子版)
VGP受賞製品お買い物ガイド 2025年冬版
VGP受賞製品お買い物ガイド
(フリーマガジン)
最新号
2025年冬版(電子版)
DGPイメージングアワード2024受賞製品お買い物ガイド(2024年冬版)
DGPイメージングアワード受賞製品お買い物ガイド
(フリーマガジン)
最新号
2025年冬版(電子版)
WEB
  • PHILE WEB
  • PHILE WEB AUDIO
  • PHILE WEB BUSINESS
  • プレミアムヘッドホンガイド
  • ホームシアターCHANNEL
  • デジカメCHANNEL
AWARD
  • VGP
  • DGPイメージングアワード
  • DGPモバイルアワード
  • AEX
  • AA AWARD
  • analog Grand Prix