トップページへ戻る

ニュース

HOME > ニュース > Gadgetニュース

公開日 2022/12/21 16:04
処理の一部はBlenderを利用

テキストから3Dモデルを生成するAI「POINT・E」、OpenAIが発表

Munenori Taniguchi
今年はテキストから画像を生成するAIが人気を集め「DALL・E」「Stable Diffusion」「Midjourney」などがよく話題に上ったが、次にくるのは3Dモデルかもしれない。DALL・Eを開発したOpenAIは、新たにテキストから3Dモデルを生成するAI「POINT・E」を開発、その詳細を発表した。

同社によると、画像生成AIで2次元の画像を生成する場合、データセンターのGPUボード1基を使用するとしたら数秒、長くても数分で画像のレンダリングが完了するという。ただし、3Dモデルをレンダリングしようとすれば、数時間は当たり前にかかってしまうとのことだ。

OpenAIはこのプロセスを高速化するのにAIが活用できないかと考え、POINT・Eを構築した。POINT・Eでは、Nvidia V100グラフィックカードで動作させた場合、1分ほどで3Dモデルの生成を完了できる。またそのプロセスも、テキストからいきなり3Dモデルを描画するのではなく、いったんテキストで指定されたオブジェクトを平面の図に描き出し、それをもとに3次元の点群に変換するという。

このようにPOINT・Eは、複数のステップを経て最終的に3Dモデルを生成する。そして単一のニューラルネットワークを用いて処理をするのでは効率が悪いため、ステップごとに異なるニューラルネットワークが担当する手法を採用している。

まず2次元の図面を生成するステップでは、昨年OpenAIが公開した「GLIDE」と呼ばれるニューラルネットワークが使われる。そして次のステップでは2つのニューラルネットワークを使用。まず1,024pxの解像度内で点群を生成、それを2つめのアルゴリズムで4,096pxに変換して解像度を引き上げる。

OpenAIの研究者は論文で「画像拡散モデルで最高の品質のものを描くには、通常、低解像度のベースモデルでまず出力し、それを別のモデルでアップサンプリングするという、いわば階層構造を用いることで実現する」と述べている。

これらのニューラルネットワークには、拡散(diffusion)モデルと呼ばれる仕組みを用いている。拡散モデルでは、ガウスノイズと呼ばれる一種の誤差を含む画像を作成し、そのノイズを除去する作業を数百万回も繰り返すことで、ニューラルネットワークに自ら画像を生成するスキルを習得させる。研究者によると、この方法は最先端の研究に比べればパフォーマンスが劣るものの、サンプル作成にわずかな時間しかかからないという。

オブジェクトの点群を作成したあとは、著名なオープンソースソフトウェア「Blender」により、スクリプトを使って自動で3Dモデルに変換できる。なおPOINT・Eは、ソフトウェア開発プラットフォームGitHubにて公開されている。

Source: OpenAI(GitHub), ArXiv

新着クローズアップ

クローズアップ

アクセスランキング RANKING
1 “ゴジラ”も唸る低域再生力。リビングユースにもGood、トライアングルのアクティブスピーカー「Borea BR03 Connect」
2 ダリ「KUPID」&JBL「4312G」が2位に大差をつけスピーカー両部門で首位譲らず<ハイファイオーディオ売れ筋ランキング5月>
3 女子プロゴルフ「EARTH MONDAMIN CUP」6/25から4日間の放送・配信予定
4 MUSE HiFi、世界初の電子管・ニキシー管同時搭載機「M6 Double」などポタアン2モデル
5 【moraアニソンランキング】『学マス』デュエット楽曲「SUGAR FLAVOR」が初登場首位!桑田佳祐書き下ろし『あかね噺』エンディングが続く
6 4K UHD BD『28年後... 白骨の神殿』、クライマックスは炎と轟音が満ちる、まさに光と闇の饗宴
7 クリエイティブ、バイアンプ駆動でHi-Fi音質追求した卓上アクティブスピーカー「XF1」
8 バイワイヤリングは専用ケーブルが効く!オーディオクエスト「Lone Ranger」&低域専用「Big Foot」を検証
9 ディズニープラス、d払い/au PAY/ソフトバンクまとめて支払いに対応。携帯料金との合算払いも
10 DJI、デュアルカメラ搭載の小型ジンバルカメラ「Osmo Pocket 4P」を6/29に国内発売。ティザー映像を公開
6/25 10:36 更新

WEB