OpenAIのDALL-Eで画像生成

OpenAIのDALL-Eで画像生成

OpenAIのImages (DALL-E)を使えばAPIで画像生成できるのでそちらを試してみたんですが、画像生成については自由度がほぼない感じなんです。(2023/10/25現在)

現在だとAPIで使えるのはDALL-E2なのかな、この辺はっきりしなかったんですが、噂のDALL-E3だと違うのかもしれません。
画像生成に関するAPIはシンプルでモデルを選択する余地すらないです。
だってパラメータが以下しかないんですよね。

パラメータ	デフォルト	説明
prompt	必須	1000文字以内の画像の説明文
n	1	生成する画像の枚数。1～10の間で指定
response_format	url	返されるイメージの形式。url または b64_json の何れか
size	1024x1024	画像サイズ。256x256, 512x512, 1024x1024 の何れか

promptの工夫次第だと思うんですが、DALL-Eに$15課金して色々作成してみたけど。
自分のプロンプト能力では残念な絵しか生成できませんでした。
難しい。

ちなみにAIで生成した綺麗な女性の実写と見紛うような画像をよく見かけますよね。こういうヤツ。

これはDALL-EじゃなくSeaArtの方です。
SeaArtの方は一言ですごい。
写真からイラスト風の写真を作ったり、背景だけ削除したり、落書きを仕上げてくれたり、トレーニングなんかもできます。マジですか。

ちなみに以下は自分の写真をイラスト風にして作成した画像です。数分で出力されてきました。

おでこに変なマークがあるのとかなり美化されてますが。

という感じでOpenAIのDALL-Eを真面目に勉強するのはGTP-4V & DALL-E3がAPIにリリースされた後でいいかと思いました。
生成するのも1024x1024で$0.02掛かるのでゴリゴリ消費されてしまうのが地味に痛い。

GTP-4V & DALL-E3になればGTPが画像を認識してくれるようになるのでプロンプトで画像のこの部分を修正してとか、そんな感じでGPTと相談しながら画像を作ることができるらしいので、大人しく待ちます。

@yasuyoshi64