自分が作りたい画像をプロンプトによって生成しようとしたときに、意図しない変化が起こり、うまくいかないことが多い。
実際にプロンプトについて実験し、「全体的な画像のイメージを変えずに、画像を修正し、理想の画像を作る方法を見つける」ことを目標とする
私見のため間違っているかもしれない点はご容赦ください
プロンプトとシード値の組み合わせの検証
プロンプト(単語のみ)とシード値、それぞれの組み合わせの表を作り、関係性を検証する。
下のような単語とシード値で画像を作成し表にしてみた
- 1番目のシード値では、画像に文字が入ることが多い。
- 2番目のシード値では、赤青黄の組み合わせと、四角形がふくまれている。
- 4つのシード値で、womanはどれも絵画の胸像になっている
- boxは斜め上からの構図が多い。
シード値ごとの特性と、プロンプトの持つ特性がある
シード値をプロンプトの組み合わせで、絵は大きく変化する
プロンプトの単語の順番による影響力
プロンプトの単語の順序を入れ替えて画像を生成してみる
左から順番に下の文章で絵を作成する
「beautiful woman, by Josu Hernaiz, summer, whole body, palm tree」
「beautiful woman, palm tree, by Josu Hernaiz, summer, whole body」
「palm tree, beautiful woman, by Josu Hernaiz, summer, whole body」
palm treeの場所を変えると、絵が若干変化している。
palm treeを先頭に持ってきても、女性が主題になっている点が意外だった
単語の順序の入れ替えは、絵を少し変化させたいときによさそうだ。
スケールの影響力
スケールはAIがプロンプトに従う強度を決める。
下の表ではスケールだけ変化させている。
- 顔、髪と服と背景の変化している。
- モノクロとカラーの変化は大きい
- 一枚だけイラスト風になっている
- 大きいスケール変化は絵の変化も大きい。(全体の印象は保つ)
スケールは大きな絵の印象は変わらないが、色がついたり、背景が変わったりという程度の変化が生じるため調整に向いている。
途中でイラスト風になっているのは良く分からない。意図して変化させたのではないので、このような変化は期待しないほうがいいと思う
ステップの影響力
ステップ数は、拡散したノイズからノイズを除去していく回数を指す。
- 10で絵が見えてくる。とはいえかなりぼやけている。
- 50で絵として成立するようになる。
- 50~100の変化は、あまりない。
ステップも絵の微調整向きだろう。
単語の組み合わせ
シード値を固定し単語の組み合わせによる変化を検証する。
選んだ単語はwoman、man、cyberpunk、city、perfect、photogenic
それぞれの単語の絵を生成
気になるのはperfectの画像、形容詞のためか?絵ではなく文字になっている。photogenicは指定していないのに犬の画像になっている。
単語を組み合わせた画像
名詞(woman、cyberpunk、city)は、組み合わせても印象を残している
形容詞(perfect、photogenic) 名詞を装飾する役割を果たしている。
manだけは例外で印象がかき消されている。とくにman,perfectは絵にならず文字のみになっている。manにとってあまりよくないシード値のようだ
文章に対して形容詞を加える
「woman,cyberpunk,city」という文章に形容詞を加えてみる
形容詞を加えた場合は、全体の印象を変えずに細部が変化している
文章に対して名詞を加える
女性に赤いジャケットを着てもらうため、「red jacket」を加える
赤いジャケットは着たが、絵の印象は変わってしまった。女性はこちら向きになり、眼鏡までかけている。
名詞の追加は形容詞よりも変化が大きい
形容詞の入れ替え
「perfect」から「appealing」に変更してみる。
「完璧な」から「魅力的な」への変更となる
大きな変化はなく、建物の装飾など、細かい変化になっている。
名詞の入れ替え
「city」→「town」に変化させる。市と町ではどのくらい変化があるか?
いろいろと変化があった。
場所が路地になった、建物が変化している。
女性の髪がパーマになった。姿勢も変わっている