game snap

ゲーム関連ブログです

MENU

【Stable Diffusion】modifiers 修飾子初心者ガイド2

このページはStable Diffusionの修飾子(modifiers)の使い方について、参考サイト*1を翻訳したものの後半です。

前半 | 後半 |  研究

カスタム幅と高さのヒント

安定した拡散モデルは、現在512x512ピクセルでデフォルトで動作しており、すべてのカスタム幅と高さの比率は、多少避けなければならないことを意味します。これは、より歪みや奇妙な生成を引き起こすことを意味しますが、右の画像のように非標準のアスペクト比で作ることができる素晴らしい画像もあります。気に入った構図が見つかるまで、低いステップ量で多くのバリエーションを生成することをお勧めします。その後、そのコンポジションのシードを使用して、より高いステップで、またはわずかなバリエーションで実行し、画像をさらに微調整してください。

重複に関する注意

AIのコンテキストウィンドウの関係で、このアスペクト比では顔や体が重複してしまうことがよくあります。プロンプトが何かに強く焦点を当てている場合(例えば、人の目)、SDは各512x512パッチが確実に目を含むようにしようとするかもしれません。これは、1人の人物の肖像画を2つ以上含むように要求する可能性があります。
再録音/再焦点化プロンプトは、多くの場合、重複の問題を修正することができます

サイズと時間のトレードオフ

カスタムサイズに関連する大きなサイズは、世代を重ねるごとに時間がかかるようになる可能性があります。注意すべき重要な点は、許容される解像度が最大1メガピクセルであることです(正方形の画像では1024x1024に相当しますが、1つの寸法ではこれを超えることがあります)。プロンプトでエラーが発生する場合は、寸法が大きすぎるか、そのサイズの画像に対してステップ数が多すぎるためにタイムアウトしている可能性があります。画像サイズを小さくするか、画像あたりのステップ数を減らすと解決する場合があります。
サイズが許容されていても、カスタムサイズの場合、生成に時間がかかり、生成、調整、生成のワークフローが遅くなる可能性があります。その後、シードを再利用し、50以上のステップで最終的な画像を得るために好きなプロンプトを表示します。

避けるべき落とし穴

このモデルのコンテクストウィンドウの制限により、標準的な512x512の画像には問題ないプロンプトでも、最適でない結果になることがあります。特に良くないのは、ある数のものを要求するプロンプトです。コンテキストウィンドウは画像のさまざまな場所で、局所的には正しい数のものがあることを保証するかもしれませんが、全体的には重複する結果になります。また、目や鼻の形など、特定の人体構造を指定する場合にも注意が必要です。同じコンテキストウィンドウの問題でも、プロンプトでどれだけ強調したかによって、目や鼻のペアが複数出てくる可能性があります。このようなことは、すべての画像で毎回起こるということではなく、これらのヒントを無視しても良い結果を得ることができますが、これらのヒントに従えば、より安定した画像を得ることができるかもしれません。

Classifier Free Guidance Scale のヒント

最も一般的な質問は、CFGとは何か、それをどうすればいいのか、というものです。簡単な答えは、触らないことです。デフォルトの7は、より多くのユースケースに最適です。まだStable Diffusionの初心者であれば、この設定を触らずに1,000枚の画像を簡単に作成でき(私を信じてください、何人かの人は作成しました)、良い結果を得ることができます。CFGの効果は、技術的にはボットをよりプロンプトに追従させることですが、意図しない効果も多くあります。例えば、CFGを増やすと、画像の彩度が上がります。もう一つの効果は、極端に変色した部分のような歪みを作り出すことです。歪みの解決策としては、ステップ数を増やすことです。CFGが12で通常のデフォルトの50ステップでは歪みが発生するかもしれませんが、25〜75ステップを追加するとアーティファクトがクリアになるかもしれません。AIにプロンプトに忠実であるよう強制することで、トリッキーなプロンプトがある場合のみ、CFGスケールを高くすることをお勧めします。しかし、CFGを小さくしたり小さくしたりすることで、イメージの美しさを戦略的に変化させることができます。しかし、最初に許容範囲について注意してください。50ステップで最良の結果を得るには、CFGを7から10の間に保つことです。

参照リンク:「Stable Diffusion CFG Scale Studies」より

参照リンク:「Stable Diffusion CFG Scale Studies」より

許容範囲

技術的にはCFGスケールを9999(またはそれ以上)に設定することができますが、実際に有用な画像を得るためには、CFGの範囲を0から20の間に制限することをお勧めします。プロンプトの「逆」を得るためにマイナスにすることもできますが、これは通常あまり使用されません。20以上のCFGは、顕著な利点がないように見えますが、さらなる劣化とアーティファクトの導入があるだけです。ですから、CFGスケールの使用は慎重にすることをお勧めします。

アーティスティックとフォトリアリスティック

さて、そもそもなぜデフォルトから変更したがるのかについてです。コンセプトアートや何かを作成しているが、何かが欠けている場合、CFGスケールを12から15に上げてみてください。一方、デフォルトの5や3に下げると、よりリアルな画像になります。この影響はプロンプトに比べれば微々たるものなので、プロンプトを作るたびに変更する必要はないと思います。しかし、プロンプトを改良してちょうど良いものにするときに、これらの値を調整することで最後の仕上げをすることができます。

シードとバリエーション

Stable Diffusionの現在のバージョンでは、バリエーションは公式にはサポートされていませんが、バリエーションに近いものを作ることは可能です。SDは常に、画像を生成するために使用されたランダムなシードをあなたに返します。複数の画像を生成した場合は、使用したすべてのシードのリストを返します。これが擬似的なバリエーションを作るためのポイントです。同じシードでプロンプトを再利用すると(ステップやCFGスケールなど他の設定もすべて)、まったく同じ画像が得られます。面白いのは、設定やプロンプトに少し手を加えると、ほんの少し変更されただけの極めて類似した画像になることです。髪の色、年齢、民族など、プロンプトに小さな変更を加えても、指定されたものだけを変更した、概ね同じ構図が得られます。

シードを見つける

シードは、ボットメッセージごとに返されます。単一画像の場合、通常、以下のようにプロンプトの最後に表示されます。

複数の画像があるプロンプトの場合、シードは次のような配列で渡されます。

その他の参考文献

このガイドはクイックスタートのリソースとリファレンスとして作成されましたが、素晴らしい人々によって行われた多くの研究とリファレンスがあります。より上級のユーザーになる準備ができたら、これらのリンクをたどって、あなたの研究を次のレベルへ進めてください。

Proxima Centauri B’s Stable Diffusion Artist Studies

Stable Diffusion CFG Scale Studies

Stable Diffusion Sampler Studies

Stable Diffusion Launch Day Presentation And Tutorial

Stable Diffusion - Prompt Weighting

promptoMANIA:: Prompt Building Tool

Stable Diffusion Akashic Records

Clip Search Tool by Rom1504

Clip Interrogator by @pharmapsychotic

前半 | 後半 |  研究