かれこれ10ヶ月ほどAIを使ってきました。Stable Diffusionに始まりKaiber、Gen1、Gen2、Dall-E3(ChatGTP Plus)、Firefly(Adobe AI)などなど。
ここらで一旦、各AIの長所と短所を比較してみたいと思います。あ、独断と偏見です(笑)
■ 画像編
□ Dall-E3
< 長所 >
やはり、日本語で指示できるところですね。「ここをもうちょっとこう」という修正方法ができるところがいいですね。ただし部分的に修正を頼んでも、全体の雰囲気が変わってしまいますけどね(笑) その点、後述するFireflyはすごい。
あとは、文章からイメージを生成してくれるところ。ブログにAI画像を挿入する場合、以前は事前に決めておいたキーワードをプロンプトとして指定していたのですが、文章を丸ごとペーストするだけで内容を象徴する画像を作ってくれる。めっちゃ便利です。僕自身、ブログを書いててとても楽しいです。
< 短所 >
ChatGTP Plusリリース時は、1度の指示で4パターン生成してくれましたが、負荷軽減のためか2枚に減り、現在は1枚だけという。これは詐欺残念です。
他にもあります。スタイルに幅がない。いくら説明しても、似たような結果しか出力しない。やたらとコンテンツポリシーが厳しいのもちょっと。そこまで厳しくしなくても……。
□ Firefly
< 長所 >
何と言っても、フォトショ上で生成・修正できるところ! 最強すぎる! 範囲選択すれば、その部分にだけ生成が反映される。描き足すのも、消し去るのもお手のもの。
しかも1度の指示で3パターン生成してくれ、待ち時間もそんなに長くない。
< 短所 >
Dall-E3と同様、いや、それ以上にスタイルに幅がない。同社のストックフォトが学習元だそうだから無理もないのかな。
それとこのAIも、やたらとコンテンツポリシーが厳しい。Dall-E3より厳しいかも。
□ Stable Diffusion
< 長所 >
初めていじった時に感じたことですが、とにかくスタイルの幅が広い! プロンプトを駆使しなくても、イメージに合う画像をじゃんじゃん生成してくれる(笑)
ChatGTP Plusを使い出してからは見切りをつけDall-E3で妥協していたのですが、最近、有料サービスが開始され再注目。1度に4パターン生成してくれ、にも関わらず高速だそうな。これは契約しない手はありません(笑)
で、実際に使ってみたところ、4枚の画像を7秒くらいで生成してくれました。うん、広告に偽りなし。前者2つのAIと比較して、コンテンツポリシーがゆるいところもGJ。
< 短所 >
特になし。強いて言えば、日本語に対応していないことくらいでしょうか。
というわけで今後は、ブログのイメージ画像はDall-E3、Fireflyを、楽曲のアートワーク等はStable Diffusionを使うことにしました。
■ 動画編
□ Kaiber
< 長所 >
やー、面白いです。ガチャ要素は多いものの、これほどMV向きなAIも珍しいのでは?(笑)
< 短所 >
やはりガチャ要素が多いことですかね。まあ、これはKaiberに限った話ではないし、どのAIも将来的に改善されると思います。
□ Gen2
< 長所 >
うーん、あまり思い浮かばない(笑) 決して悪いわけではないのですが……普通かな?
リリース当初、試しに契約してみたところKaiberのようにカメラワークをコントロールすることができず、動きは完全にAI任せ。派手に動く場合もあれば、微動だにしない場合も。これでは使いものにならないので、速攻で契約を解除しました。以降、再契約はしてません。
ちなみに現在は、カメラワークを指定できるようになってます。ブラシ設定で、動かしたい部分を指定できるようにもなってます。Kaiberよりも進化を感じます。
< 短所 >
生成できる秒数が短すぎることですね。最後のフレームを元にさらに4秒伸ばすことができ、その工程を繰り返すことで最長16秒の動画を作れますが……気のせいか、繰り返すたびにどんどんクオリティが落ちるような? この点においては、Kaiberのストーリーボード機能に軍配が上がります。そもそも16秒でも短いし。
■ まとめ
どのAIも、クオリティは確実に上がってます。しかし……以前と比べて面白くないんですよ。特にDall-E3とFirefly。
ビジネス用途に重きを置いているのか、確かにそこを重視しないと多くの人に利益にならないのですが、僕からすると真面目すぎてつまらない。意外性がない。デペイズマンってやつです。
Stable Diffusionはというと、まだアート性が残っている気がします。ほんと、生成される画像が軒並み好みという(笑)
Discordが面倒臭いのでノータッチですが、Midjourneyはどうなんでしょうね? web版がリリースされたら試してみたい。とは思ってます。
それと大注目なのは、GoogleのGeminiですね。まだPro版止まりで日本語にも対応してませんが、それらの課題がクリアされれば最強かもしれません。