今週の音楽「組曲「Q」第4曲」はいかが?
非ビジネス用途における生成AIの比較

 かれこれ10ヶ月ほどAIを使ってきました。Stable Diffusionに始まりKaiber、Gen1、Gen2、Dall-E3(ChatGTP Plus)、Firefly(Adobe AI)などなど。
 ここらで一旦、各AIの長所と短所を比較してみたいと思います。あ、独断と偏見です(笑)

■ 画像編

□ Dall-E3

< 長所 >
 やはり、日本語で指示できるところですね。「ここをもうちょっとこう」という修正方法ができるところがいいですね。ただし部分的に修正を頼んでも、全体の雰囲気が変わってしまいますけどね(笑) その点、後述するFireflyはすごい。
 あとは、文章からイメージを生成してくれるところ。ブログにAI画像を挿入する場合、以前は事前に決めておいたキーワードをプロンプトとして指定していたのですが、文章を丸ごとペーストするだけで内容を象徴する画像を作ってくれる。めっちゃ便利です。僕自身、ブログを書いててとても楽しいです。

< 短所 >
 ChatGTP Plusリリース時は、1度の指示で4パターン生成してくれましたが、負荷軽減のためか2枚に減り、現在は1枚だけという。これは詐欺残念です。
 他にもあります。スタイルに幅がない。いくら説明しても、似たような結果しか出力しない。やたらとコンテンツポリシーが厳しいのもちょっと。そこまで厳しくしなくても……。

□ Firefly

< 長所 >
 何と言っても、フォトショ上で生成・修正できるところ! 最強すぎる! 範囲選択すれば、その部分にだけ生成が反映される。描き足すのも、消し去るのもお手のもの。
 しかも1度の指示で3パターン生成してくれ、待ち時間もそんなに長くない。

< 短所 >
 Dall-E3と同様、いや、それ以上にスタイルに幅がない。同社のストックフォトが学習元だそうだから無理もないのかな。
 それとこのAIも、やたらとコンテンツポリシーが厳しい。Dall-E3より厳しいかも。

□ Stable Diffusion

< 長所 >
 初めていじった時に感じたことですが、とにかくスタイルの幅が広い! プロンプトを駆使しなくても、イメージに合う画像をじゃんじゃん生成してくれる(笑)
 ChatGTP Plusを使い出してからは見切りをつけDall-E3で妥協していたのですが、最近、有料サービスが開始され再注目。1度に4パターン生成してくれ、にも関わらず高速だそうな。これは契約しない手はありません(笑)
 で、実際に使ってみたところ、4枚の画像を7秒くらいで生成してくれました。うん、広告に偽りなし。前者2つのAIと比較して、コンテンツポリシーがゆるいところもGJ。

< 短所 >
 特になし。強いて言えば、日本語に対応していないことくらいでしょうか。

 というわけで今後は、ブログのイメージ画像はDall-E3、Fireflyを、楽曲のアートワーク等はStable Diffusionを使うことにしました。

■ 動画編

□ Kaiber

< 長所 >
 やー、面白いです。ガチャ要素は多いものの、これほどMV向きなAIも珍しいのでは?(笑)

< 短所 >
 やはりガチャ要素が多いことですかね。まあ、これはKaiberに限った話ではないし、どのAIも将来的に改善されると思います。

□ Gen2

< 長所 >
 うーん、あまり思い浮かばない(笑) 決して悪いわけではないのですが……普通かな?
 リリース当初、試しに契約してみたところKaiberのようにカメラワークをコントロールすることができず、動きは完全にAI任せ。派手に動く場合もあれば、微動だにしない場合も。これでは使いものにならないので、速攻で契約を解除しました。以降、再契約はしてません。
 ちなみに現在は、カメラワークを指定できるようになってます。ブラシ設定で、動かしたい部分を指定できるようにもなってます。Kaiberよりも進化を感じます。

< 短所 >
 生成できる秒数が短すぎることですね。最後のフレームを元にさらに4秒伸ばすことができ、その工程を繰り返すことで最長16秒の動画を作れますが……気のせいか、繰り返すたびにどんどんクオリティが落ちるような? この点においては、Kaiberのストーリーボード機能に軍配が上がります。そもそも16秒でも短いし。

■ まとめ

 どのAIも、クオリティは確実に上がってます。しかし……以前と比べて面白くないんですよ。特にDall-E3とFirefly。
 ビジネス用途に重きを置いているのか、確かにそこを重視しないと多くの人に利益にならないのですが、僕からすると真面目すぎてつまらない。意外性がない。デペイズマンってやつです。
 Stable Diffusionはというと、まだアート性が残っている気がします。ほんと、生成される画像が軒並み好みという(笑)

 Discordが面倒臭いのでノータッチですが、Midjourneyはどうなんでしょうね? web版がリリースされたら試してみたい。とは思ってます。
 それと大注目なのは、GoogleのGeminiですね。まだPro版止まりで日本語にも対応してませんが、それらの課題がクリアされれば最強かもしれません。

12/8/2023 12:23 note web

comments & TB (0)

name

trackback URL