非ビジネス用途における生成AIの比較 site MONO

非ビジネス用途における生成AIの比較

　かれこれ10ヶ月ほどAIを使ってきました。Stable Diffusionに始まりKaiber、Gen1、Gen2、Dall-E3(ChatGTP Plus)、Firefly(Adobe AI)などなど。
　ここらで一旦、各AIの長所と短所を比較してみたいと思います。あ、独断と偏見です(笑)

■ 画像編

□ Dall-E3

< 長所 >
　やはり、日本語で指示できるところですね。「ここをもうちょっとこう」という修正方法ができるところがいいですね。ただし部分的に修正を頼んでも、全体の雰囲気が変わってしまいますけどね(笑)　その点、後述するFireflyはすごい。
　あとは、文章からイメージを生成してくれるところ。ブログにAI画像を挿入する場合、以前は事前に決めておいたキーワードをプロンプトとして指定していたのですが、文章を丸ごとペーストするだけで内容を象徴する画像を作ってくれる。めっちゃ便利です。僕自身、ブログを書いててとても楽しいです。

< 短所 >
　ChatGTP Plusリリース時は、1度の指示で4パターン生成してくれましたが、負荷軽減のためか2枚に減り、現在は1枚だけという。これは詐欺残念です。
　他にもあります。スタイルに幅がない。いくら説明しても、似たような結果しか出力しない。やたらとコンテンツポリシーが厳しいのもちょっと。そこまで厳しくしなくても……。

□ Firefly

< 長所 >
　何と言っても、フォトショ上で生成・修正できるところ！　最強すぎる！　範囲選択すれば、その部分にだけ生成が反映される。描き足すのも、消し去るのもお手のもの。
　しかも1度の指示で3パターン生成してくれ、待ち時間もそんなに長くない。

< 短所 >
　Dall-E3と同様、いや、それ以上にスタイルに幅がない。同社のストックフォトが学習元だそうだから無理もないのかな。
　それとこのAIも、やたらとコンテンツポリシーが厳しい。Dall-E3より厳しいかも。

□ Stable Diffusion

< 長所 >
　初めていじった時に感じたことですが、とにかくスタイルの幅が広い！　プロンプトを駆使しなくても、イメージに合う画像をじゃんじゃん生成してくれる(笑)
　ChatGTP Plusを使い出してからは見切りをつけDall-E3で妥協していたのですが、最近、有料サービスが開始され再注目。1度に4パターン生成してくれ、にも関わらず高速だそうな。これは契約しない手はありません(笑)
　で、実際に使ってみたところ、4枚の画像を7秒くらいで生成してくれました。うん、広告に偽りなし。前者2つのAIと比較して、コンテンツポリシーがゆるいところもGJ。

< 短所 >
　特になし。強いて言えば、日本語に対応していないことくらいでしょうか。

　というわけで今後は、ブログのイメージ画像はDall-E3、Fireflyを、楽曲のアートワーク等はStable Diffusionを使うことにしました。

■ 動画編

□ Kaiber

< 長所 >
　やー、面白いです。ガチャ要素は多いものの、これほどMV向きなAIも珍しいのでは？(笑)

< 短所 >
　やはりガチャ要素が多いことですかね。まあ、これはKaiberに限った話ではないし、どのAIも将来的に改善されると思います。

□ Gen2

< 長所 >
　うーん、あまり思い浮かばない(笑)　決して悪いわけではないのですが……普通かな？
　リリース当初、試しに契約してみたところKaiberのようにカメラワークをコントロールすることができず、動きは完全にAI任せ。派手に動く場合もあれば、微動だにしない場合も。これでは使いものにならないので、速攻で契約を解除しました。以降、再契約はしてません。
　ちなみに現在は、カメラワークを指定できるようになってます。ブラシ設定で、動かしたい部分を指定できるようにもなってます。Kaiberよりも進化を感じます。

< 短所 >
　生成できる秒数が短すぎることですね。最後のフレームを元にさらに4秒伸ばすことができ、その工程を繰り返すことで最長16秒の動画を作れますが……気のせいか、繰り返すたびにどんどんクオリティが落ちるような？　この点においては、Kaiberのストーリーボード機能に軍配が上がります。そもそも16秒でも短いし。

■ まとめ

　どのAIも、クオリティは確実に上がってます。しかし……以前と比べて面白くないんですよ。特にDall-E3とFirefly。
　ビジネス用途に重きを置いているのか、確かにそこを重視しないと多くの人に利益にならないのですが、僕からすると真面目すぎてつまらない。意外性がない。デペイズマンってやつです。
　Stable Diffusionはというと、まだアート性が残っている気がします。ほんと、生成される画像が軒並み好みという(笑)

　Discordが面倒臭いのでノータッチですが、Midjourneyはどうなんでしょうね？　web版がリリースされたら試してみたい。とは思ってます。
　それと大注目なのは、GoogleのGeminiですね。まだPro版止まりで日本語にも対応してませんが、それらの課題がクリアされれば最強かもしれません。

12/8/2023 12:23 note AI

■ 画像編

■ 動画編

■ まとめ

comments & TB (0)

trackback URL

■ 画像編

■ 動画編

■ まとめ

comments & TB (0)

trackback URL

■ 関連記事 ■