■ Gemini Ultra
まずは、GoogleからリリースされたGemini Ultraの話から。いろいろ試してみたところ、特にGemini Proと比べて賢くなった印象は受けませんでした。
それもそのはず、実は中身はBardだったという(笑) なんてこった、Ultra目当てでAI プレミアム (2TB)を契約してしまったよ。Googleにしては阿漕なことするなあ……。まあ、2ヶ月間は無料なんですけどね。
13日にUltraにアプデされたようですが、僕の中でGeminiへの印象が悪化しましたよ。ただでさえBardは、お馬鹿さんだったので。
ただ、Ultraにアプデされても、さほど印象は変わらない。AI界隈でも似たような感想が散見される。
すると翌日だったかな、ページ上部にこんなメッセージが出るようになりました。つまり現状、Ultraをフル活用するには英語環境にしなければならない模様。
ちなみに、日本語指定では画像も生成できません。そのうち日本語環境にも対応されるはずですが、なんかね、他者に追いつけ追い越せじゃないけど、急ぎすぎなんですよ……。
■ SORA
さて、本題。Open AI社は、GoogleのGemini Ultraにどう対抗してくるのか? 注目していたところ、動画生成AIをアナウンス。その名も「SORA」。
まあ、ChatGPT内のサービスではないようなので、正確にはGeminiの対抗策とは言えないかもしれないけど、とにかくクオリティがハンパないんですよ!
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
Prompt: “A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB
— OpenAI (@OpenAI) February 15, 2024
ヤバくないですか!? 破綻がほぼなく、今までの生成AIを軽く凌駕してますよね!
■ Technical reportからの抜粋
- 動画は1分生成可能
Gen2などは4秒(追加追加で最長16秒)なので物足りなさを否めませんでしたが、1分ならまずまずですね。まあ、Kaiberには及びませんが(笑) - Text to Video、Image to Video、Video to Video
わりとプロンプトに忠実な印象を受けました。 - 動画の前後方向への拡張
動画の前後を生成できる機能でしょうか。これを使えば1分以上の動画が生成できそうな?
この方法でGen2でも最長16秒まで追加生成が可能ですが、4秒の動画がイーズインアウトしているため、単に並べただけでは不自然なんですよ。この辺、SORAがどうなのか、わたし気になります! - ループ動画の作成
これすごいですね! 上記、Technical reportのページの真ん中辺りに動画があるので、ぜひご覧ください。ちゃんとループになってます(笑) - 2つの動画のシームレス接続
これも面白い機能です。Kaiberで言うところのストーリーボードみたいな感じですね。Kaiberでは理屈上4つのシーンを繋げられますが、ガチャ要素が強くコストがかかる。SORAのこの機能であれば、かなりイメージを形にできそうです。 - 最大2048x2048ピクセルの静止画生成
これもリンク先を見てほしい。個人的にDall-E3の生成スタイルには不満が満載なのですが、SORAの生成画像は - 時間的一貫性の維持
冒頭の動画でもおわかりのように、数秒で別人に変化するようなことがなくなるようです。
ただ、1カットの長尺で様相が遷移していくのも面白いんですけどね。如何せんガチャ要素が強すぎます。
というわけで、正式リリースが楽しみでなりません。サービス形態はどうなるんでしょうね。「リリースを機にChatGPTが4から5になりSORA内蔵」となれば嬉しいのですが、静止画機能だけでもDall-E3と入れ替えてほしいです。