Open AI「SORA」爆誕！ site MONO

Open AI「SORA」爆誕！

■ Gemini Ultra

　まずは、GoogleからリリースされたGemini Ultraの話から。いろいろ試してみたところ、特にGemini Proと比べて賢くなった印象は受けませんでした。
　それもそのはず、実は中身はBardだったという(笑)　なんてこった、Ultra目当てでAI プレミアム (2TB)を契約してしまったよ。Googleにしては阿漕なことするなあ……。まあ、2ヶ月間は無料なんですけどね。
　13日にUltraにアプデされたようですが、僕の中でGeminiへの印象が悪化しましたよ。ただでさえBardは、~~お馬鹿さん~~だったので。

　ただ、Ultraにアプデされても、さほど印象は変わらない。AI界隈でも似たような感想が散見される。
　すると翌日だったかな、ページ上部にこんなメッセージが出るようになりました。つまり現状、Ultraをフル活用するには英語環境にしなければならない模様。

　ちなみに、日本語指定では画像も生成できません。そのうち日本語環境にも対応されるはずですが、なんかね、他者に追いつけ追い越せじゃないけど、急ぎすぎなんですよ……。

■ SORA

　さて、本題。Open AI社は、GoogleのGemini Ultraにどう対抗してくるのか？　注目していたところ、動画生成AIをアナウンス。その名も「SORA」。
　まあ、ChatGPT内のサービスではないようなので、正確にはGeminiの対抗策とは言えないかもしれないけど、とにかくクオリティがハンパないんですよ！

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024

Prompt: “A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB
— OpenAI (@OpenAI) February 15, 2024

　ヤバくないですか！？　破綻がほぼなく、今までの生成AIを軽く凌駕してますよね！

■ Technical reportからの抜粋

動画は1分生成可能
Gen2などは4秒(追加追加で最長16秒)なので物足りなさを否めませんでしたが、1分ならまずまずですね。まあ、Kaiberには及びませんが(笑)
Text to Video、Image to Video、Video to Video
わりとプロンプトに忠実な印象を受けました。
動画の前後方向への拡張
動画の前後を生成できる機能でしょうか。これを使えば1分以上の動画が生成できそうな？
この方法でGen2でも最長16秒まで追加生成が可能ですが、4秒の動画がイーズインアウトしているため、単に並べただけでは不自然なんですよ。この辺、SORAがどうなのか、わたし気になります！
ループ動画の作成
これすごいですね！　上記、Technical reportのページの真ん中辺りに動画があるので、ぜひご覧ください。ちゃんとループになってます(笑)
2つの動画のシームレス接続
これも面白い機能です。Kaiberで言うところのストーリーボードみたいな感じですね。Kaiberでは理屈上4つのシーンを繋げられますが、ガチャ要素が強くコストがかかる。SORAのこの機能であれば、かなりイメージを形にできそうです。
最大2048x2048ピクセルの静止画生成
これもリンク先を見てほしい。個人的にDall-E3の生成スタイルには不満が満載なのですが、SORAの生成画像は
時間的一貫性の維持
冒頭の動画でもおわかりのように、数秒で別人に変化するようなことがなくなるようです。
ただ、1カットの長尺で様相が遷移していくのも面白いんですけどね。如何せんガチャ要素が強すぎます。

　というわけで、正式リリースが楽しみでなりません。サービス形態はどうなるんでしょうね。「リリースを機にChatGPTが4から5になりSORA内蔵」となれば嬉しいのですが、静止画機能だけでもDall-E3と入れ替えてほしいです。

2/16/2024 23:01 note AI

■ Gemini Ultra

■ SORA

■ Technical reportからの抜粋

comments & TB (0)

trackback URL

■ Gemini Ultra

■ SORA

■ Technical reportからの抜粋

comments & TB (0)

trackback URL

■ 関連記事 ■