前に Gemini Omni Flash の記事で、テキストから動画を作ろうとして1本も完走できず、使用量が100%に達した話を書きました。あれから少し時間を置いて、もう一度同じ「テキストから動画」を試したら——今度は3本とも作れました。前回作れなかった方式での、改めての評価です。
先に正直に断っておくと、これは「モデルが良くなった」と言い切れる話ではありません。Google はこの時期、使用量の上限を活発に緩めている最中で(前回の記事でも触れました)、その影響かもしれない。あくまで「前回は0本、今回は3本作れた」という実機の記録として読んでください。

結果:テキストから動画、3本とも完走(使用量0→78%)
テキストのプロンプトから動画を3本生成したところ、3本とも完走・消費は1本あたり約26%でほぼ一定・生成時間は各1分10秒ほどでした。使用量は0%→78%まで進み、4本目は残り枠が足りずに作成ボタンがグレーアウト(=1サイクルおおよそ3本が目安)。前回(同じテキスト→動画)は0%から1本も完走できず100%に達していたので、少なくとも今回は問題なく作れています。


作った3本(テキスト→動画)
仕様は720p・10秒・音声付き。質感(雨に濡れた路面の反射、紙の繊維、モノクロのグレイン)やプロンプトの汲み取りは高く、人物の顔も崩れていません。看板に指定した英字「LOCAL AI LAB」「RAMEN」も読める形で出ました(AI動画が苦手とされる”文字”が、少なくとも今回の看板テキストではちゃんと出ています)。
① ネオン・サイバーパンク
② フィルムノワール
③ 折り紙ワールド
使ったプロンプト(そのまま試せます)
チャットの「動画について説明してください」欄に貼るだけです。テンプレートを選ぶより、こうして文章で指定した方が、看板の文字などを自分で入れられて検証にも向きます。
夜のネオン輝くサイバーパンク都市。雨に濡れた路地を、フードを被った若いエンジニアが歩く。頭上の巨大ホログラム広告に「LOCAL AI LAB」の文字が青く光る。カメラはローアングルからゆっくり上昇し、水たまりにネオンが反射する。シネマティック、青とマゼンタの照明、霧、浅い被写界深度。環境音は雨と都市のざわめき、低めのシンセBGM。10秒。
1940年代の白黒フィルムノワール。雨の夜、ネオンの「RAMEN」看板が灯る路地裏。トレンチコートと帽子の探偵が、湯気の立つラーメン屋台の前に佇む。カメラは横移動でゆっくり寄る。ハードな影、煙草の煙、降りしきる雨。モノクロ・高コントラスト・フィルムグレイン。環境音は雨と屋台の喧騒、物憂げなサックス。10秒。
折り紙で作られたミニチュアの世界。紙でできた机の上で、折り紙のキツネが折り紙のノートパソコンを開くと、画面から小さな紙の鳥が次々に飛び立つ。柔らかな朝の光、浅い被写界深度、パステルカラー。カメラはゆっくりドリーイン。紙が擦れる音と優しいピアノのBGM。10秒。
正直なところ(注意点)
良かった点ばかりではありません。作れる本数は今回も約3本で、”量産”には程遠い。そして繰り返しになりますが、これが恒久的な改善かは分かりません(Google が上限を調整中で、日付も完全に同条件ではない)。引き続き、条件をそろえて観察します。
関連記事
前回の詳細(使用量の仕組み=compute-used モデル、100%に達した経緯、画像→動画の例)はこちら。→ Gemini Omni Flash、動画は作れる。でもPro契約だと2〜3本で使用量が尽きた

コメント