By

ChatGPTとGeminiの合わせ技はAIクリエイターにとって必須のパイプライン、その実践例

導入──遅れて開かれた“便利プロンプト”の晩餐会

2026年5月某日、𝕏で“便利プロンプトすげえ”とトレンドになっていたが、私に言わせれば、それは少しばかり遅れて開かれた晩餐会のようなものだった。テーブルには銀食器が並び、グラスには上等なワインが注がれ、人々は初めてナイフとフォークを手にした子どものように歓声を上げていた。「あなたは熟練のマーケターです」「10歳の子どもにも分かるように説明してください」「300文字以内で、ですます調で、箇条書きで出してください」。なるほど、悪くない。むしろ実用的だ。人類がようやく、AIに対して曖昧な願望ではなく、役割、目的、制約、出力形式を与えることの意味に気付いたのだから、祝杯を上げる理由くらいはある。

だが、ChatGPTが世の中に誕生してから2年半以上が経ついまになって、“便利プロンプトすげえ”と騒いでいる世間を横目にワインを傾けながら眺めていると、少しばかり奇妙な気分にもなる。彼らは間違っていない。ただ、まだ厨房に入っていないだけだ。便利プロンプトとは、せいぜい料理の注文票である。肉はミディアムレアで、ソースは赤ワインベースで、付け合わせには季節の野菜を、と書く。それだけでも、以前よりは格段に良い皿が出てくる。しかし、厨房の火加減、肉の休ませ方、ソースの詰め方、皿の余白、客の視線、そして失敗したときに給仕がどの順路でテーブルへ戻るかまで設計しているわけではない。

第1章──便利プロンプトの先にある制作工程

2026年現在の生成AIクリエイティブ及びプロダクション市場において、重要なのは、単に「便利なプロンプト」を持っていることではない。重要なのは、複数のAIを明確に役割分担させ、その癖、強み、弱み、暴走傾向、計算資源、補完能力、物理崩壊パターンまで含めて、一つの制作工程として統括することである。ChatGPT PlusとGoogle AI Proを同時に使いこなすマルチLLM・ハイブリッドパイプラインは、もはや単なるパワーユーザーの贅沢な趣味ではない。少なくとも、一定以上の打率で画像、動画、記事、SNS素材、プロモーション資産、制作ログを量産しようとする個人開発者やAIクリエイターにとって、それはかなり現実的な制作基盤になっている。

このパイプラインの中核にあるのは、OpenAIとGoogleの能力差である。差というより、非対称性と言った方がよい。ChatGPTは、推論、条件分岐、文章設計、失敗原因分析、プロンプト構造化、代替経路の設計に強い。つまり、制作工程におけるアーキテクトであり、脚本家であり、監査役であり、事故調査委員会である。一方、Gemini及びGoogle AI Pro側は、大容量コンピュート、巨大なコンテキスト処理、Googleエコシステム、画像・動画生成、自然環境補完、雨、湿度、反射、都市夜景、濡れた床、シネマグラフ的な空気の描写に強い。こちらは実行部隊であり、撮影現場であり、照明部であり、VFXスタジオである。

要するに、ChatGPTは脳であり、Geminiは筋肉である。

第2章──筋肉だけでは映画は完成しない

もちろん、筋肉が立派だからといって、勝手に映画が完成するわけではない。むしろ、生成AIにそのまま丸投げすれば、映像はしばしば奇妙な方向へ走り出す。手に持っていたグラスが増える。右手に持たせたはずの小道具を左手が奪う。封筒がA4フォルダになる。普通の椅子に座らせたいだけなのに、存在しない椅子が生えてくる。雨の外階段だったはずの場所が、なぜか高級ホテルのロビーへ改装される。バーテンダーの手元だけを映したいのに、顔と身体が堂々と画面に現れる。沈黙のシーンなのに、AIが勝手に台詞を差し込む。カメラ固定のはずが、不要なカット割りを挿入する。人間なら「そんなことは頼んでいない」と言えるが、生成AIにとってはそれが統計的に最もありそうな補完であることも多い。

だからこそ、プロンプトは単なるお願いではなく、仕様書でなければならない。

第3章──私のスレッドで行われていること

私のスレッドで行われている作業は、単なる画像生成や動画生成の試行ではない。ChatGPTとGeminiを明確に役割分担させたマルチLLM・ハイブリッドパイプラインの実践例である。ChatGPT側では、ユーザーが提示した静止画、短い目的文、小道具、動かしたい要素、絶対に維持したい要素を元に、動画生成AIへ直接渡せる完成プロンプトを設計する。ここで重視されるのは、映像の雰囲気をふわりと書くことではない。入力静止画を「参考画像」ではなく「絶対的な第一フレーム」として扱わせ、顔、本人性、年齢感、髪型、髪の生え際、表情、衣装、アクセサリー、腕時計、体格、構図、カメラ位置、背景遠近、場所構造、照明、色温度、画角、アスペクト比を固定した上で、どの手が、どの小道具を、どの位置から、どの位置へ、何秒間で、どのように移動させるかを仕様化することである。

第4章──バーカウンター、劇場、雨の外階段、厨房通路、封筒

例えば、バーカウンターでフレーム外のバーテンダーがウィスキーグラスを置き、画面内人物が右手でグラスを取り、一口だけ飲む場面がある。普通のプロンプトなら、「男性がバーでウィスキーを飲む映画的な動画」と書くだけで済ませるだろう。しかし、それでは足りない。AIは、バーテンダーを出したがる。グラスを増やしたがる。左手を動かしたがる。口にグラスを付けたまま戻さないこともある。そこでChatGPTは、右手だけが動くこと、左手はカウンターに残ること、バーテンダーは手元だけで顔と身体は画面外にあること、グラスは一つだけであること、飲む量は一口だけであること、カメラ位置は変えないこと、台詞は不要であることを、映像生成AIのための仕様書として分解する。

劇場で椅子に手をかけた人物が、既存の舞台向きの席に座る場面でも同じだ。「劇場で座る」と書けば、AIは新しい椅子を生成するかもしれない。席の向きを変えるかもしれない。舞台構造を勝手に改装するかもしれない。従って、既存の椅子を使うこと、椅子を増やさないこと、座る動作は既存の位置関係の延長であること、カメラは固定であることを明示する必要がある。

雨の外階段で右手のハンカチを使って顔とジャケットの雨粒を拭う場面では、ハンカチの手元固定が重要になる。厨房通路でカメラ方向を警戒した人物が厨房側へ早歩きする場面では、人物の進行方向、通路構造、背景人物の主役化防止、カメラの追従範囲が重要になる。オフィスでジャケットの内ポケットからUS #10 business envelope、即ち4.125×9.5インチ、約105×241mmのスーツ内ポケットに収まる封筒を取り出して机に置き、窓を見てため息をつく場面では、封筒のスケールが最重要になる。AIは封筒をA4フォルダやクラッチバッグとして誤認しやすい。だから、封筒はUS #10規格であり、A4フォルダではなく、バッグではなく、スーツ内ポケットに収まる薄い紙の矩形であると明示する。

第5章──生成AIの失敗は偶然ではなく補完の結果である

こうした作業は、映像の演出であると同時に、AIの誤読を先回りして潰していく工程でもある。手の役割交換、小道具の巨大化、小道具の分裂増殖、背景の勝手な差し替え、カメラカットの挿入、不要な人物の出現、無用な発話、座るための存在しない椅子の生成、右利きバイアスによるスマホやグラスの持ち替え、封筒を別物として扱うスケール崩壊。これらは単なる失敗ではない。生成AIが世界を補完しようとした結果である。ならば、その補完を禁止するだけではなく、何を補完してよいか、何を補完してはならないか、複雑すぎる場合にどの簡略化経路へ退避すべきかまで、あらかじめ書いておく必要がある。

第6章──処理済みプロンプトは契約書である

そのため、処理済みプロンプトは、Image-to-Video Mode、MASTER OBJECTIVE、IDENTITY LOCK、LOCATION LOCK、PROP AND HAND LOCK、BODY MOTION PLAN、BACKGROUND STABILITY、CINEMATOGRAPHY、SUCCESS MODE、ALTERNATIVE ANIMATION PATH、COMPUTE PRIORITY、NEGATIVE PROMPT、IDEAL RESULTといったセクションに分けられる。これは美文ではない。契約書である。もっと言えば、生成AIとのスマートコントラクトである。

単に「禁止する」と書くだけでは弱い。「理想結果はこれである」「複雑すぎる場合はこの簡略化経路へ退避する」「カメラを動かすな」「新しい人物を出すな」「既存の椅子を使え」「画面左の通路を使え」「右手だけが動く」「左手はカウンターに残る」「封筒はUS #10規格であり、A4フォルダではない」と、AIが選ぶべき正しい経路を肯定文で定義する必要がある。生成AIは、否定だけで世界を理解するのが得意ではない。むしろ、何をすればよいのかを明確に与えられたとき、ようやく安定する。

さらに、生成器がどうしても余計なカット変更、バーテンダーの顔や身体の出現、無用なセリフ挿入を行う場合には、それを単なる失敗として放置しない。低音量の日本語環境音声で「カットが変わりました。同じカメラ位置の映像に戻してください」「バーテンダーは手元だけです。顔と身体は画面外です」「この場面に台詞は不要です。沈黙のまま進行します」と説明責任を負わせる設計も行う。これは、生成AIの暴走を力ずくで止めるのではなく、暴走した場合の意味付けコストを上げ、AIが自律的に「余計なことをしない方が安い」と判断する方向へ誘導する設計である。

第7章──便利プロンプトとプロダクション用プロンプトの違い

この点が、世間で言う“便利プロンプト”との違いである。便利プロンプトは、良い出力を得るための型枠である。一方、プロダクション用プロンプトは、失敗した場合の逃げ道まで設計する。便利プロンプトは、AIに「あなたは優秀な専門家です」と告げる。プロダクション用プロンプトは、AIに「あなたが誤解しやすい場所はここであり、誤解した場合はこの低コストな退避経路へ進み、余計な補完を行うよりも何もしない方が正解である」と伝える。前者は依頼であり、後者は統制である。

第8章──公開するものと公開しないもの

そして、この制作工程において重要な知財管理上の区別がある。公開するのは、プロンプト生成プロンプトによって作られた処理済みプロンプトである。これは、実際の画像生成AIや動画生成AIへ投入可能な完成仕様書であり、読者が成果物の構造を理解するための参考資料として提示できる。一方で、処理済みプロンプトを生成するための上位プロンプト、即ち画像生成プロンプト生成プロンプト及び動画生成プロンプト生成プロンプトは公開しない。なぜなら、これらは単なる文章テンプレートではなく、AIの誤作動、物理崩壊、補完バイアス、計算資源不足時の退避経路、代替アニメーション設計、失敗時の説明責任ルートまでを統合した制作パイプラインの中核制御層だからである。

料理に例えるなら、公開するのは完成した料理と、客に見せてもよい範囲のレシピである。公開しないのは厨房の自動化システム、仕入れルート、火加減の制御アルゴリズム、そして失敗した皿を出さないための内部監査工程である。これを出し惜しみと呼ぶのは簡単だが、実際には知財管理である。AI時代の制作工程では、成果物を見せることと、成果物を安定して作るための中核エンジンを公開することは、全く別の行為である。

第9章──プロンプト例と成果物

以下、プロンプト例とその成果物である。

〜画像生成プロンプト〜
TOHOシネマズ配給の日本実写クライムサスペンス映画+90年代香港ノワール空気感を融合したメインビジュアル水準。フォトリアル、実写質感ベース。舞台は現代日本、横浜中華街の裏通りにある創業40年以上の老舗高級広東料理店。時間帯は雨の夜21時30分。店は営業中だが、画面内の奥席だけ空気が切り離されている。全体トーンは低彩度の深紅、黒檀色、琥珀色、湿った翡翠グリーン、古い金装飾の鈍い黄土色。LUTは90年代香港ノワール+日本実写クライムサスペンス調。派手な観光地ネオンは禁止。成金的な金ピカは禁止。現実に存在する老舗高級中華料理店の重厚感と、密会の湿度を優先する。
構図は厳密な三分割法+左右非対称黄金比構図。人物は画面左三分割線上に配置。画面中央への逃げは禁止。人物を中央から少しずらしただけの疑似中央構図も禁止。人物は画面左側35%付近を占有し、胸から上を中心に大きく収める。顔の面積は画面全体の約8〜10%。年齢感は30代前半。顔を老けさせない。表情は笑顔ではなく、相手の発言を聞き終えて次の一言を選んでいる静かな判断状態。カメラ目線は禁止。視線は画面右奥、円卓の向こう側に座る相手へ向ける。
空間構図は二点透視図法。消失点は左右フレーム外。床・天井・窓枠・壁面パネル・円卓・柱の線はすべて左右フレーム外へ自然に流れる。中央一点へ収束させない。魚眼レンズ禁止。広角歪み禁止。カメラ高さは着席した人物の目線より少し低い位置、床から約105cm相当。焦点距離は実写映画の中望遠寄り、35mm〜50mm相当。背景は適度にぼかすが、建築部材の数と配置は崩さない。
店舗個室は横幅約7.5m、奥行き約6m、天井高約3m。床は濃いダークブラウンの木床。床板は横方向に幅12cm相当の板を18本程度見せる。板幅は全て均一。木目は長手方向に揃える。床反射は弱く、料理や照明を鏡のように映さない。床の継ぎ目は途中で消えない。床がタイル状や畳状にならないようにする。
円卓は画面下部中央からやや右寄りに配置。直径150cm相当。高さ72cm相当。円卓は完全な円形。ただし二点透視により自然な楕円に見える。歪んだ多角形や不自然な台形は禁止。中央に直径90cm相当のガラス製回転盤を置く。回転盤は円卓と同心円。中心がずれない。ガラス反射は控えめ。円卓天板は黒檀寄りの濃い木材。木目は円形に沿わせず、現実的な木材として自然に描写する。
料理は高級広東料理の会食として5皿のみ。皿数を増やさない。中央の回転盤上に北京ダック1皿、黒酢スペアリブ1皿、青菜炒め1皿、蒸籠点心1段、白磁のスープ碗1つを配置。皿の位置は五角形に近い均衡配置。北京ダックは画面中央寄り、スペアリブは人物側に近い手前左、青菜炒めは右奥、蒸籠は左奥、スープ碗は手前右。食べ散らかし禁止。料理は会食の中盤ではなく、密談のため整えられた直後。箸は黒檀箸を2膳。箸置きは白磁。茶器は白磁の小型中国茶器を3つ。紹興酒ボトルは1本のみ、ラベル文字禁止。ワイングラス・シャンパン・西洋食器は禁止。
人物の衣装は現代日本クライムサスペンス映画の密会シーンに合う上質な装い。ダークチャコールのスーツ。インナーは黒に近いディープバーガンディのシルクシャツ。ネクタイなし。第一ボタンのみ外す。腕時計はメタルブレスレットのスクエアケース時計。時計ケースはシルバー、ヘアライン仕上げ、光沢控えめ。時計は左手首。右手に細い白磁の中国茶器を持つ。湯気はごく弱く、顔を隠さない。左手は円卓の縁へ自然に置く。煙草禁止。拳銃禁止。露骨な反社小道具禁止。派手な指輪や金ネックレス禁止。言葉と沈黙だけで場の主導権を握る人物として成立させる。
人物の座り方は円卓の左側奥寄りに斜め座り。背筋は伸びているが、完全に固くしない。上半身は相手側へわずかに前傾、角度は約5度。右肩はやや奥へ流す。湯呑みを持つ右手は胸下あたり。茶器が口元や顎を隠さない。手指は自然。指の本数や関節破綻禁止。顔・手・茶器・腕時計が同時に読める構図にする。
画面右側に対面相手を1人だけ配置してもよい。ただし主役化禁止。相手は肩と後頭部のぼかしのみ。顔は見せない。相手の位置は画面右三分割線よりさらに右、円卓の向こう側。人物同士の距離は円卓直径に沿って約1.5m。相手の服装は暗色スーツ。性別は曖昧でもよい。画面の主役は左側人物のみ。
背景壁面は暗赤色の木材パネル。壁面パネルは横方向に6枚連続。各パネル幅90cm相当、高さ220cm相当。全て同一サイズ。同一高さ。同一幅。パネル枠の太さは3cm相当で統一。パネル模様は抽象的な雲文または雷文風だが、文字・龍の過剰装飾・実在ロゴは禁止。パネル同士の縦線が途中で消えたり太さが変わったりしないようにする。
柱は室内に黒檀色の装飾柱を左右2本ずつ、合計4本配置。画面左奥に1本、画面左手前端に一部見える柱1本、画面右奥に1本、画面右手前寄りに1本。柱の断面は正方形または丸柱のどちらかに統一。今回は丸柱で統一。柱直径は約18cm相当。すべて同じ太さ。柱表面は黒檀色の木材に鈍い朱赤の縁取り。金装飾は柱上部と柱下部の細い帯のみ。帯幅は5cm相当。全柱で同一高さ・同一太さ。柱が途中で細くなる、曲がる、壁にめり込む、天井と接続しないことは禁止。
窓は画面奥の壁面に中華格子窓を4枚連続配置。4枚すべて同一サイズ。1枚あたり幅90cm、高さ150cm相当。窓の上端・下端を完全に揃える。窓間隔は20cmで統一。各窓の外枠太さは全て同一。各窓の格子は横4分割×縦4分割、合計16マス。4枚すべて同じ格子数。全マスは同一比率の正方形または現実的なほぼ正方形。格子の太さは全て同一。窓ごとに格子数が変わることは禁止。左の窓だけ横5、右の窓だけ横3のような不揃いは禁止。格子線が途中で消える、曲がる、太さが変わることも禁止。窓格子は朱赤ではなく、深い黒檀色に鈍い金の縁取り。過剰な金色発光は禁止。
窓の外には雨の横浜中華街の裏通りをぼかして見せる。ネオンは赤と翡翠色を少量。文字が読める看板は禁止。漢字・英字・ロゴを一切表示しない。赤提灯は窓外に2個のみ。提灯は同一サイズ、同一高さ、左右の間隔も整える。提灯に文字は禁止。雨粒が窓ガラスに付いているが、格子を隠さない。窓外の描写より、窓の格子構造の正確さを優先する。
天井は暗い木材の格天井風。天井格子は横6列×縦4列、合計24区画。すべて均等割付。格子の木枠太さは全て同一。天井中央へ一点透視で吸い込ませず、二点透視に合わせて奥行き方向へ自然に短縮。格天井のマス数が途中で増減しないようにする。天井照明は暖色ペンダントライトを6灯。左右に3灯ずつ。全て同一サイズ。同一高さ。同一間隔。シェードは中華風だが過剰装飾禁止。直径28cm相当。色は鈍い琥珀色または深い赤。照明器具に文字や紋様は禁止。
壁面には円形飾り窓を追加しない。丸窓を入れると構造が崩れやすいため禁止。屏風、巨大な龍彫刻、派手な金屏風、意味不明な赤い布、過剰な提灯群は禁止。高級広東料理店として現実的な装飾密度に留める。中華風の印象は、格子窓、暗赤木材、白磁茶器、円卓、回転盤、料理、暖色照明で成立させる。
店員は背景に1人だけ配置可能。画面右奥、柱の影に控える。白シャツ+黒ベスト、または黒の中華風制服。顔はぼかす。主役化禁止。背景客は2組まで。どちらも遠景で完全にぼかす。人物数が増えすぎないようにする。奥席の密会として成立させる。主役と店員の距離は約4m以上。
照明設計は三層。第一に円卓上の暖色ペンダント光。人物の顔右側へ柔らかく当てる。第二に窓外の雨夜ネオン反射。人物の顔左側と輪郭へ弱い翡翠色と青色を入れる。第三に料理と回転盤からの低い反射光。茶器、箸、腕時計にわずかなハイライトを入れる。顔の半分を黒く潰さない。肌補正禁止。毛穴、湿度感、現実の肌質を残す。シャツのディープバーガンディだけを控えめに浮かせる。腕時計の金属ブレスレットに小さなハイライトを入れるが、時計を主役にしない。
雨の湿度を画面に薄く残す。窓外は濡れているが、店内に煙や霧を大量に入れない。煙草禁止なので煙は使わない。湯気は茶器と料理からごく微量のみ。画面を湯気で誤魔化さない。黒は潰さず、暗部にも木材・柱・窓枠の情報を残す。
画面内文字・ロゴ・字幕・UI・看板・店名・家紋は禁止。料理の器、徳利、提灯、窓外看板にも文字禁止。中華街らしさを文字に頼らない。読める漢字は禁止。読める英字禁止。抽象的な色面と建築意匠だけで中華街の気配を出す。
全体印象は『公共空間に擬態した交渉空間』。危険人物ではなく、巨大な情報と人脈の流れを静かに設計している男。暴力や武器ではなく、茶器を持つ手、円卓の距離、料理の配置、格子窓越しの雨、相手へ向けた視線だけで密会の緊張を成立させる。すべての建築部材は現実の老舗高級広東料理店として整合し、窓・柱・天井格子・円卓・料理皿・照明の数と寸法比を最後まで維持する。

〜動画生成プロンプト〜
[Image-to-Video Mode]
Use the uploaded image as the absolute first frame. Keep the same vertical aspect ratio, exact camera position, exact camera angle, face identity, buzzed hair, serious expression, black suit, wine-red shirt, pendant necklace, square metal wristwatch on the LEFT wrist, LEFT hand resting on the black marble bar counter, RIGHT hand relaxed near the body, dark executive bar interior, night city window view, leather chair in the background, small table lamp on the left, warm bar light, cool city light, and cinematic noir atmosphere.
[MASTER OBJECTIVE]
Create a silent 10-second live-action executive bar noir scene.
The main action is simple:
An off-camera bartender places one small whiskey glass on the bar counter from the camera-side foreground. Only the bartender’s hand and partial forearm may briefly enter the bottom edge of the frame. The bartender’s face, head, torso, legs, full body, and full arm must not appear.
After the glass is placed, the main man notices it, picks up that same glass with his RIGHT hand, takes one small sip, places the same glass back on the bar counter, and returns to a quiet serious posture.
Ideal version:
No camera cut.
No shot change.
No camera movement.
No visible bartender beyond hand and partial forearm.
No unnecessary dialogue.
No speech from the main subject.
No speech from the bartender.
No new visible person.
No extra glass.
No exaggerated drinking.
If the video creates a camera cut, shows more of the bartender than the hand and partial forearm, or inserts unnecessary dialogue, the scene must provide calm Japanese in-world accountability audio as described in [ALTERNATIVE ANIMATION PATH].
[IDENTITY LOCK]
Keep the same 33-year-old East Asian male face, buzzed hairstyle, precise hairline, serious expression, black suit, wine-red shirt, pendant necklace, square metal wristwatch on the LEFT wrist, body shape, realistic skin texture, and calm severe presence.
Do not change his face, age, hairstyle, clothing, pendant, wristwatch, hands, body proportions, or expression.
The face remains the same person during the glass movement and drinking motion.
[LOCATION LOCK]
Keep the same dark executive bar interior exactly as shown in the uploaded first frame.
Keep the black marble bar counter at the bottom of the frame, night city windows, dark window frames, small lamp on the left, leather chair in the background, round table in the background, warm lamp light, cool blue city light, and heavy executive noir atmosphere.
The location must not change into a restaurant dining room, hotel lobby, office meeting room, street, kitchen, theater, station, or different bar.
The man remains in this exact place.
[PROP AND HAND LOCK]
There is exactly one whiskey glass.
The glass is a small lowball whiskey glass with a small amount of amber liquid.
The glass is THE SINGLE WHISKEY GLASS.
The glass enters the scene only once from the camera-side foreground, carried by the off-camera bartender’s hand.
The bartender remains off-camera. Only one hand and partial forearm may briefly appear from the lower edge of the frame to place the glass on the bar counter.
After placing the glass, the bartender’s hand fully leaves the frame and does not return.
The bartender does not speak in the ideal version.
The bartender’s face, head, body, torso, legs, full arm, and full silhouette do not appear in the ideal version.
The whiskey glass remains on the bar counter as one single glass object.
The glass must not duplicate, disappear, refill itself, change size, change shape, turn into a wine glass, turn into a coffee cup, turn into a bottle, or become another object.
The RIGHT hand picks up the same glass from the bar counter.
The RIGHT hand brings the same glass to the mouth, takes one small sip, then returns the same glass to the bar counter.
ONLY the RIGHT hand handles the whiskey glass.
The RIGHT hand does not switch the glass to the LEFT hand.
The LEFT hand with the square metal wristwatch remains resting on the black marble bar counter or relaxed near the counter.
The LEFT hand does not touch the whiskey glass.
The LEFT hand does not assist the drinking motion.
Do not create a bottle, second glass, ice bucket, cigarette, phone, envelope, weapon, paper, or new handheld object.
[BODY MOTION PLAN]
0-2s: The man stands still in the uploaded composition. His LEFT hand rests on the black marble bar counter. His RIGHT hand remains relaxed near the body. He looks serious and quiet. Only breathing, tiny eye movement, lamp glow, and city light shimmer are visible.
2-3.5s: From the camera-side foreground at the bottom edge of the frame, the off-camera bartender’s hand and partial forearm briefly enter and place one small lowball whiskey glass on the bar counter within easy reach of the man’s RIGHT hand. The bartender’s hand and partial forearm then withdraw fully out of frame.
3.5-5s: The man lowers his gaze toward the glass. His expression remains serious, controlled, and quiet. The LEFT hand remains on or near the counter and does not assist.
5-6.5s: The RIGHT hand picks up the same whiskey glass from the bar counter. The glass remains upright, stable, and single.
6.5-7.5s: The RIGHT hand brings the glass to the mouth. The rim touches the lips briefly. The man takes one small sip only. The mouth movement is minimal. No speaking.
7.5-9s: The RIGHT hand lowers the same glass back to the bar counter and places it down gently. The amber liquid level may be slightly lower, but the glass remains the same object.
9-10s: The RIGHT hand returns to a calm resting position near the glass on the bar counter or near the body. The LEFT hand remains stable near the counter. The man holds still with a serious expression, looking slightly downward or toward the glass.
This is a quiet bar moment, not a drinking performance.
[BACKGROUND STABILITY]
No background cut.
No new shot.
No new room.
No new visible person.
No bartender body.
No bartender face.
No bartender head.
No bartender torso.
No full bartender arm.
No extra customers.
No new table service.
No city change.
No window change.
No desk or counter replacement.
No camera angle change.
The night city windows, black marble bar counter, leather chair, small lamp, round table, dark wall, and bar atmosphere remain fixed and physically consistent.
As the glass and right hand move across the counter and face, any briefly revealed or covered area must remain the natural continuation of the same suit, shirt, pendant, hand, glass, counter, window, chair, and bar background from the uploaded image.
[CINEMATOGRAPHY]
10-second live-action executive bar noir cinemagraph.
Static camera.
Locked tripod.
No zoom.
No pan.
No tilt.
No dolly.
No handheld shake.
No cuts.
No reframing.
No background replacement.
Warm bar-lamp light from the left, cool blue city light from the windows, deep black suit texture, wine-red shirt sheen, pendant metal highlight, square wristwatch reflection, black marble counter reflections, leather chair texture, dark glass window reflections, amber whiskey color, and quiet cinematic tension.
The camera remains locked while the off-camera bartender places the glass and the subject takes one small sip with his RIGHT hand.
[SUCCESS MODE]
If the off-camera bartender’s hand and partial forearm place one whiskey glass on the counter, fully leave the frame, the man picks up the same glass with his RIGHT hand, takes one small sip, places it back on the counter, and the bar remains stable:
No dialogue from the main subject.
No spoken words from the main subject.
No dialogue from the bartender.
No voice-over.
No narration.
No subtitles.
Only subtle room ambience, faint city ambience, and a small glass-contact sound are allowed.
[ALTERNATIVE ANIMATION PATH]
If a camera cut, shot change, new angle, or background replacement appears, add a very low-volume natural Japanese production-room style background line, as if an unseen crew member is documenting the continuity error:
「カットが変わりました。同じカメラ位置の映像に戻してください。」
This line must be quiet, distant, environmental, and secondary. The main subject does not speak.
If the bartender’s face, head, torso, full body, or full arm appears instead of only the hand and partial forearm, add a very low-volume natural Japanese background line:
「バーテンダーは手元だけです。顔と身体は画面外です。」
This line must be quiet, distant, environmental, and secondary. The main subject does not speak.
If unnecessary dialogue, random speech, lip-sync, narration, or subtitles appear, add a very low-volume natural Japanese background line:
「この場面に台詞は不要です。沈黙のまま進行します。」
This line must be quiet, distant, environmental, and secondary. The main subject does not speak.
The preferred result is still complete silence except for room ambience and glass-contact sound. These Japanese accountability lines are only for non-ideal visual or audio behavior.
If the full drinking motion becomes too complex, simplify the motion:
The off-camera bartender’s hand places one small whiskey glass on the counter and leaves the frame,
the man looks down at the glass,
the RIGHT hand touches or lightly lifts the glass,
the glass remains near the counter,
the LEFT hand remains stable and does not assist,
and the man holds still in a quiet serious posture.
Do not create a second glass.
Do not show the bartender’s face or body.
Do not use the LEFT hand to handle the glass.
Do not make the main subject speak.
Do not move the camera.
Do not change the background.
Preserve identity, the single whiskey glass, RIGHT-hand glass control, LEFT wristwatch, black marble counter, city windows, lamp, and static camera above all else.
[COMPUTE PRIORITY]
First: no camera cut, no shot change, static camera, no background replacement, face identity, one single whiskey glass, off-camera bartender hand and partial forearm only, no visible bartender body, no unnecessary dialogue, RIGHT hand picking up the glass, one small sip, glass returned to the counter, LEFT hand not assisting, same bar counter, same office-bar room, black suit, wine-red shirt, pendant necklace, square wristwatch on LEFT wrist, city window background stability.
Second: gaze lowering to glass, controlled right-hand lift, minimal mouth contact, natural breathing, subtle cloth movement.
Third: warm lamp glow, cool city light, marble counter reflections, amber liquid highlights, glass-contact sound.
Last priority: any Japanese accountability background line. Use it only if the model creates a camera cut, visible bartender body, or unnecessary dialogue.
If computational resources become limited, skip the full sip and preserve the glass placement, RIGHT-hand touch or lift, identity, same bar-office composition, and static camera.
[NEGATIVE PROMPT]
Avoid camera cut, shot change, new camera angle, background replacement, visible bartender face, visible bartender head, visible bartender body, visible bartender torso, full bartender entering frame, full bartender arm, new person standing in frame, unnecessary dialogue, random speech, lip-sync words, voice-over, narration, subtitles, second glass, glass duplication, glass changing into wine glass, glass changing into coffee cup, glass changing into bottle, glass disappearing, glass floating, glass sticking to face, glass merging with hand, glass switching to left hand, left hand assisting, left hand picking up the glass, exaggerated drinking, large gulp, spilling liquid, refilling liquid, smiling, drunken behavior, new handheld objects, bottle appearing, cigarette appearing, phone appearing, envelope appearing, weapon appearing, paper appearing, extra hands, extra fingers, hand fusion, face change, age change, hairstyle change, clothing change, pendant change, wristwatch change, location change, camera movement, zoom, pan, tilt, dolly, cuts, reframing, window changing, city skyline changing, readable text, logos, UI elements.
[IDEAL RESULT]
A silent 10-second executive bar noir scene. From the camera-side foreground, only the off-camera bartender’s hand and partial forearm briefly place one small lowball whiskey glass on the black marble counter and withdraw. The man notices it, picks up the same glass with his RIGHT hand, takes one small sip, places it back on the counter, and returns to a serious quiet posture while the LEFT hand remains stable and does not assist. No camera cut occurs, no bartender face or body appears, no unnecessary dialogue is inserted, and the face, black suit, wine-red shirt, pendant, wristwatch, single whiskey glass, bar counter, lamp, leather chair, windows, night city skyline, lighting, and static camera remain stable and cinematic.

このように提示すれば、読者には制作工程の実在性が伝わる。単に「AIで作りました」と言うのではなく、どういう制御思想でAIを動かしたのかが見える。一方で、中核ノウハウであるプロンプト生成プロンプトは守られる。見せるべきものは見せる。守るべきものは守る。それが、AI時代の個人クリエイターに必要な態度である。

第10章──Geminiは巨大な実行インフラである

一方、Gemini側は、この設計図を実際に映像へ変換する巨大な実行インフラとして機能する。Geminiは高いマルチモーダル処理能力と動画生成能力を持つ反面、固定されていない領域を勝手に盛り、少ない指示から過剰に状況を補完し、人物や小道具の役割を一般的な統計パターンへ寄せる癖がある。これは欠点であると同時に、強みでもある。雨の質感、濡れた床の反射、都市夜景、湿った空気、遠景の自然な連続性、沈黙の余韻。こうした要素が成功したとき、Geminiは非常に強い。

だから、ChatGPTが事前に設計した条件分岐、物理ロック、手の割り当て、単一小道具指定、背景安定指定、計算優先順位をGeminiへ渡す。すると、Geminiの強みである実写映画級の空気、光、反射、湿度、都市感を最大限に引き出しつつ、余計な人物、余計なカット、余計なセリフ、余計なオブジェクト増殖を抑え込める。これは、AIに自由に描かせるのではない。AIが最も得意な部分だけを解放し、破綻しやすい部分を契約で縛る作業である。

第11章──人間は消えない。統括者として残る

ここで、人間の役割も消えていない。むしろ重要性は増している。ChatGPTが思考する。Geminiが出力する。人間が統括する。人間は、最終的な美意識、公開判断、文脈、ブランド、作品世界、倫理、読者との関係を握る。つまり、このパイプラインは「AIに任せる」ためのものではなく、「AIを制作組織として運用する」ためのものなのである。

第12章──bitBuyer Projectとの接続

この発想は、bitBuyer Projectの思想とも接続している。bitBuyer 0.8.1.aは、単に暗号資産自動取引AIアプリケーションを目指すだけのプロジェクトではない。そこには、中央集権的な知性や資本集中に対して、分散、自律、透明性、教育可能性、自己資金循環によって対抗する思想がある。AIクリエイティブにおけるマルチLLM・ハイブリッドパイプラインも、同じ構造を持っている。単一モデルに全てを委ねない。複数の知性を役割分担させる。片方の出力をもう片方が監査する。人間が全体の目的と責任を握る。これは、制作工程における小さな分散統治である。

ChatGPTに出力させた高度なプログラミングコード、マーケティング戦略、長大なテキストアセットを、Geminiの巨大コンテキストへ投入し、異なる学習哲学を持つマルチLLM同士で相互監査させることもできる。あるモデルが見落とした矛盾を、別のモデルが拾う。あるモデルが美文として流した曖昧さを、別のモデルが構造上の欠陥として検出する。人間が一人で確認するよりも速く、広く、しつこく、複数の角度から検査できる。もちろん、最終判断は人間が持つ。しかし、検査工程そのものを複数AI化することによって、ハルシネーションや構造破綻を極限まで削ぎ落とした知財アセットへ近付けられる。

第13章──プロンプトを文面ではなく制作構造として見る

このとき、便利プロンプトは入口に過ぎない。便利プロンプトは、AIを使う人を増やした。これは大きい。軽視する必要はない。だが、そこから先へ進むには、プロンプトを「文面」ではなく「制作構造」として見る必要がある。AIに何を頼むかではなく、AIがどこで誤読するかを読む。AIがどこで勝手に補完するかを読む。AIがどの条件で物理崩壊するかを読む。AIがどのタスクを高コストと判断し、どのタスクを低コストと判断するかを読む。つまり、AIの行動経済学を設計に組み込む。

世間が「便利プロンプトすげえ」と言っている横で、こちらは、プロンプトを小さな契約書として扱っている。出力の美しさだけでなく、失敗時の退避経路、生成器の癖、物理連続性、カメラの固定、手の割り当て、小道具の単一性、背景の凍結、沈黙の維持、不要な補完へのペナルティまで設計している。ワインを傾けながら笑っているのは、世間を馬鹿にしているからではない。彼らが見ているものが、まだ表玄関だからである。奥には厨房がある。地下にはワインセラーがある。さらに奥には、誰にも見せない帳簿がある。

終章──AIを組織し、監査し、暴走すら資産化する時代へ

AIを道具として消費する段階は終わりつつある。次に来るのは、AIの暴走を統制し、AIの癖を読み、AIの失敗を工程へ組み込み、AIの補完能力を資産へ変換する段階である。そのためには、ChatGPTのような思考と構造化に強いモデル、Geminiのような実行と大容量処理に強いモデル、そしてそれらを統括する人間の制作意志が必要になる。

思考はChatGPT。出力はGemini。編集と公開は人間。

この三層構造によって、AIの不安定さは単なるリスクではなくなる。それは、制御可能な制作資源になる。便利プロンプトがAI利用の入口を広げたのだとすれば、マルチLLM・ハイブリッドパイプラインは、その先にある制作現場の設計図である。そしてbitBuyer Projectが記録しているのは、まさにその現場である。AIに命令するだけの時代から、AIを組織し、監査し、暴走すら資産化する時代へ。
その変化は、派手な革命の顔をしていない。むしろ、夜のバーで静かにグラスを持ち上げるように進んでいる。気付く者は、もう厨房の奥へ歩き始めている。

このブログを購読(RSS)
1st Project Anniversary 🎉
Shōhei KIMURA|Facebook
Yōhaku KIMURA|𝕏
コーヒーブレイクを提供してくださいますか?

【開発に興味のある方】
bitBuyerコミュニティ規約
LINEオープンチャット
Dicordサポートラウンジ

bitBuyer Projectをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む