特集 2023年6月9日

写真をAIに文章で説明してもらう→それをもとにまた画像を作る→外国になる

文章から画像を生成するツールがあるが、画像から文章を生成するツールもある。ある画像から始めて両者の間を往復させ続けるとどうなるだろうか。

1976年茨城県生まれ。地図好き。好きな川跡は藍染川です。(動画インタビュー)

前の記事:水の傘をつくる(デジタルリマスター)

> 個人サイト ツイッター(@mitsuchi)

画像の伝言ゲームをやってみたい

文章から画像を生成するAIツールが話題になったが、いっぽうで画像から状況を説明する文章を生成するAIツールもある。

文章をもとに画像を生成するツールがある(DALL·E、Stable Diffusion など)
いっぽう、画像をもとに文章を生成するツールもある(SceneXplain など)

それらを組み合わせて画像→文章→画像→文章→・・と変換していくとどうなるだろうか。

ようは伝言ゲームなので、再現なくどんどん違う画像になっていくことが予想されるが、どこかでうまく収束するかもしれない。

とにかくやってみよう。
 

※本記事では文章から画像を生成するために Image Creator from Microsoft Bing を、画像から文章を生成するために SceneXplain を利用しました。最後に詳細をまとめます。

 

納税前の記念写真

まずはこの写真から出発する。税務署の前でやけくそになって撮った記念写真だ。AIはこの状況を説明できるだろうか。出力はこうなった。

↓ 画像から文章を生成

 

「画像は、緑のジャケットと白いシャツを着て駅前に立つ男性を捉えたものです。彼は、日本のシンボルが描かれた看板の前に立っています。この看板は、駅の広告や案内表示と思われる。男は駅の近くに位置し、入る準備をしているように見える。カメラは男性と看板に焦点を合わせ、その他の背景はぼかしとピンボケのままである。このシーンは、様々な文化が混在する賑やかな都市環境を示唆しています。」

 

けっこう長い。「緑のジャケットと白いシャツを着て」のところはだいたい合ってるが、「駅前に立つ男性を捉えたものです」は間違ってる。ただ、日本の税務署の前で立ってるなんていう特殊な状況は読み取れなくて当然だ。この写真を選んだぼくが悪い。

ではこの文章(画像は、緑のジャケットと〜)をもとに画像を生成してみよう。

↓ 文章から画像を生成

 

中華圏のどこかになった

 

おお、近い。駅前で少し薄暗いが、だいたい一緒だ。比較のために元の写真と並べてみよう。

これが似てるということは、AIが画像から状況を説明する力も、文章から画像を生成する能力も高いということだろう。

ではこの過程を繰り返すとどうなるだろうか。以下に結果をまとめてみる。

中華圏にたたずむ緑のジャケット男

夜の都会で、緑のジャケットを着た男が駅の外に立ち、上を見つめている。駅前は深夜にもかかわらず賑やかで、画面のあちこちに人の気配が感じられる。 

(※実際に生成された文章はこの数倍だが、読みやすさのため一部のみを抜粋した。画像生成の際には全文を入力している。以下同様)

↓ 

上を見つめだす

 ↓

この画像では、男性が夜の駅前に立っています。また、男の耳のアップがあり、コンピュータの画面を見ているように見える。

(※耳のアップがあるようには見えないが、これ以降、耳がクローズアップされていく)

人物にクローズアップ

↓ 

この画像では、男性の左耳がクローズアップされ、繊細な解剖学的構造の輪郭と詳細が捉えられています。

↓ 

耳だけになってしまった

↓ 

スーツ姿で背筋を伸ばし、ダイナミックにきらめく都会の夜景を眺める男性。手前には男性の顔の左側が写り、耳とあごが強調されています。

↓ 

たしかに顔の左側だが、後ろからになった

↓ 

賑やかな都会の風景を背景に、シャープに着こなした男性が自信に満ちたポーズをとっています。その人物は前景に立ち、広大な都市を見渡しながら、その落ち着いた態度で注目を浴びています。 

↓ 

急にどうした、成功者か

↓ 

手前には、身なりの良い男性が堂々と立っており、その姿は街の光に照らされてシルエットになっている。この男は、都会の風景を見渡しながら、自分の野心や成功について考えているようです。

明らかに自信満々だ

↓ 

夜景に包まれた大都市を背景に、ライトアップされた街並みを見つめる一人の男性の姿。スーツとネクタイをきちんと着こなし、シャープで自信に満ちた横顔を際立たせ、街の前に立っている。

あまり変わらないが、ビル群が奇抜に

夜の輝きに照らされた賑やかな街並みを前に、堂々と佇む男。漆黒の空を背景に、シャープなスーツを着こなし、自信に満ち溢れた男のシルエットが印象的です。

最終的に影だけになった。闇の存在っぽい。

かけ離れつつも収束した

というわけで変換を10回繰り返してみた。画像だけをまとめるとこんなふうだ。

最初と最後を比べると、納税しに来たおじさんが闇の支配者になっており、かけ離れた画像になっている。伝言ゲームだとありそうなことだ。

一方で、7回目以降はだいたい同じような画像に収束しているようにも見える。都会を背景にした男のシルエットだ。

これは一般的な傾向なんだろうか。別の画像でも試してみよう。

いったん広告です

東京タワーだとどうなる

次は人物ではなく街の景色でやってみよう。

東京都港区、東京タワーの写っている風景だ。前回と同じく、文章については要点だけを抜粋し、簡潔にまとめてみる。

東京タワー

青空に向かってそびえ立つ東京タワーの象徴的な姿。黒いメルセデス・ベンツCクラスが道路を走り、フレーム左下のマンションを通り過ぎる。

おおむね再現されており、すごい

 ↓

背景には東京タワーがそびえ立ち、その周りには高層ビルが立ち並び、どこまでも広がる都会の喧騒を表現しています。手前には黒いセダンがタワーの前に停まっており、車の下からタイヤが覗いている。

ほぼ変わらず

賑やかな街角に停車する黒塗りの車を中心に、賑やかな街並みを表現しています。その隣には、オレンジと白のバスが停まっている。反対側では、黄色いタクシーが乗客を待っているのが見えます。

背景には東京タワーがそびえ立ち、晴天の青空と見事なコントラストを描いています。

スカイツリーになってしまった

手前には、黄色いスクールバスの前に黒い高級セダンが停まっています。その隣には、オレンジ色の公共交通機関のバスが停車し、道路脇には白いミニバンが停まっています。

スカイツリーも消え、おそらく日本ではなくなった

この画像は、ニューヨークの賑やかな通りの喧騒をとらえたもので、全体的にさまざまな車両が見られます。道路の左側には黒いメルセデスのSUVが停まっており、手前には黄色いタクシーが見える。

イエローキャブが現れ、マンハッタンになった

賑やかな街角に黄色いタクシーが並び、周囲の灰色の建物とコントラストをなしている。その中に、黒いトヨタ・アバロンが停まっている。

黒い車の列がちょっと大阪感もある

↓ 

都会の喧騒の中、賑やかな通りに並ぶ黄色いタクシー群。近くの駐車場には、レッドブルのF1マシンが停まっている。

(※どこにF1マシン?)

突然夕方になった。よくみると車にレッドブルのロゴが。

夜の賑やかな街並みを描き、様々な黄色いタクシーや車が登場するイメージです。映像の中央には、街の喧騒に包まれた看板のある大きなビルが見えます。

夜のブロードウェイだ

鮮やかな夜景の中に、大都市のエッセンスを凝縮した一枚の絵があります。誰もいない道を走る一台の黄色い車が描かれた、寂しげな絵です。

ニューヨーク郊外に移動して絵画調に

収束しなかった

まとめるとこんなふうだ。

最初の数枚は景色がほぼ変わらず、すごいと思った。しかし東京タワーがスカイツリーになったあたりからどんどん変わりだし、港区→墨田区→マンハッタン→ニューヨーク郊外と場所も変化した。この先もどんどん変わっていきそうだ。

税務署の写真が早い段階で収束したのは偶然だったのかもしれない。 

⏩ ただの正方形から部屋が現れた

▽デイリーポータルZトップへ つぎへ>

banner.jpg

 

デイリーポータルZのTwitterをフォローすると、あなたのタイムラインに「役には立たないけどなんかいい情報」がとどきます!

→→→  ←←←

 

デイリーポータルZは、Amazonアソシエイト・プログラムに参加しています。

デイリーポータルZを

 

バックナンバー

バックナンバー

▲デイリーポータルZトップへ バックナンバーいちらんへ