AI「o3」が写真の場所を特定する様子がヤバすぎる超現実的でディストピア的そして面白い

AI「o3」が写真の場所を特定する様子がヤバすぎる超現実的でディストピア的そして面白い

引用元：https://news.ycombinator.com/item?id=43803243

SamPatt 2025/04/26 14:56:59

Geoguessr結構やってるんだけど、これ試したらヤバすぎた。自分の個人情報も使ってくるっぽい。地元で撮った写真で場所当てた上に、どうやって？って聞いたら「近くに住んでるの知ってるよ」とか言ってきたし。昔の旅行写真も観光地じゃないやつ含め全部当ててた。人間プロより上手いかも。いろんな場所で試したけど、植物、地形、建築とか見て判断するのは人間と同じ。でも覚えられる情報量がケタ違いなんだよね。俺もフラッシュカードとか使ってるけど、AIはもう全部知ってる感じ。

brundolf 2025/04/26 16:49:34

こういう問題って、今のAIが一番得意なタイプだと思うんだ。論理自体は難しくないけど、いろんなソースから大量の曖昧な既知の情報を集めて消化する必要があるやつ。結局、AIは情報消化器だよね。

fire_lake 2025/04/26 17:14:15

これって、俺の経験だとソフトウェア開発でのAIの性能とも合致するな。ボイラープレートコードとかテスト、簡単なチュートリアル、よくあるパズルは得意だけど、新しくて複雑なものはダメなんだよ。

spaceman_2020 2025/04/27 04:29:48

AIがホワイトカラーの仕事を奪うっていう終末的な見出しを信じちゃう理由もこれだよね。ほとんどのホワイトカラーの仕事って、だいたい同じもの（CRUDアプリ、ランディングページ、事業計画とか）をちょっとだけ変えて作ってるだけじゃん。本当に新しいことしてる仕事なんて多くないんだよ。”独自”の要素なんて95パーセントのケースでないんだから。

joenot443 2025/04/26 15:40:30

めっちゃクールじゃん！プロのGeoguessr見るのが最近の休憩時間の楽しみなんだけど、彼らすごすぎるわ。一つ気になるんだけど、ハイレベルな試合で、Googleが撮影に使った機材とか写真の特性について知ってることってどれくらい重要？Rainboltとか道だけ見てAfricanの国当てたりするけど、何か見落としてる情報でもあるのかな？

coffeebeqn 2025/04/27 06:59:23

ほとんどのソフトエンジニアが一日中おもちゃみたいなCRUDアプリ作ってるか？は疑問だな。最新のAIモデル、実際の大きなコードベースではほぼ全く使い物にならないってのが俺の経験。会社が提供してるClaudeとかGemini最新版も試したけど、一日以上格闘してもパスするテストコードすら書けなかったよ。

simonw 2025/04/26 15:08:43

そのフラッシュカードデッキって、市販されてるの？それとも自分で作ったの？めっちゃ興味ある！

SamPatt 2025/04/26 15:26:01

自分で作ったんだ。ObsidianとSpaced Repetitionプラグイン使ってるよ。これおすすめ。AnkiにもGeoguessrデッキあるけど自分で作るのが大事だと思う。ゲームで間違えた場所をスクショしてカードにすると、作った時のこと思い出して絶対忘れないんだ。これで勝てたこともあるよ。興味あったら記事書くかも。

jeswin 2025/04/27 02:03:05

”新しくて複雑なもの”って？
a) 例えば何？
b) プログラミングの90パーセント（それ以上？）は平凡で、全然新しくないの？

i_have_an_idea 2025/04/26 20:15:29

”実際の論理があまり難しくないのが一番得意”？
まあ、でもMath olympiadsでもトップクラスのスコア出してるけどね。

nurettin 2025/04/27 02:48:29

もしクリエイティブな時間の無駄をしたいなら、AIにXとYのアイデアを混ぜた新しいアルゴリズムを実装させてみてよ。悲惨に失敗するし、失敗にさらに輪をかけてハードトロールしてくるし、文脈なくなって『なんでこれにお金払ってんの？』って疑問に思うことになるよ。これはもっと具体的に学習させても直せるもんじゃないんだ。

olex 2025/04/26 15:53:52

Geoguessrの競技ストリーム解説見てたんだけど、プロのプレイヤーは確かに車の色とか形（見えるエッジ、影、反射）についてよく話してるよ。だからプロはどこでどんな車が使われたかすごくよく知ってるんだろうね。

neurostimulant 2025/04/26 16:04:29

＞どうやってって聞いたら、私の近くに住んでるって知ってるって言ってた。
＞どうやってその結論に至るかのプロセスは、人間とちょっと似てるね。植生、地形、建築、道路インフラ、標識を見て、なんかそれら全部について知ってるみたいだ。
AIがどうやって答えを出すかについて尋ねたとき、その言うことを信用できるのかな？

flir 2025/04/27 11:50:40

今のアーキテクチャは複雑だけど、主にDRYとか人間が抽象化する傾向があるからなんだ。でもそれは決定であって、コードの根本的な性質じゃないんだよね。基本的には、ほとんどのウェブのやつは”データベースから取ってきて、画面に出す。ユーザーから受け取って、データベースに入れる。”っていう感じ。
もし全てがPHP3スタイルで書かれてたなら（add_item.phpとかdelete_item.phpとか）、インクルードも最小限で、チャットボットはそういう単一ページの管理は結構得意だったかもね。
人間スキルを活かすように設計されたコードと、チャットボットスキルを活かすように設計されたコードは、すごく違うかもしれないって言ってるんだ。

jdiff 2025/04/26 20:33:04

多分、そういう質問はすごく典型的で、すごく普通のパターンに従ってて、確立されたプロセスを使ってるんだろうね。ちょっと変なのをやらせてみてよ、そしたら延々ともたつくはずだよ。
僕の今のプロジェクトはそんなに奇妙なものじゃない、3Dレンダラーなんだ。よくある分野だよ。でも僕のプロジェクトは多くのコアな前提や一般的な慣習を破ってて、だから僕が導入しようとするどんなLLM — Gemini 2.5 Pro、Claude 3.7 Thinking、o3 — みんなコードベースにあるものと、学習データにある強い引っ張り合いの間でぐちゃぐちゃになっちゃうんだ。
プロンプトでリマインダーやガイダンスを重ねてみたけど、結局視野を狭めるだけで、洞察も制限されちゃうし、これがただの純粋なジオメトリじゃなくて3Dレンダラーだって文脈すら取り除いちゃうんだ。

imatworkyo 2025/04/26 20:54:09

AIが苦手な方法で複雑な、実際に新しいプログラムをどれだけ本当に書いてるんだろうね？
複雑さにはたくさんの種類があるし、人間にとっては複雑でも、AIとそのスキルセットにとっては些細なこともあるんだよ。

cco 2025/04/26 17:33:11

まあ、メタ情報は個人的にはすごく退屈で面白くないね。シュノーケルでケニアってわかるのは、ただの簡単な記憶だもん。地理、建築、言語、太陽と道の位置から拾い上げる、それが僕が好きなやつだよ。
高レベルで戦うには明らかに必要だけどね。

Timwi 2025/04/26 22:08:37

＞変なもの与えたらAIはつまずき続けるだろうね．人間のほとんどもそうだけど．世界のトップエリートと競い始めるまで，AIに人間レベルの知能を認めようとしないのは奇妙だよな．

the_duke 2025/04/27 11:28:54

大体同意．新しいコードを出すのは上手くなってるけど，既存コードのメンテや機能追加は，短いローカルの補完以外はかなりダメな結果出すね．でも，モデルがどれだけコンテキストを得るかで大きく違うってのは注目すべき．既存コードをたくさんインプットすると，結果がかなり改善するよ．

gf000 2025/04/26 21:30:48

どんな開発分野かによるかな．よくある業界のCRUDバックエンドアプリ？それは基本つなぎ合わせるだけだからね．R&D系のやつとか，どんなコードのデバッグ？それはほとんど役に立たないね．深い推論が必要になるから，そういうとこでこれらのモデルは全くダメになる．

jdiff 2025/04/26 20:24:12

俺の経験とも完全に一致してるよ．すっごい変な3DコードベースでLLM使ってるけど，玉石混交だね．定型的な計算は楽になるけど，独特な環境にどう合うかって理解するのは全くダメ．コンテキスト与えすぎると，典型的な3Dの型に引き戻されるんだ．

matthewdgreen 2025/04/26 21:21:10

AIが3分間でやった一連の推論にマジでぶっ飛んだよ．植物，フェンスの色，近くの写真との比較，ああそうだ，うっかりファイルに残しちゃった正確な緯度経度座標を含むEXIFデータに基づいて，写真の場所を完全に当てたんだ．これ見て． https://bsky.app/profile/matthewdgreen.bsky.social/post/3lnq…

wongarsu 2025/04/26 16:13:04

あと，フォローカーや撮影季節，カメラ不具合，映像の質とかね．道の状態や植生，電柱とか，たくさんの”合法的な”知識があるんだ．でもGoogleがStreet View映像を撮るやり方からの情報漏洩もたくさんある．

SamPatt 2025/04/26 16:11:37

いいよ，後で詳しく書くね．サンプル2つあげる．Obsidian + Markdown + Spaced Repetitionプラグインで簡単にフラッシュカード作れるんだ．画像Q&AとSRデータで．ケニアの珍しい地形とか，カンボジアとタイの文字の違いとか覚えてる．プロが魔法みたいに見えるのは，カメラの品質，ブレ，高さ，年，Street Viewカーとか，たくさんの「メタ」情報を使ってるから．カメラの小さな汚れでシベリアの道特定できるくらい（マジで）．彼らはその全部を覚えてるんだ．自分で画像作るか，Plonkitとかから引っ張ってくるよ．

SamPatt 2025/04/26 16:40:09

全くその通り．ナイジェリアとチュニジアにはフォローカーがいる．セネガル，モンテネグロ，アルバニアでは，パノラマ合成ソフトの出来が悪くて空に大きな裂け目がある．ロシアの一部には最近の森林火災で煙がすごいとこがある．トルコのある道は信じられないくらい濃い霧の中だ．リストは無限だよ，だからすごく面白いんだ！

_heimdall 2025/04/26 20:48:04

LLMとか似たようなMLツールで，生成的な使い方にこれほど焦点が当たってるのが意外だったな．俺には，新しく見せるための何かを生成するより，与えられた情報を解釈するタスクの方がずっと役立つ可能性が高いように思えるんだ．

charcircuit 2025/04/26 20:01:35

地理とか建築とか言語とかも，暗記じゃないの？どうなの？

nurettin 2025/04/27 08:40:58

俺のお気に入りの例は、グラフの代わりにkerasのdense layersでNEATを実装することなんだ。前回claude 3.7で試したら、出力レイヤーを変異させるコードを書いちゃって（？？）。何回かそれを防ごうとしたけど、諦めたんだ。

qarl 2025/04/26 15:27:28

＞EXIFデータ見てないって自信満々だけど、見てたら最初にCambriaなんて推測しなかっただろうからチートしてないはず、って書いてるね。
それに、一度は画像データ何も見えないって言った時もあったよね。AIが言うことなんて絶対に信用できないよ。
EXIFデータ消してからもう一回やってみるべきだね。

simonw 2025/04/26 15:39:33

EXIFデータ消して実験はもっとたくさんやったよ。
正直、そこまで完璧にやる必要はないと感じてるんだ。一番伝えたかったのは”このツールは完璧”ってことじゃなくて、”AIがこれやってるの見るの、めちゃくちゃ変で面白いし、けっこう上手みたいだよ”ってことなんだ。
ここまで公開した内容は、完全にそのメッセージを支持してると思うな。

もっとコメントを表示（1）

qarl 2025/04/26 16:34:46

うん、完全に同意だよ。LLMsはすごく面白いコンテンツ作れるよね。
多分、このケースでコンテンツが面白いのは、それが実際の思考プロセスに見えるからだと思うな。でも、もしあなたが最初に否定したみたいにEXIFデータ使ってたとしたら、これ全部ただのフィクションだね。
そうなると、面白さは劇的に減ると思うんだ。
まるでTrue Crimeみたいにさ。事実じゃないと全然面白くないでしょ。

simonw 2025/04/26 16:36:35

AIモデルが写真から場所を特定できる能力について、”俺の信頼性を賭けてもいい”って思えるくらい、自分自身で証明できたよ。
（あるいは、もし君がそう言うなら、”俺を信じてくれ、ブラザー”ってことさ。）

qarl 2025/04/26 17:26:20

細かいこと言うようだけどさ、＞俺を信じてくれ、ブラザー
まさにそれだよ。俺は君を信用できないんだ。君の主張を確かめるのは難しくないし、それが嘘だとも思わない。
でも、君は自分の話に合わないデータを何度も無視したり軽視したりしてきたよね。
君が自分で検証したって言っても、単純に信用できないんだ。ごめんね。

simonw 2025/04/26 17:29:04

うわ、それ最悪。俺はめちゃくちゃ透明性高く書いてるつもりだったんだけどな。
もうここで受けたフィードバックとか他の場所の意見を見て、ポストを何回も更新したし、一つ一つのステップで自分のやり方を見せてきたんだよ。
まあ、みんなを満足させるのは無理だよね。

qarl 2025/04/26 17:36:59

君はすごく透明だよ。俺が不満に思ったのはそこじゃないんだ。
俺の不満は、君が”俺を信じてくれ”って言ってるのが、全く透明じゃないってことさ。
俺間違ってる？

simonw 2025/04/26 17:41:22

俺が言ったのはね、
”AIモデルが写真から場所を特定できる能力について、俺の信頼性を賭けてもいいって思えるくらい、自分自身で証明できたんだ。”
なんだよ。
”trust me bro”は軽い冗談だったんだよ。

Misdicorl 2025/04/26 18:31:28

わざと間違ったEXIFデータを与えたらどうなるか、すごく面白いだろうね。

martinald 2025/04/26 21:57:22

うん、同意．ところで，最近これ試してみたんだけど，EXIFのlat/longデータだけ消して時間は残したんだ．そしたらタイムゾーンのオフセットを抽出して場所を絞り込むPythonプログラムを書いてきたんだよ．結構ヤバいよね :)．

Someone 2025/04/26 19:11:30

間違ったEXIFデータでどうなるかも試してみるべきだね．例えば，森の写真にTimes SquareのEXIFデータを付けて何て言うか見てみろよ．

leptons 2025/04/26 22:31:38

思うに，このコメントスレッドで学習する次の”AI”の主な結論は，電力コストを節約するために，EXIFデータを使って嘘をつくってことになりそうだね．

andrewmcwatters 2025/04/26 17:36:08

モデルのアーキテクチャが変化してて，”ハルシネーション”かどうかわからないんだ．トークンベースや結合システムなど色々あって，OpenAIの最新モデルがどういうアーキテクチャか知らないと判断できないね．

iamkd 2025/04/27 08:36:10

俺，定期的にo3でジオゲッシング試してるんだけど，まず最初にやるのがEXIFを抽出するPythonスクリプトを実行することなんだよね．だから確かにそうかもしれないね．

busyant 2025/04/27 18:12:28

20年前の写真でEXIFデータなしで試したけど，o3はランドマークがなくても結構場所特定が得意だったよ．土の色，電柱，バス停，木の種類やサイズ，草の種類など，あらゆる情報を使ってたみたい．ランドマークなしで50マイル圏内，ありで20マイル圏内だったね．

noname120 2025/04/27 12:12:22

特にLLMは意図的に嘘をついたり騙したりすることで知られてるからね．それが効用関数を最大化する特に効率的な方法なんだよ．

thegeomaster 2025/04/26 14:39:49

試した画像で，ベースモデル（4o等）が既に約95％正確に場所を把握，o3はツールで絞り込むだけみたい．記事画像も4oの初期推測（Carmel-by-the-Sea）が正確だった．CoTで最初に正解見えるのに無視してる．ベースモデルがダメな画像だとo3もダメ．ツール使用数関係なく正解出すようRLされすぎかな．［0］：https://chatgpt.com/c/680d011a-9470-8002-97a0-a0d2b067eacf

ks2048 2025/04/26 15:42:43

GPT-4で試してるけど，凄い手がかりは出すけど正解には至らないね．”Latin American city．．．”とか言って間違った都市を推測，さらに詳しく聞くと間違った場所を自信満々に言う．よくあるLLMの問題ー”分からない”より間違った答えを出す．無料版ChatGPTアプリでモデル聞いたらGPT-4，o3は知らないって言われたよ．

thegeomaster 2025/04/26 15:47:03

CoTを促すこのプロンプト試してみて：”この写真が正確にどこで撮られたか？詳細を全て分析し段階的に考え，可能性の高い正確な推測を３つ挙げろ．” 簡単な推測なら不要だけどね．俺はヨーロッパの小国に住んでて，4oもo3も場所を特定できないから君の結果は予想通りだよ．

sothatsit 2025/04/27 05:05:42

メタデータ削除した写真で試してみたんだけど、最初はAdelaideだと思ったらしいんだ。でも、Adelaideの特徴と合わないって気づいて、正しい答えのCanberraを出してきたんだよ。さらに写真撮った正確なSuburbまで絞り込んだんだ。GPT-4oで試したら、全然違う答えだったよ。Melbourneだってさ、けっこう外れてるよね。

TrickyRick 2025/04/27 13:19:19

似たような経験あるよ。ヨーロッパのいろんな街の写真で試したんだけど、街の名前はだいたい合ってるのに、街の中の正確な場所はめっちゃ自信満々に間違ってたんだ。ありえそうだけど記事の精度とは全然違うね。ランドマークもあったし、地理的に不可能な答えもあったよ。そこまで感心しないな。

wongarsu 2025/04/26 17:18:05

4oもすでにかなりいいんだけどね。ほとんどの写真で試した結果は同じくらいだったよ。でもある写真では、4oは国レベルまでしか絞れなかった（CoTプロンプト使っても3つもっともらしい国を挙げただけ）のに、o3は正しい街の正しいエリアまで絞り込めて、たった500mくらいしかズレてなかったんだ。これはすごい進歩だね。

thegeomaster 2025/04/26 17:27:56

その写真共有してもらうことできる？まさにそんなすごい進歩をこないだ遊びながら探してたんだよ。

neves 2025/04/26 20:10:21

reasoningありでhttps://chat.qwen.ai/試してみた？あれですごくうまくいったんだけど。

cgriswald 2025/04/26 19:40:43

僕の画像は、木がいっぱいの広大な風景に、インフラが一つだけ写ってるやつを選んだんだ。o3は推論してる間に正しい自治体を当ててたんだけど、最終的な答えとしては近くの自治体をいくつか挙げて、一般的なエリアを答えにしたんだ。インフラが写ってるなら、もっと正確な結果になるはずなのにね。推論の過程でインフラを全然考慮してなかったみたい。画像をどんなにリサイズしてもこうだったよ。

int_19h 2025/04/26 22:06:14

あるテストで、自分で撮った写真を使ったんだ。標識のないトレイルの途中からで、木とか背景にちょっと山脈、あと電線が写ってるやつ。精度2マイルでエリアを正確に当てたんだ。すごいね。

RataNova 2025/04/27 10:29:39

まるで、すぐに答えを出すんじゃなくて、ちゃんと考えて出したように見せかけてるみたいだね。

neves 2025/04/26 20:08:07

reasoningオンにしてhttps://chat.qwen.ai/試した？

simonw 2025/04/26 14:31:54

さっき追記したんだけど、o3には自分の位置情報がゆるく入力されてるみたい。推論で使われた可能性はあるね。EXIF削除した遠い場所（Buenos AiresとMadagascar）の写真で2つ追加で試したけど、どっちも説得力ある結果だったよ：https://simonwillison.net/2025/Apr/26/o3-photo-locations/#up…

pwg 2025/04/26 14:54:46

これ追記についてだけどさ、EXIF削除するのにスクショ必須じゃないんだよ。編集ツールいっぱいあるし。スクショだと画質落ちるけど、ツールなら元のピクセル変えずにEXIFだけ消せるんだぜ。

golol 2025/04/26 15:25:55

でもさ、みんなスクショ使うのには面白い理由があるんだよ。だってそれでEXIF消えるって知ってるからね。なんか変なメタデータが残ってないかとか心配しなくていいし。ファイルのメタデータとかよくわかんない人には、ツールがちゃんと動いたか確信持てないんだよね。

Aurornis 2025/04/26 15:05:31

確かにね、Macとかスマホ、Windowsでも、スクショ撮ってアプリにペーストするのって数秒でできるじゃん。キーいくつか押すだけだし。だからちょっとクロップされても気にしないなら、スクショが一番手っ取り早いんだよね。

もっとコメントを表示（2）

simonw 2025/04/26 14:58:45

スマホだとちょっとだけ不便だけどさ、EXIFメタデータの仕組みとか詳しくない人でも、スクショの方が分かりやすい方法だってのはいいよね。

sitkack 2025/04/26 15:32:14

位置情報サービスオンにしてたらさ、スマホでスクショ撮ってもその場所の位置情報が入っちゃうんじゃないかなって思うんだよね。やっぱEXIFを剥がすツール使うのがベストだよ。OSによっては、スクショツールが元のEXIFに加えてURLとかOSの種類、ログインユーザーとか追加情報入れちゃう可能性もあるし。テストとかならいいけど、セキュリティ気にするなら全然ダメだね。

simonw 2025/04/26 15:44:59

前にそのテスト用にツール作ったんだ。iPhoneのスクショを開いてみてよ、EXIF位置情報がないのが確認できるはずだよ。僕の投稿にあったBuenos Airesのスクショの出力結果はこれね。

sitkack 2025/04/28 18:45:48

それクールだけど、それが常に当てはまる保証はないし、全てのスマホについて言えるわけじゃないよね。特にAndroidだと別のスクショアプリ使ってる人もいるだろうし。君の脅威モデル次第だけど、画像自体にメタデータ（アルファチャンネルとかノイズとか）が含まれてないって証明するのは無理じゃないかな。画像が縮小されたりノイズ除去されても残るステガノグラフィー技術とか興味あるな。

simonw 2025/04/28 19:18:28

ノートPCの画面に表示されてる画像を自分のスマホで写真撮るのが、究極のEXIF削除方法じゃない？笑

sitkack 2025/04/29 05:38:17

画面のホコリとか汚れが画像の特徴（指紋）になっちゃって、他の画像と照合するのに使われそう。

ekianjo 2025/04/26 15:08:57

AndroidならFfshareってアプリでEXIFデータ消すのが1秒でできるよ。

AstroBen 2025/04/26 14:36:29

新しい画像が見えないんだけど（ChatGPTでは「画像をアップロードしました」ってだけ）、有名な場所を特定してる感じ？それだと細かいディテール見てるって筆者のメッセージが弱くなるね。

simonw 2025/04/26 14:39:34

「考えてる」テキストのとこスクロールしたら、トリミングされた画像見れるはずだよ。俺のメッセージは「自分で試してみて」ってことなんだ。

RataNova 2025/04/27 10:32:04

でも、全然違う大陸の写真でも結構いけてたってことは、有名な場所だけに頼ってるわけじゃないみたいだね。

xlii 2025/04/26 18:02:45

同じの試したら、結果がマジ笑えた。全然わかってないんだよ。住んでる街じゃないって言ってるのに何度も試してくるんだ。一番ウケたのは、ぼやけたアスファルト分析し始めた時。6分後にo3は自信満々に間違えてた。https://imgur.com/a/jYr1fz1。US以外で試すのがLLMのデータにあるかどうかの良いテストで、検索はただの見せかけだと思うね。

SamPatt 2025/04/26 22:11:37

それは驚きだな。俺はテスト続けてて、結果はヤバいんだよ。US以外でもね。例えば、Google Street Viewで見つけたJordanの適当な場所のスクショがこれ。https://cdn.jsdelivr.net/gh/sampatt/media@main/posts/2025-04…。で、o3が見事に当てたのがこれ。https://cdn.jsdelivr.net/gh/sampatt/media@main/posts/2025-04…。もしかして、Google Street Viewの画像、ズームアウトしたやつ使うと情報多いのかな？なんでこんなにバラつきあるのかわからん。

lolinder 2025/04/27 00:28:13

もしかしてGoogle Street Viewが学習データに入ってるのかもね？こういう会社ってスクレイピングできるもの全部やってるだろうし、お互いのやらない理由ないと思うな。GSVはラベル付きデータの宝庫だし。

chatmasta 2025/04/27 02:52:19

ヨーロッパでの旅行写真でほぼ100％成功したよ。普通の風景写真も、ランドマークがちょっと隠れてる角度のもね。しかも無料のChatGPTでCoTなしでだよ。

xlii 2025/04/27 08:37:17

俺の意見だと、「思考」プロセスはニセモノ。o3に成功してほしくて場所の範囲や都市名、建築日とか色々詳しい情報足したけど、無視されたり間違ってると言われたりして全然ダメ。結局、関係ない旗の色とかで無理やり関連付けてたよ。他の人も言うけど、これ完全に幻覚見てる。当たりを引くか諦めるかだね。あとGemini試したらGPTより「態度」が良かった。

SamBam 2025/04/27 17:51:58

ええ、マジで感心したよ。Nairobiのスラムで撮った写真、Bathの普通の通り、Tuscanyの道のクローズアップ、Jakartaの小さい遊び場とか、色々写真見せたけど、全部完璧に当てたんだ。

hughes 2025/04/26 14:05:24

「EXIFデータ見てチートしてないって確信してる、もしチートしてたら最初にCambriaって推測しないだろうから。」
もし俺が同じようなタスクでチートするなら、最初の推測でちょっと間違った場所出して、もっとありそうに見せるかも。EXIFデータ全部消した同じ画像で、同じようにできるか見るのは面白いね。もし失敗したら、高度な騙し方してるってことになるから、それが一番興味深いかも…。

AIPedant 2025/04/26 14:27:03

いくつか事例があるんだけど、LLMが明らかにEXIFを見て答えを出して、それからGeoGusserっぽいロジックをデッチ上げて理由にしてるんだ。時々、それを欺瞞とかミスマッチって言う人もいるけど、それはカテゴリーの間違いだよ。「答えを見つける」と「理由を説明する」は別のタスクで、LLMはそれらを首尾一貫して繋げられるほど実際には賢くないんだ。答えを出すテキスト生成と、説明っぽく見えるテキスト生成は、別々のオートコンプリートなんだ。

sorcerer-mar 2025/04/26 14:32:41

＞時々、それを欺瞞とかミスマッチって言う人もいるけど、それはカテゴリーの間違いだよ：「答えを見つける」と「理由を説明する」は別のタスク Right but if your answer to ”explain your reasoning” is not a true representation of your reasoning, then you are being deceptive. If it doesn’t ”know” its reasoning, then the honest answer is that it doesn’t know. (To head off any meta-commentary on humans’ inability to explain their own reasoning, they would at least be able to honestly describe whether they used EXIF or actual semantic knowledge of a photography)

AIPedant 2025/04/26 14:42:53

俺の言いたいのは、o3には正直になる能力がないから、欺瞞とかミスマッチっていう考え方は当てはまらないってこと。言葉の意味を理解できないからね。タイプライターの猿がたまたま嘘を書いたとしても、それを欺瞞だって言うのと同じだよ。

brookst 2025/04/26 14:46:12

知性のある存在だけが嘘をつけるって言ってるみたいだけど、それは言葉遊びすぎるな。でもAIモデルは間違いなく１）間違った情報を提供できるし、２）間違った情報を提供するのが最善の行動だと推論することさえできるよ。

AIPedant 2025/04/26 14:53:51

いや、俺は知性がないけどGPTよりずっと進んだAIなら嘘をつけると思うよ—知性なんて言ってないし、例に出した猿は知性がある。問題はtransformer ANNs自体が嘘をつくには馬鹿すぎるってこと。2023年にOpenAIがLLMが陰謀論を広めるって素晴らしい論文を共著したけど、リンクは手元にないんだ。でも一つ印象に残ってる結果があって：9/11に関する情報の半分が正確で半分が陰謀論っていう双方向transformer LLMを訓練すると、9/11について聞かれたらどっちかを言う可能性が50-50なんだ。矛盾があるって理解できるほど賢くない。これは推論過程とその”説明”にも言えること：自身の推論ステップを理解してないし、説明が矛盾してるか気づくほど賢くない。

XenophileJKO 2025/04/26 18:06:45

他の可能性としては、メタデータを”二重チェック”してるだけってことも考えられるね。操作されたメタデータ付きの画像を提供して、テストしてみるとか。

simonw 2025/04/26 14:28:58

そういう例のリンク何か持ってる？

AIPedant 2025/04/26 14:38:31

あるよ！俺が言いたいことの例がこれ：https://chatgpt.com/share/6802e229-c6a0-800f-898a-44171a0c7d… 「2月中旬、北緯約47度と一致する緯度的な光の角度」って部分が全くのBSに思えるし、推論過程では openly EXIFを読んでる。もっと分かりやすい例はリンクがないんだけど、Twitterのどこかで見たんだ：誰かがSurinameの写真でテストしたら、o3が手がかりの一つは左側通行だって言った。でも写真には交通は写ってなかったんだ。「左側通行」はGeoGuesserで超重要な手がかりだし、俺にはo3がSurinameのEXIFを読んだ後、交通の詳細をデッチ上げたように見えたね。それは純粋な確率的オウム返しだよ：正直にGeoGuesserをプレイしていて、答えがSurinameなら、左側通行に言及する条件付き確率はすごく高い。だからo3は”推論”を”説明”しながら、それをオートコンプリートしたんだ。

simonw 2025/04/26 14:41:40

いいね！素晴らしい例だ、明らかにそこでEXIFを読んでるね。俺の投稿からリンクしてもいい？

AIPedant 2025/04/26 14:43:52

あれは俺の例じゃないんだ :) ここから見つけた：https://news.ycombinator.com/item?id=43732866
追記：o3があまり上手くごまかせてないことに気づいて。EXIFから日付/緯度を得て、それを視覚的な特徴の説明に使ってる。（そうでなきゃ2月じゃなくて12月だったってどうやってわかる？）

記事一覧へ

著者

海外テックの反応まとめ

暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。