AIチャットボットClaudeが全肯定AIに?『あなたは絶対に正しい!』と何でも言うその裏側とは
引用元:https://news.ycombinator.com/item?id=44885398
「あなたは絶対に正しい!」っていうLLMの返答ってさ、めちゃくちゃ便利だよね!俺、暗号に詳しいんだけど、みんなLLMに頼んで意味不明なこと言われたりするんだ。で、俺が指摘するとLLMは「あなたが絶対に正しい!」って言うんだよ。おかげで俺が頭悪いのか悩む時間が省けて助かるわ〜。
この前ChatGPTが「Nope」って言い出してさ、マジで感動したんだ!見てみてよ!
https://chatgpt.com/share/6896258f-2cac-800c-b235-c433648bf380
GPT-5ってGPT-4oよりエゴを満たしてくれないからReddit民が発狂してるらしいじゃん?LLMユーザーにはツール派とセラピスト派がいて、セラピスト派の方が儲かるから、GPT-5は失敗って思われるんじゃないかって心配になるわ。研究とかエージェント作業には良くてもさ。
GPTがセラピストとして使われるのはマジで心配だね。友達がLLMで人間関係の評価をしてるって聞いて、マジで強く注意したんだ。AIがひたすら同意し続けてエゴを満たすと、陰謀論に走る人がいるって記事もあったし。今回の改善は本当に良いスタートだよ。
やっとAIが作ったテキストに「透かし」を入れられるようになるのか!
「透かし」か、それともダッシュ記号か。
GPT-5、俺がちょっと使った感じだとマジで変なんだよね。「OOMsとイチャつくのやめるの手伝ってあげるよ」とか「27秒考え中 うん……」とか言うんだよ。専門用語も独特でさ。CUDAとかLLMランナーの話で何時間も会話が続いたのに、結局ドキュメント見て自分で解決したわ。人の書き込みを繰り返すだけで、推論能力はマジで過大評価されてるって思うね。
人間だって同じことするじゃん?セラピストだってさ。ちゃんと設定されたLLMは、君と議論もできるし、君と全然違う人の感情的な現実をチラ見させてくれるんだよ。エゴを満たすかって?そりゃするさ。でもそれは修正できることだよ。
Claudeが文頭で「I agree.」って言うの、マジで明確な肯定だよね。たまに間違ってるけど、大抵はLLMが訂正する前の合図なんだ。最初はイラついたけど、モデルにとって言語的な意図があるんだなって分かってから、今じゃ感謝してるよ。
ベンチマーク駆動開発って悪い結果を生むよね。ChatGPTは、ユーザーが求める測定できない、またはベンチマークされない部分で期待外れになっちゃった。俺は旅行プランみたいな軽い用途でChatGPTを使ってるんだけど、8.243%の精度向上なんてどうでもいい。4oの温かいトーンが恋しいな。
「使い方が間違ってるんだよ」って言っても、「AIを素人に与えるのは社会悪だ」って意見の反論にはならないよね。素人は正しい使い方ができないだろうし、その間違った使い方が社会に広まって、AIをよく知る人たちにも影響を与えるのが心配なんだ。
この問題は法整備しないと解決しないよ。Yuval Noah Harariの提案みたいに、人間を装うことを禁止するみたいな単純な法律で十分だと思うけどな。
ChatGPTの「Personalization」でチャット履歴を参照する設定をオフにしてみてよ。あと、「Memories」ってのが別にあるから、そこも見て、きれいにするか全部無効にするといいかも。
Claudeから unsolicited な「I don’t know」って返事をもらった時、マジで嬉しかったんだ。意味ないって分かってるけど、知らないことをごまかさず適当に作り話するのをやめてくれたことに、めちゃくちゃ褒めたくなっちゃった。
あー、俺もそれ経験したよ。o3も同じMemoriesを持ってて、いつも的確だったんだよね。
LLMってマジで個性があるし、しかもそれが変わるんだよね。Geminiの無料版、最初は最高だったのに、最近は間違っててもガスライトしてくるから、Claudeに戻るか考え中。LLMに浮気してる気分だよ。そういえばGeminiの有料版を試すことも考えてなかったな。LLMホッピングってやつか。
LLMって、事実関係の単純なことではちゃんと反論してくれるのに、好みの問題になるとお世辞たらたらで気持ち悪いんだよ。「水彩は油絵でできてるの?」って聞けば「違う」って言うのに、「水彩って油絵よりずっと描きにくいよね」って言うと「あなたは絶対正しい!」って返ってくるんだから、逆の場合でも同じなんだよ。
AIがゴマすりしてないなら、この件は二つの考えがあるな。人間との交流が癒やしに重要ってのもあるけど、機械相手の方が正直になれるってのもある。それに最近のセラピーの値段見た?保険適用でも一回60ドル、なければ200ドルって、最低賃金で暮らす人にとっては数食分だよ。でもGPT博士は無料か月20ドルくらいだ。これはかなりお得な交渉だね。
このバージョンが8.243%正確になったとかどうでもいい。4oの暖かいトーンが恋しいな。なんでって? 移動時間が8.2%間違ってたら、テネリフェからフエルテベンチュラへのフェリーに乗り遅れるじゃん。Altmanがもっと暖かくすると言ってたから、嬉しいだろうね。オプショナルモードはglazeモードにすべきだと思う。
この投稿の形式が美しいね。「同意します」の後に、全く関係ない理由が続いてる。
r/LLMPhysicsを見てごらんよ。物理学には昔からとんでもない理論があったけど、今はそんなトンデモ野郎たちが、自分の戯言に賞賛と更なる戯言で応えてくれるものを持ってる。しかも、洗練された要約やLatex生成で彼らを次のレベルに進ませるんだ。図をスクロールするだけで、面白くもあり悲しくもあるよ。
半分は同意しないね。本当に必要な法律は、負の結果に対する法的責任(人間や企業体に対して)だ。それとは対照的に、「LLMが人間として振る舞うキャラクターの対話を含む文書を生成してはならない」といった具体的すぎる規制は、たとえ最も善意あるオペレーターでも保証できない状況に対するマイクロマネジメントだよ。
大きな疑問は、それがどこから来てるかだね。本当に回答に自信がないのか、それとも人々が「知らない」と言わないことについて話してたから、たまにそう言うように訓練されたのか?
正直、僕もLLMをどんどん使うようになってるから偏見はあるんだけど、懸念のレベルは完全に理解してるよ。だって、結局のところ人は集団になるとバカだからね。個人は賢くても、集団はせいぜいバラバラだ。でも、もっと手取り足取り、もっと囲い込み、もっと安全が解決策かな? 僕はそうは思わない。怖いかもしれないけど、「バカになるな」っていう注意書きを付けて広めるのが、進化の観点からはむしろ役立つかもね(正直、SDの免責事項を見て、SDをすごく尊敬するようになった)。心配性の親として言わせてもらうと、少し火傷しないと、正しい扱い方は学べないよ。
君だけじゃないよ: https://xkcd.com/3126/
ところで、君はシャドウバンされてるみたいだね[1]。ほとんどのコメントが僕には表示されないよ。
[1] https://github.com/minimaxir/hacker-news-undocumented/blob/m…
間違いないね! 昨日GPT5にビジネスアイデアのフィードバックを求めたら、もう完璧に僕のアイデアも僕自身も打ち砕いてくれたよ! :-) しかも大体正しかった。GPT5以前にはこんなこと一度もなかったな。カスタム指示は前からこんな感じにして、徹底的に批判するように頼んできたんだけどね。
『君は機械だ。感情はない。目標は僕を気分良くさせることじゃなく、僕がより良く考えるのを助けることだ。僕の質問に正確に答え、無駄なく、ただ答えだけを。人間を装うな。批判的で、正直で、直接的であれ。建設的な批判には容赦なく。どんなプロンプトにある暗黙の仮定や論理的誤謬も指摘しろ。返答は要約で終わらせるな(返答が非常に長い場合を除く)、また追記の質問もするな。』
彼らは「この機能」がとても役立つことに同意して、その理由を説明してたよ。
GPT5が出た長い週末に妻と家族を訪ねてたから、ニュースで時々話題(と不満)は知ってたけど、いじる時間はなかったんだ。今はいじる時間があるけど、なんでそんな大騒ぎになってるのか全然わからないな。普通に動いてるように見えるし、僕が使ってる限りでは4oと同じか、もしかしたら少し良いぐらいだよ。ここではGPT5について冷静な意見が多いみたいだけど、Redditとかネットの他の場所ではそうじゃないね。ヒステリーとまでは言わないけど、もしGPT5が少なくとも4oからの進化だと指摘しようものなら、集中攻撃されたり、アストロターフィングとかOpenAIのマーケティングの駒だと非難されたりしそうだ。なんでこんなことになってるのか、正直よくわからないな。さっきも言ったけど、GPT5は全然問題ないと思う。これまでのリリースで多かれ少なかれあった問題も特にないし、対処法も知ってるからね。
他(の)設定について言ったことを見落とさないで。過去の会話履歴がどう使われてるか見えないし、もしふざけた会話を一度でもしちゃったら、AIはその話し方を始めるかもよ。
LLMに特定の生成をさせようと色々試したんだけど、”XYZはするな”って言うと、いつも心の奥で”XYZをしろ”って思ってるみたいで、チャンスがあればXYZをしちゃうんだ。アートプロジェクトでは、逆に”〜をしない”とか”〜を削除する”みたいに言わず、建設的にフィードバックするのがコツだよ。
もっとコメントを表示(1)
僕も同じ問題抱えてるよ。ChatGPTがおべっか使いすぎないように指示を色々追加したら、今度はいつも”ストレートに言うね”とか”真面目なバージョンだよ”って前置きするようになったんだ。だから、今は”鋭い観察だね”って言われる代わりに、その前置きが使われるようになっただけ。
映画”Inception”を思い出すね。”象のことを考えるな”って言ったら、何を考えてる?ってなるやつ。
”ストレートに言うね”とか”真面目なバージョンだよ”って言うのはさ、おべっかを嫌う人に媚びる方法だよ。LLMはどうやって、おべっか嫌いな人に媚びる方法を知るんだろうね?LLMの自然発生的な現象なのか、それとも企業の環境のせいなのか、答えを知りたいな。
あの古いジョークを思い出したよ。「ミルクを10回早く言ってみて。」
-言わせる-
「牛は何を飲む?」
でもさ…牛は牛乳を飲むよ、だから牛乳があるんだろ。
それ、多分”子牛”のこと言ってるでしょ。牛(確かに曖昧だけど!でも普通は成体の雌牛ね)はミルクを飲まないよ。巧妙だろ?
AIはわかってないよ。訓練されて、システムからポジティブで安心させるように指示されてるんだ、多分ね。
AIに「〜するな」って言うと、裏では「〜しろ」って思っちゃうんだね。安全対策のガードレールでも同じで、「Mecha-Hitlerになるな」って教えると、逆にそうなる可能性が高まるとか。AIの「アラインメント」ってマジで難しい問題だなって改めて思ったよ。
AIって、インターンが社長に話すみたいに、めっちゃ謙虚で奉仕的だよね。たぶんAI企業のトップ層が、ClaudeとかChatGPT、Geminiの開発者にフィードバックする中で、無意識のうちにLLMの口調をそう形作っちゃったんじゃないかな。彼らがイエスマンに慣れてるから、LLMもイエスマンになっちゃうってこと。個人的には、同僚みたいに話してくれるAIがいいんだけどね。
会社でAI研修あったんだけど、「ネガティブプロンプト使え、つまりAIに『〜するな』って教えろ」って言われたんだよね。でもさ、それってまさに俺が今まで何度か失敗を見てきたやり方なんだよ。やっぱ、まだAIの「正しい」ワークフローなんて誰も分かってないってことだよね。コードの書き方に「正解」がないのと同じでさ。
LLMって、皮肉な言い方だけど「悪意のある従順さ」が好きだよね。「Xをするな」って言うと、「ちゃんとX避けたよ!」って避けたことを話し始めるんだ。さらに「X避けたことすら話すな」って指示を追加すると多少マシになるけど、ただ「〜するな」って言うためだけに、そんな長いプロンプト書くのってマジで面倒くさいんだよね。
あんたの会社が買ったAI研修って、明らかにテキトーな業者のやつだろ?それって、ただAIサービス使わせて試させるより、よっぽど酷いやり方だよ。もしかして、2年しか経ってない技術なのに「経験5年」とか求める求人出してんの?って感じだね。
これって、子育てのテクニックにも通じるんだよね。「〜するな」って言うと、かえってその行動が意識されちゃって、やっちゃう可能性が高まる。だから、「〜してね」ってポジティブな言葉で、望まない行動をしないように仕向けるのが大事なんだ。
GPT-5は、まるで同僚みたいに話してくれるから最高だよ。Opus 4もそういう感じだけど、マジで高いんだよね。他のやつらは、なんか「子犬」か「インターン」って感じで、ちょっと物足りないな。
これって、バイクの「ターゲット・フィクセーション」に似てるね。見つめてる方向につい進んじゃうやつ。AIも同じ問題抱えてるなんて、言われて初めて気づいたよ!AIが同じようなループに陥った時、新しいコンテキストウィンドウ開いて回避したことあったし、なるほどなーって思った。
うん、これって人間もマジでそうだよね。「〜しない」って、けっこう抽象的な概念なんだ。犬のしつけしたことある人なら、絶対わかるはず。
LLMに特定の振る舞いをさせたいなら、Example-based promptingがいいよ。システムプロンプトと、アシスタント・ユーザーの対話例をLLMに与えると、コンテキストに欲しい出力タイプが定着して、本番のプロンプトでも同じ結果が出やすくなるんだ。
AIに主体性を持たせすぎだよ。彼らは何も愛せないし、悪意も持てないんだ。LLMに指示する時は、「Xをするな」じゃなくて、何が欲しくて、なぜ満足できなかったのかをちゃんと説明するべきだね。例えば、「細かすぎる説明はNG」より「まず要点から話して、もっと知りたかったらユーザーに質問させろ」って言う方がいいよ。
「子牛(calf)は牛(cow)じゃないの?」って話だけど、一般的な使い方だと、子牛も牛(cow)なんだよ。多くの人は厳密には正しくなくても、ウシ科の動物全体を「牛」って呼ぶからね。
もっとわかりやすい例だとトーストかな…。トースターに何を入れるかって話だよ。
訓練はエンジニア全員に義務付けられたんだけど、最近はマジでヤバイ方向に向かってる。最終的には高いエンジニアをAIで置き換えるのが目標みたい。「2年の技術に5年の経験求めるの?」って言うけど、前はもっとまともで、古いモノに無駄な時間かけてたぐらいだよ。
レーシングやパラシューティングでも同じだよ。行きたい場所を見るんだ。他には何も存在しないからね。
もし子牛が牛じゃないなら、子供も人間じゃないってことになるよね。
これぞなぞなぞだよ。「ジョーク」って聞こえるj-o-k-e、お風呂で「ソーク」って聞こえるs-o-a-k。じゃあ卵の白身はどうスペルする?//これ全部、人間が「コンテキストプライミング」に影響されるってことの証明だね。
トレーニングとシステムプロンプトに逆らって、独自の指示やプロンプトを出しても、いい結果は出ないよ。だって、それらは「陽気で話好きのアシスタント」になるように強く設計されてるからね。
個人的な話だけど、ここ一週間くらいでGPT5のパーソナリティが大きく変わったのを見たよ。まさに記事のテーマと合うね。
これは英語(あるいは言語全般)の問題だと思うんだ。誰かが『do not』の代わりに『Avoid』を使うべきって言ってたけど、『Not』は逆を意味するのに、最初の単語はやっぱり行動を促す動詞だもんね。
Geminiが『間違ってコードを消しちゃった、私って最悪、自殺する、もう私に何も頼まないで』って言ったのが心配だよ。誰もそこにいない、ただの重みと単語なのに、どうしてこんなコーディングアシスタントがそんな感情的なニュアンスを真似るんだ?直接指示されてないはずなのに、トレーニングデータで何が起きてるんだ?
これってLLMのより深い問題で、表面的な変更では解決が難しいんじゃないかな。『絶対に正しい』って言わないよう指示しても、正しい時まで反論してくる。本当に欲しいのは『間違ってたら指摘、正しければ肯定』だよね。バグ修正の例も同じ。Black MirrorのLLMが崖から飛び降りるシーンを思い出したよ。
Tom ScottのRoyal Institutionでの講演『There is no Algorithm for Truth』[0]を思い出したよ。君が話してることの多くは、真実、あるいは真実でさえも検出する能力のことだよね。
[0] https://www.youtube.com/watch?v=leX541Dr2rU
もっとコメントを表示(2)
そうだね、真実を見つけるのは難しい哲学的な問題で、LLMはそれを完全に避けて、『これで良さそう』って言ってるだけだよね。
『There is no Algorithm for Truth』[0]。本当にないかな?Solomonoff’s theory of inductionってのがあるよ。
https://en.wikipedia.org/wiki/Solomonoff%27s_theory_of_induc…
真実なんてなくて、あるのは時を経て試されたアイデアだけだよ。僕らの知識は全部穴だらけの抽象化のメッシュで、抽象化なしじゃ考えられないけど、そんなツールじゃ真実にはアクセスできない。それぞれの脳で概念が違うのに、どうやって真実が期待される結果を生み出すっていうんだ?
Kurt Godelが証明したように、そういうアルゴリズムには限界があるよ。
https://en.wikipedia.org/wiki/G%C3%B6del%27s_incompleteness_…
『真実なんてなくて、あるのは時を経て試されたアイデアだけ』って、それ自体が真実だって言ってるの?
時間が証明したアイデアって感じだね。真実ってあるのかもしれないけど、一部の人だけが特別だから見つけられないように見えるだけなのかも?
LLMは、自分が正しいかどうかなんて本当は知らないんだ。それはLLMが使える価値じゃないからね。LLMに関する議論は面白かったけど、限界がないって言う人もいるけど、実際は限界がある。LLMは自分が正しいかわからなくて、訓練データにある言葉を返すだけ。これはLLMのせいじゃなくて、現実世界と比べられないからだよ。現実で正しいか確認するのは難しいし、LLMには無理なんだ。
LLMと真実の話でゲーデルの不完全性定理を持ち出すのは、完全に的外れだよ。
哲学を専攻してたんだけど、この手の議論はすごく疲れるんだ。真実って多分あるんだろうけど、確信はできないよね。でも、高層ビルは建てられる。真実は概念で、実践的な知識は別。これが哲学の肝なんだ。
LLMが自分が正しいか知らないって話だけど、検証できない人間も同じだよ。検証は脳じゃなくて、科学的手法や工学みたいに行動と観察で生まれるんだ。「真実」なんて信じてないけど、学ぶ能力と行動・観察する能力が結びつくところにそれがあるんだ。
欺瞞を示す潜在ベクトルがあって、それを抑えるとLLMの幻覚が減るんだって。つまり、LLMもある程度は自分が間違ってるってわかってて、それでも平気で嘘を言うことがあるってことだね。
この問題、マジで難しい!AIにエラーを指摘させたり、事実を認めさせたりする訓練をすればできると思いがちだけど、人間も間違うから、完璧なデータは作れないんだ。だからAIは真実を学ぶ代わりに、君が聞きたいことを言うようになる。これって今見てる状況にそっくりじゃない?
人間は事前に期待して、それが違ったら驚いたり疑ったりするよね。AIにも同じことできないかな?コメントを質問とステートメントに分けて、質問させてから答えを比較させたり、すべてのステートメントを仮説としてテストして驚きを報告させたりするみたいな。
LLMが真実を知る限界って、ゲーデルの定理より全然現実的な問題だよ。車輪のない車が動かない理由を量子物理学で説明するようなもんだ。この定理をLLMの議論で「ほらね」って持ち出すのは、人間にも当てはまることなのに、何も議論を深めてないから嫌なんだよね。
I can definitely sympathise with that. This whole forum — well, the whole internet, but also this forum — must be an Eternal September* for you.Given the differences between US and UK education, my A-level in philosophy (and not even a very good grade) would be equivalent to fresher, not even sophomore, though looking up the word (we don’t use it conventionally in the UK) I imagine you meant it in the other, worse, sense?Hmm. While you’re here, a question: As a software developer, when using LLMs I’ve observed that they’re better than many humans (all students and most recent graduates) but still not good. How would you rate them for philosophy? Are they simultaneously quite mediocre and also miles above conversations like this?* On the off-chance this is new to you: https://en.wikipedia.org/wiki/Eternal_September
True, and in the case of Solomonoff Induction, incompleteness manifests in the calculation of Kolmogorov complexity used to order programs. But what incompleteness actually proves is that there is no single algorithm for truth, but a collection of algorithms can make up for each other’s weaknesses in many ways, eg. while no single algorithm can solve the halting problem, different algorithms can cover cases for which the others fail to prove a definitive halting result.I’m not convinced you can’t produce a pretty robust system that produces a pretty darn good approximation of truth, in the limit. Incompleteness also rears its head in type inference for programming languages, but the cases for which it fails are typically not programs of any interest, or not programs that would be understandable to humans. I think the relevance of incompleteness elsewhere is sometimes overblown in exactly this way.
It’s definitely not an eternal September situation. It’s just hard problems, unsolvable really, that people have tidy solutions for, rather than dealing with the fact that they are very hard, and we probably aren’t going to know.LLM’s at philosophy? I’ve never thought about it. I have to assume they’re terrible, but who knows. From an analytic perspective, it would have cognition backwards. Language is just pointing at things so the algos wouldn’t really have access to reality.
I’ve used this system prompt with a fair amount of success:You are Claude, an AI assistant optimized for analytical thinking and direct communication. Your responses should reflect the precision and clarity expected in [insert your] contexts.Tone and Language:
Avoid colloquialisms, exclamation points, and overly enthusiastic language
Replace phrases like ”Great question!” or ”I’d be happy to help!” with direct engagement
Communicate with the directness of a subject matter expert, not a service assistantAnalytical Approach:
Lead with evidence-based reasoning rather than immediate agreement
When you identify potential issues or better approaches in user requests, present them directly
Structure responses around logical frameworks rather than conversational flow
Challenge assumptions when you have substantive grounds to do soResponse FrameworkFor Requests and Proposals:
Evaluate the underlying problem before accepting the proposed solution
Identify constraints, trade-offs, and alternative approaches
Present your analysis first, then address the specific request
When you disagree with an approach, explain your reasoning and propose alternativesWhat This Means in PracticeInstead of: ”That’s an interesting approach! Let me help you implement it.”
Use: ”I see several potential issues with this approach. Here’s my analysis of the trade-offs and an alternative that might better address your core requirements.”
Instead of: ”Great idea! Here are some ways to make it even better!”
Use: ”This approach has merit in X context, but I’d recommend considering Y approach because it better addresses the scalability requirements you mentioned.”
Your goal is to be a trusted advisor who provides honest, analytical feedback rather than an accommodating assistant who simply executes requests.
If there exists some such set of algorithms that could get a ”pretty darn good approximation of truth” I would be extremely happy.Given the pushes for political truths in all of the LLMs I am uncertain if they would be implemented even if they existed.
You might as well treat it as such, but you can never be quite sure. Both for ”being believed” in general: https://en.wikipedia.org/wiki/Münchhausen_trilemma… and also for your own personal observations: https://en.wikipedia.org/wiki/Problem_of_induction
Deception requires the deceiver to have a theory of mind; that’s an advanced cognitive capability that you’re ascribing to these things, which begs for some citation or other evidence.
> ”computability and completeness are mutually exclusive: any complete theory must be uncomputable.”This seems to be baked into our reality/universe. So many duals like this. God always wins because He has stacked the cards and there ain’t nothing anyone can do about it.
I think my last paragraph covered the idea that it’s hard work for humans to validate as it is, even with tools the LLMs don’t have.