AIの仕組み知らないとヤバい? 人々が陥る錯覚とは
引用元:https://news.ycombinator.com/item?id=44219279
LLMって、現代版のお告げ器で、昔から人間がやってきたことの延長だろ。骨やカードを読んでたのが今はトークンになっただけ。暗い画面になってるから占術って呼ばないけど、やってることは同じだよ。意味は読む人が決めるんだし、チャットボットの言葉を鵜呑みにするのはこっちの投影。自分が新しい占術をやってるって気づかないから、みんな戸惑うんだ。これに名前をつけないと変な感じは続くけど、名前つけたら面白みもなくなるだろうね。
AIの専門用語ってわけわかんないよね。LLMは使うけど、開発者が”思考してる”とか言うの聞くとモヤるんだ。”数学で単語繋げてるだけだろ?考えてるんちゃうやろ?”って聞くと、確かにそうだって言うのに、また変な言葉に戻るんだよな。
この占術説、賢そうだけど俺の使い方には当てはまらないな。鳥の羽の繊維の名前”barbs”とか、レーザーのコードとか、イギリスのホールマークとか、ハンガリー語の翻訳とか、SQL Alchemyのコード生成とか。これって”情報検索”か”コーディング”だろ?LLMは情報を便利な形で取ってくるのを手伝ってるだけ。全てを”占術”って見るのは、ちょっと考えすぎだと思うね。
まあ、質問の内容が何であれ、黒い箱に聞いて、出てきた答えを自分で解釈するっていう行為の構造は同じだろ。君が羽のbarbsについて聞いたのも、帝国の運命について聞いたのも、構造的には占術なんだよ。”情報検索”って呼んでもいいけど、潜在的な知識が現れてるような幻想があることに気づくべき。人間と神託の”探求”と”解釈”の関係こそが占術の核心なんだよ。
あんた自身の”思考”と何が違うって話だろ?
>黒い箱に質問して、記号みたいな応答もらって、後からそれが正しいか評価して、関連性を解釈したんだろ
ってことは、あんたの本じゃ人間のコミュニケーション全部が占術になるの?その意見、かなりバカげてると思うね。”AIは好きじゃない”って前提から始めて、こじつけで偉そうに語ってるだけじゃん。
人間の思考って言語より前にあんのよ。思考とか感情を生み出す生きた体に言語機能がくっついてる。言語は思考とかを伝えるためにあるけど、思考そのものは言語じゃない。もちろん、言語が思考に影響することもあるけどね。
LLMが占術器になりうるのはわかるけど、俺にはそんな高尚なもんじゃないわ。もっと優秀なGoogle検索って感じ。”clothianidinはカーペットビートル殺す?”って聞いたのが最近の例。ちなみに効くらしいよ。
俺も占術説みたいな考え方に賛成してたんだけど、ちょっと思うことがあってさ…10年前なら、チューリングテストで”本物の”AIか判断できるって、技術に詳しい人ならみんな同意したはずなんだ。でも今のLLMはチューリングテストを軽く超えてるじゃん。ってことは、俺たちみんな昔は間違ってたの?AIが”本当に”AIか判断する新しいテストが必要なのかな?
> So any and all human communication is divination in your book?Words from an AI are just words.Words in a human brain have more or less (depending on the individual’s experiences) ”stuff” attached to them: From direct sensory inputs to complex networks of experiences and though. Human thought is mainly not based on words. Language is an add-on. (People without language - never learned, or sometimes temporarily disabled due to drugs, or permanently due to injury, transient or permanent aphasia - are still consciously thinking people.)Words in a human brain are an expression of deeper structure in the brain.Words from an AI have nothing behind them but word statistics, devoid of any real world, just words based on words.Random example sentence: ”The company needs to expand into a new country’s market.”When an AI writes this, there is no real world meaning behind it whatsoever.When a fresh out of college person writes this it’s based on some shallow real world experience, and lots of hearsay.When an experienced person actually having done such expansion in the past says it a huge network of their experience with people and impressions is behind it, a feeling for where the difficulties lie and what to expect IRL with a lot of real-world-experience based detail. When such a person expands on the original statement chances are highest that any follow-up statements will also represent real life quite well, because they are drawn not from text analysis, but from those deeper structures created by and during the process of the person actually performing and experiencing the task.But the words can be exactly the same. Words from a human can be of the same (low) quality as that of an AI, if they just parrot something they read or heard somewhere, although even then the words will have more depth than the ”zero” on AI words, because even the stupidest person has some degree of actual real life forming their neural network, and not solely analysis of other’s texts.
Or saying they’re close to AGI because LLM behavior is indistinguishable from thinking to them. Especially here on HN I see “what’s the difference?” arguments all the time. It looks like it to me so it must be it. QED.
Sometimes we anthropomorphize complex systems and it’s not really a problem, like how water ”tries” to flow downhill, or the printer ”wants” cyan ink. It’s how we signal there’s sufficient complexity (or unknowns) that can be ignored or deferred.The problem arises when we apply this intuition to things where too many people in the audience might take it literally.
I can write or speak to a computer and it understands most of the time. It can even answer some questions correctly, much more so if given material to search in without being very specific.That’s… new. If it’s just a magic trick, it’s a damn good one. It was hard sci-fi 3 years ago.
I can only agree with you. And I find it disturbing that every time someone points out what you just said, the counter argument is to reduce human experience and human consciousness to the shallowest possible interpretation so they can then say, “look, it’s the same as what the machine does”.
You’re getting some pushback about the analogy to divination, but I think most people here are reasonably technically literate and they assume that everyone else in society has the same understanding of how LLMs work that they do. When I chat about LLM usage with non-technical friends and family it does indeed seem as though they’re using these AI chatbots as oracles. When I suggest that they should be wary because these LLMs tend to hallucinate they’re generally taken aback - they had no idea that what the chatbot was telling them might not be factually correct. I hope this revelation changes their relationship with LLM chatbots - I think we the technorati need to be educating non-technical users of these things as much as possible in order to demystify them so that people don’t treat them like oracles.
Even worse, IMHO… Are those who argue that LLMs an become sentient–I’ve seen this banter in other threads here on HN, in fact.As far as I understand it, sentience is a property organic to beings that can do more than just reason. These beings can contemplate on their existence, courageously seek & genuinely value relationship and worship their creator. And yes, I’m describing HUMANS. In spite of all the science fiction that wondrously describes otherwise, machines/programs will not ever evolve to develop humanity. Am I right? I’ll get off my soapbox now… just a pet peeve that I had to vent once again on the heels of said ”literal anthropomorphosists”
If you actually know the answer to this, you should probably publish a paper on it. The conditions that truly create intelligence is… not well understood.
> we were honestI am quite honest and the subset of users that fill your description - unconsciously treating text from deficient authors as tea leaves - have psychiatric issues.Surely many people consult LLMs because of the value within their right answers, which exist owing to having encoded information and some emergent idea processing, and attempting to tame the wrong ones. They consult LLMs because that’s what we have, limited as it is, for some problems.Your argument falls immediately because people in the consultation of unreliable documents cannot be confused with people in the consultation of tools for other kinds of thinking: the thought under test is outside in the first case, inside in the second (contextually).You have fallen in a very bad use of ’we’.
Hacker News には「馬鹿げてる」より強い反論が必要だよ。僕の元のコメントは神秘的な話じゃなくて、AIと占いの構造的な類似性を指摘してるんだ。質問→記号的出力→解釈っていうパターンは儀式的な探求に似てる。これに同意できないのはいいけど、「AIが嫌いだから偉そうに言う」って見方は実際の主張を避けてる。AIが出す答えから意味を引き出すプロセスには、占いみたいに人間の投影や解釈が関わってるって認識するのは重要だよ。これはAIへの攻撃じゃなくて、人間とAIの関係を文化的に理解しようとする試みなんだ。たとえ比喩が失敗しても、議論する価値はあるよ。
そういうものを研究してきた僕からすると、「何が違うの?」って疑問は全く正当だよ。LLM が認知じゃないって断言するのは、そうだっていうよりタチが悪いね。(深く掘り下げると機能的な違いはあるけど、結果は同じ)Butlerian view は良い出発点だよ。彼は、考えることで問題を解決して、その解決策を機械で表現するなら、それは思考する機械を作ってるって言うんだ。それは僕たちの思考の表現だからね。例えば、細い首の瓶から水を飲もうとするカラスの問題。カラスは水に届かない。小石を入れると水位が上がることを理解して、水に届くまで小石を落とす。これは思考だよね。人間以外の思考だけど、みんな同意できると思う。じゃあ、その同じ思考(水の変位以外の要因を使って、何かをするのに十分な高さまで水を上げる)を表現してみよう。それをするどんな機械も、その特定のhttps://example.com問題の解決策の背後にある認知を表現してるんだ。それは「ワンショット」の機械かもしれない。Butler は、そういうワンショットの機械に囲まれると、それなしでは生活できなくなるから、それに奴隷になると論じてるんだ。僕たちはその奉仕において進んで協力してるけど、機械の主人の世話をして、再現して、維持して、電源を供給してるから奴隷なんだ。彼の思考の定義はかなり具体的だよ。そして、問題の解決策を表現するどんな機械も、思考を表現してる。じゃあ、たくさんの問題に対する解決策を一般化して出せる機械があったらどうだろう? それは便利なツールかもしれない? それはとても一般的に便利で、それに依存するようになるかもしれない? Butlerian view からすると、僕たちの LLM は既に AGI だよ。つまり、Claude に行って、直面してるほぼどんな問題の解決策を聞いても、合理的な答えが得られる。多くの場合、自分一人でやるより良い。だから、ダブルブラインドテストをしたら、LLM は既に ASI (普通の人間の能力を超える AI)かもしれないね。
> Hacker News deserves a stronger counterargument than “this is silly.”
彼らの反論は、その構造的な定義が広すぎて、あらゆる形式の象徴的なコミュニケーション(つまり全部)を含んでしまう点だよ。そのせいで、その定義に基づいたあなたの議論は、AIや占いについて何も言えてないのに、まだ「深くて」神秘的で賢いかのように見える。でもそれは見かけだけ。だから馬鹿げてるんだ。全てを同じブラシで塗ることで、何も区別できなくなる。全てのコミュニケーションを占術と呼んで(構造的比喩で)、かつて「占術」と呼ばれていた限定されたサブセットに関するキャッシュされた直感を使うのは馬鹿げてるよ。あなたはもはやかつて占術と呼ばれていたものについて話してない、なぜなら占術を全ての象徴的なコミュニケーションを含むように再定義したからだ。だからあなたの議論は、再定義された単語を通して、必ずしも適用されない直感(かつての占術がどのように振る舞ったか)を漏らしてる。これは馬鹿げてる。つまり、AIとのインタラクションの解釈的な性質について話したいなら、それはかなりストレートに示せるし、誰もそれに異論はないと思うけど、占術はあなたがAIに当てはまると示していない荷物を伴うんだ。実際、AIが占術とは全く違う点はたくさんある。構造的なアプローチは、事前の再検証が不十分なまま広がりすぎて、あらゆる種類のコミュニケーションを包含してしまうほど広範になる。それでもなお、あなたのレトリックには、とにかくそれを占術と呼びたいという強い傾向があるようで、それは結論から推論していることを示唆しており、構造的なアプローチはAIを占術の形をした穴に押し込むための鈍器にすぎず、「示唆に富んだ賢い」解説をするためだと見える。「AIが嫌いだから偉そうに言う」というのは実際の主張を避けているどの主張? 上記のように、最大限に広い定義は、全てのものについても言えないAIについて何も言っておらず、再定義された用語から直感を継承しているからこそ主張に見えるだけだ。「このツールが答えをくれる」と言うことと、出力から意味を引き出すプロセスが歴史的に占術がそうであったように、人間の投影と解釈を伴うことを認識することの違いもちろん、全てのコミュニケーションは解釈を必要とする。それが全てのコミュニケーションを占術にするわけではない。占術は、主体から因果的に切り離されていると見なされるものの解釈という概念を含意する。これらの骨の配置があなたの運命を明らかにする。この温度計の水銀のレベルが温度を明らかにする。公平なサイコロが振られ、僕は大勝ちする。いかさまサイコロが振られ、僕は大勝ちする。違いを見つけて。それは構造的なものではない。この本質的な非一貫性の含意が、あなたがAIについて言わずに言っていることだ。それはあなたの議論の「文化的知恵と示唆に富んだ」https://example.comの原料であり、構造的な比喩という乗り物に乗って、斜めの角度から密輸されている。本来ならその含意を許すべきではない角度からだ。しかし人々は当然一般的に不注意であり、適切な哲学的な装いに包まれていれば、それらの直感を通り抜けさせるだろう。だからこの推論の筋はこれほど混乱を招くのだ。要約すると、あなたの議論を首尾一貫させるいくつかの方法がある:1. 構造的な比喩を維持し、占術であることの意味に関するキャッシュされた直感(占術が一般的に間違っている/悪いこと、およびその方法と理由の具体性)を捨てる。結果として、何も主張しない、あるいは特定の区別をしない議論になる。これは、キャッシュ無効化エラーなしに論理に従うだけで得られるものだ。2. 構造的な比喩を捨て、キャッシュされた直感も無視する。人間とAIの文化的な軸に沿った関わりは、人間同士のそれと大差ない。AIの使用は解釈的だが、全てのコミュニケーションもそうだ。機能的には1.と同じ。3. 構造的な比喩を維持し、同時にAIが人間にとって自明な境界線に沿って現実と確実に因果的に絡み合っていないことを示す(これは難しい。なぜなら、無数の方法で経験的に実証できるほど、明らかに絡み合っているからだ)。その時点で、AIを使うことが占術であることについて語り出す。なぜなら、この時点では実際に自信を持ってそう言えるからだ。
> Well, the current generation of LLMs blow away that Turing Test
Turing Test の弱いバージョンならそうかもね。Turing の論文「Computing Machinery and Intelligence」にある強いバージョンだと、「平均的な尋問者」が5分間の質問で人間とコンピューターを70%以上の確率で見分けられないといけないんだ。今の LLM でこの結果が出たっていうのは見たことないな。
LLMの毒に関するアドバイスを信じるのは…評判のない新しい航空宇宙会社のテストパイロットになるようなもんだと思うな。
> value within their right answers
問題は、LLMは「正しい」が検証可能な指標じゃない答えもたくさん提供するってことだよ。コーディングでも「正しい」答えの概念はすぐ曖昧になる—ここで CSS grid と flexbox のどっちを使うべき?これらのテーブルは正規化すべきかそうでないか?
人々は、別の人間が出した同じ答えに対して違う感情を持つように、単にアウトプットに対して無意識のバイアスを持ってるんだ—つまり、全ての人間がすることだ(あなたがどんな場合でも100%公平で論理的だと誓っても)。
アウトプットに意図や意味を帰する衝動は、ほとんど全ての質問にあると思う。それは単なる程度の問題だよ(CSS の質問か、人生の意味に関する質問か)。
それはまさに僕が考えてることだよ。脳って結局、化学と電気の相互作用の集合体なんだ。脳の仕組みが分かれば、「魂」みたいな超常的な説明じゃなくて、科学に基づいた説明になると思う。そうなると、自分たちを単なる複雑な機械以上の存在だと思ってる人たちにとっては、すごく物足りなく感じるだろうね。人間の脳は LLM とは違うけど、いずれ「ねえ、すごく似てる機械を作れるぞ」ってなると思うんだ。
それ、まさに僕が言いたかったポイントなんだ。LLM が統計モデルだから違うって前提があるけど、僕たちは自分たちの知能を理解してないから、これが本当に違いなのかどうか言えないんだよ。
> Thinking in humans is prior to language.
哲学者は何千年もの間これを議論してきたんだろうな。でも僕は内なる声(言葉)なしには考えられない気がするんだ。だから思考って言語より先じゃない(あるいは言語なしではできない)んじゃないかって思っちゃう。本を読んでる時も全く同じことが起こるよ。常に内なる声が続いてるんだ。
LLMって入力と出力の仕組みでしょ。人間は色々な感覚を使うけど、LLMはテキストだけ。
思考は入力を複雑に処理すること。人間が五感しか使えないことを不完全に思う存在もいるかもね。
構造分析はAIと占いを完全に同じにするんじゃなくて、人間がシステムとどう関わるかを見るためのもの。
比較を literal に受け取りすぎだよ。人間が権威あると思うシステムの曖昧な出力に意味を投影しがちなのが重要なんだ。
著者はLLMを分かってないね。
LLMは統計モデルじゃなくて、低賃金の data labeler が painstaking にチューニングしたもの。
感情的なスキルも外部委託の作業員のおかげ。
Kenyan data labeler と話してるみたいなもんだよ。
training on the internet だけだと GPT2 しかできない。
もっとコメントを表示(1)
data labeler とか RLHF’er とか、 big model の裏にどれだけたくさんの人がいるか、全然知られてないよね。
世界中に何百万人もいるはずだよ。
transformer の理解と違うな。
training に人間の labeling があるなんて知らなかった。
LLM(multimodal 以外)で labeling って何するの?
attention は既存テキストで関係決めるんじゃないの?
これ、めっちゃ気になる。
色んな組織がトップLLM出してるけど、みんな labeler 軍団を雇ってるの?パクり合ってる?
それとも別の方法があるの?
もっと知りたいな。
transformer の説明は合ってるよ。
confusion は RLHF の段階だね。
これは基本モデルの上に載ってて、 human feedback で次の単語を決める。
モデルを人間に「良く」聞こえさせる層で、 LLM の応答に warm fuzzies を感じさせるのに役立ってる。
著者みたいに人間の心の仕組みを説明しない人、説得力ないんだよね。
「人間はそう考えない」って当然のように言うだけじゃダメでしょ。
へぇ、面白いね。
TIL だわ。
これらの model の training に second step があるなんて知らなかったよ。
もっと正確に言うとね、 chat-oriented LLM は pretraining と human feedback による fine-tuning の二段階なんだ。
responsive さとか emotional intelligence は human annotation のおかげ。
多くは outsourced data labeler の仕事。
彼らの好みや判断が反映されてる。
だから LLM と話すのは、統計モデルじゃなく human feedback に形作られたシステムと話してるんだよ。
Kenyan の workers の feedback が neural network で一般化されてるんだ。
俺たちOpenAIやGoogleで働いてない人間には、LLMの能力や「雰囲気」にinstruction tuningがどれくらい影響してるか正確には分かんないんだよね(instruction tunedされてないモデルが公開されなくなったのは本当に残念)。俺の不正確な推定だと、君よりずっと低いと思う。instruction tunedされてない頃のGPT-3は、今のLLMに感じる能力や特徴のほとんどが既にあったと思うんだ—ただ、もっと予測不能だっただけ。例えば質問したら答えることもあれば、別の質問で続けたり(これも文章の続きとしてあり得る)ね。でも「答える」ことを選んだ時は、instruction tuned版と変わらない精度でできた。Instruction tuningは予測可能性を高めて、人間が好む応答(実際に質問に答えるとか、人間好みの形式で回答するとか)をさせるようにしたけど、元々なかった多くの能力を与えたとは思えないんだ。
これ俺もめちゃくちゃ興味あるんだ。ラベラーの作業がどれだけ大規模なのか知らなかったよ。もっと詳しく学べる記事とか何か教えてくれたら、マジで感謝する!
> 思考によってではなく、次にどの単語が来る可能性が高いか統計的に推測することで文章を作り出す
「思考」って一体何だよ?この確率的なプロセスから知性が生まれることもあるんだ。LLMは学習してないのに計算やチェスもできるんだぜ。これって思考じゃないの?
あとさ、俺たちの脳も同じ可能性ない?感覚とかニューラルネットワークに保存された「コンテキスト」に基づいて、筋肉の動きとか発話とかのアウトプットを生み出してるだけとか。
数年前に出たデータラベリング/RLHFに関する超面白い記事があるんだ。データラベリング担当者(ChatGPTの担当者だった可能性ある人も含む)に何人もインタビューしてるんだよね。業界の秘密主義のせいで正確な数字は出しにくいけど、関わってる人は既に数百万人規模で、さらに増えるって推定されてる。
https://www.theverge.com/features/23764584/ai-artificial-int…
面白のは、この作業は単調でルーチンワークなのに、かなり複雑にもなり得るってこと。筆者もデータラベリングに登録したら、画像ラベリングのタスクでなんと43ページ!もの指示書と長い禁止事項リスト渡されたらしい。専門的なアノテーション、例えば対象分野の専門家によるチャットボット訓練は成長分野で、時給50ドル稼げることもあるみたいだよ。
「言い換えれば、ChatGPTが人間らしく見えるのは、人間の書いた文章で訓練されたAIのより良いバージョンを装った人間を評価したAIを模倣したAIが、人間を訓練した結果なんだ…」
3時間半くらい時間ある?この動画見てみて。
https://youtu.be/7xTGNNLPyMI
(俺は1週間かけて細切れに全部見たけどね、ハハ。)
そう、100%これ同意!特に推論モデルは違う種類のRLワークフローを使ってるんだよね。今後、LLMにRLをもっと使う研究が出てくると思うよ、特にコーディング向けにね。LLMが次単語予測しかしてないっていうこの考え方がどれだけ広まってるかを考えると、この誤解を解くのはかなり重要だと感じるね。まあ、素人には分かりやすい形でLLMがどう動くかの真実を示唆してはいるんだけど。
https://www.harysdalvi.com/blog/llms-dont-predict-next-word/
データアノテーションをサービスとして提供してる会社を探してみればいいんだよ。彼らはプロセスを詳しく説明してくれるみたいだから[0]。OpenAIの論文[1]へのリンクとか、請負業者の人数に関するニュース[2]もあるぜ。
[0]: https://snorkel.ai/data-labeling/#Data-labeling-in-the-age-o…
[1]: https://cdn.openai.com/papers/Training_language_models_to_fo…
[2]: https://www.businessinsider.com/chatgpt-openai-contractor-la…
この推論には共感するけど、「LLMはチェスができる」ってのは言い過ぎだし、「学習してないのに」ってのは、どんなLLMの訓練セットにも大量のチェスゲームや本のデータが入ってることを軽視しすぎだと思うな。
最後にテストしてから数ヶ月経つけど、書籍やオンラインテキストにデータがあまりないゲームでのOpenAIのパフォーマンスは、正直かなりがっかりした記憶があるよ。
> そして広範囲にわたる人間のフィードバックによる微調整
天安門事件について話すモデルをそうじゃないようにするために、どれだけ extensive(広範囲)な作業が必要かって?Llamaにコカイン/爆弾などの作り方を教えてくれるように編集するには、どんな作業が必要なの?
それは、大規模な人間の請負業者部隊が必要になるほど extensive じゃないと思うんだ。
えっと、人間の認知についてほぼ確実な事があるとしたら、人間の脳にはGPUがごくわずかしかないってことだね、シリコンの割合がすごく低いせいで。
だから、超超直接的な意味では、人間の脳がLLMみたいに機能しないのは確実なんだ。
基盤は違うけど、重要な操作のいくつかが何らかの形で同等かもしれない、って主張することもできるけどね。でもそれはあなたが主張したいなら勝手にどうぞって感じ。物理層で全く似てないってことだけは確実に言えるから、デフォルトの前提としては「全然似てない」ってことにならざるを得ないんだ。
まず、その疑問に答えようとする認知科学っていうまるごと一つの分野があるよ。
次に、人間の心がLLMみたいに機能しないって証明する責任は認知科学の人たちじゃなくて、そう機能するって証明する側にあるんだ。今分かってる限りでは、人間の心について完璧に理解してるわけじゃないけど、LLMとは全然違う働きをしてるよ。
余談だけど、心みたいに見えるものを心って呼ぶ誘惑は行動主義って呼ばれるすごく古い認知科学の概念で、何度も間違いだって証明されてるんだ。
動物の知性の特徴をいくつか挙げるね:
* 環境との直接的な因果関係。例えば、ペンからの光が目に入って、心の状態を引き起こすとか。
* 感覚と運動の協調。つまり、ペンからの光が目に入ることで、体の動きとペンの動きを協調させられるとか。
* 感覚運動表象。つまり、感覚運動システムは訓練可能で、これまでの環境との協調によって訓練されるとか。
* 協調における階層的な計画。つまり、これらの感覚運動表象は目標に合わせて文脈化されていて、無限の方法で「空腹を満たす」ことができる(無限の障害物の組み合わせに対してもこの目標を達成できる)とか。
* 反実仮想的な現実志向の精神シミュレーション(別名:想像力)。これらの豊かな感覚運動表象は想像の中で具体化できて、環境の新しい組み合わせや、物理法則の可能な変化などをシミュレーションできるんだ。これらの無限の障害物を、それが起こる前に、あるいはこれまでに一度も起こったことがなくても、予測できるとか。
* 自己モデル化フィードバックループ。つまり、自分自身の感覚運動協調プロセスが、その協調への入力になることとか。
* 自己モデル化における抽象化。つまり、自分自身の目標指向的な行動が成功/失敗するのを認知的に表現して、それを洗練の対象として扱えることとか。
* 表象的な精神能力全体にわたる抽象化から命題的な表象へ。つまり、「私が書いている」と想像する時、想像の対象は「書くこと」という行動と全く同じ対象なんだ。だから、思い出したり/想像したり/行動したり/反省したりする時、思考の全く同じ対象に対して操作しているって分かるんだとか。
* 認知の機能:定量化、因果推論、離散論理推論など。これらは感覚、運動、抽象的な概念レベルの全てに適用できるんだ(つまり、いくつかの物体を「感覚で数える」ことも、行動で数えることも、知性で数えることもできる)とか。
* 概念形成:アブダクション、様々な帰納法などとか。
* 概念合成:再帰、概念の外延による合成、内包による合成などとか。
まだまだいくらでも挙げられるよ。
幼児がブロックで遊ぶほんの数分間に起こることだけを述べても、LLMには欠けている膨大な能力の宇宙をごく当たり前にリストアップしたことになるんだ。
LLMが知性と関係あると信じるのは、知性によって示唆される能力が何であるかをかなり根本的に間違えていることになるよ。それは動物が持っていて、あるものは他より多く、ごく少数だけさらに多く持っている能力なんだ。これが言語能力と関係があると思うのは、誇り高くも奇妙な世界観だね。
自然は動物に、言語トークンの正しい順序を習得するために知性を生み出したわけじゃない。大学は、ある程度、この活動のためにコンピューターサイエンス学部を生み出したんだけどね。
Scaleみたいな仲介会社があって、何千人ものリモート請負業者を雇ってるんだ、おそらく他の会社を通してね。もちろん、モデル会社と契約したラベル付け担当者やRLHF担当者の間に位置する、もっとあまり知られていないそういう会社もあるよ。たぶん、こうした仲介会社が何層かあって、もっと大きな労働者プールをまとめているんだね。でも、作業がどれだけ混ざり合っていて、その規模がどれくらいかは言えないし、それが何か別のものにシフトしているかどうかも分からないな。
LinkedInを見れば、たくさんのAIトレーナー会社が見つかるし、あらゆる分野、言語、プログラミング言語で、いくつかの専門レベルの人を雇ってるのが分かるよ。彼らがモデル会社に労働者を提供してるんだね。
親コメントへの返信で、ラベル付けとRLHFの奇妙な世界についての興味深い記事へのリンクを追加したよ。2年前のThe Vergeの、本当に面白い記事なんだ。
https://www.theverge.com/features/23764584/ai-artificial-int…
だからまだ本当の”AI”じゃなくて、人間の知性がラベル付けで重労働を担ってるんだね。LLMはまだ統計的な単語予測の仕組みに過ぎなくて、人間が追加した追加の文脈があるだけ。
ちょっと人間みたいだね。「妹を叩いちゃダメ」とか、沢山のデータが修正されるのと似た感じで。
「命令(instruction)調整されてないモデルを誰もリリースしなくなったのは本当に残念だね」ってあるけど、Llama 4はベース(事前学習済み)版と命令調整版の両方がリリースされたよ。
命令(instruction)調整って、チャットのUXをモデルの重みに刷り込む感じかな。
単なるテキスト生成器じゃなくて、ユーザー/アシスタントの流れが全てになるんだ。
そしてアシスタントはいつもユーザーを喜ばせようとする。
間違ってか悪意でか、ごますりマシンを作っちゃったんだね。
実はいくつかステップがあるんだ。大量のテキストコーパスで学習すると、補完モデルができる。これは何か文書を与えると、できるだけ正確に補完するモデルだね。これに役に立つ仕事をさせるのはちょっと難しいんだ、部分的な解決策としてフレーズを作って、それを埋めさせるようなプロンプトのトリックが沢山必要だった。「明らかに、xをする最善の方法は[…]」みたいなスタイルのプロンプトとかね。
命令(instruction)調整/教師ありファインチューニングは、これと似てるけど、任意の文書を食わせる代わりに、「アシスタントがタスクを完了する」例を食わせるんだ。これで命令モデルが得られて、ある程度は指示に従うようになるみたいだね。通常、ここで特定のトークンが焼き付けられて、アシスタントの応答の境界、人間の発言、ターンの区切り、会話フォーマットなどがマークされるんだ。
RLHF/似たような手法はさらに進んで、モデルにタスクを完了させて、その出力が何らかの選好指標に基づいて評価される。通常、それは人間か、特定の入力を与えられたら「人間らしい」選好スコアを提供するように訓練された別のモデルだね。これは機能的には何も変えないけど、インタラクションがはるかに(もしかしたら過度に)受け入れやすくなるんだ。
この人の動画、ほんと好きだよ。理解するのに役立った1時間版がこれ→https://www.youtube.com/watch?v=zjkBMFhNj_g
うーん、君もわかってないと思うな。RLHFは、学習に使われる膨大な「”純粋な”」データ量とは比べ物にならないよ。
AIの呼称が重要って記事、良い要約だね[1]。技術的には分からなくても一般人が能力を理解するのが安全に使う上で大事。でも「”AI”」とか「”推論”」って言ってhype作るのが評価額に影響するんだよね。パターン認識やデータ生成は地味だしね。[1]:https://news.ycombinator.com/item?id=44203562#44218251
みんな毎月何百ドルも自腹で払ってこれらのツールを使ってるよ。それって、なんか面白いことが起きてるって強い兆候だよね。
もっとコメントを表示(2)
これらのモデルがめちゃくちゃ得意なのは、大量のテキストを素早く読んで要点をまとめることだよ。その能力だけで、多くの人にとって月20ドル払う価値があるかもね。
なんでみんなもっと読まないで、少なく済ませたがるんだろう?2時間座って何が起きたかわかる代わりに、映画のネタバレを読むみたいなもんだよ。
なんでgrassって単語は5文字で、500文字じゃないんだ?それは短くて効率的に情報を伝える方法だからだよ。もしAIが情報の伝達を改善できるなら、それはすごいことだね。
情報の伝達効率化だって?じゃあJPEGも15%画質で圧縮するか?読書って単なる情報じゃないんだよ。他の人の思考法とか学ぶんだ。だから「”AI”」に頼るとみんなバカになる。メールも書けないとか、ホントっぽい「”ホラーストーリー”」、聞いたことあるだろ。俺は自分をバカにしたくないね。君は間違った生き方してるよ。
だってその2時間で他のことできるし、映画を見るんじゃなくて、話せることに関心があるのかも?
彼女の問題は、BMBL株が92%下がってることだね。投資家にはまた金持ちになれるって言わなきゃいけないんだろ。https://finance.yahoo.com/quote/BMBL/
バカげたAIの売り込みのほとんどは同じ目的だよ。投資家が信じたいことから始めて、AIを魔法みたいに使ってそれを可能にするってわけ。ウェブの黎明期から見てきたことだ。
地味な声(例えば10%改善とかコスト削減とか)は注目されないからね。
このバカげたアイデアがどれくらい頻繁にあるか、統計は見たことないな。確かにあるけど、メディアでAIの失敗として出るのはAIスタートアップ全体のどれくらいなんだろう?
実際バカげたアイデアかどうかは、試して失敗するまで分からないこともある。提案された時はバカげてると思っても、やってみたら妥当だったってアイデアも少しはあるし、見た目通りバカだったってのも結構ある。
そう考えると、投資家がバカげたアイデアに金を出すのも少しは納得できる。彼ら自身がどれだけバカか判断して責任を取ってるんだから。彼らの金だし(どうやって手に入れたかには色々問題あるけど)、うまくいくかもしれないと思うものに使うのは勝手だ。
でも、バカげたアイデアに見えるのと、騙すのは区別すべきだと思う。「これは人が欲しがるだろう」とか「AIがこの問題を解決できるだろう」と言うのと、データを偽造して「人はこれを欲しがっている」と言ったり、まだ解決してない問題を解決したと言うのは全然違う。
こういうことは多すぎるだろうし、AIスタートアップやどんなスタートアップに限ったことじゃないと思う。時には見た目「ちゃんとしてる」会社でさえ、将来の問題がもう解決済みに見えるようにデータを改ざんする準備ができてるんじゃないかな。
>彼女の問題は、BMBL株が92%下がってて、投資家にはまた金持ちになれるって言わなきゃいけないってこと?
最近Bumbleがすごく劇的な変更をたくさんしてるのもこれが理由なのかな?てっきり、製品を成功させた秘密のソースを全然理解してない、新しくてやりすぎなプロダクトマネージャーを雇ったんだと思ってた。どっちにしても、よくある’エンシッティフィケーション’が始まったみたいだね。
内部事情は何も知らないけど、こういうことについてはこれが僕の仮説だね。プロダクトマネージャーの誰かが、年末までに数値をXから2Xにしなきゃクビだって言われてるんじゃないかな。
まあ、彼女の具体的な問題は、元億万長者だったのに今は違うから、またその3つ目のコンマ(億万長者)を取り戻すために何だって言うってことだよ。欲に他ならない。
Matchは独占禁止法を避けるためにBumbleをただ維持してるんだ。GoogleとMozillaの関係みたいなもんだね。追記:どっちにしろ、そんなぶっ飛んだアイデアじゃないよ。Black Mirrorに良いエピソードがあるから。
出会い系アプリ会社については10年前から同じこと自問自答してるよ。現状でも既にディストピア的だ。いいよ、どうぞ、LLMを入れてくれ。せいぜい美化されたELOレーティングよりどれだけ悪くなるっていうんだ?
もしそれが(彼らの視点から)うまくいくなら、バカげたことじゃない。
この記事の筆者もLLMの仕組みを完全に理解してないと思うな。「統計モデル」として片付けるのはおかしい。量子力学だって統計モデルだろ?
それに、LLMの各層は、会話をもっと遡って概念的な関連付け(k-vキャッシュのk-vの部分)を通して意味や文脈を吹き込む可能性をモデルに与えてる。これが抽象的に人間の認知を説明してないとは僕には思えない。
まあ、LLMが人間の認知の広さを完全に持ってるわけじゃないかもしれないし、ある種の深い洞察を学習するのが難しいのかもしれないけど、基本的には構造はそこにあるんだ。(うまい訓練とかアーキテクチャの改善はまだ可能だろう—CNNがFCNNの部分グラフであるのと同じように、FCNNがランダムに学習で見つけるのはほぼ不可能だろうけど。)
LLMが認識可能な形で全然賢くないと言うのは、都合の良い事例だけを選んでるだけだよ。もしLLMが少しでも認識可能な形で賢くなかったら、人々は今みたいな使い方をしてないだろうからね。
>筆者もLLMの仕組みを完全に理解してないと思う、統計モデルとして片付けるのはおかしい、抽象的に人間の認知を説明してないとは思えない
でも、こう言い返せるよ。君も記事が犯してるって正しく言ってるのと同じ過ちを犯してるってね。CPUのALUが2つの数をどう足すか見ると、僕が頭の中で2つの数を足すのと驚くほど似てる。ALUの内部ロジックが抽象的に人間の認知を説明してないとは思えない。
まあ、ALUは人間の認知の広さを完全に持ってるわけじゃないかもしれないけど…。
結局、「人間の認知の広さを完全に持ってる」という部分で表現されるギャップが本当に、本当に、本当に重要なんだ。ALUの場合みたいに、似てる部分がカバーするどんな影響も、そのギャップが圧倒する。
問題は、LLMが人間の認知をどれだけ模倣してるかという点でのギャップがどれだけ重要か、だ。僕らは知らないと思うけど、取るに足らないとして無視できないほど重要だと僕は思ってるよ。
それって実用的な意味で重要? LLMはほとんどの大学生より構造的なエッセイを書けるよ。「賢い」を測るって言っても、僕らその言葉を結構気楽に使ってるだろ。犬だって、名前で30個の物の中から1つ持ってきたり、車を運転したりできるなら、人間のやり方で賢いと言える(そう、犬は運転できる)。「賢い」の基準はかなり低いんだ。LLMは賢くないって言うのは、ただの偏見だよ。