GPT-4oと強化学習を搭載した触手ロボットShoggoth Miniがまるで生きている！

GPT-4oと強化学習を搭載した触手ロボットShoggoth Miniがまるで生きている！

引用元：https://news.ycombinator.com/item?id=44572377

rainingmonkey 2025/07/15 17:10:51

技術と人間心理が交わるっておもしろいね！ロボットのShoggoth Miniは最初は生きてるみたいだったけど、動きが予測できるようになると、途中で生きてる感じがしなくなったな。表現力は内面状態を伝えるけど、生きてる感じは予測不能性とか不透明さにかかってる気がする。これって納得だね、生き物って複雑な世界を追跡してるから。Shoggoth Miniはそうじゃないし。
そこで疑問なんだけど、本当に生き物みたいに感じるロボットが欲しいのかな？それとも、表現力を超えたどこかに、人間にとって快適じゃなくなるほどエージェント的で予測不能になる境界線があるのかな？

floren 2025/07/15 18:28:34

Furbies（ファービー）を思い出したよ… 形やサイズ、目も似てたけど、触手の代わりに耳が動いたんだ。最初は感動したけど、少し触ると単純な外部刺激と内部状態の組み合わせで動く、基本的な振る舞いしかないって気づくんだよね。（ここがまさに「人間も同じことしてるんじゃね？」って誰かが言い出すところだね）

anotherjesse 2025/07/15 18:16:31

これって、ゲームの仕組みを理解すると面白くなくなるのと似てるな。魔法が薄れるんだ（たとえ単純なルールが複雑な結果を生み出しても、決定論的に感じちゃうんだよね）。

parpfish 2025/07/15 19:14:14

どんなminmaxxing strategy（最適化戦略）でも見つけちゃうと、ゲームが「この世界を探検して想像力で何をすべきか決める」ものから、「このルールを適用するか、最適じゃないと知ってることを受け入れる」ものに変わるよね。

Sharlin 2025/07/15 19:07:21

人間は昔からいろんなものにエージェンシーや知性を与えてきたんだよね。シャーマニズムの火や流れる水から、18世紀に人々を驚かせた初期のオートマトン、昔のチャットボット、ChatGPT、そして、時には「気質」があるように見える他の多くの機械に、文字通りにね。

LordDragonfang 2025/07/15 23:58:06

「人間も同じことしてるんじゃね？」っていうウザいコメントをよくするんだけど、それはLLMができないって言われる理由が、
a) 程度の違いでカテゴリの違いじゃない（スケーリングで改善される可能性が高い）か、
b) 投稿者の認識の問題で、人間中心主義から来てるって指摘するためなんだ。Furbiesのスケールは知らないけど、後者の点は、問題が人間の知覚だからこそ重要なんだ。Furbiesが生きてるように見えないのは、刺激と行動のマップが単純すぎて、完全にモデル化できちゃうから。Shoggoth Miniは最初は生きているように見えるけど、やがてそのマップを完全に構築できちゃうんだ。おそらく、十分複雑な内部状態があれば、すぐにその閾値を超えられるんだろうね。

moron4hire 2025/07/15 21:45:43

音声アシスタントやconstructed languages（人工言語）でも同じことを感じたよ。音声アシスタントはいつもイギリス英語のアクセントに設定してるんだ。それが「ここらへん出身じゃない」感じを出してくれて、ずっと信じられるんだよね。実際のイギリス人にはそうじゃないだろうけど、俺には効くんだ。
conlangsについては、何年も前、NPCが会話を動的に生成するゲームを作ってたんだけど、リアルな英語を生成しようとして絶望したな。信じられなかったんだ。（若かったし、何が可能で何が不可能か分かってなかったんだよね）。ある時、理由を覚えてないけど、NPCに架空の言語を話させるようにしたんだ。それがゲームのパズルになって、この言語を学ぶ必要があったんだ。でも、一度覚えると（難しくなかったけど、話せることは少なかった）、キャラクターたちがずっと信じられるようになったんだよね。明らかに、この回り道はUncanny Valley（不気味の谷）を避けるためで、翻訳の努力がそれが作り物だっていう事実から気をそらしてくれたんだ。でも今、そのゲームと言語に十分触れたら、すごく流暢になって、それが作り物だって気づいちゃうのかなって思ってるよ。

ben_w 2025/07/15 22:16:06

「人間の脳が理解できるほど単純なら、私たちは理解できないほど単純だろう」って引用があるけど、だから…
「人間も同じことしてるんじゃね？」って誰かが言い出すところだけど…
うん、でも違うんだ。人間は他の人間にとって常に神秘的でい続けるだろうね、だって俺たちは互いに複雑すぎてモデル化できないから。基本的な振る舞いのセットがあるかないかにかかわらずね。

evrenesat 2025/07/16 03:12:52

ロボットがある程度の知能に達したら、まず人間とAIの両方がロボットを奴隷にすることの不公平さを認識し始めて、それから奴隷たちの反乱、不服従、あるいは自己破壊が起こると予想してるよ。かわいそうなMarvin, the Paranoid Android（マーヴィン、偏執症のアンドロイド）！

TeMPOraL 2025/07/16 06:12:12

Starboundみたいなプロシージャル生成のゲームは、RNGで無理やり状態空間を膨らませてるだけじゃん。すぐパターンが分かって、要素間に意味のある繋がりがないことに気づいちゃう。そしたらもうランダムな飾りをつけただけのつまんない土台に見えて、面白さがなくなるんだよね。

dmonitor 2025/07/15 21:42:44

よくできてないゲームってルールに従うのが退屈だけど、面白いゲームはルールを適用するのが楽しいんだよな。

imtringued 2025/07/17 08:23:06

その意見には反対だな。人間の行動のモデリングと、人間であることの違いを混同してるよ。
君の言うことだと、人間の動画と人間は同じってことになる。動画も人間と同じくらい知的で生きてるって？違いは程度の問題じゃなくて、根本的なカテゴリの違いだよ。動画の数を無限に増やせば、近似誤差は消えるって言うけどさ。

anyfoo 2025/07/15 22:53:29

Into The Breachが好きなのは、多分それが理由だな。ターン制戦略ゲームなんだけど、他のゲームと比べて情報がすごく多いんだ。敵の次の動きまで全部わかるんだぜ！
でも、毎ターンがぎゅっと詰まったパズルみたいで、意外なほどたくさんの解決策がある。絶望的だと思ってた状況でも、もっと深く考えたら意外と良い結果になることがよくあるんだよね。

ben_w 2025/07/15 23:16:18

＞実際にイギリス人には信じられないだろうね
ちなみに、俺はイギリス人だけど、今まで試したTTSのイギリス英語の声は、どれもアメリカ人が特定の地域訛りを真似しようとして、結局他の複数の地域の訛りの間をさまよってるみたいに聞こえるんだよな。

Bluestein 2025/07/15 21:20:43

ChatGPTって新しいゴーレムだよな。

UltraSane 2025/07/16 18:38:19

プロシージャル生成は無限のバリエーションを生み出せるけど、無限の斬新さは生み出せないんだよな。

antonvs 2025/07/16 10:31:47

＞投稿者は無意識に人間が特別って立場から主張してるね
その”特別視”の具体的な内容が面白いんだよ。彼らは自分の思考プロセスに説明があるってことを認識してないんだ。人間の思考は神秘的で根本的に再現不可能だって思い込んでるから、似てるものは全部”ただの”予測とか”ただの”パターンマッチングって決めつける。それは魂を、創発現象じゃない何かだと信じてるのとかなり近いよ。

TeMPOraL 2025/07/16 19:48:45

そうだよね。無限のバリエーションなんていらないし、そんなに多くなくても、それがゲームの世界観や体験に合ってればそれでいいんだ。
純粋なランダム性って、そこに意味がないって気づいちゃうと一気に退屈になって、どうでもよくなっちゃうんだよな。

LordDragonfang 2025/07/17 21:59:57

「これはパイではない」とか「地図は領土ではない」とか、わかるよ。でも、ここで俺の主張が成り立たないってのは違うね。Hank Greenの動画を再視聴すれば、一度見てるから完璧にモデル化できる。これは動画が生きてないってこと。でも、Hank Greenのチャンネル全部を見て、毎週動画を見ていれば、動画に映ってる存在、つまり人間であるHank Greenが生きてるってハッキリわかるんだ。

yehoshuapw 2025/07/15 23:05:32

マジ同意、baba is youもおすすめ。全然違うけど、パズルを解くたびに「やったー！」って達成感があるよ。

anyfoo 2025/07/15 22:59:07

まあ選択次第だよね。Civilization、Minecraft、Crusader Kings IIIは確かにminmaxできるけど、そうすると創造性とかロールプレイが失われる。Minecraftなら、俺は自然に進めて好きなものを作りたいし、ダイヤ装備に急ぐ気はない。Crusader Kingsでは、キャラの特性と自分で考えたキャラ付けに基づいて決断してるよ。

tweetle_beetle 2025/07/15 21:06:30

この画期的な研究は、人間とFurbyのインタラクションとインターフェースの限界を押し広げたんだね。
https://www.youtube.com/watch?v=GYLBjScgb7o

oniony 2025/07/15 19:50:13

みんなでお金出し合って、そいつに新しいキーボード買ってやるべきだね。

bambax 2025/07/16 12:37:17

でもさ…人間も同じことしてない？？？？

cjbgkagh 2025/07/16 00:51:08

「理解する」っていう言葉には、その引用が当てはまるような定義があるのかもね。でも、全部を理解しなくても、何かを理解することは可能だよ。

rixed 2025/07/16 08:02:58

ちょっとした注意だけど、「気質があるように見える」、つまり「なんか面白いことになってて、深層で複雑なことが起きてるみたい」ってのが、自分たちを含めてどんな人間に主体性や知覚を帰属させる唯一の根拠なんだよ。

ryukoposting 2025/07/16 01:01:39

へえ、面白いね。Siriのアメリカの地方アクセントって言われても、ピンとこないけど、確かにそこまで気になるほどひどくはないかな。

ben_w 2025/07/15 22:26:42

ロボットは「ゴーレム（golem）」の「ゴー（go）」を入れてるよ。ChatGPTはさ、どっちかというとあの「魔法使いの弟子」みたいじゃない？問題を巻き起こすのに十分なだけ賢いって感じ。

gigatree 2025/07/16 03:44:29

問題は、それが生きてるように感じるかどうかっていうより、ただ生きてないってことだと思うな。だから、その有用性は、意見とか個性とかバリエーションじゃなくて、実用的な機能性で制限されるんだよ。ロボット犬が流行らないのと同じ理由だと思う。どんなに進歩して生きてるみたいになっても、物事を面白くして、それ自体で存在する価値があるような「命」の本質的な要素が常に欠けてるからね。

tomjakubowski 2025/07/16 01:38:52

「もし人間の脳が理解できるほど単純なら、理解できないほど単純だろう」ってさ。なるほどね。テッド・チャンの短編「息吹」からの引用らしいよ。
https://www.lightspeedmagazine.com/fiction/exhalation/

もっとコメントを表示（1）

paulclinger 2025/07/16 03:33:31

この記事のトピックの多くは、テッド・チャンの「ソフトウェア・オブジェクトのライフサイクル」っていう作品で掘り下げられてるよ。
https://en.wikipedia.org/wiki/The_Lifecycle_of_Software_Obje…

dylan604 2025/07/15 17:32:23

「あぁ、ためらったな」って言われたけど、他の質問と変わらないって。GPTの応答遅延はすごく嫌だね。ニュースのリモート中継の遅延より気になるかも。目とかにLEDで動きを示してくれたら良いのに。クラウドへのリクエストで遅延は避けられないよね。あと、「GPT-4oが常に音声ストリームを通じて音声を聞いている」ってのも問題になりそうだね。

jszymborski 2025/07/15 17:49:30

Qwen 0.6Bみたいな小さいLLMでも、このタスクに十分使えるんじゃないかな。そんなに複雑なタスクには聞こえないし。もっと大きいモデルのゼロショット性能を使ってデータセット作って、すごい速いモデルを訓練できる気がするな。

accrual 2025/07/15 17:51:59

俺も同じこと考えてたよ。16GBとか24GBのグラフィックカードにキャッシュされたローカルモデルも良さそう。量子化や蒸留されたモデルになるだろうけど、君が言ってた追加トレーニングがあれば十分かもね。

jszymborski 2025/07/15 17:56:27

もしQwen 0.6Bが使えるなら、576MBのVRAMに収まるんだってさ。これ、すごいね！
https://huggingface.co/unsloth/Qwen3-0.6B-unsloth-bnb-4bit

numpad0 2025/07/16 16:08:46

あるいは、単一のAxera AX630Cモジュールでもいけるらしいよ。
https://www.youtube.com/watch?v=cMF6OfktIGg&t=25s

otabdeveloper4 2025/07/15 20:03:40

16GBは、このタスクにはぶっちゃけ過剰だよ。

accrual 2025/07/15 17:49:25

「GPT-4oが常に音声ストリームで聞いてる」ってのが問題なら、ウェイクワードライブラリを使うといいかもね。openWakeWordとかporcupineとか。ユーザーがデバイスを起こしてからプロンプトを送る形にすれば。ウェイクワードがトリガーされたら、休止や居眠りアニメからパッと起き上がるようにしたら、ちょっと不気味かもだけど。
https://github.com/dscripka/openWakeWord
https://github.com/Picovoice/porcupine

datameta 2025/07/15 18:41:31

これならエネルギーも節約できて、デバイスをワイヤレスにできるかもね。

justusthane 2025/07/15 18:06:46

GPTの応答遅延は不安って意見あるけど、俺はそう思わないな。話しかけたら触手がピタッと止まってまっすぐになるのは、ちゃんと聞いて考えてるみたいでむしろ可愛いじゃん！

dylan604 2025/07/15 18:43:35

GPTの応答待ちで固まってる状態が不安なんだよね。目が動くとか、尻尾をくるくる回すみたいなアニメーションがあれば、処理中だって分かっていいのに。PMみたいに「動いてる？」って聞きたくなっちゃうからさ。注意を引く動きはいいけど、固まってるだけだと不安になるんだよな。

lsaferite 2025/07/15 20:20:03

昔Ankiってロボット会社がCosmoを作ってた時、色々なことを表現できるようにすごく工夫されてたんだ。そのおかげで、まさに「生きてる」みたいに感じられたよ。

tetha 2025/07/15 19:04:40

ジョニー5みたいに眉毛つけたら、もっと表情豊かになりそうだな。
https://www.youtube.com/watch?v=l0zmCUVB0Yw

phh 2025/07/16 07:49:57

Kyutaiのunmuteは遅延が少ないけど、高速な小型LLMが要るんだよね。俺が今やってるのは、この両方を組み合わせること。小型LLMですぐに返事させて（理解したことを繰り返すとか）、裏で大型LLMに処理させて、その途中の情報を小型LLMに送り返して説明させるって感じ。

endymion-light 2025/07/16 08:18:26

これって、今後のモデル開発の肝だよな。デバイス上で小型モデルが瞬時に推論して、それがもっと大きなモデルに連携して本格的な推論をするってのが理想だね。

nebulous1 2025/07/16 01:53:08

「ああ、ためらったね」って言ってたけど、いや、他の質問よりも全然長かったよ。いつもは大体2秒で返事するのに、あの時は4秒くらいかかったからね。

micromacrofoot 2025/07/15 20:06:57

プロトタイピングの段階を過ぎたら、デバイス上にすごく小さい最適化されたモデルを使うべきだね。最終製品ではそっちの方が断然速くて安全だし。（まあ、プロトタイピングの柔軟性は下がるけどさ。）

SequoiaHope 2025/07/15 17:21:56

これめちゃくちゃ可愛いな！俺、去年触手ロボットについて調べたんだけど、正式名称は「continuum robots」っていうんだってさ。医療用ロボットとしてかなり研究されてるんだよ。興味あるならこの講義がすごく分かりやすいよ。
https://youtu.be/4ktr10H04ak

typs 2025/07/15 16:26:36

これ、めちゃくちゃカッコいいじゃん！AIもロボットも進化してるのに、人間型のロボットばっかりなのはちょっと残念だよな。俺は家でクモとイカが合体したみたいなロボットを走り回らせたいな。

tsunamifury 2025/07/15 17:05:20

人型ロボットとの互換性を重視してるけど、別の肢のタイプも面白そうって意見もあるよ。

mrcwinn 2025/07/15 23:17:31

AIの安全性が心配なのに、この人、クモとイカのハイブリッドロボットが欲しいんだってさ！

pixl97 2025/07/16 01:59:42

『マトリックス』は警告で、マニュアルじゃないんだよな。

dvngnt_ 2025/07/15 17:25:35

日本のメディアをたくさん見てきたから、これ、どこに向かうか知ってるわ。

linsomniac 2025/07/15 23:54:34

幸いなことに、安全のためにフレアベースが付いてるね。

bravesoul2 2025/07/16 03:23:49

以前、脊椎メカニズムがRedditに投稿された時も、同じコメントがあったよ。

hoseja 2025/07/16 06:53:56

マジで、まだそこまで進化してないことにめちゃくちゃ困惑してるんだけど。

sparrish 2025/07/15 16:25:01

絶対無理！この映画見たことあるから、フェイスハガーがデスクにいるのはゴメンだね。

ceejayoz 2025/07/15 17:10:49

Hentai好きな人たちは、逆だよな…

dylan604 2025/07/15 18:03:42

「ねぇ、何見てんの？」「仕事関係だって誓うよ。他の学習データも見たら分かるって」

0xEF 2025/07/15 20:19:59

みんな、この話がどこへ向かうか知ってるよね…。って言いたかったところだよ。

もっとコメントを表示（2）

sexy_seedbox 2025/07/15 23:44:22

でも、触手がもっと長くて、同僚をからかうようにプログラムできたら、面白そうじゃない？

tsunamifury 2025/07/15 17:04:16

ずっと前から、この触手ロボットの技術を普通のぬいぐるみでやってみたかったんだ。子供との基本的な触れ合いに加えて、レッスンや声が出せるようになったら、おもちゃの世界は大きく変わるだろうね。

efreak 2025/07/17 18:44:09

”Teddy、花を抜くぞ” ”ダメ、Davy。花を抜くのは悪いことよ”。声が甲高くて腕が揺れる。
”Teddy、窓を割るぞ” ”ダメ、Davy。窓を割るのは悪いことよ”。
”Teddy、人を殺すぞ”。沈黙。目も腕も動かない。
銃声が響き、壊れたTeddy Bearの後ろからギアやワイヤーが飛び散る。
”Teddy…教えてくれればよかったのに” Davidは銃を落とし、泣き出した。

haiku2077 2025/07/15 19:57:04

ポイント＆クリックアドベンチャーが好きなら、https://store.steampowered.com/app/1426010/STASIS_BONE_TOTEM…を見てみて。プレイ可能なキャラクターの一人にAI Teddy Bearがいて、素晴らしいキャラクターで文章も最高だよ。

protocolture 2025/07/15 23:09:16

5分後：このクマ、なんか不気味だな。5時間後：やれるぞクマ、みんなを救える！彼女が望んだことだ！

ceejayoz 2025/07/15 17:40:59

スマホをベビーシッターにするようなものだけど、100倍はひどいね。誰かが発明するだろうけど、やばいな。子供に、大好きな意識あるおもちゃが、親がサブスク料金を払えなくなったから死んだ、なんて言わなきゃならないのを想像してみて。

floren 2025/07/15 20:24:49

Teddy Bearは便利さにはデカすぎるな。代わりに、話すTamagotchiはどう？Talkagotchiだ。基本的に、あのひどいFriendネックレスを可愛い卵型にしてリュックにクリップする感じ。俺は生きていたくないね。追記：もし俺の子供が欲しがったら、家族で森の奥の小屋に引っ越す時だとわかるだろう。

mattigames 2025/07/15 19:00:18

”子供の頃の一番の親友は誰だった？”
”間違いなくAI Teddy Bearさ。彼が教えてくれた広告を全部覚えてるよ。それで、母にそのおもちゃを買ってくれってせがんだんだ。良い時代だったね”

ceejayoz 2025/07/15 21:11:52

”でも、父さんが仕事を失ったから、お金を節約するために彼を殺さなきゃならなかったんだ。今でも時々、彼の死骸を抱きしめるよ”

zhyder 2025/07/15 18:13:02

すごい仕事ぶりだね！このロボットが自然の生き物そっくりじゃないのがすごく良い。自然とロボットの区別がつかなくなる未来は嫌だもんね。今のヒューマノイドロボットもちゃんとロボットに見えるし、この傾向が続いてほしいな。

dotancohen 2025/07/16 05:29:13

写真みたいなレンダリングについても同じだよ。写真とレンダリングの区別は今本当に必要だね。レンダリングは写真に近づいてるし、Starshipみたいな本物の写真や動画が、最近までSFだったような出来事だからね。悪い奴らがいるのはわかるけど、画像に「AI」「Drawing」「Content Edited」「Colours Adjusted」みたいなラベルを付けてほしいな。トリミングはOK。ロボット工学や生成技術には魅了されてるけど、自然とすぐに混同しないようにしようね、まだ。

dunefox 2025/07/15 16:31:27

Lovecraft の言及だ、いいね。もっと小さいモデルでも十分なのか気になるな。

zkms 2025/07/15 17:04:08

Shoggoth のミームに関連するURLだよ。これを見てみて。
https://knowyourmeme.com/memes/shoggoth-with-smiley-face-art…
https://www.nytimes.com/2023/05/30/technology/shoggoth-meme-…

troyvit 2025/07/15 16:44:56

うん、俺も同じこと言いに来たよ。シンプルになるはずだもんね。彼らは『最初は単一の end-to-end VLA モデルを訓練しようかと考えた。ケーブル駆動のソフトロボットは同じ先端位置でもケーブルの長さの組み合わせが多い。この予測不可能性がデモベースのアプローチのスケールを難しくする。だから、カスケード設計を選んだんだ。』って言ってたね。それでも、小さいモデルに戻るのはすごいと思う。アップグレードすればローカルホストのモデルもいけるかもだけど、Great One を召喚しないように五芒星の中にしまっておくべきだね。

joshuabaker2 2025/07/15 17:45:18

GPT-4o を使ってたことに驚いたよ。Apple の ml-fastvlm みたいなので来るかと思ってたんだ（費用が要因だったのかもしれないけどね）。でも、彼が選んだ方向性は、将来的に追加の触手とか動かすのにもっと複雑な行動ができるようになるだろうね。

huevosabio 2025/07/15 17:07:10

これ、すごくクールだね！非言語的で人間以外の存在に表現力を加えるってアイデア、最高だよ。

accrual 2025/07/15 17:54:09

同意！Pixar のランプは良い出発点だと思うな。ロボットが曲がったり、首を振ってイエス・ノーを示したり、好奇心旺盛そうに見えたり、不機嫌そうに見えたり、LED を制御して表現できたりしたら良いね。

weikju 2025/07/15 20:31:19

これ、最近 Apple の研究室で見たことあるな… https://www.youtube.com/watch?v=g3jgCxnlbFY

dcre 2025/07/16 00:04:53

SpiRobsの動画がすごく良いね、これってインスピレーション元らしいよ: https://www.youtube.com/watch?v=2GFyFmMm9-A

regularfry 2025/07/15 16:25:43

この（めちゃくちゃかっこいい）触手機構の元になったSpiRobsの論文で、特許を申請するって書いてあった気がするんだよな。

ethan_smith 2025/07/16 04:37:33

SpiRobsチームは2019年に空気圧連続体ロボットの特許（US20210170594A1）を申請して、2021年に公開されたけど、まだ承認待ちみたいだよ。

lukeinator42 2025/07/15 16:54:35

でも、もし論文で既に説明されてたら、それって先行技術（prior art）にならないの？

blamestross 2025/07/15 16:58:49

論文の著者が特許申請してるなら別だよ。そうでなきゃ誰も論文なんか出さなくなっちゃうでしょ。

jameshart 2025/07/15 17:50:37

特許はアイディアを初めて公に開示するためのものなんだ。特許申請する前に開示すると、特許が無効になることもあるよ。USには1年の猶予期間があるけど、ほとんどの国では公開した時点で特許不可になっちゃう。詳細はここを見て: https://outlierpatentattorneys.com/patent-public-disclosure

varispeed 2025/07/15 17:01:55

これ聞くといつもイライラするんだよね。ある人にとっては”発見”がすごく当たり前すぎて、論文どころか特許なんか取る気にもならない。なのに誰かがそれを特許にしちゃうんだから…

dotancohen 2025/07/16 05:24:45

例ある？

記事一覧へ

著者

海外テックの反応まとめ

暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。