速報！GPT-4.1 APIに登場！OpenAI最新モデルの実力は？

速報！GPT-4.1 APIに登場！OpenAI最新モデルの実力は？

引用元：https://news.ycombinator.com/item?id=43683410

lxgr 2025-04-14T21:28:12

ChatGPTユーザーとしては、まだ使えないのがちょっと嬉しいかも。今はもう、どのモデルを使うか意識的に選ばなきゃいけないんだよね。
・4o（ウェブ検索、Canvas、Pythonサーバーサイド実行、画像生成ができるけど、CoTがない）
・o3-mini（ウェブ検索、CoT、canvasがあるけど、画像生成がない）
・o1（CoTがあって、o3よりいいかもだけど、canvasもウェブ検索も画像もない）
・Deep Research（めっちゃ強力だけど、月に10回しか使えないから、ほぼ使ってない）
・4.5（クリエイティブな文章に強いし、アナログチューブアンプのおかげで音も暖かいけど、遅いしリクエスト制限があるし、他の機能がどれだけ使えるのかもわからない）
・4oの”scheduled tasks”付き（なんでモデルなの？！他のモデルが使えるツールにすればいいのに！）
なんで全部自分で調べなきゃいけないんだろ？

throwup238 2025-04-14T22:03:11

＞Deep Research（めっちゃ強力だけど、月に10回しか使えないから、ほぼ使ってない）”
マジそれな。Gemini 2.5 ProのDeepResearchに切り替えたわ。有料ユーザーは1日に20回使えるし、OpenAIのDeep ResearchよりGeminiの方が10倍くらいページを閲覧するみたい（200～400ページ vs 20～40ページ）。
レポートは長すぎるけど、開発アイデアとか、特定のライブラリを使った複雑な方法とか、問題に対する別のアプローチとかを調べるのにめっちゃ役立ってる。vibe codingに陥ることなく生産性が上がる。

qingcharles 2025-04-15T03:13:39

マジか、上限があるの知らなかった。確認したことなかったけど、OpenAIの制限がリセットされるとすぐに使い切っちゃうから、控えめに使ってたんだよね。教えてくれてありがとう。
Deep Researchしか勝たん。ニッチな歴史トピックについて、中心となる記事がない場合でも数分で調査してくれる。今まで何日も何週間もかかってたのに。

namaria 2025-04-15T07:45:27

Deep Researchは好きだけど、歴史家として言わせてもらうと…歴史テーマで期待値を調整するために使ってみたけど、いいツールではあるけど…微妙な議論を無視して、ブログからのありふれた知識を返すことがあるんだよね。
歴史で一番好きなのは、還元できない複雑さがたくさんあること。一次資料と二次資料を読み込むことだけが、理解を深める唯一の方法なんだ。

fullofbees 2025-04-15T12:13:17

最近『存在と時間』を読んだんだけど、反復的に定義される概念がたくさんあるんだよね。色々問題はあるけど、100年前に書かれた未完成の本だから文句は言えないか。
長いから、Perplexity*に意味を思い出させようとしても、役に立つ答えが返ってくることはほとんどなかった。でも、難しいテキストだし、仕方ないかもね。色々な解釈があるし。
でも、Deep Researchに深い調査をさせると、変な場所から答えを引っ張ってくることに気づいたんだ。大学のサーバーにある論文とか、Redditとか、大学のチュートリアルのハンドアウトとか。オンラインで有名な哲学百科事典は使わないんだよね。
変だよ。テキストの読解を補強するために使ってたんだけど、AIによって情報へのアクセスと学習が混同されてるなって思った。
*私が使えるのはこれだけ。

laggyluke 2025-04-16T06:15:25

LLMに特定のテキストについて質問するなら、たとえ有名なテキストでも、モデルに”記憶から思い出す”させるより、プロンプトの一部としてテキストを提供する方が、ずっと良い結果が得られるかも。
例えば、こんな感じ: ”ここに『存在と時間』を含むPDFファイルがあります。存在の解明における不安（Angst）の重要性について説明してください。”

tekacs 2025-04-15T08:00:45

そうならないようにしたい時は、ソースを指定すると上手くいくよ。
例えば、ニュースよりも詳しく事情を知りたい時は、メディアを無視して、関係者の発言記録とか、書かれたものだけを見るように指示した。

namaria 2025-04-15T08:11:08

Deep Searchは最近のニュースにかなり使えるよ。ヨーロッパのある国の法的な動きを分析してもらったんだけど、素晴らしい概要を教えてくれた。

iamacyborg 2025-04-15T11:05:27

良いニュースソースなら、少なくとも一次資料を検証しようとするはず。LLMにはそれができないから、その使い方は意味がないんじゃない？

taurath 2025-04-15T09:08:49

LLMは広範な思考を一般化するのは得意だけど、例外的なことには向いてないみたい。知識曲線を自信満々に滑らかにする感じ。心理学で言うと、CBT療法だけが受け入れられているみたいなもので、個人のレベルではもっと効果的な方法がたくさんあるのに、人口レベルではそうじゃない。

antman 2025-04-15T07:48:17

なるほどねー。でもさ、ニッチな分野だとクロールされたページに情報がないこと多いじゃん？そしたら的外れな答えになっちゃうんだよね。Geminiの方がもっとページ見てるからマシな結果になるかもね。

chrisshroba 2025-04-15T00:17:55

Perplexityの3回/日制限、マジ良いよね！使い切っちゃっても（ほぼないけど）、次の日リフレッシュすれば良いし。

behnamoh 2025-04-15T02:02:10

DeepResearchって学術論文レビューでしか使ったことないんだけど、みんな何に使ってそんなすぐ上限に達するの？

jml78 2025-04-15T13:10:47

めんどくさいこと全部やらせてる。息子とコンサート行きまくってワッペン集めてんだけど、集め始めたのが最近なのよ。
30バンドくらいのワッペンリストがあって、欲しいものを具体的に指示したら、Deep Researchが全部ダイレクトリンク付きで返してくれたの。プロンプト書くのに2分で、あとは全部お任せ。

resters 2025-04-14T21:46:37

用途はこんな感じ：
o1-pro：正確さとか推論が必要な重要案件に使う。コンテキストが多くても一発でちゃんとやってくれる。
deepseek R1：アカデミックじゃない高品質な文章とか詩が欲しいときに使う。マジで最高。分析も速くて面白い。R1とGrok-3はレスポンス速くて推理もしてくれるから、アイデア出しに最適。R1はクリエイティブだし、文体とかトーンの真似も上手い。Grok-3はR1の改造版じゃないかなーって思ってる。
4o：画像生成。たまに他のことにも使うけど、コードとか分析は絶対しない。テキストから正確な技術図面作れるようになるの楽しみ。
o3-mini-highとgrok-3：o1-proが終わるまで待ちたくないコードとか分析。
claude 3.7：他のモデルがエラー出すときたまにコードで使う。新しい情報教えても古い情報に固執することあるよね。
Gemini models：たまに試すけど、今のところイマイチ。でも得意なことありそう。2.5 Deep Researchに期待。
Perplexity：他のモデルの検索機能が良くなったから解約した。
o3-proマジ楽しみ。早く出てほしい。

rushingcreek 2025-04-14T23:08:35

Phindは技術的な質問に対してMermaidの図を生成するように特化してチューニングされてるんだよ（創業者です）。

underlines 2025-04-15T12:00:11

Phind大好きだったし、PerplexityとかRAG検索エンジンの元祖だと思ってる。ドメインの重み付けできなくなって解約しちゃったけど…。技術的な質問に対する出力形式（オプション、賛成/反対、Mermaid図）はマジ最高。他のサービスより技術検索に強い。

bsenftner 2025-04-15T10:54:30

どこかでインタビュー受けたことありますか？あなたのストーリー読みたいです。

shortcord 2025-04-14T22:12:25

Gemini 2.5 Proはコーディング結構できるよ。Cursorで使うのに最高。Claude 3.7は制限多すぎ。

artdigital 2025-04-15T08:59:08

マジそれなー。2.5 Proはコーディングめっちゃ得意だけど、ちょー自信家で、何かうまくいかないと全部人のせいにするんだよね。「リンターが悪いから再インストールしろ」とか、「Goコンパイラのせいっぽい」とか、「この関数絶対あるはずなのにエラー出るのまじありえない」とか言うし。
あと、すぐ「はい、まだ動かない。直して、終わったら教えて。そしたら続きやるから」って投げ出してくる。でもコーディングに関しては、Gemini Pro 2.5 ＞ Sonnet 3.5 ＞ Sonnet 3.7って感じ。

もっとコメントを表示（1）

valenterry 2025-04-15T04:38:01

えー、マジ意外。俺的には、sonnet 3.7の方が集中力あるし、特に変更必要な箇所を見つけたり、他のツール使う時にめっちゃ優秀だと思うけどなー。Cursorとの連携が成熟してるからかな？

behnamoh 2025-04-15T02:05:25

わかるー。sonnet 3.7はじゃじゃ馬って感じ。Gemini 2.5 Proは33歳のベテランって感じかな。o1は、頼れる先輩って感じ。

benhurmarcel 2025-04-15T14:55:15

Gemini 2.5 Proは、動くけど複雑すぎるコードを生成しがちだと思ってる。Claude 3.7よりね。

torginus 2025-04-15T18:15:51

それって推論の副作用かもね。これらのモデルって、推論を使って数学やロジックのパズルを解くとき、めちゃくちゃ長くて複雑な思考の連鎖を生成するじゃん。それがそのまま解決策に現れるんだよね。
人間なら2～3ステップで済むのに。コード生成でも同じことが起きてるのかも。

motoboi 2025-04-14T21:50:48

知ってると思うけど、もう正確な図を生成できるよ。mermaidとかgraphvizみたいな図の言語で出力を要求するだけでOK。

resters 2025-04-14T21:58:50

マルチモーダルモデルなら、十分なトレーニングデータがあれば、めっちゃうまくできると思う。システムのテキスト記述とか図、図のソースコード(mermaid, SVGなど)、結果の画像を組み合わせて、全部相互変換できるように学習させるの。

bangaladore 2025-04-14T22:48:48

だよねー。こういうサービスはもうある(か、簡単に作れる)と思う。ユーザーが情報を提供 → LLMがモデリング言語で構造化された出力を生成 → 別のマルチモーダルLLMが生成されたグラフのスタイリング/配置の問題をレビューして、ユーザーのリクエストに合ってるか確認 → LLMがフィードバックに基づいて構造化された出力を生成…みたいな。
マルチモーダルモデルをファインチューンすれば、ワンショットで、もっと効果的にできると思う。

behnamoh 2025-04-15T02:06:13

latexのtikzで図を作る問題があったんだけど、sonnet 3.7は10回試してもできなかった。Gemini 2.5 Proは2回目で解決したよ。

gunalx 2025-04-15T06:48:01

同じ経験したわ。o3-miniはマジでダメダメ、claude 3.7もイマイチだったけど、gemini 2.5 proは完璧に解決してくれた。（ソースのない図の画像をtikz図に変換）

resters 2025-04-14T21:55:32

結果はバラバラで安定しない感じだなー。うまく近づいても、なかなか改善できないし。プロンプトのやり方を見直す必要がありそう。mermaidとSVGを試したけど、アドバイス通りgraphvizも試してみる。

antman 2025-04-15T05:21:17

Plantuml（action）の図が私のお気に入り。

wavewrangler 2025-04-15T00:03:49

知ってるかもだけど、一応言っとくね。私がよくやるのは、必要な図の元データを読み込ませて、それを“印刷準備OK”な画像として再構築させること。ネイティブじゃないけど、時間短縮になるし、構造化されてないデータでも意外とうまくいくんだよね。ネイティブじゃないし、ナイーブだけど。いつも念入りにチェックしてね！

cafeinux 2025-04-14T22:39:47

＞4．5（クリエイティブな文章作成に優れていて、アナログ真空管アンプを使用しているため、より暖かく聞こえますが、速度が遅く、リクエストが制限されており、他のどの機能をサポートしているかわかりません）
それってLLMのハルシネーションじゃない？

SweetSoftPillow 2025-04-15T06:44:45

gemini 2.5 Proに乗り換えれば幸せになれるよ。すべてにおいて優れてる。

miroljub 2025-04-15T10:48:01

そんなことない。クローズドソースだし。でも、Googleはプライバシーに関しては最悪だよ。私は、自分のデータを第三者と共有する可能性のないオープンソースのモデルしか使いたくない。

modeless 2025-04-14T17:28:12

SWE-bench VerifiedとかAider Polyglotとかの数値比較だね。GPT-4.1はSWEが55%、Aiderが53%、コストは$8、速度は169 tokens/秒、知識のアップデートは2024年6月だって。これって完全に同じ条件じゃないかもね。Tokens/秒のデータは[https://artificialanalysis.ai/models/gpt-4o-chatgpt-03-25/pr…]からで、4.1は4oと同じ速度って仮定してるみたい。Cursorで使えるかな？

anotherpaulg 2025-04-14T23:54:08

Aider polyglotのリーダーボードをGPT-4.1とかで更新したよ。結果はOpenAIの数値とだいたい同じ。Gemini 2.5 Proが一番良いスコアで72.9%、コストは$6.32。GPT-4.1は52.4%で$9.86。Aider v0.82.0もリリースされてて、新しいモデルに対応してるよ。[0] [1]を見てね。

pzo 2025-04-15T03:55:16

DeepSeek R1とDeepSeek V3の組み合わせって試した？ DeepSeek R1とclaude-3-5-sonnetの組み合わせが3位みたいだけど、V3がClaude 3.5より良いから、R1とV3の組み合わせは2位になるんじゃないかなと思って。

anotherpaulg 2025-04-15T03:28:11

最近はGemini 2.5 Proをよく使ってるよ。よく聞かれるからFAQに統計情報を自動更新するようにしてるんだ。[0] Gemini 2.5 Proが88.1%を占めてるね。

jsnell 2025-04-14T18:09:37

[https://aider.chat/docs/leaderboards/]だとGemini 2.5 Proは73%って書いてあるよ？ベンチマークのコストも追加されてて良いね。出力トークンあたりのコストは、モデルがどれだけ考えるかでトークン数が変わるから、参考程度にしかならないかも。

もっとコメントを表示（2）

anotherpaulg 2025-04-14T20:47:29

Aiderの作者だよ。GeminiチームがAiderの”diff-fenced” edit formatに対応してるのを知らなかったみたい。Geminiモデルに合うように調整してるんだけどね。Aiderはトップモデルに合うように調整してるんだ。それがAiderのベンチマークの理由だよ。Aiderは最高のAIコーディング結果を出すために、モデルごとにプロンプトとかを調整してるよ。

BonoboIO 2025-04-14T23:08:11

素晴らしいツールをありがとう。Aiderは大きなコードベースを扱うときに概要を把握するのにマジで助かる。

modeless 2025-04-14T22:57:45

チューニングはAiderをより便利にするけど、Aiderで使うモデルを決めるためのベンチマークとしては良いけど、他のツールで使うときのモデルの品質を評価するのには向かないかもね。チューニングされたモデルがチューニングされてないモデルより優れてるのは当然だし。

jmtulloss 2025-04-15T02:52:07

別の見方もできると思うよ。どのモデルも、ちょっとしたプロンプトの違いで結果が変わってくるから、実際に使う人はモデルに合わせてプロンプトを調整するはず。Aiderはモデルの能力を最大限に引き出すことはできないけど、努力すれば達成できることの目安にはなると思う。

modeless 2025-04-14T18:23:07

Googleが出してるスコアが“diff”モードと“whole”モードで違うみたいで、他のやつは“diff”だったから“diff”のスコアを選んだんだって。マジで正確な比較は難しいよねー。

jsnell 2025-04-14T18:27:53

今のリーダーボードの73%は“diff”を使ってるよ。“whole”じゃない。（正確にはdiff-fencedだけど、違いはファイル名の場所だけ。）

modeless 2025-04-14T18:37:19

AiderがGeminiのために特別なモードを作ったっぽいね。Googleが公式のパフォーマンスを発表した後だけど。でも、他のスコアと並べて引用するのはどうかなー。まあ、特別なモードがなくてもGeminiの69%がトップスコアだけどね。[1] https://aider.chat/docs/more/edit-formats.html#diff-fenced:~…

jsnell 2025-04-14T18:59:35

そのモードは発表後に追加されたんじゃないよ。Aiderはもう1年近く前から持ってるんだって。https://aider.chat/HISTORY.html#aider-v0320
このベンチマークには信頼できる情報源（リーダーボード）があるから、それを使うのが当たり前じゃない？

modeless 2025-04-14T19:07:07

でも、Geminiを良くするために追加されたんでしょ？リーダーボードの他の誰も使ってないし。Google自身も他のモデルと比べてベンチマークするときは使ってないよ。みんなが使ってる普通のdiffモードを使ってる。
https://blog.google/technology/google-deepmind/gemini-model-…

tcdent 2025-04-14T18:41:18

彼らはただ、提供している組み込みモードの中で一番良いパフォーマンスのやつを選んでるだけだよ。モデルの挙動についての面白いデータだけど、最適なパフォーマンスのためにモデルをどう設定するかの推奨でもあるよね。現実世界のパフォーマンスを評価してるんだから、これは公平なベンチマークだと思うよ。

meetpateltech 2025-04-14T17:42:25

Cursor[1] と Windsurf[2] でも使えるよ。
[1] https://twitter.com/cursor_ai/status/1911835651810738406
[2] https://twitter.com/windsurf_ai/status/1911833698825286142

tomjen3 2025-04-14T18:06:42

Windsurfで無料で試せるよ。
追記：Cursorでもできるようになった

ilrwbwrkhv 2025-04-15T01:56:53

GPT 4.1はマジで他のやつに比べて全然ダメだね。色々試した結果、良かったのは：
Deepseek：一般的なチャットとリサーチ
Claude 3.7：コーディング
Gemini 2.5 Pro experimental：深いリサーチ
値段的にはDeepseekがマジ最強！
OpenAIはピンチだね。

torginus 2025-04-15T18:21:10

マジか、俺のタスクの一つに、モデルに本まるごとテキスト食わせて、色々質問するってのがあるんだよね（「4章で何があった？」とか「Xってキャラは何した？」とか）。
GPT 4.1は、マジで初めて人間レベルの回答してくれたモデルだわ。プロットとかキャラのモチベーションをちゃんと理解してるっぽい。
テキスト処理ってLLMにとって超重要なユースケースだし、これはマジで注目すべきだと思う。

soheil 2025-04-14T20:01:46

CursorとWindsurf、どっちもイエス！
https://twitter.com/cursor_ai/status/1911835651810738406

swyx 2025-04-14T18:47:15

OAIがGPT 4.1専用のプロンプティングガイド出してんの、マジ見逃し厳禁！エージェント作る人向けで、新しいオススメは：
・モデルに粘り強くあれって言う（+20%）
・toolcallを自分で注入/解析しない（+2%）
・プロンプトで計画させる（+4%）
・JSONはダメ。XMLかarxiv 2406.13121(GDM形式)使え
・指示+ユーザーの質問は一番上と一番下に書け。下だけはマジでダメ
・ALL CAPSとか賄賂とか脅しは効果ないっぽい
ソース：https://cookbook.openai.com/examples/gpt4-1_prompting_guide#…

pton_xd 2025-04-14T19:16:00

LLMの隆盛で一番ムカつくのは、エンジニアリングが全部トライ＆エラーの手探りになっちゃったことだわ。「これ試せ、あれ試せ、そしたら+5%改善するかもね」みたいな。なんでそうなるかは知らんけど。
マジでそういう働き方嫌い。

zoogeny 2025-04-14T20:01:25

トライ＆エラーの手探りって、実験とそんな変わんないと思うけどね。
昔、ゲーム業界でマルチコアがマジで出始めた頃に働いてたんだよね。Xbox-360とかPS3の時代かな？主要なプラットフォームが全部マルチコアになった世代があったんだよ。
誰もゲームでマルチコアをどう使うのがベストか知らなかった。色んなチームが違うアプローチを試して、「これやったらx%改善するかも？」みたいなテックトークによく参加したわ。実験の嵐だったね。ベストプラクティスがちょっと標準化されるまで数年かかった。
そういう時代にイライラする人もいれば、自分が何かを発見できる広い分野だって喜ぶ人もいた。

jorvi 2025-04-14T21:53:30

そうそう、X360とPS3の世代だよね。X360は3コアで、PS3は1+7コア（big.littleみたいな構成）。
でも、ゲームがちゃんとマルチコアを使い始めるまで、マジで何年もかかったんだよね。レンダリングに16.67ms/8.33msしか使えなくて、しかもレンダリングがワールドの状態に縛られてるから、全部が繋がっちゃうんだよね。
今でも、実際に負荷がかかってるコアは2～4個くらいじゃないかな。

Nullabillity 2025-04-15T15:25:55

パフォーマンス最適化は違うんだよ。だって、一応ベースラインとなる真実があるじゃん。FPSって何かわかってるし、+5% FPSは+5% FPSなんだよ。トリッキーなケースでも、何かしらの境界線があるし（このハードウェアでは+5% FPSだけど、別のハードウェアでは-10%とか、この条件を満たすシーンでは+2%だけど、それ以外では-3%とか）。
一方、LLMの「良い」って何かって、誰も合意できないじゃん。ましてや、どうやって測るかなんて。

もっとコメントを表示（3）

hackernewds 2025-04-15T02:15:05

クロスハッチングで構造的にテストする方法はあったかもしれないけど、まあ、当てずっぽうだと時間がかかって同じ解決策にたどり着くかもね。

kitsunemax 2025-04-14T21:29:32

STEM分野で働く人によくあるパターンだと思うわ。形式的な証明とか方程式とか数学とかに慣れてる人が、スタートアップで働くことで、未知のこととか不完全な解決策とか、面倒な詳細とかに対応できるように自分を改造するんだよね。話が逸れちゃったけど、ちょっと共有したかった。

barrkel 2025-04-15T12:01:57

LLMのデメリットは、確率的で、気まぐれで、信頼できないこと。
メリットは、人間も確率的で、気まぐれで、信頼できないってこと。LLMは、人間とその曖昧なアウトプット（テキスト、画像、音声など）との間のギャップを埋める方法なんだよね。完全には信頼できないけど、昔よりずっとギャップが小さくなってる。
人間とかそのファジーなアウトプットとやり取りするソフトウェアを作ってなくて、ちゃんと定義されたスキーマを使えるなら、メリットは感じないだろうね。

pclmulqdq 2025-04-14T19:42:09

ソフトウェアエンジニアリングってここ10年くらい、試行錯誤と手探りの連続だったじゃん？それを今、形式化してるって感じ。

brokencode 2025-04-14T20:23:01

ちょっと気になるんだけど、何に取り組んでるの？色んな解決策を試して一番良いのを見つける必要がない仕事ってある？

FridgeSeal 2025-04-14T21:09:43

普通、実際にやるときは、ランダムに邪魔なものを投げ込んで上手くいくのを祈るだけじゃなくて、もうちょっと仕組みを理解してるよね。

RussianCow 2025-04-14T21:18:32

LLMはまだ若いからね。そのうちできるようになるって。新しいCPU/GPUアーキテクチャに合わせて最適化するのと何が違うの？って思うけど、後者はもう何十年もやってる事だしね。

th0ma5 2025-04-15T07:05:21

別にケチつけたいわけじゃないんだけど、それこそが問題の手探りってやつじゃん。どうしてできるようになると思うの？こういった技術が犯すエラーの種類は変わってないし、改善する方法について学んだことはどんどん変わって、誰もコントロールできない。他のものは決定論的だったから違うんだよ…

Closi 2025-04-15T07:28:13

コンピュータサイエンスでは決定論的だけど、他の科学分野（例えば医学）ではそうじゃないよね。あと、多くの科学では、そうなるまで非決定論的に見える（例えば、医学は理論的には決定論的だけど、実験的に確率的に推論する必要がある
ーそれは新しい薬が技術的な進歩ではないという意味ではない）。
エラーの種類は変わってないけど、エラーの量と深刻さは比較的短い期間で劇的に減ってるよ。

th0ma5 2025-04-15T16:41:31

問題はいつも、すべてのトークンが疑わしいってこと。

Closi 2025-04-17T06:32:25

大事なのは答え全体が正しいかどうかでしょ。GPT3と今の状況を比べたら、たった5年で正確さ、知識、知能の進歩がマジでヤバい。

Closi 2025-04-20T21:30:05

新しいfrontierモデルでは、ハルシネーションの量と深刻さがかなり減ってるよ。

girvo 2025-04-14T22:55:03

新しいCPU/GPUアーキテクチャに合わせて最適化するのと何が違うのかわからん。それってマジ？だって、それらのアーキテクチャにはドキュメントがあるし、ブラックボックスじゃないじゃん。LLMに対してやってることって、インプットを投げ込んで、上手くいくのを祈るだけって感じ。もしそれで最適化してるなら、マジで驚きだわ。

swyx 2025-04-14T23:14:40

もしローレベルのハードウェアエンジニアとかチップエンジニアに話したら、きっと笑って「また始まった」って言うんじゃない？

girvo 2025-04-15T03:16:35

いやー、そうでもないと思うよ。設計されたシステムと訓練されたLLMの間には、根本的な違いがあると思う。

RussianCow 2025-04-14T21:20:30

＞[citation needed]
俺の経験だと、単純なCRUDアプリでも、ドメイン固有の複雑さとかエッジケースがあって、それを解決するには実験が必要になる。

brokencode 2025-04-14T21:21:45

なんか、理想と現実が違うって感じだよね。
俺の経験だと、人気のあるプラットフォームでも、コアコントロールとかAPIにバグがあったり、ドキュメントが不十分だったりするし。パフォーマンスの問題も、試行錯誤なしには解決できないことが多い。

karn97 2025-04-15T15:54:52

LLMの知識のカットオフが1年前で、APIとかライブラリが変更されてる場合、役に立たない。

muzani 2025-04-15T09:04:07

LLMの長所であり短所でもあるのは、人間みたいに振る舞うこと。プロンプトのアドバイスって、人に教える方法と似てる気がする。先生とか親は有利だよね。

moffkalast 2025-04-15T12:07:11

統計的、ML的な解決策が嫌いな理由の一つがこれ。モンテカルロ法は、とりあえず弾を壁に投げつけて、当たるのを祈るようなもんで、何の保証もない。古典的な手法の方がクリーンで論理的だけど、性能が悪いから仕方なく不確実性を受け入れるしかない。

記事一覧へ

著者

海外テックの反応まとめ

暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。