AI搭載の馬車だと!?結局使えないAI機能にエンジニアもゲンナリ…
引用元:https://news.ycombinator.com/item?id=43773813
めっちゃわかるわー。AI機能って9割が付け焼き刃でマジ使えんし、値段もバカ高いし。SaaSによってはAI機能つけるだけで料金50~100%増しとかふざけんなって感じ。コーディングAI以外でマジ使えるAI機能が思いつかない。CopilotとかAiderとかClaude Codeは神だけど、LLMで改善されたツールって他に何がある?GmailとかiMessageの自動補完は前からあるし。Gmailのメール書き換え機能とか一度も使ったことねーわ。メール書くならGmail開く前にClaudeとかChatGPT使うし。
AIで最高の体験って、モデルの邪魔をしないシンプルなアプリなんだよね。例えばchatgptとかcursor/windsurfとか。開発者がAIでもっと良いアプリを作れるようになれば、cursorみたいな瞬間がもっと増えるかもって期待してる。
結局、製品って一つか二つしかないんじゃない?画像生成入れるなら二つ。Cursorが優秀なのは、コード編集がLLMの基本機能と似てるからかも。誰か反論してくれ。chatting以外の、真に革新的なAI製品を3つ挙げてみて。
1. ただのラッパーとチャットするだけじゃないもの(ファイルアップロードでコンテキスト追加すればLLM単体でできる)。
2. 長年ある伝統的なMLじゃないもの(LLM革命の一部じゃない)。
3. コード書くのに関係ないもの。
例:IoTデバイスのトラブルシューティングAIチャットボット。マニュアルの手順を繰り返すだけで、ドキュメントにない問題は解決できず。結局、人に繋いでもらった。Amazon Qも同じ。AWSの質問したら「わからん」って。chatgpt.comなら答えあるのに。AI製品ってChatGPT/Claude/Geminiの劣化版ばっか。低賃金労働者をAIで置き換えるって戦略も、クソ製品を生み出すだけ。
コーディング以外だと、GoogleのNotebookLMは複雑なドキュメント分析に便利だよ。規格とかAPI仕様とか。でも、アクションできないAIチャットボットは、ただのドキュメントの繰り返し。サポートに連絡するのは、ドキュメントにないこととか、介入が必要なことだから。AIが介入できないなら、ただの検索の進化版。
構造化されたアウトプットが必要なもの全部。医療面談記録とか裁判記録とか通話記録からフォームに入力したり、エージェントが代わりに色々やってくれるチャットボット(電話でホテル予約とか)、システムで直接フォームとかダッシュボードとかページを生成したり。
もしLLMが今できるのがそれだけなら、俺の仕事は定年まで安泰だわ。
LLMのおかげで、あらゆる分類問題がマジで簡単&安く解決できるようになった。ただ、それは「革新的なAI製品」じゃなくて、ビジネス指標を改善する普通の製品ってだけ。残念ながら、誇大広告のネタにはならないね。
LLMをデータパイプラインに入れると、「これまで不可能だった」ことが色々できるようになる。例えば、受信メールからイベントカレンダーを自動生成するとか。
https://www.indexself.com/events/molly-pepper
(これ俺のやつ。バグ修正/アップデート予定。試したい人は連絡して)。他にもチャットとかコードじゃないLLMアプリをいくつか開発中。革新的とは言えないけど、条件は満たしてると思う。
ちょっとパターンマッチング知ってて、根気よく100個くらいのパターン書けば、これと同じこと素人プログラマーでもできるんじゃね?
Long tailとか、タイプミスへの対応とか、否定の理解とか。自然言語が「根気よく100個くらいのパターン書けば」できるくらい簡単なら、90年代初頭には便利な自然言語インターフェースがあったはずだよ。80年代後半でも。
これってちょっとアンフェアじゃね?Chatはインターフェースであって、アプリじゃないっしょ。
使える単語とかトークンの並びを作るのはアプリじゃん。
>このデモはメールを書く代わりに、AIにメールを読ませてるんだね。
>LLMが要約うますぎて、AIからのメール1通だけ読めばよくね?
>XとYから返信が必要なメールが今日2通届いてるよ。2日前のが1通未対応だよ。返信の確認送る? 登録してないニュースレターから6通メールが来てるよ。何か買った後で登録されたんだね。全部解除する?(永久ルールにする?)
LLMにPDF食わせたけど、意味不明なこと言われたことあるし。メールの要約を正確にやってくれるか、ちょと信用できないな。
うちのマネージャーがAIを使って全部要約してるんだけど、オファーの重要な注意点を見逃してた。徹夜でオファー修正したけどね。20ページじゃなくて1ページだけ読んだってことか…。
これって当てはまるかわからないけど、自分の犠牲でマネジメントのまずい選択の結果を隠蔽するのはマジでやめた方がいいよ。マジで悪化するから。
防げることを放置してダメにするのは、キャリアアップの機会を逃してるし、失敗するチームの一員になるリスクがあるよ。
会社のために解決する方法を見つけて、自分の手柄にするのが賢いやり方。
経験は人それぞれだと思うけど、俺の場合は逆だな。火消しする人なんて誰も気づかないし、「ジョンが火をつけたけど、俺が消してる!」って言うと、ジョンを晒し者にしてるみたいで感じ悪いじゃん。
火災予防士に気づく人なんて、もっといないし。
火を消すんじゃなくて、予測するんだよ。そして火事が起きたら「ほらね?」って言う。
まあ、そういう細かいことはどうせマネジメントが弁護士を雇って対応するべきだよね。 うんうん。信頼できるドメインエキスパートはめっちゃ大事。 LLMって、技術的なメールを要約するのにはマジで向いてないんだよね。細かいところが重要なのに。でも、エラーに寛容な組織なら、しばらくは誤魔化せるかもね。 正直、AIの機能を作るのって全然楽しくないんだよね。AIで価値があるのは翻訳くらいかな(でも、元の言語が分からないからハルシネーションに気づけないけど)。あとは、chatGPTに友達に関する面白い話を書いてもらって笑わせるとか。個人的には、仕事でAIを有効活用できる場面がないんだよね。 字幕付きの動画から字幕を抜き出して、Whisperで字幕を生成したり、いくつかのAIに.srtとか.vttファイルを翻訳させたりして試してみたよ(subtotextを使えばメタデータでトークンを消費せずに済むと思う)。 Garminがgen-AIのワークアウトメッセージを有料で提供しようとしてるんだけど、マジで意味不明なAIの塊だよ。Stravaも同じ。メンタルのためにワークアウトしてるのに、AIが押し付けられるのが嫌だわ。せめてClippyみたいに可愛ければいいのに。 Stravaの社員は、AIのアクティビティサマリーはライトユーザーに好評だって言ってるらしいよ。運動生理学を知らないユーザーは、指標とかグラフの解釈ができなかったんだって。本当かどうかは知らないけど、あり得なくはないかな。個人的にはAI機能をオフにしたい。無駄なスペースだよ。 >コーディング以外のAI機能で楽しいと思えるものがなかなか思いつかないんだよね。 問題は、誰もそんなもの読まないってことじゃない?自分は会議の議事録を(AIなしで)6ヶ月くらい取ってるけど、自分以外誰も見てないと思う。自分自身も1、2回しか見返してないし。 会議の議事録係がいる意味って、少なくとも一人は会議中にちゃんと話を聞いてる人がいるってことじゃないの? 何が問題なの? その通り! 反論:100%正確なメモを確実に作成できる人間を見せてくれよ。 マジメな話、みんな自分の提出するものをダブルチェックしたり、校正したり、レビューしたりしないの? 友達がAIに最高裁判所の係争中の事件の概要を聞いたんだ。そしたら判決、多数意見、反対意見、全部出てきたんだって。問題は、その事件まだ起こってなかったってこと。 それは事務員が「US vs Wilsonなんて事件はなかった」って言うようなもんだよね(まあ、名前がよくあるから多分あるだろうけど)。AIには誤解したかも、っていう概念がないんだよね。AIは事件が起これば良い要約をしてくれるだろうけど、そうでなければ事件を作り上げるんだ。 そうそう。それがLLMを使うことのまさに問題点なんだよね。現実に基づかないテキストを平気で作り上げるんだ。それがLLMに対する俺の唯一の問題点なんだ。 会議の参加者だけが見るなら、100%正確じゃなくても大丈夫でしょ。議論された内容を思い出せる程度で十分じゃない? 不正確かもしれない記録なんて、自分の記憶を頼りにできるなら価値がないと思うな。人間の記憶はかなり当てにならないから、記録のポイントは正確さにあるんだよ。 LeexiのAI議事録作成ツールは、会議中に挙手(または割り込み)して、明確化を求めることができるの? 結局は、自分が何を求めてるかってことだよね。AIはそこを解決してくれないじゃん?UIにAIを組み込む実験を色々したけど、ほとんどのユーザーって自分が何をしたいか分かってないんだよね。目標をはっきり言えないし。AIはそこを埋めてくれないし、むしろ曖昧さを増幅させるかも。AIは新しいツールの学習を楽にするけど、逆に言えば、真の習得への道をショートカットしちゃうかもね。AIが全部やっちゃうと、ユーザーはなんでそれをしてるのか深く考えなくなる。軽い使い方ならいいけど、専門性とか問題解決能力は落ちるよね。だから、AIはすごいけど、「とりあえずAI入れとけ」みたいなのは、エンジニアが考えるのをChatGPTに外注してるだけかもね。 >They struggle to express their goals clearly, and AI doesn’t magically fill that gap—it often amplifies the ambiguity.” エージェントを使ってて思うのは、タスクから逸れたり、実装をフラフラ変えたりすること。知らないことを認めないで、力ずくで解決しようとするんだよね。試しにやってみたり、問題をちゃんと調べたりしないと分からないのに。結局、ドキュメント読んで自分で終わらせるしかないんだよね。エージェントは何をすればいいか分かってないから。 ステップ3が抜けてるんじゃない?エージェント構築の重要なのは、どこで苦戦してるかを見て、プロンプトとか環境を改善することだよ。効果的なプロンプトの作り方はいっぱい記事が出てるけど、共通して言えるのは、問題領域に合わせてエージェントがたどるべき推論ステップを分解すること。力ずくで解決しようとするって話にも繋がると思う。エージェントの環境では、タスクを解決するのに十分なツールと情報があることと、ツールや情報が多すぎて迷子になることのバランスが大事。これもエージェントの動きを見て改善していくしかない。 技術的な知識がないのに、もっともらしい説明で技術的な選択を正当化しようとする、頭の悪い人たちをよく見るよ。同僚がChatGPTで部品のデータシート調べて、それをそのまま繰り返してたけど、その内容はうちのケースと全然関係なかったんだよね。古いプログラミング世代が引退したり亡くなったりして、10年後には、知識を独占してるのが、知らないことを知ってて、適切な情報源(言語モデルも含む)を使ってギャップを埋められる人たちになるだろうね。それ以外は、イディオクラシーみたいになるかもね。イライラする人から面白い人まで色々だろうけど。 顧客とかPM/POが何を求めてるか探る時に、開発者は曖昧な状態から質問を重ねて明確にしていくよね。AIにも同じように質問させればいいじゃん。大量の質問データで学習させてるから、一部のエンジニアより上手くできるかもよ。AIを使うことで、過去に似たような問題が解決されたことがあるかもって推測できる。データベースアクセスを毎回ゼロから作らなくてもいいのと同じ。ORMとかをググって検討するじゃん?AIが直接的な解決策をくれなくても、会話してるみたいに脳を刺激してくれる。 インタラクティブなウィジェットがLLMに繋がってるのが面白いね。 ありがとうございます! @LewisJEllisと私が作った「vibe writing」っていうフレームワークは、markdownで書いて、vibe-coded react componentsを追加できるんだ。めっちゃ楽しいよ! 早くvibe-codeって言葉を使わなくなる世界になってほしい。 vibeって言葉は、そのコンテンツに興味がないってサインになるから、逆にありがたい。 ジャズ・バイブ奏者のレジェンド、Gary Burtonは、このコメントに悲しんでるみたいだよ。 ちょっとチェックしてみるかな。良いジャズは大好きなんだ。教えてくれてありがとね。 「vibe-coded」って公言してるソフトには、興味も信頼も失せるよね。 他にどんなのが良いの?AI-hack?Claude-bodge? ダサい言葉だけど、ダサい仕事にはダサい言葉がふさわしいんじゃない? 俺のウェブサイトもMDXを使ってるけど、マジ最高だよ。YC ResearchがHCIの実験に資金提供してた頃の、Bret Victorのインタラクティブなチュートリアルを思い出すな。 MDXはマジで最高。めっちゃ便利なツールだよ。 頭の中にあった絵がページに現れた時はマジで感動したよ。例えば、このプロンプトの図。 実際に使えるインタラクティブなエッセイの良い例だね。 これはマジで動くデモだ。 その通り。llm.koomen.devはCloudflare workerでopenaiにリクエストを転送してるんだ。DDOS攻撃が心配だったけど、今のところ大丈夫。トークンもめちゃくちゃ安いし。 ブログの作者は賢そうだけど(現実のユーザーが彼の考えた凝った機能をどれだけ使うかっていう点では疑問が残るけどね)、彼がOpenAIのAPIを使わずに、単にキャッシュされたレスポンスをランダムに返してるだけだといいなー。APIにアクセスしてないことを祈るよ。 いくつか試してみたけど、ちゃんと答えてくれるね。たぶん、APIキーに制限をかけて、上限に達したら応答しなくなるんじゃないかな。 未来の人たちがコンピューターに向かってうなり声を上げたり、身振り手振りをしたりするミームみたいだね。 それいいね!どうやって作るんだろ? Outlookのボタンを一度使ってみたら、要約が元のメールより長かったよ。 AIエージェントで一番使えるやつって、気づかれないことが多いと思うんだよね。 > Most mail services can already do most of this” スパムフォルダの中をごみ箱あさって、重要なメールを探すのもやめたい。 派手でセクシーであることじゃなくて、新しい技術を便利なことに静かに使うようになるのが楽しみだよ。もうすぐそうなると思うけど! マジレスすると、AIバブルは弾けると思うなー。アポのリスケとか、ちょびっと便利になる程度のタスクに、何千億円も出す価値ないっしょ。技術的には可能だと思うけど、投資回収できなくね?まずはトレーニング費用とか帳消しにして、余ってるハードウェアを激安で使うしかないんじゃない? それ、めっちゃわかる。 AIって、なんか予測できる文章を書くと思ってる人多いけど、全然そんなことないんだよね。プロンプトで改善できるし、完全に人間にすることも可能。画像生成も同じで、Boring Reality(https://civitai.com/models/310571/boring-reality)とかもそう(NSFW注意)。BigCoはモデルの安全性で綱渡りしてて、わざと不気味の谷を作ってるんじゃないかな。AIが“ピート”みたいに話せると、みんな不安になるから、HRのドローンみたいな話し方にしてるんだと思う。 >俺の仮説はBigCoはモデルの安全性で綱渡りしてて、わざと不気味の谷を作ってるんじゃないかな。もしみんながAIが“ピート”みたいに話せると知ったら不安になるから。認識の不協和音はボットが本物の人間の代わりにHRのドローンのように話すときには始まらないんだ。” Mr.インクレディブルのロボットの声思い出した[1]。わざと単語ごとに区切ってて、すごいロボットっぽいんだよね。当時のテキスト読み上げソフトはもっと自然だったけど、Mr.インクレディブルの声の方がロボットっぽくて良かった。 プロパンにプロパンの匂いを足すみたいな? それって音楽的なリングモジュレーションとは違う気がする(30Hz以上のモジュレーターとか、信号を反転させるとか)。Audacityで確認したら、信号がカットされてるだけで、反転はしてなかった。 面白いことに、普通のAIの問題を隠してるだけなんだよね。みんな普通の画像の問題は知ってると思うけど、その例にもAIの問題がたくさんある。特に手とか背景とか。 >完全に人間にすることも可能ってどういうこと? ベースモデルで遊ぶと、タイプミスとかスラングとか入ってくるし、悪口とか無意味なネットの炎上とかも生成するよ。 インタラクティブなデモがライブなのめっちゃ良かった!もっとコメントを表示(1)
Whisper large-v3はかなり優秀で、chatgptとかGoogleのデフォルトの音声認識とほぼ同じ翻訳結果だったよ。面白いのはLLMにテキスト翻訳をさせる時だね。
Love Lineのラジオ番組をWhisperで文字起こししたりしてるんだ。DVDとかも全部文字起こししたいんだよね
会議が多いなら、AIの議事録作成ツールが議事録を取って、構造化された要約、フォローアップメール、To-Doリストを生成してくれるのはマジで革命的だよ。(免責事項:LeexiっていうAI議事録ツールのCTOです。)
そもそも、Confluenceみたいな今の企業のイントラネットでコンテンツを見つけるのが大変だし、AIが生成したテキストが大量にあっても意味ないと思う。
メモを取ることは色々役に立つよね。眠気覚ましにメモ取ることもあるし、後で必要になるかもしれない情報を共有する退屈な会議とかでさ。誰も読まなくても、読むことを目的としてないから問題ないんだよね。
昔の会議のメモが欲しいって思うことよくあるんだよね。決定を下した良い理由があったはずなのに、今じゃ思い出せないんだもん。ほとんどの会議ではそんなことないけど、自動でメモが取れて、後から簡単に検索できたら最高だよね。
もちろん、注意しないといけない点もあるよ。会議のメモが記録として残ってると、裁判所から提出命令が出される可能性があるんだ。つまり、メモを取る会議はレベルが高くなって、みんなが考えてることを気軽に共有できなくなっちゃうんだよね。たとえ悪いアイデアが却下されたとしても、裁判所はそれを提案した人を嫌な奴だと思うかもしれないし。
メモは色々役に立つんだよね。
100%正確なメモを確実に生成できるLLMを見せてくれよ。それが無理なら、ナンセンスな内容が将来の参照資料や証拠書類になる会社で働くことを受け入れるしかないね。
マジで、その人雇いたいわ。
俺は恵まれてるだけかもしれないけど、事実と異なる文書を作成する人は、俺が今まで働いてきた組織では文書作成を続けられないんだよね。
タイプミスとか、スペルミスとか、フォーマットが悪いとかの話じゃないんだよ。事実関係の話をしてるんだ。LLMは100%正確なテキストを生成できるけど、事実関係をめちゃくちゃにするんだよね。それは俺の同僚とかチームの仕事ではありえないことなんだ。
全部作り話で、指摘されたら認めたらしい。
人間の法律事務員なら、「US v. WilsonじゃなくてUS v. Watsonのことだと思った」みたいなミスをするかもしれない。でも、人間なら事件そのものを捏造して、詳細な情報まででっち上げたりしないよね。
だから、AIのミスは、俺たちが慣れてて見抜きやすい人間のミスとは違うと思うんだ。だから見つけるのが難しいかもしれない。
人間が議事録を作成する場合、リアルタイムで情報を整理することで、矛盾する情報を特定し、その場で対処できることが一番の効果だと思うんだ。そのためには、ドメイン知識と会議の参加者に関する知識が必要になる。
もしAIが私みたいにリアルタイムで会議に参加できたら、大きな違いになるだろうね。もっとコメントを表示(2)
驚いたのは、システムプロンプトを書いて、エージェントがタスクを実行するのを見て、間違ったところを観察して、指示を改善するためにプロンプトを更新する、っていうフィードバックループが、効果的なプロンプトを書くのにめっちゃ役立つってこと。エージェントの成功と失敗を見ることで、指示に何が欠けてるかリアルタイムで分かるから、教えたりマネジメントしたりしたことある人ならすぐ分かると思う。
gmail/Geminiの文句を言うなら、一番ひどいのは「メールを要約」ボタンが、たった一行の「了解、ありがとう」みたいなメールの上にあること。これ以上どう要約しろって言うんだよ。
LLMがソフトウェアエンジニアリングの単なるツールになって、メインじゃなくなることを願うよ。
> https://koomen.dev/essays/horseless-carriages/#system-prompt…
MDXとclaudeはアイデアを表現するのにすごく便利。これをウェブアプリにすれば、どんなワープロよりも良くなるよ。コードはここ→https://github.com/koomen/koomen.dev
https://llm.koomen.dev/v1/chat/completions
にアクセスするとOpenAI API形式で、フィルタリングなしでどんなプロンプトにも反応する。トークンが無料ってこと?
企業がシステムプロンプトを公開したがらないのは、魔法を維持したいからだと思う。AIへの共通インターフェースがテキストプロンプトだと理解されたら、モデルだけが残る。もっとコメントを表示(3)
メールのラベル付けアシスタントがいい例だよ。ほとんどのメールサービスはすでに同じようなことができるから、AIを使うとしたら、人間の言葉をサービスのルールエンジンが使う形式に変換するくらいかな。すごく便利だけど、派手じゃない。一度設定したら忘れるしね。
”リスケジュール”メールを自動で解釈して、カレンダーの予定の差分を提案してくれるのはすごく便利だよ。ワンクリックで済むようになるからね。でも、派手じゃない。LLMが裏で動いてるなんて気づかないくらいがいいんだ。メールの横に「リスケジュールを確認」ボタンが魔法のように表示されるだけでいい。
セールスオファーを自動でアーカイブする?それはスパムフィルターだよ。すごく優秀だけど、ニュースレターのトップページに載せるようなものじゃないよね。
全部、すごく価値があるんだけど、セクシーじゃないんだよ!魔法使いの杖とキラキラのアイコンをつけて月額20ドルで売ることはできない。実際には車を手に入れてるのに、平均的なユーザーには馬なしの馬車のように見えるんだ。彼らはプロンプトプログラミングを学ぶよりも、魔法使いの道具を求めてるんだよ。
読みたいメールじゃないやつを削除するのに時間をかけなくなったら信じるよ。
ちなみに、ブルース・シュナイアーも同じようなこと言ってる。「喋るAIとかロボットはリングモジュレーターを使うべき」って。昔はロボットみたいな声を作るのが大変だったけど、今は簡単にできる。だから、昔の技術を使って、ロボットの声をまたロボットっぽくすればいいんだって。
[1] https://www.youtube.com/watch?v=_dxV4BvyV2w
タイプミスとかスラングとかを入れるってこと?
カスタムのシステムプロンプトを全部スキップして、自分のメールの統計的に有意な部分を分析して、そのスタイルで下書きを作らせることもできるかもね。
UIすら要らないかも!inboxに認証するだけでバックエンドで全部やってくれるサービスを売るとか。
そうすれば、不気味の谷現象も回避できて、レビュー後にメールを承認するだけで済むようになるかも。
AI生成コードのレビューみたいな感じ。
でも、これって本当に僕らが望んでることなのかな?
既にChatGPTに、自分になりきって(でも、もっと穏やかな言葉で)反論させて、それをSNSの返信にコピペしてるし。
それって、AIが自動で投稿して、承認を待つだけって状態の一歩手前だよね。
AIのせいで、みんな「作業者」じゃなくて「レビュー担当」になっちゃうのかな?