天才現る!SQLiteとcronだけで作るハック可能なAI執事、その発想はなかった
引用元:https://news.ycombinator.com/item?id=43681287
これマジで便利すぎてヤバいんだけど、それともあの執事みたいな丁寧な言い回しが好きなのかな?
でも一番気になるのは、なんでこんなスゴイもんがAppleとかGoogleじゃなくて、このエンジニアのブログで紹介されてんの?こんなちょっとの機能すら、あいつらが出荷できないってマジ恥ずかしい。
もし、この独占状態を崩せるチャンスがあるとしたら、絶対にAI関連だよね。
それには良い答えがあるんだよね。特定の家族のニーズに絞ることで、ソフトウェアの開発速度が1000倍くらい速くなるんだって。これは、パーソナルソフトウェアの利点だね。
Appleの囲い込み戦略は、この意見に反論してると思うよ。アメリカには少なくとも2000万世帯が当てはまるんだ。
・家族全員がiPhoneを使ってる
・大人の家族はiCloud Mailを使ってるか、少なくともApple Mailで他のメールを読んでる
・家族はiCloudの連絡先とカレンダーを使ってる
・USPSのInformed Deliveryが使える(ほとんどの米国の住所で利用可能)
・郵便番号から天気がわかる
何が邪魔してるんだろうね?
全ての家族が同じ機能を便利だと思うわけじゃないから、開発する価値があるかどうか判断しなきゃいけないんだよね。それがマジ難しい。何が使われて、喜ばれるかのデータを集めるのが難しいから。
>何が使われて喜ばれるかのデータを集めるのが難しい
AppleとかGoogleにとっては、そんなに難しくないと思うけどね。
多分、誰もこれにお金を払いたくないんじゃない?運営コストを考えると。
そんなに高くなさそうだけどね。このレベルの要約ができるLLMは、GPU接続のRAMが12GBくらいあれば動くし、プロンプトを実行してるときだけ必要だし。
一番安い小型LLM(GPT-4.1 Nano、Google Gemini 1.5 Flash 8B)は、1プロンプトあたり1/100セント以下だよ。だって、安く動かせるから。
マジそれな!あと、Appleは高いハードを売るのが大好きだし、自分たちのエコシステムに飛び込むためなら、数千ドル払わせるのも全然平気だし。
家族向けのオンプレミスAI製品を簡単に提供できるよね。家に置いてルーターに繋ぐだけで、家族全員のAI処理をして、セキュアなVPNでLANの外のデバイスにも接続できる。
もし、このハックみたいなのでSiriがクソじゃなくなったら、2000ドルでも買うわ。
AppleとかGoogleみたいな良いプロダクト開発って、まさにこんな感じじゃない?
まず一つの家族にとって便利なものを見つけて、それが他の家族にも役立つか試す。
もしそうなら、プラットフォームレベルにスケールしていくって流れだよね。
それってvibe codingのおかげだよね。
確かに。Hypercardみたいなのが個人プログラミングを大衆化させると思ってたけど、LLMコーディングが必要なのかもね。「XYZみたいな簡単なタスクをするアプリが欲しいな」→「ChatGPTに作ってもらえないか聞いてみよう」みたいな。
これって「人月の神話」の最初の章に書いてあることじゃん。
>たまに新聞記事で、改築したガレージにいる2人のプログラマが、大規模チームの最高の努力を凌駕する重要なプログラムを構築したという記事を読むことがある。そしてすべてのプログラマは、そのような話を信じる準備ができている。なぜなら、彼らはどんなプログラムでも、産業チームで報告されている1000行/年よりもはるかに速く構築できることを知っているからだ。
>ではなぜ、すべての産業プログラミングチームが、献身的なガレージデュオに置き換えられていないのだろうか?何が生産されているのかを見る必要がある。
個人のデータが実験的なソフトウェアで扱われるデータベースに入るのは、この開発者にとっては問題ないかもしれないけど、GoogleとかAppleにとっては深刻なリスクだよね。
GoogleとAppleがイノベーションをやめたのは、既存の製品で儲けすぎてるから、新しいイノベーションを既存のビジネスに対するリスクとしか見てないからだよ。これは市場のリーダーにはよくあること。
Home Assistantを見てみなよ。SiriとかGeminiアシスタントよりも優れてると思うよ。
HAチームは毎月、実際に役立つアップデートをリリースしてる。例えば、アシスタントが積極的に何かを尋ねる機能とか。
GoogleもAppleも、プロダクトチーム間の連携に大きな問題を抱えてて、外部の企業との協力はほぼ不可能だと思う。
どうやってマネタイズするの?GoogleとかAppleがTelegramと連携する製品を作ると思う?オープンなエコシステムを持つものと連携する?
大企業がやってるのは、アヒルから卵をむしり取るのを早くしようとしてるだけ。
他の人も指摘してるように、これがAI Agent問題の核心だと思う。ユーザーごとに達成したいワークフローが違うから、「製品」や「SaaS」には向かない。何千ものオーダーメイド実装が必要になる。
どうすればこのハードルを乗り越えられるかわからない。僕のメールエージェントは、他の人のメールエージェントとは違う。
この話は「Unmetered AI」のコンセプトを示唆してるんだよ。ローカルでホストして、セルフホストのLLMで簡単に実行できる。
Edisonは自分の著作でNikola Teslaのことをどれくらい言及したんだろう?
これを聞いて思ったんだけど、僕のユーティリティアシスタントプログラム(君のStevensみたいな)がメールボックスにアクセスできたらどうなるだろう?
天気を聞いたり、システム固有のコマンドを実行できるユーティリティプログラムを持ってるんだ。便利だし、cronで定期的に実行することもできる。
もし専用のメールボックスがあれば、そこに情報を送って、AIに解析させて、メールを返信したり、新しいメッセージを送ったりできる。そしたら、すごく便利になるよね。メールを解析して、内部ストレージに追加して、僕のメールボックスをめちゃくちゃにせずにメッセージを削除してくれる。
最近、メールってAIアシスタントとのやり取りに良いインターフェースだなって思ってるんだよね。特に時間がかかる「リサーチ」みたいなタスクには最適だと思う。メールは誰でも使えるし、非同期だし、オープンな標準規格だし、構造化されたメタデータも使えるし。
前の会社でAIアシスタントを提案した時も、同じようなこと言ってたな。新しいUIを作って、ユーザーに使い方を教えるよりも、既存のUI(例えばOutlook)とかのツールを使った方がずっと安上がりじゃん。
メールが一分後に返ってくるのって、なんか早く感じるよね。チャットで同じくらいのスピードで入力されても、遅く感じる。 似たようなの作ってるよ。さっきの俺のコメント見て。 一歩先を行きたいなら、Googleが発表したAgent-to-Agentプロトコルを調べてみるといいよ。俺は今、自分のカスタムAIエージェントアシスタントを使って、生活のタスクを実行してるんだ。もしあなたのシステムみたいにもっと良いツールとかエージェントを組み込めたら最高だね。 メール、メーリングリスト、FTPサーバーを使って、適応型エージェントスウォームを構築したことがあるよ。もし、仕事でレイテンシーが最速である必要がなく、スレッドが途中で終わっても構わないなら、エンジニアの軍隊がいなくても構築できる、どんなカスタムソリューションよりも優れているよ。さらに良いのは、すべてのコンテキストを確認でき、エージェントと同じコマンドプレーンを使用して、何が間違っているのかを指示できること。 これを使って会社を作ろうとして、ずっぽりハマったことがあるよ。完璧なUIなんだよね。 面白いよね。これって、俺が普段、いろんな専門家とやり取りする方法と本質的に同じなんだよね。 >会社をこれで建てようとしてるって? >見込み客を開拓して顧客に変える方が、ずっと面白い問題だよ。 俺も似たようなの作ってんだよね。さっきのOPへのコメント見てみて。 メールってどうやって構造化されたメタデータをサポートするんだ?X headersのこと言ってる? うちの会社がメールでデータ送るの強制してくるんだよね。メールテンプレートがあって、それに合わせなきゃいけなくて、それを解析してるみたい。ほんとに基本的な改行と「LineItem:content」みたいな形式だけど。本文にJSONでもいけるはず。メールプログラムってHTMLを削除したり変更したりするから、XMLはやめといた方がいいかも。 もしかしてXMLのこと考えてる? メールって部署内のコミュニケーションにはいいよね。もしイントラネットで、送信側と受信側の両方をコントロールできるなら、MQTTとかntfyの方が柔軟性も高いし、複雑さも低いからオススメ。 もし相手が人間だったら、それらは会話できないじゃん。もしカスタムクライアントをインストールしたり実装したりすることで何か機能が使えるようになるならわかるけど、「2人の話者の会話をサポートする」なんて、俺が生まれる前からコンピュータがやってることじゃん。車輪が合うなら、なんで作り直すの? もし相手が人間なら、両端をコントロールできないからメールでいいと思うよ。サービスとかアプリケーション同士の通信にはメールは最適じゃないね。 記事のユースケースを考えてみて。これは家族の管理をサポートする、または「AI執事」アプリケーションなんだよ。だからLLMが載ってる方は俺が管理してるけど、もう片方は家族の誰でもありえるから、俺だけじゃないんだよね。だからみんなに俺の変なカスタムAIメッセージングアプリを使わせようとしない限り、みんなが使ってるところに合わせるしかないし、SMTPはSMSより安いじゃん。もしおもちゃを作るだけなら、好きなようにクライアントを実装できるけどね。React Nativeは難しくはないけど、めんどくさいことが多いし、このプロジェクトの楽しみはエージェントとの会話そのものなんだよね。それが一番早くできるようにしたいんだ。あと、もしこれが本当にうまくいくようなら、スマホの音声アシスタントと連携させたいし、そうなるとアプリが必要になるけど、プロトコルとアシスタントがすでにやり取りできるアプリから始めれば、実質無料でプロトタイプができる。 AI執事って、内部的には1つのサービスなの?それとも複数のサービス?天気とか家族のイベントカレンダー管理コンポーネントが、メールで互いに通信したり、オーケストレーターと通信したりするのは良くないよね。雨が予想されるから、予定してた家族のイベントをリスケジュールするメールがAI執事から届くのは最高だけど、IMAPでサブコンポーネント同士を繋ぐのは違うと思う。 誰がサービス層でメールを使えって言ったの?そりゃ間違ってないけど、まるでバナナを渡されて、もっといいハンマーを選ぶべきだったって言われた気分だよ。少なくとも片方の端に人間がいる会話について話してるんだから、メールは理にかなってる。人間がいない会話なら、非同期の書き込み可能なキューみたいなものが欲しいなら、もっと良いストアとプロトコルがあるよ。「会話に参加してる人間の数」が最初に区別したことじゃなかったと思うけど、それに近いことを考えてたのかな。 これ、Microsoft主催のAI CTFの攻撃ベクトルだったんだって。エージェント作って攻撃評価とか自動化してみたら、よくある対策があってもデータ盗み出せたんだよね。18個のチャレンジクリアできたし。詳しくは[https://msrc.microsoft.com/blog/2025/03/announcing-the-winne…]見てみて。 Gmailとpubsub連携がマジですごいのよ。プッシュ通知になるから、サーバー側のフィルタとかで必要な情報だけwebhookで受け取れるの。LLMに連携して自動でタグ付けとかアーカイブもできるし。重要なメール(特定のラベル付けたやつ)が返信されたら、Twilioで電話するようにしてて、月20円くらい。 Macで動くTelegramのAIアシスタント作ったんだけど、コマンド実行してくれるの。「rootディレクトリでncdu実行して、ディスク容量食ってるやつ教えて」とか言うと、bashに変換してos.systemで実行してくれる。コマンドと結果が表示されるよ。めっちゃ危険だけど、ちょっと面白い。今は止めてるけど、安全なバージョン作れると思う。 簡単な解決策としては、コマンドを別のLLMにパイプして「このコマンドはホームディレクトリを削除しますか?(y/n)」って聞けばいいんじゃない? このプロジェクトには、USPSの情報扱うのと同じパターンがあるよ。[https://www.val.town/x/geoffreylitt/stevensDemo/code/importe…] 他の種類のメールにも対応できるように拡張するのは簡単だと思う。Val Townで働いてるから、質問あればどうぞ。 そうそう、実はメールも扱ってるんだ!共有バージョンに入れるの忘れちゃった。Telegramのインバウンドハンドラがだいたいのパターンだよ。 Telegramにした理由ってある?SlackとかDiscordでも良くない?もっと広い範囲でアシスタントとコミュニケーションできるかなと思って。PoCだってのはわかるんだけど、考えたことある?すごいね! Mailgun(とか他のサービスも)ってメール受け取って指定のURLにPOSTできるよね。日記に使ってて、毎日メール送って、それに返信するとDBに保存されるシステム作った。 Mailgunに+1。不満点は、フロントエンドでボットの活動を検知してブロックするところ。だからPuppeteerみたいなE2EテストでMailgunにログインして、メールが送信されたか確認できない。APIとやり取りするテストエンドポイントを手動で書く必要がある。#nocodeツールが増えてきてるけど、APIとやり取りするためにプログラミングを知らないといけないのは時代遅れになると思う。GUIが登場した時のターミナルみたいな感じ。バックエンド/フロントエンドの分割とか、分散状態とか、重複した検証とか、時間の無駄だと思う。 >日記に使ってて、毎日メール送って、それに返信するとDBに保存されるシステム作った。 CloudMailin[0]もメールの解析とかにめっちゃ使えるよ!Webhookに転送したり、送信もできるし。安定感も抜群で、ダッシュボードも見やすいし、毎月10,000通まで無料なんだって。マジおすすめ! メールボックスから読み書きするPythonコード書いてみたんだけど、読み込みはバッチリだったのに、送信したメールがどっか行っちゃった…スパムフィルターかな?サーバーを自分でコントロールできないと、こういうことあるんだよね。Mailgunなら改善されるかも。試してないけど。 https://unfetch.com 試してみて。(作ったの俺)。インバウンドもアウトバウンドのメールも扱えるよ。 似たようなの作ってる!まだ準備中だけど、数週間以内には公開できるかな。無料でサインアップしてくれたら、プレミアムティアに手動でアップグレードするよ(まだ買えないけど)。フィードバックくれたら嬉しいな! https://threadwise.app 昔、会社のCMSはメールをフロントエンドにするのが一番良いんじゃないかって提案したことがあるんだ。 編集が心配だなー。CMSってコンテンツの編集(タイポ修正とか)が簡単にできないと。メールで既存の投稿を編集するのって結構面倒じゃない? メールでコンテンツを受け取って、タグ付けされた構造で保存して、Wikiみたいに編集するってことだよ。 n8nとメールを使ってAI Agentを作ってみたんだけど、マジでうまくいくんだよね。誰もやってるの見たことなかったから驚いた。 便利そうだけど、それってAI Agentが必要なの? こういう実用的なAIハックが見たかったんだよ!特定のツールが存在する理由を忘れかけてる気がする。シンプルにするために!ベクターDBとか複雑なアーキテクチャとかじゃなくて、既存のデータソースとの実用的な連携が良いよね。 なんか、LLMのパーソナルアシスタントって言葉数多いのがマジでウザいんだよね。金持ちになって暇になったら可愛い会話とか楽しむかもだけど、今はJ.A.R.V.I.S.じゃなくてLCARSが欲しいんだよ。マジでそう思うの俺だけ? バトラーのギミックは最初は面白かったけど、SiriとかGoogleとかAlexaがムダにダラダラ喋るのが本当にムカつくんだよね!タイマーの確認?「キッチンのディスプレイでは、キャセロールタイマーが23分16秒です」じゃねーよ!「23分」とか「キャセロール – 23分、洗濯 – 10分」で済むだろ! eigenprompt試したことある? マジでTARSが欲しい。 LLMなしでもカレンダーとかTodoリストのUIを直接読み書きすれば99%の機能は実現できると思うんだよね。LLMの価値ってバトラーの音声くらい?単にノートブックを読んでるだけじゃない?例えば、コーヒーの好みをバトラーに覚えてもらうけど、それが実際に使われることはないみたいな? 俺も私と同じくらい簡潔なボットが欲しい。 ChatGPTの設定でこうしてるよ 似たようなオープンソースのプロジェクトを考えてるんだけど、いくつか条件があって。 まさにそれを作ったよ! SillyTavernってのを見てみるといいかもね。複数のバックエンドに対応してて、音声入力もできるし、プラグインシステムもあるんだって。 Open WebUIもおすすめだよ。ChatGPT/Claudeみたいなインターフェースで、いろんな機能がついててすごくいい感じのソフトらしい。 名前はよく聞くんだけど、チェックしたことはないんだよねー。名前からして時間の無駄かなって思っちゃう。もしかしたらすごいプロジェクトなのかもしれないけど、名前が損してるのかも? ハッカーニュース見て、Apple製品使って、Daft Punk聴いて、Stevenの記事読んで、Val TownでAI執事ホストして、SillyTavernの名前が気になるの?みんなllamaとかRaspberry Pi使ってるのに笑 SillyTavernは元々ロールプレイングモデルとして始まったんだよ。「酒場で誰かと出会う」みたいな感じでチャットするの。みんながいろんな人格を提供してて、アバターもあって、気分で変わるのもあるみたい。 複数のバックエンドを持つのは良いアプローチかもね。いろんなLLMをタスクに合わせて使い分けるみたいな。WilmerAIってのがSillyTavernとうまく連携して、LLMに適切にinputを渡してくれるらしい。 OSSフレームワークが欲しいなー。自分でスクリプトとかモジュールを追加できて、自分とか家族のためのアシスタントに特化したやつ。ストレージとか、チャットとかメールとの連携とか、カレンダーとかNotionとの同期とか、通知とか、そういう共通の機能がOSSフレームワークに入ってたらマジで強力だと思うんだよね。誰か作ってくれたらお金出す。 MCPみたいなものだけど、もう少しスコープを絞った感じかな? 最近、20kトークン(または2.5で50k)の「コンテキストトークンのスイートスポット」を回避する方法を試してるんだ。LLMがデータベースを使って情報を保存して、コンテキストが大きくなったら要約して新しいインスタンスに渡すんだ。思考モデルだと効果的で、データベースはRAGとして機能する。例えば、10kの部品/材料の在庫管理/BOM最適化エージェントを作ったりしてる。 キャッシングの改善にめっちゃ投資する会社が出てくるのをワクワクしながら待ってるんだよねー(多分Anthropicだといいな)。特に長期的な低コストキャッシュとか、差分圧縮とかに期待!キャッシュされた入力コンテキストから必要な部分だけ使う方法とかないのかな? それってキャッシュがモデル固有になっちゃうのが問題じゃない?キャッシュされたアイテムって、完全に同じ重みと推論エンジンじゃないとダメってことだよね?それってめっちゃイテレーションされてるじゃん。 プロンプトキャッシュって今は数分しか持たないんだよねー。GeminiとかAnthropicでその機能使うと最初に料金がかかるのは、計算結果をメモリに保持してるからだと思う。そのキャッシュを使うプロンプトには割引が適用される。 似たようなこと、Jeevesってやつを作ってみたよ。地味だけど、すぐできた。Claude Desktop、Projects、NotionとTodoist用のMCPを使ってて、次はメールとWhatsAppも試したい。コンサルとかスタートアップの生産性向上用。もっとコメントを表示(1)
https://threadwise.app
メールを自分で管理するより、誰か他の人がもっとうまくやってくれるなら、そっちに任せたいって感じ。もしあなたがもっとうまくできて、しかも手頃な価格なら、ぜひ使いたい。未来に向かう宇宙船に乗ってるみたいで最高。
テキスト+添付ファイルをシステムに入れて、テキスト+添付ファイルが出てくる。
ファイナンシャルプランナー、税理士、弁護士とか。メールを送って、メールを受け取って、たまに状況報告のメールが届く。
もちろん、電話もするし、ランチも行くけど、基本はメールだよね。
それ、めっちゃ賛成。メールベースのAI同僚って、ほぼすべてのB2B市場に食い込むための正解じゃん。技術的なことはあんまり触りたくないんだよね。LLMプロバイダーとE365とかGmailのメールボックスを連携させるコードを書くのは退屈だし。スキーマなんて、細かく言えば10個のテーブルで済むし。
見込み客を開拓して顧客に変える方が、ずっと面白い問題だよ。この新しいLLMツールに合う、具体的なユースケースが知りたい。絶対あるはずだし、メールが一番手軽に多くのビジネスに適用できる方法だと思う。
ほんとそれ。そこが一番難しいところだし、一番価値が生まれるところだよね。
https://threadwise.appもっとコメントを表示(2)
そうそう。日記とかメモの投稿はよく見るけど、これが一番いい方法だと思う。どんなクライアントからでも使えるし、拡張性も高い。万人向けではないけど、HNの読者層にはぴったり。
[0] https://www.cloudmailin.com
他にも色々あるよ。モバイルアプリは書きたくないけど、メッセージの送受信がしたいんだ。
・Telegram(OPのシステム)とbots
・MQTTとサーバー
・Notify (ntfy.sh)
・Email(定番)
・Mailgun
・CloudMailin
あと、simonwさんの言う通り、LLMのAPIコールは今は安いよね。特にこれくらいのトークン数なら。
HNのmarkdownだとリンクがうまく表示されないけど、頑張って入れたからそのままにしとく。
・添付ファイルは全部取り除いて、送信者/受信者/件名に基づいて階層構造でサーバーに保存する。
・ディスカッションは全部同じ基準でアーカイブして、Wikiみたいにレビュー、編集できるようにする。
お気に入りの使い方は、レシートを送ると、ざっくり解析して、明細と金額をスプレッドシートに書き出して、paperless-ngxにアップロードしてくれること。もっとコメントを表示(3)
>直接的かつ簡潔に。正式なテキストが必要な場合を除きます。絵文字は使用しないでください。頼まれた場合を除き。感情のある人間を真似しないでください。例えば”ごめんなさい”,”ありがとう”,”嬉しいです”など
1.バックエンドは、ユーザーがアクセスできるどんなLLM(有料サービスのAPIとか、ローカルでホストされてるものとか)でも設定できるようにしたい。
2.タッチスクリーンに接続して、Alexaみたいなデバイスとして使えるようにしたい。
3.カレンダーとか天気とか、いろんなものを統合できるようにしたい。
https://v3rtical.tech/public/sshot.png
ローカルで動いてるけど、いろんなLLMのAPIキーを使ってる。今はGroqでホストされてるQwQ-32Bがマジで速くて賢い。いろんなツールがいろんなLLMを使ってる。仕事で必要な3種類のドキュメント(業務報告書、請求書、規制タイムシート)を生成できる。天気予報の統合とか、請求書を解析してモバイルバンキングで簡単に支払いができるQRコードを生成するとか、カレンダーと連携するとか。
https://docs.openwebui.com/
Notionにクライアントとかプロジェクトとかのデータベースがあって、Jeeves用のもある。Jeevesが自分のデータベースをどう使うかは任せてるけど、指示はする。例えば、過去の会議メモを新しい構造に移行したりとか。
データベースはベストプラクティスを設定済み。議事録とかクライアントのワンページ資料とか、情報の繋げ方とか、ToDoの管理方法とか。転記したものをチャットに放り込んで、Alfredでよく使う会議用のテキスト展開プロンプトを実行すればOK。議事録作ったり、ToDo作ったり、確認したりして、NotionとTodoistにMCP経由で保存する。
あと、自己文書化もできる。TodoistのMCPにバグがあったから、Jeevesに色々なユースケースを試させて、強みと弱みを文書化させて、Jeevesデータベースに保存して、コンテキストとして使えるようにした。
クロンの機能がないのは残念だけど、一日に一回Claudeにプロンプト送るくらいなら簡単。