Gemini 2.5 Flashと2.5 Proが正式リリース！ Gemini 2.5 Flash-Liteを発表！

Gemini 2.5 Flashと2.5 Proが正式リリース！ Gemini 2.5 Flash-Liteを発表！

引用元：https://news.ycombinator.com/item?id=44300717

simonw 2025/06/17 17:10:28

記事には触れられてないけど、Gemini 2.5 Flashの価格上がったみたいだよ。プレビュー版と正式版を比べてる。特に、出力価格が非思考だとかなり上がったね。
URLはこちら: https://web.archive.org/web/20250616024644/https://ai.google…
https://ai.google.dev/gemini-api/docs/pricing

Workaccount2 2025/06/17 17:46:15

ブログ記事に価格変更の詳しい情報があるよ。
https://developers.googleblog.com/en/gemini-2-5-thinking-mod…

jjani 2025/06/17 18:29:42

ほんとのニュースは非思考出力が4倍になったってことだね。ブログは思考価格と比べて値下がりって見せてて、非思考からの値上げを隠してる。うまいこと書いてるけど、「$0.60 (非思考) から値上げ、$3.50 (思考) から値下がり」って言うべきでしょ。

irthomasthomas 2025/06/17 17:38:16

「もうすぐAIはタダ同然になる」って言われてたのに、「結局、値段上がるんだな」。

nicce 2025/06/17 17:52:36

たぶん一番安い時期はもう終わったね。これ無しじゃやっていけなくなったら、思いっきり高くするだろうな。

jjani 2025/06/17 18:54:38

うん、非思考だけは可能だよ。thinking budgetを0にすればいい。思考いらないタスクでよく使うんだ。それに、この3ヶ月間でみんなこれで作ってきたから関係あるんだよ。

Workaccount2 2025/06/17 22:02:39

まあ、プレビューモデルと正式版があるのは、何が安定して使えるかを知るためって考えれば公平かな。

hirako2000 2025/06/17 20:38:36

そのうち同等かそれ以上のモデルがローカルで動くようになるだろうね。だからもし価格が上がったら、ローカルに切り替えればいい。大きいモデルとかRAGとかAgenticとかMCPとかに惑わされないで済むよ。それらもローカルで動くはずだしね。

nico 2025/06/17 17:58:55

もっと競争が進んで、高いところを安くしてくれる誰かが出てくるといいな。

victorbjorklund 2025/06/17 20:51:51

Googleは出遅れてたから、最初は安くして参入したんだ。人気が出てきたから、今度は市場価格に上げるつもりなんだろうね。

k8sToGo 2025/06/17 17:28:49

OpenRouterでもこの違いは分かるよ。でも、なんでFlashだけ「thinking」になってるの？気になるな。

drift_code 2025/06/17 18:50:21

たぶん、non-thinkingモデルをFlash-Liteに名前変えただけじゃないかな。だから前より安く使えるようになったんだと思うよ。

Aeolun 2025/06/17 23:49:35

プレビュー版でお金を取り始めた時点で、価格が急に4倍になったりしないっていう暗黙の約束みたいなもんがあるべきだと思うんだけどね。

cdblades 2025/06/18 13:22:43

「そのうち同等か、もっと良いモデルがエッジでも簡単に動くようになるだろう」って？それ、何か根拠があって言ってるの？

pama 2025/06/17 22:04:19

“プレビュー版と正式版で、できるだけ価格は変えないようにしてるけど、
これはFlashがすごく価値があるから特別に調整したんだ。
でも、知能あたりのコストは一番お得だよ。”って言ってるね。

recursive 2025/06/18 16:10:42

LLM疲れで記事あんまり見てなかったんだけどさ… LLMってもう「思考」するようになったの？
前は「AIは考えてないから{x}はできない」って言われてたのに、今は価格表に載ってるの？
いつの間にこうなったんだろ？

drag0s 2025/06/17 20:26:18

non-thinkingモデルが役に立つ例としては、音声AIみたいに、応答速度が大事な場面があるよね。

sodality2 2025/06/17 21:11:20

OpenRouterみたいなのがある中で、Googleモデルを使う特別な理由って、他のモデルと比べてそんなにないと思うんだ。
たぶん、ブランド名を知ってるから使ってるだけじゃないかな。

rudedogg 2025/06/17 17:25:57

値段が2倍以上になってるクールさね。それにGemini 2.0 Flashは0.10ドル/0.40ドルだったのに。

nicce 2025/06/17 19:31:10

市場に入って競争するのがどんどん難しくなるね。みんな最高で最速のモデルが欲しいんだから。兆円規模のデータセンターと競える？

skybrian 2025/06/17 17:52:25

でも、もっとたくさんの値下げがあるよ。

Aeolun 2025/06/18 23:33:25

今みんなが「え、何これ？」って感じてるのが、俺の意見を裏付けてる気がするね。できないわけじゃないけど、みんなは幸せにならないだろうね。

victorbjorklund 2025/06/19 16:56:35

そうそう、でもブランドって結構強いんだよ。ガチのオタクは違うかもだけど、多くの人は使い慣れたものを使うだけ。最初にChatGPTを使ったからそのまま使い続けてるたくさんの人を見てみればわかるよ。

jjani 2025/06/17 18:53:06

全然違うね。思考しないFlashっていうのは…思考予算を0にしたFlashのことだよ（それでも動かせるけど、入力2倍・出力4倍の値段になる）。Flash-liteははるかに性能が低くて、Flashのほとんどの用途では使い物にならない。ベンチマークをさっと見ればわかるよ。

cadence- 2025/06/18 03:47:41

AnthropicもHaikuモデルをバージョン3.5で出した時に同じことしたんだよ。マジ嫌だわ。

jjani 2025/06/17 23:22:58

その通り。ユーザー向けのものはほぼ全部がレイテンシに敏感だし、音声はほんの一部だよ。誰も待つのは好きじゃないし、LLMが関わってるからってユーザー視点では変わらない。

Tiberium 2025/06/17 17:37:12

ちょっとわかりにくいかもしれないけど、「思考するFlashだけ」ってわけじゃないんだ。単一のモデルで、APIリクエストで思考予算を0に設定すれば思考をオフにできるんだよ。以前の2.5 Flash Previewは思考予算を0にするとずっと安かったけど、今は同じ値段になった。もちろん、思考を有効にすると、思考なしモードよりはるかに多くの出力トークンを使うけどね。

varun_chopra 2025/06/17 16:44:02

一時期、AI StudioでGemini Proが無料だった時は、多くの人がGeminiを選んでたと思うんだ。でも、それからどういうわけか質が悪くなって、真面目な作業はClaudeに戻っちゃった。Geminiってさ、ずーっと喋ってるけど実際何を言ってるか分かってないヤツみたいなんだよね。ブレインストーミングにはまだ使うけど、提案は話半分で聞いてる。Claudeで使うプロンプトを作るのには役立つかな。

therealmarv 2025/06/17 17:25:17

Aiderのリーダーボード https://aider.chat/docs/leaderboards/ によると違うみたいだけどね。
俺はAiderでAPIを直接使ってるから（AI Studioの経験はないんだ）。
Claudeは弱いプロンプトでもそこそこ動く感じがする、「味」があるっていうか、プロンプトの方向がよく分からない時とか。方向が分かってる時は、コード生成でGemini 2.5 Pro（思考あり）がClaudeより上だし、壊れないコード出すんだよ。o4-miniとかo3はもっと「賢い」思考をするみたいだけど、不安定なコード出す（Geminiは安定してる）。
Claudeは複雑さが増すと問題が出て、個人的な順位付けだとGeminiとo3より下かな。
o3-miniが出てから、Claudeに戻る理由は今のところないな。

stavros 2025/06/17 17:55:38

Opusに35ドルも払ってハードウェアのサイドプロジェクト（古ーい黒電話を会議用受話器にして、電話を切って会議から抜けられるようにするやつなんだ、まあ知りたいならだけどさ）の問題解決させようとしたんだよ。全然解決しなかったし、ぐるぐる同じことやって金ばっか食われた。o3とAiderの方が断然満足できたな。この特定の問題では試してないけど、昨日の夜、同じプロジェクトで彼らと結構作業したんだ。ちょっと unfair かもしれない、Claudeが詰まったのは難しい問題みたいだし。でも、同じこと何度も繰り返して俺の金を全部消費しようとするのに、「もう無理です」って絶対言わないのは気に入らないんだ。

もっとコメントを表示（1）

macNchz 2025/06/17 18:16:39

ここ一年くらい、人気のコーディングモデル全部かなり集中的に使ってるけど、Gemini 2.5 Proは最初に動くコードを出してくれる点、アーキテクチャに関する指示に従う点、タスクから脱線しない点でめちゃくちゃ成功してるよ。Aiderを使ってて、主にPython、JS、シェルスクリプトを書いてる。Claude APIには何百ドルも使ったけど、ほぼ全部Geminiに切り替えたんだ。API自体もずっと信頼性が高いし。
2.5 Proの唯一の不満は、コードに変なコメント（// Deleted varName here とか）残すことくらいかな。

willseth 2025/06/17 17:29:09

私も同じ経験だよ。簡潔に答えるようにって、すごく凝ったプロンプトでGemを作ったのに、相変わらず長々しい返答だし、頻繁にプロンプトの範囲を大きく超えて話を発展させちゃうんだ。

dr_kiszonka 2025/06/17 17:31:57

Pro 2.5、ここ数ヶ月でかなり弱体化したよ。今年の初めは、Gemini 2.5 Proと本当に洞察力のある会話ができたんだ。今はほとんどフラストレーションが溜まるだけ。
個人的な陰謀論だけど、Google Geminiアプリで2.5 Proを一定の量以上使うと、性能を落としたバージョンを提供し始めるんじゃないかって。もちろん証拠はないけど、そんな気がするんだ。

theturtletalks 2025/06/17 17:49:37

これって、今のAIの常套手段みたいになってるよね。最初はすごく強くて高性能なモデル（推論コストが高い）をローンチして、ユーザーにSOTAだって思わせる。そして、コストを安くするために性能を落とすんだ。ほとんどのユーザーは気づかないし。
GPT-3.5でも同じことが起きた。最初はすごく良かったのに、OpenAIがコストカットを始めるにつれて悪くなった。OpenrouterでGPT-4.1がOptimusとして隠されてた時は本当に良かったけど、正式ローンチされたらこれも悪くなった気がするよ。

ZeWaka 2025/06/17 18:21:15

AIの静的指示方法（例えば .github/copilot-instructions.md とか）を使って、あの使えないコメントを残さないように指示すれば、その問題は解決するみたいだよ。

antgiant 2025/06/17 22:09:10

その値段ならこれ買えるじゃん？ https://www.amazon.com/Cell2jack-Cellphone-Adapter-Receive-l…

noisy_boy 2025/06/17 20:00:48

プレビュー版に戻すべきだよ。あの頃の方がずっと落ち着いてて、ちゃんとしたフィードバックもできたのに、このリリース版はまるでステロイド入りのチアリーダーみたいだよ。

theturtletalks 2025/06/17 18:32:36

LLMの劣化は従来のソフトと違うと思うんだ。ソフトはUI変更とかでわかるけど、LLMは最初に最高のを出して、後でコッソリ性能落とす方が得なんだよ。ユーザーは簡単に乗り換えられるから、バレないようにする方が得ってこと。

unshavedyak 2025/06/17 17:21:43

俺も似た経験あるよ。最初は複雑な問題を解くのがすごく上手いと思ったんだけど、簡単なことが上手く操縦できなくて。それにすごく長話なんだよね。全体的にはUXが一番気になるところで、今はClaude CodeのUXが一番いいな。

sagarpatil 2025/06/18 04:59:53

zen MCP serverをチェックしてみてよ。これを使えばClaude CodeでGeminiとかOpenAIモデル使えるようになるよ。https://github.com/BeehiveInnovations/zen-mcp-server

UncleOxidant 2025/06/17 16:58:29

昔はclineでGemini Proが無料で使えたのに、今はAPI制限が低すぎてすぐウォレットにチャージしろってメッセージが出るし、APIクエリも通らないんだ。今はclineで無料のDeepSeek R1に戻ったけど、それも数時間で止まって次の日まで待たないといけない。コーディング用にローカルLLMをセットアップすることも考え始めたよ。となると真剣にPCをアップグレードする時だな。（まあ、もう10年くらい経ってるし、そろそろ時期だったんだけどね）

conradkay 2025/06/17 18:47:35

新しいバージョンやプレビュー版は、RLでコーディング性能向上に注力しすぎたせいで、他の分野の性能が劣化したのかもしれないね。

dominicrose 2025/06/18 12:36:46

コメントは気にしないよ、削除しながら読んでるから。出力の調整とか変数名変更とか、少しリファクタリングが必要なのは普通。すごいのは、出力コードが実際に動く（ほぼ）ってこと！一番難しい問題じゃないけど、簡単でもなかったよ。

k8sToGo 2025/06/17 20:09:00

でも同じモデル、バージョンだって言ってるんじゃないの？

jjani 2025/06/17 18:49:01

＞通常のソフトウェアの品質低下はUI変更とかで気づくけど
例えばGoogle Mapsがどれだけ劣化（enshittified）したか、ほとんどの人は気づかないんだ。企業は意図的にゆっくり劣化させるからね。段階的な変化に気づくのは難しい（地球温暖化みたい）。評価セットがあれば舞台裏の変化もわかるけど。

CamperBob2 2025/06/17 19:06:10

ある有料モデルの結果が別のモデルよりずっと良かったら、後者には低評価つけて、競合に負けたってコメントで指摘するかな。悪くないでしょ。

macNchz 2025/06/17 18:38:04

stupid commentsを残さないように指示する設定ファイルを使った場合と使わない場合でテストしてみるつもり—どうにかしてモデルに価値を提供してるか、例えばマルチターンの編集でね、興味あるんだ。

noisy_boy 2025/06/18 00:43:56

分からないけど、同じとは思えないな。Gemini 2.5 pro（プレビューとGA版）をしばらく使ってるけど、トーンの違いがはっきりわかる。プレビューは遅かったけどGAは速いから、量子化かも。たぶん偉い人が遅すぎ/高すぎ/つまらないと思って、良いものをダメにしたんじゃないかな。

luckydata 2025/06/17 18:57:02

最初にコメントをなくすよう指示するより、役に立たないコメントを削除するようコードレビューさせる方が楽だよ。大きな作業の後にクリーンアップする戦略が一番うまくいくみたい。

huevosabio 2025/06/17 17:24:31

やり取り全部でBuzzFeedの記事みたいに話すようにさせた。最悪だ。

FirmwareBurner 2025/06/17 17:18:35

コーディングでGemini使ったら最悪だったよ。コードブロックを渡して変更点を伝えたんだけど、不要なコードと endlessなコメントを大量に追加されたんだ。引き締まったコードがPapyrusみたいになっちゃったよ。ChatGPTはもっと良いけど、同意しすぎる傾向があるから、バカなこと言っても否定してくれないから自分で墓穴掘ることになるんだよね。Claudeが一番良いバランスみたい。これは僕の二束三文の意見だけどね。

hirako2000 2025/06/17 20:50:48

LLMの中に小さな脳みそがあって安定してるって感覚は間違いだよ。これらのモデルはすぐに崩壊するんだ。コンテキスト限界か、問題を解釈できないせいでね。LLMはエンジニアリングのトリック、主にNLPで illusionを作り出した統計的回帰にすぎないよ。役に立たないってわけじゃないけどね。進化し続けるこれらのモデルを比べるのは、NYCとLAのエスコートスタッフを比べるみたいに、結論出すのが難しいよ。僕らは騙されてるんだ。価格上昇については、Googleは aggressivelyに adoptionを狙ってたみたいだし、Geminiは short rangeで最も value for moneyだったからね。Adoptionが急増して、scalingが必要になったコストは astronomicalでGoogleに billionsかかってるんだろう。価格調整は発表前に予想できたかもね。

lvl155 2025/06/17 17:52:19

僕はGeminiにすごく impressedで、OpenAIは使うのをやめたんだ。たまにOpenRouterで three major models全部 pingすることもあるけど、今は90%がGeminiだよ。去年の90%ChatGPTと比べるとね。

codingwagie 2025/06/17 19:33:21

Googleのことhateしたいんだけど、yeah、彼らのモデルはreally良いんだよね。larger context windowはhugeだよ。

aatd86 2025/06/17 19:25:39

僕も同じ。For now僕はclaude subscriptionをcancelしたよ。Geminiがcatching upしてきてる。

glohbalrob 2025/06/17 20:27:09

Also me。Still pay for OpenAI。僕はgpt4をexcel workに使っててsuper fastだし、よくあるprojectで出てくるfilesをcombineするみたいなmore excel related workもable to doなんだ。

voiper1 2025/06/18 08:51:59

thinking timeは好きじゃないけど、coding、journaling、and other stuffでGemini Pro 2.5にはoften impressedさせられてるよ。Possibly、openai／anthropicをwantするdirectionにnudgeするmuch more prompt fine-tuningはできるんだろうけど、同じpromptsだとGeminiの方がoften gives me answers／structure／toneをmuch better likeなんだ。Example：Claude 3.7でembedding images and captions along with responsesをgeneratingしてたんだ。Same promptをGeminiに入れたらmuch more varied and flavorful picturesをgave me。

jbellis 2025/06/17 16:44:31

Love to see it。これはFlash Liteをcode writingの“don’t bother” territoryからpotentially usefulなレベルに引き上げるね。（Besides being inexpensive、Flash Liteはfast――almost always sub-second、to as low as 200ms。Median around 400ms IME。）Brokk（https：／／brokk.ai／）はcurrently Flash 2.0（non-Lite）をQuick Editsに使ってるんだけど、僕らは今から2.5 Liteをevaluateする予定だよ。thinking modelがFlash 2.5よりdumberな場合のuse caseは僕にはないな。thinkingはsmall modelsのbig speed advantageをnegatesするからね。他の人がwhat other people use that forかCurious。

candiddevmike 2025/06/17 16:42:40

コーディング以外でGemini使ってる人いる？
何に使ってて、なんでGeminiにしたか知りたいな。
他のGenAIと簡単に切り替えられるようにアプリ作ってる？
他のプロバイダーも使って負荷分散とかコスト削減してる？
LLMのスポット市場とかできたらどうなるんだろ？

thimabi 2025/06/17 17:02:04

Gemini 2.5 Proは翻訳とか要約みたいに、コーディング以外でもマジで使えるよ。特に巨大なコンテキストウィンドウと利用制限は助かる。
深いリサーチレポート作るのも、ChatGPTより断然いいと思う。Googleのウェブ検索の強みが出てるのか、色々なソースから正確なレポートが作れる。
書き方も好きだし、Google Docsにエクスポートできるのも便利。
ただ、UIはイマイチかな。カスタム指示とか一時チャットとか、他のサービスにある機能がなかったり、全然ダメなんだよね。

もっとコメントを表示（2）

ttul 2025/06/17 17:25:54

山積みのNDAsを投げたら、数秒で関連する情報を綺麗に取り出してくれた。
巨大なコンテキストウィンドウと、書類の山から特定の情報を見つける（Needle In A Haystack）性能が、こういうタスクには最高だね。

spmurrayzzz 2025/06/17 18:06:09

書類の山から特定情報を見つける（NIAH）性能って、ユーザーが本当に求めてる長文処理の性能とはちょっと違うんだよね。
簡単なテストにはいいけど、Googleが使った長期コンテキスト評価（MRCR）も限定的。長距離の依存関係とかトピックモデリングは評価できてない。
大量のテキストをそのまま投げ込むだけじゃダメなんだよ。特に慣れてないトークンとか。
Googleが評価結果が悪かったのを隠さなかったのはすごいけど、RULERとかHELMETとか使わないのは、たぶん32k以降の性能がひどいからだと思う。
追記：でも、Gemini 2.5 Proはなんだかんだ色々なタスクで使ってるよ。
長文タスクの時は、カスタムエージェントにコンテキストをガンガン圧縮させてるけどね。

hnuser123456 2025/06/17 18:06:54

もしヘビーユーザーなら、普通のGeminiじゃなくてAI Studio経由で使うのがいいかもね。
システム指示とか温度とか、細かい設定ができるから。
NotebookLMもあるし、GoogleはGeminiベースで色々なプロジェクト試してるっぽいよね。普通のWebチャットはその中の一つって感じ。

thimabi 2025/06/17 18:25:43

AI Studioの不満は、有料APIでもGoogleにデータが残って、学習に使われる可能性があること—。
だから、データのことが気にならない時にしか使わないんだよね。

happyopossum 2025/06/17 19:55:31

それは無料版だけだよ。
有料版のAI Studioユーザーは、しっかりプライバシー保護されてるから大丈夫。

sync 2025/06/17 19:15:09

https://lexikon.ai で結構使ってるよ。
特に大量の画像を処理する部分でね。
GoogleのVision APIの料金が、OpenAIとかAnthropicみたいな他の大手と比べてめちゃくちゃ安いんだ。

extr 2025/06/17 18:51:48

Gemini Flash 2.0は、マジでコスパ最高の使えるモデルだよ。
一番賢いモデルと比べたらそりゃ違うけど、安くて、めっちゃ速くて、しっかり構造化された出力をしてくれるから、開発するのが超気持ちいいんだ。
次は2.5 Liteを試してみようかな。

quelladora 2025/06/18 07:04:49

MRCRって評価は multi-needle retrievalとは全然違うよ。だからコンテキスト長が長くなると性能が落ちるんだ。すごく単純なタスク（岩に関する i番目の論文を再現とか）だけど、まだ全然解決されてない。 contextarena.aiとか、オリジナルの論文 https://arxiv.org/abs/2409.12640を見てみて。
あと、 fiction.live/stories/Fiction-liveBench-Feb-21-2025/o…みたいな評価とも合ってるみたい。君が言ってる他の評価は、この比較的シンプルな MRCRより必ずしも難しくないんだよね。

VeejayRampay 2025/06/17 18:57:10

翻訳する時、長いテキストだと output limitの 65Kにやっぱり制限されるんじゃないの？どう思う？

wg0 2025/06/17 20:06:31

もし秘密じゃないなら、君がどんな use caseで使ってるのか知りたいな。

spmurrayzzz 2025/06/18 14:27:38

確かに、 MRCRが解決済みなんて言ってないつもりだよ。ただ、 Longprocみたいに長距離の依存関係を解くよりは、 raw retrievalのテストに近いって言いたかっただけ。 retrievalがすごく良くても、 downstream taskでモデルがダメになっちゃったら、 benchmarkは全体像を教えてくれないからね。元のコメントで言いたかったのは、最先端のモデルでも、巷で聞くほど長文タスクが得意じゃないってことだよ。
＞ The other evals you mention are not necessarily harder than this relatively simple one.
MRCRと例えば Longprocを比べるなら、 Longprocの方がずっと難しいと思うな。少なくとも、時間が経つにつれて contextが溜まる long-horizon taskの分野には、 Longprocの方がずっと適用できる。というか、 Longprocの方がより全体的で詳細な evalだって言う方が正確かもね。タスクでは、 input context全体とか、前に生成した output segmentに散らばってる情報を synthesisしたり reasonしたりする必要があるし、必要な outputも長い（ 8K tokenまで）上に、特定の決まった formatに従わなきゃいけない。 scoringも MRCRより柔軟だよ。 tableなら row-level F1 score、 codeなら execution based checks、 formatされた traceなら Exact Matchとか使える。
NIAHと同じで、 MRCRを wholesaleで捨てるべきだとは思わない。ただ、もっと現実的な long context performanceの評価に使うのは無理があると思うんだ。
EDIT：あと、両方のタイプの evalを一緒に使うのは、 researchや training＼finetuningにすごく役に立つってことも付け加えたい。 Longprocがダメで、 NIAHや MRCRの contextがないと、どんな capabilityがダメになってるのか分かりにくいからね。だから、 hybrid eval approachとして両方使うのは、 certain contextでは価値がある。 end userが今の inference time performanceを知りたいだけなら、 RULERとか Longprocみたいな evalの方がずっと価値が高いと思うよ。

NitpickLawyer 2025/06/17 18:37:26

＞ The performance is abysmal after ~32k.
へえ。 real worldで使っててそんな経験はないな。たくさんの docsを放り込んで、 template document（ reportとか proposalとか）とか、他の projectの exampleとかも入れて、それぞれの fileから関連する contextを全部集めて templateを作ってって指示するタスクで、 2.5 Proが驚くほど良いんだ。他のどの top tier modelでも、このレベルの qualityで再現できなかったよ。

HDThoreaun 2025/06/17 17:03:46

医療 researchの summarizeや critiqueをする projectで試してみたけど、あんまり良い結果は出なかったよ。普段使ってる mainの LLMで一番うまくいく promptが、他の LLMに入れると intended formatが崩れちゃうんだよね。それぞれの LLM向けに promptを refineすることも考えてるけど、まだそこまで手が回ってない。
個人的に今 Geminiを使うのが一番好きなのは、 basically読書会として使うこと。もちろん、実際の読書会ほどじゃないけど、 realの読書会だと読みたい本を読んでもらえないことも多いし、 Geminiはいつでも私が読みたい時に一緒に deep diveできるんだ。本によっては、 realの読書会より深かったり、 tunnel visionになりにくいみたい。 LLMが出る前は、本の themeを探求するのが結構 tediousだったんだよね。誰か読んでる人を見つけるのに時間がかかったり。でも今は、読み終わってすぐに deep diveできるのが最高だよ。

k8sToGo 2025/06/17 17:31:56

私は Gemini 2.5 Flash（ non thinking）を thought partnerとして使ってるんだ。考えを整理したり、自分では思いつかなかった新しい inputをもらったりするのに役立つよ。あと、 self reflectionにも使うのが本当に好き。自分の考えとか maybe concernとかを just inputしてみて、それが has to sayを見てるんだ。

spmurrayzzz 2025/06/17 19:23:15

うちは G-suite shopだから、 2.5 Proを仕事で使うために tons of timeを費やしたよ。 entirely unhappyではないし、 highly capable modelなんだけど、 long contextの implosionが majorityの task domainで significantに limitになっちゃうんだよね。 Longprocを modeled afterした internal dataを使った long context evalがあって、それで見ると across the boardで performanceは pretty badだよ。 task wise for usは、 production dataを使ってるから、 about as real world as it gets。 summarization、 Q＆A、 coding、 reasoningとかね。
でも、これは in-distribution vs out-of-distributionの distinctionが本当に weightを持つところだと思うんだ。もしモデルが君の token sequenceの instanceを trainingで more instances見てて、 thus has more stable semantic representations of them in latent spaceなら、 on averageで perform betterするのも make senseだよね。
私の caseでは、 public evalが internal enterprise dataでの performanceと very closely alignしてる。 they both tank pretty hard。 Notably、これは certain context cliffの後では all modelに trueだよ。 flagship frontier modelは predictably the bestだ。

thimabi 2025/06/17 19:08:04

うん。今のところ output limitで問題ないよ。長いテキストは each sectionで iterativelyに翻訳してるからね。 Geminiで翻訳するのが一番好きなのは、 default performanceが already good enoughで、 context windowの 1 million tokens経由で improvedできること。 contextに私の private database（ idiomatic translationとか、 language pairと subject areaで separatedされてる）を loadするんだ。そうすると、 manually reviewing Gemini translationの needが greatly diminishedされるよ。すごく便利。

記事一覧へ

著者

海外テックの反応まとめ

暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。