速報 OpenAIの画像生成APIが公開! 軍事利用も可能に? 検閲なしの特別プランも登場か
引用元:https://news.ycombinator.com/item?id=43786506
昨日これが公開された時、特に政府や軍事関連のタスクでの拒否率がめちゃくちゃ高いって文句言ったんだよね。これじゃあ、業者たちが中国製のオープンソースモデルを使わざるを得なくなって、情報漏洩のリスクが高まるだけだって。今日になって、そういう分野の企業向けに、コンテンツの規制がほとんどないAPIがあるって知ったよ。どうやってアクセスをリクエストすればいいのか全然わからないけど、ここ1日で4つの防衛関連企業がもう使ってるみたい。
プレゼン資料に使う以外に、防衛関連企業がAIで画像を生成する良いユースケースって何かあるの?
AIのalignment(調整)って、結局は「顧客の現在のサブスクリプションプランに合わせる」ってことみたいだね。世界を守るためじゃないんだ。よくあるパターンだ。
自律型ドローンカメラを訓練するために、茂みに隠された火砲のユニークな画像を30,000枚生成する。
「ここ1日で4つの防衛関連企業が~」って、防衛関連企業が画像生成を必要とする理由って、明らかにヤバいこと以外に何があるんだろう…。
それは“tier 5”だよ。3.0の時からアカウントを持ってるから、特別扱いされてるのかどうかはわからないけど、数ヶ月間それなりの金額を使ってればアクセスできるはず。(ちなみに、実装方法を知りたい人向けに言うと、JSONリクエストの’moderation’パラメーターだよ。Dalle-3にはなかったから数時間見逃してた)
APIにはautoかlowしか表示されないけど、さらに規制の低いシークレットな値ってあるの?
知らないな。親の投稿が完全にノーモデレーションを意味しているというのは、言葉を少し大げさに使っているんだと思う。いくつか兆候がある。1.昨日軍事・防衛画像の生成モデレーションについて意見を持つほど早くAPI統合を完了したとは考えにくいので、ChatGPTについて話しているのはほぼ確実。(画像生成にはtier 5が必要なことからも確認できる)2.軍事・防衛のユースケースが提供されていない。3.投稿者は軍事・防衛にいないことを匂わせている。4.OpenAIのために普遍的なモデレーションを必要としないケースを想像するのは難しい。5.OpenAIはPRから遠ざかりたいはず。スーパーシークレットな防衛ティアがあるとしても、投稿者の防衛関係者がリリース後数時間以内に完全にモデレーションされていないアクセスについて話す可能性は低い。
既知の軍事施設と民間施設の画像を1枚ずつ入力。類似の構造、類似の色、類似の照明など、軍事施設に似た_民間_施設を生成するように指示。次に、この画像を「民間」マーカーを持つ別のネットのデータセットに含める。「このターゲットは軍事施設ですか」と尋ねられたときに、誤検知率を下げるように新しいニューラルネットをより良くトレーニングする。
FedRAMP GGC High Azure経由でOpenAIモデルを使用していますか?もしそうなら、あなたの経験についてもっと聞きたいです。
いや、当たり前じゃん?AIの整合性って、結局モデルの作成者との整合性を意味するんだよね。OpenAIとかを人類全体と整合させるのは、全然別の問題だってこと。
そんな考え方じゃ昇進できないぜ!全部「軍事用」ってマークして、軍需品の売り上げを爆上げだ!
企業ラボがAGIを開発して、「企業はもっと税金を払うべきだ」みたいなヤバいアイデアを言い始めたら、アライメントの問題でAGIの話はしばらく聞けなくなると思う。
俺はTier 4だけど、このAPIを使えて、モデレーションを“low”に設定できるよ。Tier 4は30日の待機期間と1000ドル分のクレジットが必要なだけ。個人としてはOpenAIにそんなに使ってたのかって驚いたけど、ほとんどの組織にとっては大したことない額だよね。Tier 5でも5000ドルしか要らないし。
OPは軍みたいな特別な組織だけがもっとすごい機能を使えるって言ってるみたいだけど、証拠がないと信じがたいな。そもそも、このAPIの軍事的な応用がよく分からないんだよね(AI全般じゃなくて)。プレゼン資料とか作るのには役立つだろうけど、そんなのに特別なゼロモデレーションは要らないし。
発展途上国に大量破壊兵器があるっていう証拠を捏造するとか?冗談はさておき、現実的な使い道としては、新製品のコンセプトイメージとか、マーケティングキャンペーン用かな。
いや、独自のIL4環境を検討してるって噂はよく聞くよ(Azureがダメなパートナーで、モデルの開発が数ヶ月遅れてるらしい)。個人的には、顧客にCUI以上は技術的に扱えないって警告してるけど、止められないんだよね。
そんなんじゃないと思うけど、どうだろね。本当の理由はもっとありふれたことで、マーケティング用の画像生成とかじゃない?
質問なんだけど、MSによると…“GPT-4oはAzure GovernmentのAzure OpenAI Serviceの一部として利用可能で、最新のFedRAMP HighとDoD IL4/IL5 Authorizationに含まれています”…Azureに全部セットアップしたけど、CUIで使うのは気が引けるんだよね。DoDの担当者は大丈夫だと思ってるみたいだけど、誰も許可を出すって記録に残したくないみたい。https://devblogs.microsoft.com/azuregov/azure-openai-fedramp…https://learn.microsoft.com/en-us/azure/azure-government/com…
信じられないかもしれないけど、アメリカ軍は戦犯を犯さないことを重視してるんだよ。少なくとも空軍の兵士(他の部隊は知らない)は、配備前にクンドゥズの病院の事件に関する必須訓練を受けて、同じような悲劇を防ぐようにしてる。もし気にしていなかったら、何千時間も無駄にしないはず。
現実がまるで小島秀夫のゲームみたいになってきてるな。リンク先の動画も見てみて。
このロジックがいまいちわかんないんだよね。茂みの中の大砲がどんな見た目かみたいな実際の信号は、すでに元のトレーニングデータにあるじゃん。合成データは経験的な証拠を作り出すことはできないし、本物と同じくらい偽物の画像を生成する可能性もあると思うんだ。
それって鉛筆でもできるよね?なんでLLMが必要なんだろ?
法人自体に課税するのと、役員、取締役、投資家、従業員に直接課税するのって何が違うの?(すでに起こってることだけど)
「テロリストが一人混ざった一般人の群衆を生成して」
「場所を砂漠に移して。エンパイアステートビルじゃなくて」
「一般人にはターバンを被らせて。野球帽じゃなくて」
それ古い情報だよ。今はエンパイアステートビルに野球帽姿でいることになってるんだって。ICEの逮捕とか、トランプが「自国の」エルサルバドル人向けの刑務所をもっと必要だって言ったコメントを見てみなよ。
彼らのアクセス要素の一つが安全ガードレールの解除ってことを考えると、ある程度、NSFWなコンテンツとか、問題のあるコンテンツの処理や生成も含まれてるんじゃないかな。
考えられるのは、船舶、航空機、飛行場のような潜在的なターゲットの画像を生成して、衛星やドローンに送り込み、画像検出に使用したり、兵器を調整して精度を高めたりすることかな。
うわー!なんて素晴らしいディストピア的な未来のビジョンなんだ。たぶんその通りだ。
AIに頼りすぎると、誰かがモデルで生成できるものを決めちゃうのが怖いよね。
image playgroundで試そうとしたら、支払い方法を追加しろって言われたんだ。追加したら最低5ドル払えって。払ったのに、画像を生成しようとしたら組織の認証が必要だって(?)。個人を選んだら、OpenAIの第三者パートナー経由で生体認証を許可しろって言われた。もう嫌になったけど、お金は払っちゃったから返金してもらうのが大変。UXひどすぎ。
もっとコメントを表示(1)
OpenAI APIのクレジットは1年で失効するから注意してね。昔5ドル追加してAPI使うつもりだったんだけど、ほとんど使わなかったんだ。また必要になったときに使おうとしたら”リクエストが多すぎます”ってエラーが出て、クレジットが全部なくなってた。正直者がすることじゃないよね。
教えてくれてありがとう。払い戻しはできないみたいだね。今後は気をつけるよ。20ドル分使い切るために、もっと高いAPIを使うしかないかな。[0] https://openai.com/policies/service-credit-terms/4. 払い戻しはできないみたい。
チャージバックだね。OpenAIのサービスが使えなくなるかもしれないけど、二度と同じ間違いをしないようにするためには良いことだと思うよ。
それぞれのクオリティタイプで同じプロンプトを生成してみたよ。’Auto’、’low’、’medium’、’high’。プロンプトは「かわいい犬がかわいい猫をハグしている」だよ。https://x.com/terrylurie/status/1915161141489136095 DALL:E 3の画像との比較も載せてるよ。
そのプロンプトならMidjourney、Flux、Stable Diffusionの方が良いよ。安いし、見た目も良くなる可能性が高い。gpt-image-1が輝くのは複雑なプロンプトの時だね。画像を参考にスタイルを指定したり、背景のライティングを変えたり、数式を解かせたりとか。gpt-image-1は最高じゃないけど、めちゃくちゃ強力だよ。
gpt-image-1の出力にノイズを加えてdiffusion modelsの入力として使うことはできるのかな? GPTが正確さを担当して、diffusion modelが品質を向上させるみたいな。できる人いる?
もちろん。APIサポートが始まったから、ComfyUIノードを作った人がいると思うよ。そこからdenoiseしたり、IP-Adapterみたいなものを使ったりできるよ。
そうだよ。最近のモデルはプロンプトの理解度が高いから、昔のモデルに通して見た目を良くするってことをみんなやってるよ。
悪くないね。写真フォーラムはすぐにこれらでいっぱいになるだろうね。メタデータを取り除いて、人間が作ったように見せるために少し編集されるだろうけど。
「Auto」、「low」、「medium」、「high」の各品質タイプで同じプロンプトを使った場合、「Auto」はモデルにとって最高の品質になる。この場合は「high」と同じってことだね。
クレイジーだね。写真にまでOpenAIの黄色いカラーグレーディングが入ってる。
playgroundで5枚の画像を生成してみたよ。テキストのみのプロンプトを1つと、自分の携帯電話からの画像を4つ使って。0.85ドルかかったけど、家族のグループチャット用のスタジオジブリ風ポートレートを作るには悪くない金額だね。でも、顧客向けの製品に使うには高すぎるかな。
顧客向けの製品に使うには高すぎる?LinkedInに載せるための証明写真を向上させるのはどうかな。
生成された画像は顔のディテールを保持しないんだよね。生成された人物はあなたに似ているけど、間違いなくあなたではない。
そうだね、すごく不気味だよね。でも、非常に近い時もあるんだ。危ないと感じるくらいに。一度自分で試してみたら、背景は非現実的だったけど(プロンプトは私がビジョンボードのために基調講演をしているところ)、私は…私にそっくりだった。
LinkedInのプロフィール写真と全然違う人に会うのが楽しみだね😊
もう会ったよ。たった今、鏡を見たんだ。変な男で、すごく疲れてて、見たことないやつだった。
それっていいの?
いや、細部は苦手みたい。たしか、画像は低解像度で生成されて、それをアップスケールしてるんじゃないかな。ChatGPTのバージョン特有かもしれないけど、コスト削減のためかもね。
もし興味ある人がいれば、ローカルのplaygroundを作ったよ(OpenAIの組織認証が必要だけど…)。OpenAIのPlaygroundじゃAPIのオプションが全部公開されてないんだ。俺のは全部対応してて、マスク作成機能とかコスト追跡機能も内蔵してる。https://github.com/Alasano/gpt-image-1-playground
何百枚、何千枚も画像を生成する必要があるアプリってどんなのがあるんだろう?家族写真をジブリ風にするのは好きだけど、そんなに大量には作らないし。画像生成って、ChatGPTのUIで一回きりで作るのがほとんどなんだよね。
最近のAIスタートアップによくあるように、このAPIを使えば、特注のプロンプトで画像生成のダウンストリームラッパーを作れるね。マルチモーダル画像生成アプローチ(テキストエンコーダーが優れてる場合)のメリット・デメリットは、プロンプトエンジニアリングが重要になること。もし1枚あたり0.17ドル以上の収益を生み出せるユースケースがあれば、利益になるね。
ビデオゲームとか、インタラクティブフィクションとか、そういうのには使えるんじゃない?AI Dungeonにビジュアルがついたら面白そう。
それだと高すぎるよ。ある程度高いサブスクリプション料金がないと無理。ゲームにはローカルモデルが一番向いてると思う。まともなGPUは既にあるだろうし。
両方のニッチがあると思うな。ローカルLLMは桁違いに小さいから、キャラのポートレート生成みたいな、難しい/重要な作業のためにクラウドを使うのを想像できる。とは言え、1年後には10~20倍安くなるだろうから、2Dゲームのワークフローで価格を気にする必要はなくなると思う。
UIにお金を払うほどChatGPTを使わないから、APIを使ってる。
毎日画像ベースのパズルを全自動で作ってて、Fluxを使って画像を生成してたんだ。でも、出来が良くない時があるから、手動でキュレーションしてた。この新しいAPIで、また自動でできるか試してみる。
AIを使った教育はマジで有望だよな。
教育に使うのに、既存のリアルな画像じゃなくて、AIが生成した画像を何千枚も使う必要性がマジでわかんねー。
うちの会社じゃ、子供向けのパーソナライズされた絵本のために、毎週何千枚も生成してるよ。子供たちが読み方を学ぶのを助けるんだ。ストーリーのテキストがアプリの核だけど、パーソナライズされた画像が子供たちを夢中にさせるんだよね。
もっとコメントを表示(2)
パーソナライズ(スタイルとか、既知の概念とのアナロジーとか)とか、具体性(まさに求めてる概念を完璧にカプセル化した図)とか。
でもLLMって信頼性が足りないから、マジで「具体性」を期待できないじゃん。
今は完璧じゃないけど、いくつかの分野では十分使えるよ。これからもっと良くなるって。
>これからもっと良くなるって。
AI企業はまだ「金燃やしてる」段階なんだよね。エンシッティフィケーションはまだ先だけど、不可避だよ。
OpenAIみたいな個々の企業が、最終的にエンシッティフィケーションの機能を導入するのは間違いないけど、業界全体をそんな簡単に要約できるとは思わないな。全体的には、開発は進んで良くなっていくと思う。満潮になれば全ての船が持ち上がるし、中にはクソみたいな水漏れ船もあるかもしれないけどね。最悪の場合、プロプライエタリモデルのエンシッティフィケーションが始まったら、いつでもオープンソースソフトウェアに頼れるし。例えば、今の車は100年前よりずっと良いじゃん。悪い未来が必ずしも不可避ってわけじゃないんだよ。
でも今の車って10年前、20年前より良いかな?信頼性は低下傾向だし、安全性も疑問視されてて、死亡者数と負傷者数は年々増加してるし。機能はサブスクリプションに移行されて、しかも全部テレメトリー送り返してくるし。
良いポイントだね!
俺が育った環境の先生の8割より使えるってマジ?
それは広い意味ではそうかもね。でも、教育とお金って必ずしも両立しないじゃん。
ほんとそれな
「アルジェブラで困ってる? MathWizが今月限定で20%オフ!月額たったの24.95ドル!これはマジでお得だよ!成績上げたくないの?家族をがっかりさせたいの?アカウント作ってあげようか?」
「仕事ゲットしたい?[COLLEGE]が0%オフだってー!年間たったの20万ドル!住む場所欲しくないの?脳みそがまだ発達してない年齢で、役に立つかどうかわからない学位のために借金まみれになろう!」
大量の画像を生成する必要がある人向けか。仕事でimage gen使うならローカルモデルでワークフロー組んだ方が良くね?
インテリアデザインとかファッション、広告とか色々思いつくね
AIが生成した広告だらけのニュースフィードが永遠に続くのを想像してみてよ
材料を入れるとレシピを作ってくれて、完成品のイメージ画像も生成してくれるAIレシピアプリとかどう?
見た目がいる?それとも料理せずにレシピ公開するの?
価格設定が微妙だなー。参照元を提供できるなら価値があるかもだけど。1024x1024のmedium
画像が0.04ドルって、Imagen 3とかFlux 1.1 Proと同じくらいじゃん。playgroundで試した感じ、画質は конкурент モデルより低いし、生成に15秒以上かかるし。promptも従来のモデルと全然違うし難しい。従来のテクニックがそのままじゃ通用しないから、かなりpromptを調整しないとダメそう(ChatGPTの画像生成でやってるみたいに)。
ChatGPTのpromptへの忠実さはマジで他より全然上。FluxとかMidjouenyは конкурент って呼べないレベル。ChatGPTの画像生成は唯一無二の存在だよ。画像編集の経験がない人でも使えるAI画像エディタって感じ。画像生成に関して言えば、Stable Diffusion以来の衝撃だと思う。LoRAとかControlNetとかFluxは忘れ去られる運命。
今のところ、ダントツで一番パワフルな画像モデルだね。0.04ドル/画像は妥当な価格だと思うよ。
それはめっちゃドメインによるんじゃない?Diffusionモデルの方が得意なこともあるよ。
gemini-2.0-flash-exp-image-generationもあるじゃん。autoregressive/transfusionベースだし。
何か例を挙げてくれない?どんなユースケースがあるのか興味ある。
AI活用のhttps://iconfinder.comをずっと夢見てて。2021年にAccomplice v1を始めてVCマネーも調達したけど、時期尚早だった。でも、imagen-3.0-generate-002 (Gemini) と gpt-image-1 (OpenAI) モデルのおかげで、Accompliceをサイドプロジェクトとして復活させられたんだ。Accomplice v2 (https://accomplice.ai) はまだ始まったばかりだけど、数千ものPNGアイコンを無料でダウンロードできるよ。マルチモーダルモデルで時代遅れになるかな?
>生成されたmedium
1024x1024は0.04ドル/画像\n実際はもっと高いよ。1画像あたり約16.7セント。0.04ドル/画像はDALL·E 3の価格設定。
面白そうだけど、単体のアイコンってどれだけ使えるかな?個人的には、一貫したビジュアルスタイルのアイコンセットが欲しいな。同じスタイルで他のアイコンも生成できたら最高。