メインコンテンツへスキップ

GPT-4o画像生成がマジですごい!リアルタイム編集も可能でクリエイター歓喜!

·2 分
2025/03 GPT-4o 画像生成AI AIイラスト リアルタイム編集 OpenAI

GPT-4o画像生成がマジですごい!リアルタイム編集も可能でクリエイター歓喜!

引用元:https://news.ycombinator.com/item?id=43474112

blixt 2025-03-25T19:42:16

diffusionじゃなくてtokenでimage generationするのって、pixel spaceでreasoningしてるってことらしいぜ。例えば、tic-tac-toeのnotepad描かせて、最初にmoveさせて、次にお前がmoveするとか。drawing style変えたり、day to nightとか、hat被せるとか、information-conservingなtranslationもすごいみたい。resolutionはまだ低いみたいだけど、もっとwildなことできるようになりそう!appをimageでstep by step作らせて、code書かせるとか。diffusion modelの代わりにreasoningさせるとかもできるかも。generative UIも夢じゃないかもね。

Taek 2025-03-25T22:50:55

>What’s important about this new type of image generation that’s happening with tokens rather than with diffusion, is that this is effectively reasoning in pixel space.”
それ違うと思うな。4oはDALL-Eっていうexternal model使ってimage生成してたけど、release後はmulti-modal model使うようになったんだって。4oに聞いたら、”image generationはlatent diffusion modelでやってる”って言ってたよ。

noosphr 2025-03-26T08:00:19

>You can ask 4o about this yourself. Here’s what it said to me:
>”So while I’m deeply multimodal in cognition (understanding and coordinating text + image), image generation is handled by a linked latent diffusion model, not an end-to-end token-unified architecture.”
modelは自分のことなんて知らないって。なんでみんなbotに聞くの?

rickyhatespeas 2025-03-25T23:34:00

それ間違ってるよ。4oは自分のこと知らないからそんなこと言えないし。4oがやってることって別にnewじゃないし。Gemini 2.0も同じことできるよ。

wegfawefgawefg 2025-03-26T08:31:32

modelって自分のarchitectureについて間違ってること多いよ。半分はOpenAIだって言うけど違うし。信用できないって。

mgraczyk 2025-03-26T01:18:43

証拠は正しくないかもしれないけど、これは正しいと思うな。
https://chatgpt.com/share/67e355df-9f60-8000-8f36-874f8c9a08… のchat見て。

mgraczyk 2025-03-26T05:46:02

ううん、link見た?

low_tech_love 2025-03-26T06:00:47

うん、見たよ。botが言うこと信じてるように見えるから聞いたんだ。genericなfunction callしてるだけじゃん。なんでそれが内部で実際に起きてることだって信じるの? prompt繰り返したら別のmodule name出てきたし。

mgraczyk 2025-03-26T06:02:44

チャット共有してくれー!API経由でツール呼び出ししてるの確認した。ググったらTwitterとかで話題になってるね。

hansmayer 2025-03-26T15:13:26

なんか回りくどい説明多いけど、そもそも本当に毎回ちゃんと動くのかも怪しいよね。LLMハイプも3年目だし、何十億ドルも燃やしたんだから、もっと色々できるようになってて欲しかったなー。CopilotにReactの簡単な構造お願いしたら、インポートとかズレまくっててさ。昔の自動コード生成の方がまだマシだったわ。少なくとも毎回同じ結果だったし。まあ、次のAI()に期待するしかないか。

pdntspa 2025-03-26T15:45:44

状況変わりまくってるから、今すぐもう一回試した方がいいよ!LLMコード生成はまだアレだけど、生産性はめっちゃ上がったし。基本o1(openAI経由)とかdeepseek、jetbrainsのAIサービス(Copilotのクローン)しか使ってないけどね。VS Codeのツールも色々試したい。なんでみんな「楽しいこと」したがるんだろ?開発はつまんないもんじゃん。嫌なら違うことすればいいのに。

hansmayer 2025-03-26T15:58:14

いやいや、今朝もCopilot使ってみたけど、さっき言ったとおりの結果だったんだって。なんかフワフワした約束じゃなくて、「ちゃんと動いて」欲しいんだよね。スティーブ・ジョブズの「It just works」って言葉知ってる?エンジニアリングの情熱でエンジニアになった人もいるんだよ。CSSいじってるだけの人と一緒にしないで欲しい。そっちの方がよっぽど退屈だわ。

pdntspa 2025-03-26T19:19:11

スティーブ・ジョブズはビジネスじゃすごいけど、エンジニアじゃないから。そもそも「it just works」ってエンジニアリングのおかげじゃん。文句ばっか言ってないで、自分で解決すれば?退屈な作業は飯のタネだし、ビジネス側がそれを無くそうとするのは脅威だよ。AIは便利なツールだよ。使いこなせないなら、プロンプトが下手か、ツールが合ってないか、業界が間違ってるんじゃない?

hansmayer 2025-03-26T20:45:10

別に傲慢じゃないよ。LLMの技術自体はもう20年以上前からあるし、何十億ドルも吸い込んでるんだから、クソの山だよ。Github Copilotの有料ユーザーだけど、エラーメッセージの検索とか、構文の確認くらいにしか使えない。魔法の機械じゃないし、AGIでもない。生成されたコードはちゃんと確認しないとヤバいよ。自動運転車と一緒で、もう15年くらい「もうすぐそこ」って言われてるじゃん。

hansmayer 2025-03-26T21:46:00

ちゃんと読んでよ。LLMの“技術”は20年以上前からあるって言ってるの。ニューラルネットワークとか機械学習とかね。スマホの次はLLMで人の知能が下がるんじゃない?初期から使ってて、お金も払ってるけど、マーケティングの言うほどじゃないって話。簡単なwebアプリ作るくらいしか役に立たない。君みたいな非技術系の人が作ったコードベースがどうなるか楽しみだね。保険入っとけよ。

cma 2025-03-27T10:11:26

Copilotはコンテキスト全部使わないから。スクリプト書いて、関係あるコードを全部ClaudeとかGeminiにぶち込んでみなよ。そっちの方がずっと良い結果になるよ。

hansmayer 2025-03-27T11:11:03

マジかー、追加のスクリプト書いたり、めんどいことして「すごいツール」を動かしたくないんだよね。プロンプトをちょっと言い換えるくらいならいいけどさ。LLMって、箱から出してすぐ使えるように宣伝されてるじゃん(この記事もそうだし)。

cma 2025-03-27T15:17:40

LLMはウェブチャットで宣伝されることが多いし、常に魔法のツールってわけじゃないよ。でも、claude/geminiのコンテキストに入るプロジェクトなら、全部突っ込んじゃえばいいんだ。
コマンド例は省略するけど、AIなしで大規模コードベース検索するよりはマシかもね。claudeにコマンド書かせたりもできるし。もっとすごいツールが欲しいなら、claude codeとか試してみて。Cursorも似たようなの追加してるけど、API使うからコンテキストは最小限だよ。
githubプロジェクトを指定して必要なものだけ引っ張ってくることもできるし。

sureIy 2025-03-25T23:43:39

>真の生成UI、モデルがアプリの次のフレームを生成するって?
やめてくれ!
そんなのありえないし、絶対に使いたくない。アプリはバグだらけなのに、すべての操作をLLMに解釈させるなんて悪夢だよ。AI Minecraftのデモがまさにそれ。

blixt 2025-03-25T23:48:08

この意見は、これまでソフトウェアに追加してきたすべての抽象化レベルで言えたことだよね。なのに、今こうしてバグだらけのアプリからコメントしてるじゃん!

もっとコメントを表示(1)
meeton 2025-03-25T21:08:35

https://i.imgur.com/xsFKqsI.png
”ワイングラスいっぱいの絵を描いて。赤ワインがなみなみと注がれてて、こぼれそうなくらいで…。グラス全体が見えるようにズームアウトして、上に「HELL YEAH」ってキャプションを追加して。ワインの量は変えないで。”

Stevvo 2025-03-25T21:15:50

再現できないな。ロールアウトが段階的なのかも?ヨーロッパのPlusユーザーだけど、いつも半分しか入ってないグラスになる。

amy_petrik 2025-03-26T05:03:23

オーストラリアのPlusユーザーだけど、満タンでも半分でもないな。半分空っぽのグラスが出てくる。

yusufozkan 2025-03-25T20:10:38

新しい4o image generationを使ってる?
https://imgur.com/a/wGkBa0v

minimaxir 2025-03-25T20:12:20

「満杯のグラス」の定義が予想以上に文字通りの意味だった。

Loeffelmann 2025-03-25T20:18:40

つまりそういうこと。昔のモデルじゃ、ワイングラスにいっぱいまで注がれた状態をうまく再現できなかったんだよね。学習に使ったデータにそういうのがあんまりなかったから。

colecut 2025-03-25T20:31:54

もし「なみなみ注がれたワイングラス」の写真をいっぱい学習させたらどうなるかな?一種のリトマス試験紙みたいな感じで。

gorkish 2025-03-25T21:09:39

「なみなみワイングラス」のデータが追加されたかは知らないけど、このお題はもうダメかもね。みんなが議論してるから、テストの一部になっちゃった。
ネットで正しい答えを得る一番の方法は、間違った答えを投稿することだって言うでしょ?これって人間の学習と変わらないんじゃないかな。

vlovich123 2025-03-25T23:29:29

人間はインターネット全部を学習するわけじゃないから、学び方は違うと思うよ。

sayamqazi 2025-03-26T01:16:55

人間が見るって行為は、一瞬のsnapshotを見てるだけじゃないんだよね。数秒見つめるだけでも、いろんな角度から見た画像を無意識に取り込んでる。machine learningじゃこれは無理。計算コストが高すぎる。

vlovich123 2025-03-26T03:11:18

じゃあ、目の見えない子供はどう説明するの?感覚が発達に影響するのは確かだけど、もっと効率的な能力があるはず。人間は少ない例からでも一般化して推論できるんだよ。

Imustaskforhelp 2025-03-25T20:25:38

すごいね!2時35分を指してる時計みたいな、変わった画像も作れる?Geminiで試した人がいたけど、できなかったみたい。4oならどうかな。

stevesearer 2025-03-25T20:51:34

「牛が月の上を跳ぶ」ってpromptで試せる?どうしても牛が月の上にならないんだよね。いつも隠れちゃったり、横になっちゃったり。

xg15 2025-03-25T20:35:13

>tokensを使った新しい画像生成って何がすごいの?
すごく興味深いね。仕組みについて解説してる記事とかある?

snickell 2025-03-26T02:28:15

>真にgenerativeなUI。モデルがアプリの次のframeを生成する。
それ、先月作ったよ!demoはhttps://universal.oroborus.org (スマホじゃ無理。タブレットかPCで)。
github:http://github.com/snickell/universal
Claude 3.7で、LLMがsvgかhtml/cssでframeを生成。クリックした場所をLLMに伝えて、次のframeを生成。言語はもう古いと思う。

vunderba 2025-03-26T04:45:35

いくつか複雑なプロンプトを試してみたよ。画像調整はimg2imgとかじゃなくて、テキストプロンプトだけでやったんだけどね。
https://mordenstar.com/blog/chatgpt-4o-images
9角形がやっぱり苦手みたいだけど、マジですごいわ。

jimbo_joe 2025-03-26T10:45:22

最初のプロンプトじゃうまくいかなかった(10角形になっちゃった)。でも「10角形だから9角形にして」って送ったら、9角形になったよ。

Too 2025-03-30T07:48:53

魔法の塗り絵のスペルが変わってるのが笑える。Westherとかwntilityとか。CO2タンクがなくなってたり、8’が3’に変わってたり、意味が全然変わっちゃってるし。お世辞にも合格点とは言えないね。でも、パーティーの余興としては面白いかも。使うならちゃんとレビューしないとね。

algo_trader 2025-03-26T15:14:32

エンジニアリング系の図面とか、回路図とかは試したことある?[1]みたいなやつ。
[1]
https://techcrunch.com/wp-content/uploads/2024/03/pasted-ima

vunderba 2025-03-26T20:59:26

いい質問だね。イチから作ったことはないけど、テキストが多い図面で調整テストをしてみたら、余裕で合格点だったよ(pun intended)。

もっとコメントを表示(2)
randomjoe2 2025-03-27T01:34:50

回路図のテキスト説明から生成された画像がこれだよ。
https://i.imgur.com/sGfdtWo.png

therealdrag0 2025-03-26T15:51:07

パンを持った腕のないビーナス像はマジで芸術だわ。

ttul 2025-03-26T13:30:03

プロンプトが最高!

M4v3R 2025-03-25T20:49:48

試してみたらマジですごかった。娘の誕生日招待状をほぼ1発で作れたよ。要素もスタイルも完璧だった。日付とか場所とかの詳細をテキストに追加するように頼んだら、それもできたし。ショックだわ。今までのモデルじゃ無理だった。

swyx 2025-03-25T22:27:01

個人情報以外のプロンプトを共有してくれない?

M4v3R 2025-03-25T22:55:57

4歳の女の子[名前]の誕生日招待状を描いてほしいな。手描き風で、恐竜とか花、ハート、猫の絵が周りにちょこちょこある感じ。背景は明るく、赤、ピンク、オレンジ、青をメインに使って。

で、ちょっと修正依頼。

>ほとんど完璧じゃん!このスタイルと要素はそのままに、テキストを
>[修正テキスト]に変えて。
>あと、場所と日付の詳細を下に追記してほしい。
>[場所の詳細]”

nvalis 2025-03-26T13:49:09

この最初のプロンプトの出力例に興味ある人いるかな?

https://x.com/0xmetaschool/status/1904804277341839847

yaba_money 2025-03-26T18:41:48

うちの息子の誕生日にも同じようなプロンプト試してみたよ。よくあるエラーが出まくり。最初のは良さげだったけど、日付と時間が重複してたり、“Roarrr!”(恐竜テーマ)の“a”がぼやけてたり。

それを指摘してやり直させたら、もっと酷いの出てきた。まだおもちゃレベルかな。

swyx 2025-03-26T17:09:17

それいいね、ありがとう。絵心ないから、こういうの参考にさせてもらうと助かる。

kh_hk 2025-03-25T19:05:23

>4o Image Generationをご紹介:今までで一番進んだ画像生成モデルだってさ。

で、ググってみると:

>Gemini 2.5:うちの会社で一番賢いAIモデル
>Gemini 2.0 | うちの会社で一番優秀なAIモデル

まだまだ出てくるよ。こういうトレンドはもう終わってほしいし、Appleが効果的なものを使い始めて、他の会社も新しい言葉遣いを真似し始めればいいのに。

roenxi 2025-03-25T22:46:10

今、AIの能力は前例のないほど爆発的に伸びてる最中だよ。この言い回しに不満を持つのは難しいなー。文字通り本当だし、めっちゃ正確じゃん。

kh_hk 2025-03-25T23:21:32

そうなら、大げさに言う必要なくない?一番進んだモデルじゃないものを公開する理由がないじゃん。

roenxi 2025-03-25T23:58:33

ほとんどのことは爆発的な成長なんてしてないし、ほとんどの人はAIにそんなに関わってない。これはマーケティングの素晴らしいコミュニケーションの例だよ。この分野に詳しくない人に、何が起こっているのかを伝えてるんだ。

>一番進んだモデルじゃないものを公開する理由?

さあ、OpenAIの会議に出てるわけじゃないし。何が起こってるか教えてくれないとわかんないじゃん。最高のモデルじゃないものをリリースする可能性も十分あるし、これはマジで新しいやつだって説明してるんだよ。

CamperBob2 2025-03-25T23:57:35

(肩をすくめる)基礎モデルより劣るモデルが時々リリースされるのはよくあることだよ。新しいオプション、機能、価格設定、サービスレベル、APIなどを提供するためだったり、メインモデルに組み込まれる予定がないものだったりする。

新しい基礎モデルをトレーニングするには時間もお金もかかるからね。毎週のようにできるわけじゃない。だから“史上最高のモデルを発表します”って言うのは当然だと思うよ。

ghshephard 2025-03-25T23:44:11

o3 miniは、一番進んだモデルというより、当時としてはそのIQに対して信じられないほど手頃な価格だったんだ。最先端じゃなくても、効率を重視することもある。

sebzim4500 2025-03-26T13:42:44

誇張してるわけじゃないよ。新しい製品を使う理由を正確に説明してるんだよ。
あと、すべてのモデルがベンチマーク性能で最前線を目指してるわけじゃないんだ。速くて安いだけのモデルもあるんだから。

sigmoid10 2025-03-25T19:21:21

ジョブズ亡き後のAppleに、これほどの期待を抱かせるようなものが何かあったっけ?

internetter 2025-03-25T19:34:13

どのiPhoneも今までで最高のiPhoneだってこと。

brianshaler 2025-03-25T21:10:21

Apple Intelligence搭載の18 Pro Max Ultraでさえ?
スティーブ・ジョブズのマーケティングに関する独白:https://www.youtube.com/watch?v=P4VBqTViEx4

layer8 2025-03-25T21:43:27

9月に出るやつだけね😉

もっとコメントを表示(3)
echoangle 2025-03-26T18:16:11

それってある意味そうだよ。iPhone 16eは最新だけど最高とは言えないんじゃない?それとも、純粋な性能じゃなくて価格対性能で評価してるのかな?(16eが一番いいかすらわからないけど)

azinman2 2025-03-27T20:15:29

Appleは最高のスマホだって言ったの?Proモデルだけじゃないかな。

echoangle 2025-03-27T21:44:40

いや、俺が(間接的に)返信したユーザーが言ったんだよ:
>Every iPhone is their best iPhone yet
>どのiPhoneも今までで最高のiPhoneだって

chrisco255 2025-03-26T15:24:11

Appleってマジで最高のソフトウェア会社ってわけじゃないし、Siriでデジタルアシスタントの先駆けだったけど、放置してる感じだよね。今のAIの能力からすると、Siriがマジでポンコツなの笑えるレベル。でもAndroidもマジで良いビルトインのソリューションないんだよね。
Appleはハードウェアの会社って感じ。でもCookはMacのMシリーズARMチップとか、Airpods、Apple watch、Apple payで結構良い実績上げてるよね。

pell 2025-03-26T00:37:23

Apple siliconチップ

kh_hk 2025-03-25T19:35:26

いや、でも「最高に~」ってのはもうやめたんじゃないかな(他の頭空っぽの会社がみんな真似したから)。今は形容詞をドットで繋げてるんだよ。
Hotwheels:Fast.Furious.Spectacular.って感じで。

sigmoid10 2025-03-25T20:05:11

もしかしたらみんな気づいたんじゃない?Appleの「最高にXな製品」ってのは、誰かがずっと前にXをやってて、Appleが単に後追いしてるだけってことに。

magicmicah85 2025-03-26T00:31:43

改善し続ければ、常に最高か一番になるでしょ?
>https://www.youtube.com/watch?v=bPkso_6n0vs

Buttons840 2025-03-25T21:45:14

勾配降下法のステップは毎回最高のモデルじゃん!

echoangle 2025-03-26T18:17:00

勢いがある勾配降下法だとそうとは限らないよ。

hombre_fatal 2025-03-25T19:11:24

それってマジで無意味ってわけじゃないかもよ。1)自社の製品としか比較してないし、2)その製品が最新のベストだって知るのは役に立つじゃん。新しい機能があるかもしれないけど、実際には一番進んでない新製品じゃなくてね。
特にXbox(Series X vs S)からOpenAIのモデル名(4o vs o1-pro)まで、名前を見ただけじゃどれが最新でベストかわからない場合に重要だよね。
ここでは4oが一番有能なimage generatorだって言ってるけど、これはマジで役立つ情報だよね。特にドロップダウンリストに複数のモデルがあって、どれでも画像を生成できる場合は。

kh_hk 2025-03-25T19:17:32

発表の時の表現がいつも同じっていう、細かい指摘だよ。
<製品名>:史上最高の<最上級の言葉><もの>。

rachofsunshine 2025-03-25T19:31:35

自分のマーケティングでそんな言い方したくないけどさー、マジでみんな時間くれなさすぎなんだよねー。マーケティングってのは、その物の説明じゃなくて、もっと知りたいって思わせるためのもんだからしゃーない。

skydhash 2025-03-25T21:08:12

ほんのちょっとしか注意を払わない人たちのことなんて、興味ない人たちって言うじゃん。プロジェクトプランナー探してるとか、その分野に興味あるとかじゃない限り、どんな言葉使ってもアピールなんて無理だよ。もし興味あったら、ちゃんと隅々まで読むって。

adammarples 2025-03-25T21:37:36

理想論乙。マーケティングは効果あるからみんなやってんだよ。

bigstrat2003 2025-03-26T01:14:17

いやいや、みんなマーケティング使うのは、それが無難な選択だからでしょ。効果ないことだって多いけど、誰もリスク冒して反対意見なんて言いたくないんだよ。

xboxnolifes 2025-03-25T20:08:02

いやー、今はソフトウェアエンジニアリングの用語から「blazingly fast(超高速)」って言葉を消したい。

acheron 2025-03-26T03:00:52

Electronのおかげで願いが叶いそうじゃん。

kh_hk 2025-03-25T19:41:23

>もし_effortlessly_ eliminate any word you mean?
>もし楽に言葉を消せるならって意味?

vagab0nd 2025-03-26T16:40:03

バージョニングがマジで意味不明だから、実はダウングレード版とかライト版とかリリースしててもおかしくないよね。

記事一覧へ

海外テックの反応まとめ
著者
海外テックの反応まとめ
暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。