GPT-4o画像生成がマジですごい!リアルタイム編集も可能でクリエイター歓喜!
引用元:https://news.ycombinator.com/item?id=43474112
diffusionじゃなくてtokenでimage generationするのって、pixel spaceでreasoningしてるってことらしいぜ。例えば、tic-tac-toeのnotepad描かせて、最初にmoveさせて、次にお前がmoveするとか。drawing style変えたり、day to nightとか、hat被せるとか、information-conservingなtranslationもすごいみたい。resolutionはまだ低いみたいだけど、もっとwildなことできるようになりそう!appをimageでstep by step作らせて、code書かせるとか。diffusion modelの代わりにreasoningさせるとかもできるかも。generative UIも夢じゃないかもね。
>What’s important about this new type of image generation that’s happening with tokens rather than with diffusion, is that this is effectively reasoning in pixel space.”
それ違うと思うな。4oはDALL-Eっていうexternal model使ってimage生成してたけど、release後はmulti-modal model使うようになったんだって。4oに聞いたら、”image generationはlatent diffusion modelでやってる”って言ってたよ。
>You can ask 4o about this yourself. Here’s what it said to me:
>”So while I’m deeply multimodal in cognition (understanding and coordinating text + image), image generation is handled by a linked latent diffusion model, not an end-to-end token-unified architecture.”
modelは自分のことなんて知らないって。なんでみんなbotに聞くの?
それ間違ってるよ。4oは自分のこと知らないからそんなこと言えないし。4oがやってることって別にnewじゃないし。Gemini 2.0も同じことできるよ。
modelって自分のarchitectureについて間違ってること多いよ。半分はOpenAIだって言うけど違うし。信用できないって。
証拠は正しくないかもしれないけど、これは正しいと思うな。
https://chatgpt.com/share/67e355df-9f60-8000-8f36-874f8c9a08… のchat見て。
ううん、link見た?
うん、見たよ。botが言うこと信じてるように見えるから聞いたんだ。genericなfunction callしてるだけじゃん。なんでそれが内部で実際に起きてることだって信じるの? prompt繰り返したら別のmodule name出てきたし。
チャット共有してくれー!API経由でツール呼び出ししてるの確認した。ググったらTwitterとかで話題になってるね。
なんか回りくどい説明多いけど、そもそも本当に毎回ちゃんと動くのかも怪しいよね。LLMハイプも3年目だし、何十億ドルも燃やしたんだから、もっと色々できるようになってて欲しかったなー。CopilotにReactの簡単な構造お願いしたら、インポートとかズレまくっててさ。昔の自動コード生成の方がまだマシだったわ。少なくとも毎回同じ結果だったし。まあ、次のAI()に期待するしかないか。
状況変わりまくってるから、今すぐもう一回試した方がいいよ!LLMコード生成はまだアレだけど、生産性はめっちゃ上がったし。基本o1(openAI経由)とかdeepseek、jetbrainsのAIサービス(Copilotのクローン)しか使ってないけどね。VS Codeのツールも色々試したい。なんでみんな「楽しいこと」したがるんだろ?開発はつまんないもんじゃん。嫌なら違うことすればいいのに。
いやいや、今朝もCopilot使ってみたけど、さっき言ったとおりの結果だったんだって。なんかフワフワした約束じゃなくて、「ちゃんと動いて」欲しいんだよね。スティーブ・ジョブズの「It just works」って言葉知ってる?エンジニアリングの情熱でエンジニアになった人もいるんだよ。CSSいじってるだけの人と一緒にしないで欲しい。そっちの方がよっぽど退屈だわ。
スティーブ・ジョブズはビジネスじゃすごいけど、エンジニアじゃないから。そもそも「it just works」ってエンジニアリングのおかげじゃん。文句ばっか言ってないで、自分で解決すれば?退屈な作業は飯のタネだし、ビジネス側がそれを無くそうとするのは脅威だよ。AIは便利なツールだよ。使いこなせないなら、プロンプトが下手か、ツールが合ってないか、業界が間違ってるんじゃない?
別に傲慢じゃないよ。LLMの技術自体はもう20年以上前からあるし、何十億ドルも吸い込んでるんだから、クソの山だよ。Github Copilotの有料ユーザーだけど、エラーメッセージの検索とか、構文の確認くらいにしか使えない。魔法の機械じゃないし、AGIでもない。生成されたコードはちゃんと確認しないとヤバいよ。自動運転車と一緒で、もう15年くらい「もうすぐそこ」って言われてるじゃん。
ちゃんと読んでよ。LLMの“技術”は20年以上前からあるって言ってるの。ニューラルネットワークとか機械学習とかね。スマホの次はLLMで人の知能が下がるんじゃない?初期から使ってて、お金も払ってるけど、マーケティングの言うほどじゃないって話。簡単なwebアプリ作るくらいしか役に立たない。君みたいな非技術系の人が作ったコードベースがどうなるか楽しみだね。保険入っとけよ。
Copilotはコンテキスト全部使わないから。スクリプト書いて、関係あるコードを全部ClaudeとかGeminiにぶち込んでみなよ。そっちの方がずっと良い結果になるよ。
マジかー、追加のスクリプト書いたり、めんどいことして「すごいツール」を動かしたくないんだよね。プロンプトをちょっと言い換えるくらいならいいけどさ。LLMって、箱から出してすぐ使えるように宣伝されてるじゃん(この記事もそうだし)。
LLMはウェブチャットで宣伝されることが多いし、常に魔法のツールってわけじゃないよ。でも、claude/geminiのコンテキストに入るプロジェクトなら、全部突っ込んじゃえばいいんだ。
コマンド例は省略するけど、AIなしで大規模コードベース検索するよりはマシかもね。claudeにコマンド書かせたりもできるし。もっとすごいツールが欲しいなら、claude codeとか試してみて。Cursorも似たようなの追加してるけど、API使うからコンテキストは最小限だよ。
githubプロジェクトを指定して必要なものだけ引っ張ってくることもできるし。
>真の生成UI、モデルがアプリの次のフレームを生成するって?
やめてくれ!
そんなのありえないし、絶対に使いたくない。アプリはバグだらけなのに、すべての操作をLLMに解釈させるなんて悪夢だよ。AI Minecraftのデモがまさにそれ。
この意見は、これまでソフトウェアに追加してきたすべての抽象化レベルで言えたことだよね。なのに、今こうしてバグだらけのアプリからコメントしてるじゃん!
https://i.imgur.com/xsFKqsI.png 再現できないな。ロールアウトが段階的なのかも?ヨーロッパのPlusユーザーだけど、いつも半分しか入ってないグラスになる。 オーストラリアのPlusユーザーだけど、満タンでも半分でもないな。半分空っぽのグラスが出てくる。 新しい4o image generationを使ってる? 「満杯のグラス」の定義が予想以上に文字通りの意味だった。 つまりそういうこと。昔のモデルじゃ、ワイングラスにいっぱいまで注がれた状態をうまく再現できなかったんだよね。学習に使ったデータにそういうのがあんまりなかったから。 もし「なみなみ注がれたワイングラス」の写真をいっぱい学習させたらどうなるかな?一種のリトマス試験紙みたいな感じで。 「なみなみワイングラス」のデータが追加されたかは知らないけど、このお題はもうダメかもね。みんなが議論してるから、テストの一部になっちゃった。 人間はインターネット全部を学習するわけじゃないから、学び方は違うと思うよ。 人間が見るって行為は、一瞬のsnapshotを見てるだけじゃないんだよね。数秒見つめるだけでも、いろんな角度から見た画像を無意識に取り込んでる。machine learningじゃこれは無理。計算コストが高すぎる。 じゃあ、目の見えない子供はどう説明するの?感覚が発達に影響するのは確かだけど、もっと効率的な能力があるはず。人間は少ない例からでも一般化して推論できるんだよ。 すごいね!2時35分を指してる時計みたいな、変わった画像も作れる?Geminiで試した人がいたけど、できなかったみたい。4oならどうかな。 「牛が月の上を跳ぶ」ってpromptで試せる?どうしても牛が月の上にならないんだよね。いつも隠れちゃったり、横になっちゃったり。 >tokensを使った新しい画像生成って何がすごいの? >真にgenerativeなUI。モデルがアプリの次のframeを生成する。 いくつか複雑なプロンプトを試してみたよ。画像調整はimg2imgとかじゃなくて、テキストプロンプトだけでやったんだけどね。 最初のプロンプトじゃうまくいかなかった(10角形になっちゃった)。でも「10角形だから9角形にして」って送ったら、9角形になったよ。 魔法の塗り絵のスペルが変わってるのが笑える。Westherとかwntilityとか。CO2タンクがなくなってたり、8’が3’に変わってたり、意味が全然変わっちゃってるし。お世辞にも合格点とは言えないね。でも、パーティーの余興としては面白いかも。使うならちゃんとレビューしないとね。 エンジニアリング系の図面とか、回路図とかは試したことある?[1]みたいなやつ。 いい質問だね。イチから作ったことはないけど、テキストが多い図面で調整テストをしてみたら、余裕で合格点だったよ(pun intended)。 回路図のテキスト説明から生成された画像がこれだよ。 パンを持った腕のないビーナス像はマジで芸術だわ。 プロンプトが最高! 試してみたらマジですごかった。娘の誕生日招待状をほぼ1発で作れたよ。要素もスタイルも完璧だった。日付とか場所とかの詳細をテキストに追加するように頼んだら、それもできたし。ショックだわ。今までのモデルじゃ無理だった。 個人情報以外のプロンプトを共有してくれない? 4歳の女の子[名前]の誕生日招待状を描いてほしいな。手描き風で、恐竜とか花、ハート、猫の絵が周りにちょこちょこある感じ。背景は明るく、赤、ピンク、オレンジ、青をメインに使って。 この最初のプロンプトの出力例に興味ある人いるかな? うちの息子の誕生日にも同じようなプロンプト試してみたよ。よくあるエラーが出まくり。最初のは良さげだったけど、日付と時間が重複してたり、“Roarrr!”(恐竜テーマ)の“a”がぼやけてたり。 それいいね、ありがとう。絵心ないから、こういうの参考にさせてもらうと助かる。 >4o Image Generationをご紹介:今までで一番進んだ画像生成モデルだってさ。 今、AIの能力は前例のないほど爆発的に伸びてる最中だよ。この言い回しに不満を持つのは難しいなー。文字通り本当だし、めっちゃ正確じゃん。 そうなら、大げさに言う必要なくない?一番進んだモデルじゃないものを公開する理由がないじゃん。 ほとんどのことは爆発的な成長なんてしてないし、ほとんどの人はAIにそんなに関わってない。これはマーケティングの素晴らしいコミュニケーションの例だよ。この分野に詳しくない人に、何が起こっているのかを伝えてるんだ。 (肩をすくめる)基礎モデルより劣るモデルが時々リリースされるのはよくあることだよ。新しいオプション、機能、価格設定、サービスレベル、APIなどを提供するためだったり、メインモデルに組み込まれる予定がないものだったりする。 o3 miniは、一番進んだモデルというより、当時としてはそのIQに対して信じられないほど手頃な価格だったんだ。最先端じゃなくても、効率を重視することもある。 誇張してるわけじゃないよ。新しい製品を使う理由を正確に説明してるんだよ。 ジョブズ亡き後のAppleに、これほどの期待を抱かせるようなものが何かあったっけ? どのiPhoneも今までで最高のiPhoneだってこと。 Apple Intelligence搭載の18 Pro Max Ultraでさえ? 9月に出るやつだけね😉 それってある意味そうだよ。iPhone 16eは最新だけど最高とは言えないんじゃない?それとも、純粋な性能じゃなくて価格対性能で評価してるのかな?(16eが一番いいかすらわからないけど) Appleは最高のスマホだって言ったの?Proモデルだけじゃないかな。 いや、俺が(間接的に)返信したユーザーが言ったんだよ: Appleってマジで最高のソフトウェア会社ってわけじゃないし、Siriでデジタルアシスタントの先駆けだったけど、放置してる感じだよね。今のAIの能力からすると、Siriがマジでポンコツなの笑えるレベル。でもAndroidもマジで良いビルトインのソリューションないんだよね。 Apple siliconチップ いや、でも「最高に~」ってのはもうやめたんじゃないかな(他の頭空っぽの会社がみんな真似したから)。今は形容詞をドットで繋げてるんだよ。 もしかしたらみんな気づいたんじゃない?Appleの「最高にXな製品」ってのは、誰かがずっと前にXをやってて、Appleが単に後追いしてるだけってことに。 改善し続ければ、常に最高か一番になるでしょ? 勾配降下法のステップは毎回最高のモデルじゃん! 勢いがある勾配降下法だとそうとは限らないよ。 それってマジで無意味ってわけじゃないかもよ。1)自社の製品としか比較してないし、2)その製品が最新のベストだって知るのは役に立つじゃん。新しい機能があるかもしれないけど、実際には一番進んでない新製品じゃなくてね。 発表の時の表現がいつも同じっていう、細かい指摘だよ。 自分のマーケティングでそんな言い方したくないけどさー、マジでみんな時間くれなさすぎなんだよねー。マーケティングってのは、その物の説明じゃなくて、もっと知りたいって思わせるためのもんだからしゃーない。 ほんのちょっとしか注意を払わない人たちのことなんて、興味ない人たちって言うじゃん。プロジェクトプランナー探してるとか、その分野に興味あるとかじゃない限り、どんな言葉使ってもアピールなんて無理だよ。もし興味あったら、ちゃんと隅々まで読むって。 理想論乙。マーケティングは効果あるからみんなやってんだよ。 いやいや、みんなマーケティング使うのは、それが無難な選択だからでしょ。効果ないことだって多いけど、誰もリスク冒して反対意見なんて言いたくないんだよ。 いやー、今はソフトウェアエンジニアリングの用語から「blazingly fast(超高速)」って言葉を消したい。 Electronのおかげで願いが叶いそうじゃん。 >もし_effortlessly_ eliminate any word you mean? バージョニングがマジで意味不明だから、実はダウングレード版とかライト版とかリリースしててもおかしくないよね。もっとコメントを表示(1)
”ワイングラスいっぱいの絵を描いて。赤ワインがなみなみと注がれてて、こぼれそうなくらいで…。グラス全体が見えるようにズームアウトして、上に「HELL YEAH」ってキャプションを追加して。ワインの量は変えないで。”
https://imgur.com/a/wGkBa0v
ネットで正しい答えを得る一番の方法は、間違った答えを投稿することだって言うでしょ?これって人間の学習と変わらないんじゃないかな。
すごく興味深いね。仕組みについて解説してる記事とかある?
それ、先月作ったよ!demoはhttps://universal.oroborus.org (スマホじゃ無理。タブレットかPCで)。
github:http://github.com/snickell/universal
Claude 3.7で、LLMがsvgかhtml/cssでframeを生成。クリックした場所をLLMに伝えて、次のframeを生成。言語はもう古いと思う。
https://mordenstar.com/blog/chatgpt-4o-images
9角形がやっぱり苦手みたいだけど、マジですごいわ。
[1]
https://techcrunch.com/wp-content/uploads/2024/03/pasted-ima…もっとコメントを表示(2)
https://i.imgur.com/sGfdtWo.png
で、ちょっと修正依頼。
>ほとんど完璧じゃん!このスタイルと要素はそのままに、テキストを
>[修正テキスト]に変えて。
>あと、場所と日付の詳細を下に追記してほしい。
>[場所の詳細]”
https://x.com/0xmetaschool/status/1904804277341839847
それを指摘してやり直させたら、もっと酷いの出てきた。まだおもちゃレベルかな。
で、ググってみると:
>Gemini 2.5:うちの会社で一番賢いAIモデル
>Gemini 2.0 | うちの会社で一番優秀なAIモデル
まだまだ出てくるよ。こういうトレンドはもう終わってほしいし、Appleが効果的なものを使い始めて、他の会社も新しい言葉遣いを真似し始めればいいのに。
>一番進んだモデルじゃないものを公開する理由?
さあ、OpenAIの会議に出てるわけじゃないし。何が起こってるか教えてくれないとわかんないじゃん。最高のモデルじゃないものをリリースする可能性も十分あるし、これはマジで新しいやつだって説明してるんだよ。
新しい基礎モデルをトレーニングするには時間もお金もかかるからね。毎週のようにできるわけじゃない。だから“史上最高のモデルを発表します”って言うのは当然だと思うよ。
あと、すべてのモデルがベンチマーク性能で最前線を目指してるわけじゃないんだ。速くて安いだけのモデルもあるんだから。
スティーブ・ジョブズのマーケティングに関する独白:https://www.youtube.com/watch?v=P4VBqTViEx4もっとコメントを表示(3)
>Every iPhone is their best iPhone yet
>どのiPhoneも今までで最高のiPhoneだって
Appleはハードウェアの会社って感じ。でもCookはMacのMシリーズARMチップとか、Airpods、Apple watch、Apple payで結構良い実績上げてるよね。
Hotwheels:Fast.Furious.Spectacular.って感じで。
>https://www.youtube.com/watch?v=bPkso_6n0vs
特にXbox(Series X vs S)からOpenAIのモデル名(4o vs o1-pro)まで、名前を見ただけじゃどれが最新でベストかわからない場合に重要だよね。
ここでは4oが一番有能なimage generatorだって言ってるけど、これはマジで役立つ情報だよね。特にドロップダウンリストに複数のモデルがあって、どれでも画像を生成できる場合は。
<製品名>:史上最高の<最上級の言葉><もの>。
>もし楽に言葉を消せるならって意味?