Gemini 2.5がヤバい!長編小説も数学パズルもAIが人間超え!?
引用元:https://news.ycombinator.com/item?id=43473489
LLMに小説みたいな長い話を全部お任せにするのは難しいよね。細かい設定を教えると、LLMがめっちゃ神経質になっちゃうんだよね。例えば、恋愛対象のキャラ設定を教えたら、3ページ以内に(だいたい1ページ目で)出会わせようとするんだよ。ペース配分がおかしいんだよね。それを修正しようとしても全然ダメ。でも、このモデルは19ページも書いて、やっと普通のペース配分になった気がする。マジで感動した!
編集:これだよ→https://aistudio.google.com/app/prompts?state=%7B%22ids%22:%…
pastebinもあるよ→https://pastebin.com/aiWuYcrF
このサイトでのLLMへの批判が、ここ数年でどう変わってきたか面白いね。今は小説のペース配分がおかしいって話になってるんだ。
AIの進歩のペースを測る一番簡単な方法は、ゴールポストにスピードメーターをつけることだね。
それ、うまいこと言うね。マジでその通り。現代のAI開発が社会に与える影響を認められない人が多すぎる気がする。
AIスロップって呼んでるよ。(今はLLMの話ね。AIは広い言葉だし、いろんな分野でめっちゃ役に立ってるから。)
君が言ってることを
claude
に説明してもらったよ…
https://claude.ai/share/391160c5-d74d-47e9-a963-0c19a9c7489a
HNのコメントを理解するのをLLMに外注するのは、君の頭にとって良くないと思うよ。
ハリーポッターより売れるまでは、チューリングテストに合格したとは言えないんじゃない?
>
It’s not really passing the
Turing Test
until it outsells
Harry Potter.
”ほとんどの人間が書いた本はそんなことないから、それってチューリングテストとは違うテストの基準じゃない?”
ゴールポストが常に動いてるってことだよね。
このサブゴール投稿は、”聖書を超える売り上げ”の段階を超えたら、もうそんなに進展しないんじゃないかな。
AIが自分だけのために新しい本を生成してくれるのに、わざわざ本を買う価値ってあるのかな?
ちょっとここで爆弾発言。
売上じゃなくて、業界(とか社会)への影響とか、人々の生活への価値で成功を測ったらどうだろう?
AI全体に話を広げると、(操作可能で、意味がないかもしれない)ベンチマークじゃなくて、実際のユースケースとか、適応性とかで知能を測ったらどうだろう?
最近、誰かが『Claude Plays Pokemon』を見てて、それがAIベンチマークよりも良い指標だと思ったんだ。ポケモンは8歳でもクリアできるゲームだけど、ローカルLLMよりも知識がなくても、ちゃんと知能があれば100時間以内にクリアできる。でもClaudeはまだ最初の半分もクリアできてないし、他のAIも同じだと思う。
人間って定量化が大好きだよね。”測定”って言葉を使ったけど、あなたが目指してる測定って定量化できると思う?
今は無理だと思うけど、お金ですべてを測る今のやり方よりは、あなたの提案に従う方がマシだと思うよ。
そもそもLLMの大きな欠点としてのペース配分は、ライターからの昔からの不満だよ。
Deepseek-R1の時代からそういう話はよくあった。
>https://www.tumblr.com/nostalgebraist/778041178124926976/hyd…
これは”人間の小説の50%よりマシ”レベルのゴミになるか、完全に小説を不要にするくらい想像を絶する芸術作品になるかのどっちかだな。
長期的に見て人類にとってどっちが良いか分からん。
小説の目的を商業的な視点だけで見るなら、小説執筆を時代遅れにできるかもね。
母親に電話して『愛してる』って伝える機械を作れても、俺がそうするのを時代遅れにはできないでしょ。
このコメントがこのサイトのすべての批判の基準だとしたら、そうかもね。あなたのコメントはちょっと辛辣に聞こえるよ。もしかして、小説執筆はLLMの批判基準としては低すぎるのかな?
親のコメントをそういう風には読まなかったな。どっちかっていうと、目標をどんどん高く設定し続けてるか、悪く言えばモデルがどんどん良くなってるってことだと思う。
毎月のように進歩してるのが信じられないくらいすごい。マジで考えられないレベル。
ペース配分の問題もすぐに解決すると思う。3年以内に99%の確率で解決して、1年以内なら50%の確率かな。
コンサルの仕事でデータベースサーバーのパフォーマンスチューニングすることがあるんだけど、毎回+10~20%くらい性能上げれる裏技持ってんだよね。でもお客さんから「それって意味あるの?」って言われることが多いんだよねー。 ゴールポストを動かすことの何が問題なの?誰がそんなことで言い争ってるんだろ? みんなgen AIをもっといろんな場面で使おうとしてるけど、昔は簡単なことでも全然ダメだったのに、今はちょっとはマシになったけど、まだ使えるレベルには届いてないんだよね。gen AIの技術を悪く言うつもりはなくて、すごいことはすごいんだけど、期待されてるほどじゃないから、みんな色々言ってるんだと思うよ。 読んだけど、確かにすごいと思うよ。文章のスタイルは好みがあるから置いといて、よくある現代ファンタジーって感じかな。ページ数を稼ぐために、無駄に表現が多かったり、形容詞とか副詞が多かったり、高校生みたいな文章だったり…個人的には、1冊で完結する本が好きなんだけどね。でも、こういう長いシリーズが人気あるのも知ってるよ。もし誰かにアドバイスするなら、良い編集者を見つけた方がいいって言うかな。 最後の文に同意。僕の考えはこう。「あなたが書く気がないなら、私が読む気になるわけないじゃん」。 AIを段階的に使うのが良いと思うよ。 チャットボットに小説をいきなり作らせるのは、人間にいきなり小説を即興で作らせるようなもんじゃん。 でも、将来のチャットボットは、まずアウトラインを作って、下書きを書いて、自分で批判して、全体を書き直す、みたいなプロセスを自分で管理できるようになるんじゃない? 一発で終わらせるのが問題じゃないんだよね。細かいところが崩壊するんだよ。細かく分けても同じ問題が起きると思う。全部手取り足取り教えるなら別だけど、それじゃ意味ないじゃん?小説を読みたいだけで、共同執筆したいわけじゃないんだよね。 novelって文字通り「新しいもの」って意味だよね?LLMに本当にnovelを作れると思う? LLMに使って、ざっくりとした章の説明でプロットを組み立ててもらってから、各章や物語の展開を掘り下げてもらうのがいいんじゃないかな。もしくは、具体的なことを聞く前に、まず大まかな流れをLLMに伝えるとか。そうすれば、もっとコントロールしやすくなると思うよ。 確かにそうだね。LLMを使う他のことと一緒で、自分で手を動かした方が良い結果になるよね。でも、今回は自分が作者や編集者じゃなくて読者でいたいから、LLMが長編をちゃんとペース配分できることがすごく重要なんだ。 自分で創作しないなら、LLMが書いた長編を読む意味ってあるのかな?人間が書いた本はたくさんあるし、LLMが書くものより絶対面白いじゃん。なんでそっちを読まないの? 人間が書いた面白い本を見つけるのってマジで難しいんだよね。GoodReadsもまあまあだけど、おすすめの上位はすぐ見終わっちゃうし。SFをよく読むんだけど、みんなが勧める本って10点満点にはならないことが多いんだよね。でも、RedditとかHNでたまたま見つけたのがマジで最高だったりする。 なんでAIで小説書こうなんて思うの?それって人間のやることじゃん?😊 文章書くの苦手だけど、読むのは大好きなんだよね。小説のアイデアはあるんだけど、それを文章にするのが大変で。 何かを上達させるには、とにかくやることだよ。短編小説とか短い小説を書き始めれば、そのうちできるようになるよ。すごい作家じゃなくても、良い本は書けるんだから😊。もちろん、できれば良いんだけどね。読者はあなたの成長を許してくれるよ。 いや、その通りだよ。多くの人が「自分にはできない」と思ってることは、ただ単に練習不足なだけなんだよね。 AIで小説を書きたいわけじゃないんだ。読みたいんだよ(良いものができたらね)。読書が好きだから。特定の展開のものが読みたいとき、人間が書いたおすすめを見つけるのが難しいんだよね。 テキスト共有サイトで共有してくれない?共有クオータに達したみたいだね。 色んなモデルのベンチマークとして数学パズル使ってるんだけど、コンピューターで解くのに3日くらいかかったんだよね。数学専攻の人でも手計算で1日かかったらしい。 これ、10年前にRedditに投稿されてそうじゃん? そう思うじゃん?でもGoogleのAI OverviewもBingのCoPilotも間違った答え出すんだよね。 それは的外れじゃない?検索クエリ全部に高いLLM使うのは馬鹿げてるでしょ。この投稿はGoogle検索がGemini 2.5とかチャットボットに置き換わる話じゃないんだから。 Googleはページのトップに「AI overview」の答えを表示してるね。 他のモデルは解けないんだから、トレーニングデータに入ってるだけじゃない理由があるはず。数字を65じゃなくて85に変えても、Geminiはちゃんと推論できるみたいだし。 トレーニングデータに入ってるだけじゃないのは確かだと思うけど、トレーニングデータに入ってるってことは、これだけで一般的な数学能力について結論出すのは無理だよ。数字を変えても同じ。 728を与えると間違えるよ。(728, 182, 546)って言う。答えは教えないから、次のトレーニングセットには入らないようにする。 728だと8で割り切れるから、パズルが成立しない。 それって、ほぼ全ての人間も同じじゃん?ほとんどの人が目新しいことなんて思いつかないって。 この問題、特別な数学スキル(大学レベル以上)持ってなくても、適当に選んだ人なら紙とペンで30分くらいで解けるレベルだよ。全然難しくないって。“95%以上の数学的推論”なんて意味不明な基準だし。モデルがアルバニア語で世界人口の99.9%より優れてるって言ってるようなもん。だってアルバニア語なんて勉強する人0.1%以下でしょ? あなたが選んだ“適当な人”って、かなり頭が良い人で、全然普通のサンプルじゃないと思うよ。学術的に注目するほど難しいとは言わないけど、簡単な問題じゃないと思う。人口の1%以下の人しか30分で解けないんじゃない?めっちゃ頭が良いか、特別な推論の訓練を受けてるか、その両方じゃないと無理だよ。 犬の散歩中に15分以内に解けたよ。ペンも紙もなしで。でも、自分が数学スキルがない普通の人間だとは言わないけどね。最初の推測が当たったし。 これは良い謎だね。残念ながら、ネットで全く同じ問題と解答を簡単に見つけちゃった(数字は違うけど)。だからトレーニングセットに入ってたはず。 面白いのは、質問自体はネット(10年前のreddit)にあるのに、他のモデルは正解できないってこと。Geminiも解く過程を見せてるけど、redditに載ってるスマートな解答よりも、数桁も多くの計算をしてるみたい。 ロボット立ち入り禁止のインターネットセクションが必要かもね。 帯域幅が限られてる人はみんな、ロボットのサイトアクセスを制限しようとしてるよね。最新世代のAI web scraperはマジでヤバくて、robots.txtなんて無視するし。 会員登録が対面のみで、既存メンバー2人の推薦が必要なウェブサイトがあるよ。抜け道はあるかもしれないけど、ロボットにとっては良い参入障壁になりそう(今のところは)。 誰かがアクセス権を手に入れて、認証済みのheadless browserを使ってデータを収集するのをどうやって防ぐの? 管理者ならそのアカウントからの異常なトラフィックに気づいて対処するんじゃないかな。もちろん完璧じゃないかもだけど、人間のトラフィックを装ってゆっくりデータをスクレイピングする方法もあるだろうし。だからこそ、信頼の要素(既存のメンバー2人による保証)が必要なんだよね。 誤解しないでほしいんだけど、抽出のハードルを上げるのは効果的な戦略だと思うよ。ただ、それって大規模にはもう解決済みだと思うんだよね。例えば、Redditでの投票リングとか、アストロターフィング作戦とか。国家レベルなら、modとか管理者に賄賂を贈ったり、脅迫したりして、データベースをダンプさせるかな。 それならDiscordがあるじゃん。 LLMが出力できるのは、人間が入力した情報だけだって受け入れるべきじゃない?最初から「AI」って呼ぶのが間違いだったんだよ。 なんで嘘を受け入れなきゃいけないの? これのどこがすごい謎なの?意味不明に聞こえるんだけど。 2番と3番が「わからない」って言ったことで、1番の人が自分の数字について持ってたいくつかの不確実性が解消されるんだよね(他の2人が自分の数字を特定できるような組み合わせがなくなる)。可能性が消去された後、1番の人は絞り込んで、他の2人の数字から自分の数字を特定できる。パズルは2、3、1の順でもできて、1番の人が2回答える必要はなかったかもね。 マジか。 「3つのうち2つの数字の合計が3つ目の数字と等しい」ってどういう意味? たぶんこうかな: 答えはネットにあるし、賢いね。P1はP2とP3が違うって知ってるから、[2A, A, A]じゃないってわかる。P2はP1とP3が違うって知ってるから、[A, 2A, A]じゃないってわかる。もしP1がわかってないなら、同じ推論ができるはず。[2A, A, A]と[A, 2A, A]が違うってわかる。P2は[2A, A, A]が違うって知ってるから[2A, 3A, A]も違う。[2A, A, 3A]、[A, 2A, 3A]、[2A, 3A, 5A]も消せる。P1が2A、P2が3Aならわかるもん。 “Which means we’re one of these [2A, A, A]; [3A, 2A, A]; [4A, 3A, A]; [3A, A, 2A]; [4A, A, 3A]; [5A, 2A, 3A]; [8A, 3A, 5A]”ってあるけど、なんで?[24A, 13A, 11A]みたいに、2つの要素を足すと3つ目になる配列は無限にあるんじゃない?どうやってこの配列を導き出したの? 下限の1を適用するのが関係あると思う。P1が一番大きいって知ってるなら、他の情報も得てるはず。32と33が見えたとする。P1は1か65になる。もしP1が1なら、他の2人はP1が他の2つの合計にはならないってわかるはず。 3つの数字がa、b、cなら、a+b=c、a+c=b、またはb+c=aのどれかになるね。 そして、全部プラスの整数じゃないとダメ。 どれか1つが当てはまればいいんであって、全部じゃないよ(プラスの整数の場合は互いに排他的だって示した通り)。つまり、親コメントの“either”が重要なんだ。 だから問題の読み間違いだって言ったんだよ。 >元の問題はちょっと曖昧な言い方だよね。 3つのアイテムがある。 そこにない曖昧さを探す必要ある? これマジですごいじゃん。10分のMP3で音声起こし(タイムスタンプ付き)と話者識別やらせてみたり、複雑な写真に写ってる生き物の周りにバウンディングボックス描かせたりしてみたんだけど、どっちもめっちゃ良かったよ。もっとコメントを表示(1)
いやいや、10%+20%+20%って積み重ねると、最終的に+100%になってサーバーの速度が文字通り2倍になるんだぜ!
AIの進歩も同じじゃね?一個一個の小さな改善は大したことないけど、毎月のように進歩してて、それが積み重なってすごいことになってるんだよね。
確かにZはYより、YはXより進歩してるけど、Zもなんだか物足りないんだよね。
お客さんがAI企業の気分を害してるのかな?
OpenAIのベンチマークでは4.0が大学生より良い成績を取れるって言ってたけど、実際は全然使えなかったじゃん。
論理的におかしいところもあるんだよね。例えば、2人で地下室に入るとき、Kaelが先に入るんだけど、宿屋の主人がKaelに trapdoorを閉めるように言うのが意味不明。Kaelが階段を下りて振り返ると、正面のドアが膨らんでて、外の騒ぎが見えるって書いてあるけど、trapdoorから上を見ても見えるわけないじゃん。しかも、その入り口はカウンターの裏にあるって書いてあった気がするし。
Kaelが油を染み込ませた布に火をつけてtorchにするのも謎。Eldertidesが誰も見たことない幻の存在なのに、結構普通に出てくるのも気になる。地下室の広さもよくわからないし。他にも、登場人物がナレーターと同じ言葉(“the ooze”)を使ったり、宿屋の主人が急にKaelの名前を呼んだり…
とりあえず、まだ下書きって感じかな。LLMがちゃんと辻褄の合った本を書けるかはわからないけど、書けるとは思うよ。でも、たぶん読まないかな。
“Deep Research”みたいに、まず色んな展開があるストーリーを作らせて、そのストーリーから各章のプロンプトを作らせる。そして、プロンプトに基づいて各章を生成させる、みたいな。
人間のゴミみたいな作品はマジであるある。
うまくいったのは、最初にLLMに世界の概要を伝えて、各章の一行要約を順番に与えて、章ごとに書かせること。
問題は、コンテキストが長くなるにつれてクオリティがガクッと下がること。10章くらいすると、セリフがマジで辛辣になるんだよね。前の章を全部要約させてフィードバックしても、十分な情報が入ってないんだ。
Brandon Sandersonの講義シリーズはマジですごいから見てみて→https://www・youtube・com/playlist?list=PLSH_xM-KC3ZvzkfVo_Dls…
文章を書くことで精神的なメリットもたくさんあるよ。マジで価値があるから。AIは行き詰ったときにブレインストーミングに使うには最高のツールだよ。
あと、時間がないっていうのも問題だ…😊もっとコメントを表示(2)
Gemini 2.5は初めて解けたモデルで、しかも一発で正解したんだって。マジでLLMは数学的推論において95%以上の人間より優秀って言っても言い過ぎじゃないと思う。
パズルの内容は、3人が輪になってて、それぞれの頭の上に数字が浮いてる。自分の数字は見えなくて、他の2人の数字は見える。誰かの数字の合計が他の誰かの数字と同じになる。最初に1人目の人に自分の数字を聞いたら「わからない」って答えた。2人目の人も「わからない」。3人目の人も「わからない」。もう一度1人目の人に聞いたら「65」って答えた。3つの数字の積は?
https://www.reddit.com/r/math/comments/32m611/logic_question…
もうトレーニングデータに入っててもおかしくないよね。
Googleは「3つの数字の積は10225(65×20×8)です。3つの数字は65、20、8です」って言うし。
えー、AI、数学苦手すぎ…?
Bingは「3人が輪になってるパズルの答えは、3人とも赤い帽子を被ってる」って言うし。
帽子!?
同じテキストを両方のプロンプトに使ったのに(GPコメントの「For those curious the riddle is:」以降のテキスト)、Bingは完全に的外れ。
2番目の結果はRedditの答え。
https://www.reddit.com/r/math/comments/32m611/logic_question…
少なくとも数字は合ってる。ロジック部分はまだ調べてないけど。
BingはRedditの投稿を表示しない(Googleの独占契約)から、Stack Exchange系のサイトに適切な答えがないのかも(またはBingがなぜか帽子関連の答えしか探してないのかも)。
この問題がトレーニングの特定の段階で重要視されるメカニズムは色々考えられる。
例えば、
・偶然(統計的な機械なんだから)
・最近になってこの問題が再浮上して、以前より頻繁に表示されるようになった。
・今回のモデルのRLHFデータセットが、この問題に関連する重みを以前とは違う形で引き出した。
トレーニングデータに似たような問題があったとしても、注意深く総当たりで数学的ロジック使えば解けるはず。難しくも面白くも役に立ちもしない。せいぜい基本的なロジックがちょっと改善されたって程度。モデルの評価って難しい問題だよ。
面白いパズルだった。知らなかったのが不思議なくらい。共有してくれてありがとう。
私には難しすぎるけど、Geminiの解答はredditにあるものと同じ(そして、これからのトレーニングデータにも入る)。65×26×39=65910もっとコメントを表示(3)
参加者のスキルレベルとか、答えがただの推測なのかとか、毎回他の2人の合計を推測しない理由とか、何も書かれてないじゃん。
65って言ってる人が正しいかどうかもわからないし。
「新しい情報はない」って3回言っただけで、最初に聞かれた時わからなかった1人目の人にどう情報が伝わるの?
本当に足りないのは、彼らが君と全く同じ情報を持っていて、友達の頭の上の数字を知ってるってことくらいかな。
deepseekとgrokで試してみたけど、ずっとループしてて、途中で止めちゃった。
こんなに長い間ループする質問は初めて見たよ。
マジですごい。
3つの数字をa、b、cとする。これはc = a + bって意味だけど、どの数字が誰のものかはまだわからない。
1番の人(p1)が自分の数字を聞かれた時、a、b、cのどれを持ってるかわからないから、「わからない」って言う。p2とp3も同じ。明らかにp2とp3が答えたことでp1は何か情報を得てる。aかbだって気づいて、p2とp3の差が自分の数字だってわかったか、cだって気づいて、p2とp3の和が自分の数字だってわかったか。
今はここまで。他にアイデアある人いる?
P2とP3が消去されたから、[2A, A, A]; [3A, 2A, A]; [4A, 3A, A]; [3A, A, 2A]; [4A, A, 3A]; [5A, 2A, 3A]; [8A, 3A, 5A]のどれか。65を分解すると(5 * 13)。2(13) = 26。3(13) = 39。答えは5A * 2A * 3A or (A^3) * 30ってこと。
EDIT: redditの別のコメントで解決。共通因数がないタプルはa=1とみなされる。
A + B = CでA + C = B。A + B = Cだから、Cを(A + B)で置き換える。A + A + B = Bってこと。つまり2A + B = B。または2A = 0。
これってどうやっても成り立つじゃん。
A = 1、B = 2だとC = 3。でもA + C = Bにならない。1 + 3 = 2?違うよね。
2つの数字を足して、片方の数字を足したらもう片方の数字になるってケースはなさそう。
問題の読み間違いかな。3つ目の数字は最初の2つの合計みたいだし。
元の問題はちょっと曖昧な言い方だよね。“3つのうち1つの数字は、他の2つの合計”って言えば、もう少しわかりやすくなるかも。
いや、そんなことないよ。もし“任意の2つの数字の合計が3つ目の数字と等しい”って言ってたら矛盾する。“2つの数字の合計が3つ目の数字と等しい”って言ってるんだから。
2つのアイテムを買うと、3つ目が無料になる。
これは、どれでも2つって意味。
曖昧でもいいんだよ。よくあること。ほとんどの場合、説明して次に進む。擁護する必要はないよ。
しかも、ペリカンが自転車乗ってる絵も結構上手に描いてくれたし。
詳しくはここ見て→ https://simonwillison.net/2025/Mar/25/gemini/