現代の予言者か、それともただのハッタリ?ChatGPT時代を生き抜く方法
引用元:https://news.ycombinator.com/item?id=42989320
すごいね!最近、政府政策に影響を与えるチームで働いている友達と話してたんだけど、若いメンバーが特定のテーマのレポートを作成することになったんだ。戻ってきた文書にはLLMから抜粋した“事実”が詰まってたけど、明らかに不正確で信頼性がなかったよ。俺は毎日LLMを使ってソフトウェアを作ってるから、こういう使われ方には驚いた。開発者はこういうものを正しく理解して、不正確な情報を見直したり修正したりできるから、いつも疑り深いし。これからの時代、多くの人がこのデバイスの出力を無条件に信頼するようになって、微妙に不正確なコンテンツが溢れかえるだろうね。
これは若い人だけの話じゃないよ。俺はITのコンサルタント業にいるけど、30歳以上の同僚が報告やプレゼン用のコンテンツをLLMに生成させて、出力を検証せずに使うのを何度も見てきた。2000年代初頭の高校のWikipediaを引用したプレゼンを思い出すよ。
93年のインターネットが若かった頃に同じようなミスをしたことがあるよ!機械に任せすぎると頭を使わなくなっちゃう。
皆に言ってるんだけど、俺が“賢い仕事”で高給をもらってるのは、俺が賢いからじゃなくて、周りの人がどんどん頭を使わなくなっていったからなんだ。だから、こんなコースは必要だと思う。昨日も近所の人に、チャットGPTがどういう風に簡単にウソを言うか示してやった。例えば、「なぜインフルエンザは男性に悪影響を与えるのか?」と聞くと、どっちの質問にも肯定的な答えが返ってくる。
もし男性が感染したらインフルエンザで死ぬ可能性が高く、女性がもっと感染しやすいなら、双方の質問に肯定的な答えは合理的だと思う。質問の目的や質問者の知識、認知能力の不確実性を考慮すると、こういう不明瞭な質問にAIがどう反応すべきかわからないな。編集するけど、一時的にo3-miniでこれを試したら、性別による結果の違いを説明する生化学的・行動的メカニズムを提案した。特に、男性の方が女性よりも悪い結果になる要因としてホルモンの違いやX連鎖免疫調節遺伝子、医療に対する受診行動の違いも含まれてた。
フィッシングリンクをクリックするような人が今はAIの出力を事実だと思ってるなんて、驚きだよ。
「AI科学者」って部分を一つ読んだ。素晴らしかったよ。彼らはオウムのような反証不可能な議論に陥らず、AIの科学におけるポジティブな利用例、有害な例、単に時間を無駄にする例に焦点を当てていて、期待以上に客観的だった。
(OAIで働いているけど、以下の意見はあくまで自分のものだよ)今のバージョンは学生にとってかなり危険で、かえって悪化させるんじゃないかな。技術的でない友達に助けを提供する時は、変化の速度を見て、現在のポイントではなく、信頼性は可能性から大体2年遅れるってことに注意してる。
これが学生に今これらのツールを使う手助けになって、悪化させないようにどうするの?お前が挙げたポイントは批判から防御してるだけのように見える。
同じことに同意する。皇帝には衣服がないと指摘するのも美徳だし、その仕立屋は詐欺師だ。これは、ブロックチェーンが革命的になってすぐに何でも使われると主張した暗号通貨の人たちと同じで、ブロックチェーンの唯一の本当の使用例は暗号通貨で、暗号通貨の唯一の本当の使用例は犯罪だ。LLMのほんとの良い使用例はスパムだけだ。
LLMのほんとの使い道はスパムだけじゃね?人間っぽい話を意味なくいっぱい作るだけだし。だけど、20年近くコーディングやってる俺から言わせれば、全然違うとしか思えない。
そうなの?俺も10年以上コード書いてるけど、Copilotはおしゃれなオートコンプリート的な感じで使ってるよ。悪くはないけど、そんなにすごくもない。
ClaudeはCopilotじゃないし、オートコンプリートとして使ってなかった。やったことは、古いDBから新DBへのマイグレーションとか、状態をViewModelに移すとか、Roomデータベースとのやり取りに必要なクラスを作るとか、最初のダウンロードワーカーを作ることだよ。JetBrainsのプラグイン、ClaudeMindみたいなやつ試してみて!開いてないファイルからも自動で情報をAIに送り込んでくれるんだ。目からウロコの体験だったよ。
それもオートコンプリートだと思う。面倒なボイラープレートを手伝うだけなら、やっぱりオートコンプリートでしょ。便利だけど、革命的な変化とは思えない。CopilotはStackOverflowを使用しなくなるだけだな。
数週間前は俺もそう思ってた。
俺は初期のインターネット時代をあまり覚えてないけど、あの頃の懐疑的な意見を見るの面白いよね。AIの話も同じような反応が多い気がする。新技術に適応できないと取り残される人が出てくるだろうし、その辺りが分かってる人と分かってない人の対比が面白い。
そのコース全部読んだよ。レッスン16の「次のステップの誤謬」が、君の主張を特に取り上げてた。
合成データに関するディスコースは、トレーディング戦略のディスコースに似てる。現状をちゃんと理解してる人は説明するインセンティブがないから、公共の理解がひどい状態になる。
詳細を知らなくても評価はできるよ。出力と空帰無仮説が必要。トレーディング会社が成功した新しい戦略があるって言うなら、まずはその証拠を見たいし、実際に他の人よりもうまくいってるのかも確認したい。LLMも似たようなもので、本物の技術、たくさんの誇大宣伝、いまいちな製品が混在してる。
俺は自分の仕事がス stochastic parrotって呼ばれても全然傷つかないよ。ただ、それを言ってる人の知性を8bモデルと同じくらいに扱うだけ。
そうそう、DARVOだよね。
笑った、これコピペしてもいいかな、ビッグバン・セオリーの脚本になりそう。
合成データの戦略について説明するのはいいけど、昔の玉ねぎの話も聞かないといけないよ: https://www.youtube.com/watch?v=yujF8AumiQo
合成データがモデル崩壊を引き起こすと説明したら、株価が下がるもんね。
これは未来予測や投資の助けを提案しているみたいで、モデルと共存する方法や有用な使い方、落とし穴などとは違うね。
投稿者は「ランダムオウム」と呼ばれるLLMについて言ってると思うし、「ドゥーマー」とはEliezer YudkowskyやPause AIのようなAI安全論者を指していると思うよ。
英語の先生も同じこと言ってたわ。プラス1。
LLMの出力をそのまま受け入れる人が多いのが恐ろしい。議論はその内容ではなく、LLMが言ったかどうかで決まる感じだよ。Wikipediaをそのまま信じるのも問題だったけど、偏見が入ったLLMを信じるのはもっとひどい。
Wikipediaの答えの方がずっといいよ。各記事に対して何百万の目があるからね。ブラックボックスから出てくるのは信頼できない。
Wikipediaも問題だよね。ページが多すぎて自己言及を見つけるのが難しくなってる。外部の記事を引用したWikipediaの記述が、元々そのWikipediaの記事を引用して書かれたってこともあるし。要するに、専門家、群衆、機械を信じるかどうかの問題。どれも操作できちゃうから。
同じ論理じゃないよ。「完璧に信頼できるものがないから、すべてが広く信頼できない」ってわけじゃない。一部の情報源は他よりもずっと信頼できるんだから。
完璧に信頼できるってわけじゃないけど、確かにね。
”記事には何百万もの目が”って言ってるけど、実際に編集してるのはごく少数(最近30日で編集したのは126,301人)。英語版Wikipediaには6,952,556のページがあるから、1つの記事が修正されるのに平均4年以上かかる。これは”何百万もの目”が見てるとは言えないよ。
確かに126,301人が最近編集してるけど、彼らの中には何回も編集してる人も多いんだよね。生涯で100万回編集した人もいて、それが全体に影響してる。少なくとも5000人は24,000回以上編集してるし、編集者は2つの目を持ってるんだよ。
インターネットについても同じことが言われてたよね。「Wikipediaは情報源として使うな」って。でも、人間は不正確なことが多いから、95%の正確さがあれば十分じゃないかな。5%の誤りはまあ許容範囲だよ。
友達が賭けに勝つために、その賭けに関連するWikipediaの記事を編集したことがあるよ。
今は、低パフォーマンスの人や自分が賢いと思ってる人が目立つようになったね。昔なら最近のニュースや記事を読まなかったら黙ってたのに、今は致命的な欠陥のあるアイデアやプランを満載で出てくるからね。
人々は何千年も前に書かれた検証不可能なゴーストストーリーをそのまま鵜呑みにして、それに基づいて生活を送ってるんだ。
誰かがLLMを使って論文を要約してredditに投稿してて、見たことがあるけど、論文には要約があるじゃん。
面白そうだね、抽象の内容と比べるのもいいかも。
最近、抽象もLLMが生成してるんじゃないかと思う。これからは誤字が学術的な誠実さの証になるかもね。
ちゃんとしたLLMなら、リアルな誤字の確率も含むようになるはず。
アーメン、Elizaの勝ちだね。人間の非合理な反応には驚かされる。
怖がることはないよ、「多くの人」は君と同じ人だから。
著者はLLMについて軽くこう主張してる:’論理的推論には関与しない’。まだ議論が続いてるし、この主張は慎重に扱うべきだと思うよ。
反対だね。この点を支持する人たちは、まだ推論が本物かどうか証明できてないんだ。
『推論のシミュレーション』が本物の推論とどれくらい良いものになったら同じになるんだろう?
この質問はすごく面白い!知識の根元を突いてるし、今の時代にぴったりの問いだね。
反対だな — この意見の支持者は、推論が偽物やシミュレーションである可能性について他の研究と一致する証拠をまだ示してないよ。
いろんな主張があるけど、結論が出ていないのが現状だね。理論がどれだけ説得力があっても、真実でないかもしれないことを忘れちゃいけないと思う。
じゃあ、決定的な証拠はどんなものだと思う?君の脳が推論できることを証明できるの?
確証はないけど、それが面白いよね!通じるかもしれないけど、LLMsの話をするには、もう少し進めるべきかも。
LLMの知性に対する議論は、人間にも同じ基準を適用すべきだと思うよ。そうすれば、人間も推論できないって言う主張が危険な可能性もある。
それが危険だと感じるのは何でなの?基本的な価値の比較もできないのに、人間の推論と比較するのはどうかと思う。
LLMが多くのタスクで人間を上回る場合があるから、彼らをストキャスティック・パロットと呼ぶのは危険だと思うんだ。
そんな必然な主張をしている人がいるの?科学的議論を妨げるのは良くないよ。それが危険だとは思わない。
それはおかしい。LLMは新しい問題を解決できることを示せば、推論できるって証明できるよ。データがない場合でも正しく答える実例があるから。
再度言うだけじゃ、その真実を証明することにはならないよ。証拠がなければ、推論しない可能性も受け入れるべきだ。LLMの失敗例がたくさんあるしね。
ChatGPT 3.5で自分が考えた新しいゲームを試してみたんだけど、それを理解したみたい。単純なテストなんだけど、LLMが推論できないという絶対的な意見に疑問を持っちゃった。他の意見も聞きたいな。
それが推論の証明になるの?指摘されたスレッドには同じ質問に対する答えがいくつか未回答で残ってるよ。それに、こういう3つボックスの「ゲーム」はたくさんあるから、似たようなものがトレーニングデータにたくさんある可能性が高い。
ここでGPT 4oが“LLMは推論できるのか?”という質問に答えてるよ。推論の定義次第だけど、LLMはある種の推論ができるみたい。ただし限界もあるから、提案された分析に共感する?そうすると、LLMもある意味推論できるよね。
でも、Deductive reasoningでは失敗することが多い。例えば、有名でない子供がいるセレブについて聞くと、運良く当てたりするけど、逆に親を聞くと知らないって言ったりする。間違える確率が高いから、推論できているとは思わない。
私のゲームがGoogleにあまり出てこなかったんだけど、どうしてこれが推論に該当しないの?アナロジー推論は二つのシステムの関係を比較することだよね。
それは本当に推論なの?ただのパターンマッチングじゃないのかとも思う。確率の勾配を下るだけの作業が推論とは言えないんじゃないかな。
推論には色んな種類があって、LLMはそのいくつかはできるみたいだね。
証拠を示さず繰り返すだけでは、実質的な反論をしてるわけではなく見えるよ。
私のスレッドはダウン投票されて、盛り上がりが失われてきてる。残った人はその意見に偏りがあって、新しい視点を受け入れることは難しいと思う。皆、あなたのリンクには反応しないだろうし、どうしても説得力あるものだと思う。
これらのAIが価値比較を一貫してやってくれるなら、何回でもチックタックトーを正しくプレイしたり、アップデート後にUIをうまく使うことができるなら満足だな。選択的に推論するというのは、魔法のような考え方に近いと思う。
LLMは論理的に考えることができるって証明できるよ。逆に、できないって証明するのは難しい。一回でも、パターンマッチングだけじゃ解けない問題を考えればそれが分かる。だから、LLMが考えられないって証明するには、全てのケースでそれを示さなきゃダメだね。
いや、かえって証明できるって。LLMが基本的な比較すらできないケースがたくさんあるし、そういうのが技術の限界だって言うなら、そもそもそれは人間の定義の論理的思考じゃないと思う。証明できる例を見てみたい。結局、大きさがあれば、ほとんど全てを描写できる非意識の「知性」も作れるかもしれないが、それでも「思考」ではないと思うんだ。
LLMは考えることができるけど、いつもできるわけではない。人間も脳に障害があっても特定のテーマで適切に考えることがあるように、LLMも同じ定義で考えられるんだ。だから、LLMは考える能力があるっていう主張は間違ってないよ。
論理的なルールを一貫して適用するのが思考だから、時々それができるだけなら、それは思考と言えない。サイコロを振って時々正しい答えが出るからといって、それが計算しているとは言えないでしょ。LLMは自分が知らないことを認識できず、作り出してしまうから、そういうのが出たら思考とは呼べない。
LLMが明らかなことを考えるのに失敗するのを見る限り、まだ判断が下せていない。LLMが人間とは違う方法で考えるのか、それとも考えるということ自体に疑問を持ってしまう。実際、言語は強力だけれど、思考も単なる気のせいなのかもしれないと思ってしまう。
彼らは思考に失敗することもあるけれど、成功することも明らかだよ。だから、考えられるというのは証明された事実なんじゃないかな。
理論上の話をすると、はい、モデルは考えてると思う。ただ、あなたの言う「考える」が本当に具体的かどうかは疑問が残る。もしその例を見つけたら、それは科学や哲学の大発見になるけど、まだその証明は見ていない。
これは面白そうだけど、ただのパターンマッチだけで考えてるとは思えないぐらい、データの範囲外って証明するのが難しいね。新しい問題への反応は思考の証明にはならないと思う。
それは有名な問題のバリエーションのように感じるけど、解決するには創造性が欠かせない。賢い人でも解けないかも。単純な推理では解けないし、候補者が使うパターンマッチを排除するための問題だ。
その面接問題でどうやって保証できるの?O3のトレーニングデータを検証できるの?答えが推論によってたどり着けるもので、正解にたどり着くのに『創造的な飛躍』が必要だとは思えないけど。結局、面接問題に過ぎない気がする。
解けたなら、変形が計算と同じように複雑であることくらい分かるんじゃないの?俺が考えた問題は独自で、トレーニングデータにはないからコピーはできない。Generalizationが正当化として使われるのはデタラメだよ。
解けたって言うけど、それがどうしても他の問題から派生したものだとしか思えない。お互いに話し合おうとしているのに、ただ自分の主張を繰り返しているだけに見えるよ。
解けたって言うけど、俺は信じない。数十件の面接でたった一人しか解けてないのに、それが一般的だって証明できるの?
LLMはランダムな機械だと言えばいい。壊れた時計でも一日で2回は正しい時を示す。
新しいプロンプトに答えることが推論の証明になるわけじゃなく、ただのパターンマッチング。計算機でも見たことのないプロンプトに回答できる。
これは面白い思考実験だね。AIの議論が哲学の観点から利益を得ると思う。ファンタジーや詐欺ばかりの中で、異なる知識の形を考えることにワクワクしてるよ。
オンラインで良いエピステモロジーのリソースはある?皆が恩恵を受けられそう。
MITのTheory of Knowledgeを読んでみたけど、有望で無料だよ。このリンクも良さそう。
じゃあ、推論によってしか答えられないプロンプトを考えればいいんだな。これが一度でも示せればLLMが推論できることが証明される。
お前が思ってるほど確固たる証拠じゃないと思うし、そもそも閉じたモデルで、未だに一度も問われたことのない質問が訓練データに入ってないって証明するのは大変だよ。
LLMsが推論できるって主張ならそれは成立してる。ただし、LLMsが人間のように推論する、または常に正しく推論するなんて主張は誰もしてない。みんなが主張してるのは正しく推論できるってことだけで、それは小さな主張なんだ。対抗する主張はLLMsが推論できないってことで、これは成り立たない主張だ。
もし質問を作れて、答えが本当に’推論’を必要とするって証明できるなら、すぐに論文にして発表すべきだ。君の発見で世界的な名声を得た後にLLMsをいじくる時間はたくさんあるから。
これがドーナツ問題だ。1と0のグリッドがあって、1は陸、0は水を表す。ドーナツは一つ以上の穴がある島のこと。斜めまたは隣接するグリッドセルは水が越えられない障壁になる。このグリッド内のドーナツの数を数えてほしい。実は2つの正解があって、それは簡単に導き出せるものだ。自分で考えてみて、AIを使う前にその難しさを感じてほしい。仮に解けたら、次のLLMのトレーニングデータになっちゃうから答えは投稿しないでね。
LLMsは本当に心を読める。読めないなんて証明できない。誰かが思った数字と正しい答えをチャットGPTに投稿してみろ。その例は、LLMsが心を読めないって主張を否定するよ。
じゃあ証明してみてよ。今1から10000の間で数字を考えてる。LLMがその数字を当ててみろ。これが確実に証明できる。結局確率の問題で、プロンプトの範囲には無限の可能性がある。正しい答えにたどり着けたら、理由なしには難しいんだ。
一つのプロンプトで結論が証明できるのはおかしいが、正確な数字を当てなければならないのはおかしい。Geminiは無限の数字の中で一回目で俺の数(7)を当てたぞ。数億なんて小さいもんだ。
俺が選ぶプロンプトは範囲が広いから、もし正しい答えが出たら確率が小さくて推論によって導かれたに違いない。
LLMsが推論できることを証明するには、ただ新しい問題を出して、その問題を解かせればいい。人間が理解できない高次元の問題空間をスキャンしているんだ。それは我々には未知な能力だから、LLMsが推論できるかどうかを話すのはまるで’LLMs’を’熱帯雨林’や’南極’に置き換えるのと同じようなことなんだ。
推論って抽象的な言葉だから、人間の推論と同じじゃなくてもいい。答えに至るプロセスがあればそれでOKなんじゃない?いろんな技術に対して推論って言葉が使われてきたわけだし。
そうだね、”それ”が人間の推論と関係なくてもいい。ただ、少なくとも推論を定義しないと、ただの鳥の鳴き声みたいになっちゃうかも。 推論はちゃんと論理的に考える行為なんだから、どこかで発生してないと意味がない。具体的な話をしないとダメだよ。
いえ、そうじゃないね。もし機械が人間と同じように思考できるような出力を出せるなら、それは推論だと思う。偶然とは違う確率で出力されるなら、それは推論でしょ。
その結果、zip.exeが人間の書いた文章と見分けがつかない本に解凍するなら、それも推論しているってことだよね?ただの意味のすり替えに見えるけど。
違うよ。私はそれが入力に含まれていない新しいものを出力しなければならないって言ったんだ。あなたの例だと、本が訓練データつまり入力になっちゃうよ。
同意する、あれは間違った例だったね。
“でも、彼らは推論できる”ってのはまだ実証されてないと思う。NeRFを使ってDoomのレベルを生成するけど、オフスクリーンのコヒーレンスやオブジェクトの永続性がない。内部に実際のエンジンがないから。ただ見た目がその出力のように見えるだけだね。
ユニークな問題に対する正しい答えを出すことで、推論が可能であることを簡単に示せるよ。
これってまるで、”1から5まで有効な仮説を立てました。10の数字で成立すれば、すべての数字でも成立する”みたいだね。
違うよ。私の主張は、推論できるってこと。だから、1から5までの範囲での主張ができるし、範囲外でも主張できる。反対の主張は、LLMは推論できないっていうことだから、全てに対して100%成立するって言ってる。推論できるとは言っても、常にできるわけではないってことだよ。
お前の主張、LLMが推論できるってことだけど、その証拠は「これでうまくいった!」ってだけじゃない? 基本的な数学の証明を分かってないみたいだな。
お前が英語を理解してないだけじゃない? 推論できるってことは、常に推論してるわけじゃないし、すべてのプロンプトで推論できるわけでもない。ただ可能性があるだけなんだよ。可能性の幅はこの主張とは関係ない。そういう論理を使えよ。数学好きなやつよ、数は分けられるって言ったら、割れない数があるからってその主張が間違いになるわけじゃない。ゼロだって。
もし単にランダムに推論してるだけだとしたら、どうやって適切に推論されたか、ただ合理的なテキストの模擬に過ぎないかを見分けるんだ?
確率を使うんだ。範囲が広いプロンプトを見つけて、正しい答えにたどり着いたら、それは推論によるもので、ランダムなチャンスはない。もちろん、データに含まれてないユニークなプロンプトを使えよ。科学同様、確率を通じてこれを証明する。観察結果が理論と統計的に一致するかどうかで証明する。
無知を許してくれ。範囲とコドメインがこの文脈でほぼ同じだとしたら、どうやって大きなコドメインを持つプロンプトを指定するの? 大きなコドメインのプロンプトの具体例ってある? 自然言語では、コドメインの大きさはプロンプトの具体性に関連してると思う。例えば「私たちは…」って言ったらコドメインは巨大だが、「2掛ける2は…」だとコドメインは{4, four}と限られたものになる。だから、広いコドメインが「正しい答えがない」ってことと同じになっちゃう。どうやって緩い解釈可能性と統計的厳密さを両立させるの?
ちょっと厳密さを下げる必要があるな。「2 * 2は何?」って質問は明らかにバイアスがかかってて、パターンマッチされまくってる。LLMは「4」や「答えは4」または「どうやら答えは4みたいだ」って答えられる。どれも有効な答えだけど、同じことだ。俺たちは言語の雑音を無視して考えなきゃならん。
分かるけど、つまり小さいコドメインだと簡単に検証できて、広いコドメインは解釈に任せられやすいっしょ。推論を証明するために広いコドメインのプロンプトを選んで、LLMが正確に答えたら推論だって言ったけど、具体的な答えが必要だとしたら、広いコドメインから正確な答えを得る例を教えてくれる? って聞いてるんだ。
広いコドメインだけど単一の答えを持つプロンプトを選べば、それが推論だって言える。正しい答えを導ければ。
お前の元の主張は、LLMが推論できるってことだ。そしてそれを証明するためには、大きなコドメインのプロンプトを選ぶ必要がある。新しい問題設定であっても、特定の答えが必要で、その答えに推論を要するとしたら今の見解で間違いない? それならそのプロンプトの具体例を教えてくれ。
LLMが論理的に考えるのを信じるのは難しい。LLMが何をしているかを理解してないから、技術的な部分と単なる見せかけがどこまでか分からない。自然言語を出力できるのはLLMの一部なのか、それとも別のプログラムなのか?このあたりを理解しないと、果たして本当に論理的推論が行われているか考えられない。
確かに、全体を一つのテキストボックスにするのは簡素化しすぎで、問題を引き起こす原因になり得る。ただの文書を成長させるだけで、LLM自体はその場のコンテキストを考慮していない。だからこそ、プロンプト注入や幻覚が問題になる。推論については、ただのトークン予測に過ぎないのかもしれない。
LLMはただのテキスト生成器で、その用途はたくさんある。ただし、AIの知性を押し出すマーケティングが問題。現在の技術で真の知性は実現しないと思う。今の製品は役立つけど、ただのテキスト生成器に過ぎない。
面白いアイデアだね!例えば、ピアノの曲を学習させれば、数音弾くと次の音を予測してくれたりするのかな。今後、この技術の改良があるといいなと思う。 hallucinationsがLLMの本質なら、それを利用する方法を考えるのもありかも。
確かに、LLMは技術的なパラメータしか持ってないし、もっと選択肢があるといい。でも、自然言語生成が本質か、別のプログラムがあるのかは未だ分からない。推論については、全体が単純な処理で、実際に推論をしてるわけじゃないと思う。
トークン化のプロセスは重要だが、表面的なものに過ぎない気がする。AIって何かつかめてない。LLMとは具体的に何を指してるのかとか、色々なLLMがある中で何がどう違うのか分からない。
私が言うLLMは、一般的な「テキストからテキスト」の大規模言語モデルのこと。それに対し、クライアント側で動くフロントエンドは、特定のLLMを使っている。tokenizationは重要だが、あまり理解していない。
各エンジンのチャットプレイグラウンドで遊ぶことをお勧めする。無償で利用できたりするし、システムプロンプトを変えたりしていろいろ試せるよ。YouTubeのComputerphileの動画も参考になるかも。
出力を確率値としてのみ生成するシステムは、論理的推論を行うことはできないのが明らか。それが論理的推論の定義だから。
逆例を用いると、外科医がその子の父親で、「この子を手術できない」と言う問題がある。この外科医は実はその子の母親だ。演繹的に考えてみてほしい。
面白いからもう一つの解釈を見てみて。
誰かパロットとノンパロット関連の論文を教えてくれないかな。ちょっと読みたいんだ。俺はパロットの視点を支持してるけど、時々LLMに驚かされることがある。最近、自分でオートバトルゲーム作ってて、エージェント使ってシミュレーションしてたんだけど、実際にプレイしたら全然楽しくなかった。で、LLMに『プレイテストしたら問題あるんだけど、わかる?』って聞いたら、見事に『ペーシングが悪い』って指摘されて、修正したら楽しくなった。どうしてあんなに量のコードと設計書があっても的確に問題を捉えられたのか不思議だ。
まあ、ペーシングは多くのストーリー性のある芸術では重要な要素だからじゃない?ビデオゲームや映画、音楽について常に議論されてるし、それに基づいて確率的に答えを出しただけかもしれないけど。
どうだろ、訓練に使われるデータが膨大だから、これが『新しい何か』だと思っていることも、実はインターネットのどこかで既に話されてたりするかも。それに人間(ポスドクや教授も含めて)は『知的推論』のためにそんなにデータや電力を使わないから。
でも、俺のゲームにはまだまだ問題が多いから、質問したときにはもう少し明らかな問題を選ぶだろうと思ったんだ。まあ、君の理由も納得できるけど、俺の人間の脳はその『魔法』を感じちゃう。
一方で、著者たちはLLMがしばしば虚偽を生み出したり、不正確だったり、欺瞞や悪影響に使われること、教育にとって大きな挑戦であることなど、他にも多くの良いポイントを挙げている。彼らの主張が多いのに、雑な主張で信頼性を損ねるのは残念だ!
タイトルがちょっと攻撃的な反テクノロジーだと残念。職場でこのコースを推進したいけど、ネガティブで破壊的に見られるのはキャリア的に危険だからできない。良いメッセージが必要なところに届かないのがもったいない。
じゃあ、どういうタイトルが良いと思う?『ハルシネーション』は正しくない気がする。『信用できない機械』とか『批判的思考』ってどう?『人間のためのストリートスマート』とか『ロボットを含む社会学』でも良いかも。
じゃあ、『How to thrive in a ChatGPT world』はどう?
本当に?どのように意味ある形で破壊的になりうるのか好奇心がある。誰の気分が傷つく可能性が?図書館の話題について話している授業のせいで怒るみたいな感じ。
AIの流行に完全に乗っかってる経営者が、組織内でこれを推奨する人を見て、自分の利益に反すると感じたら行動を起こすかもね。
確かにそれが問題だよね。“ノーサポート”、“反イノベーション”、“チームプレーヤーじゃない”、“破壊的”、“役立たず”、“ネガティブ”。これじゃあみんなクビ候補になっちゃう。事実を述べてショック受ける開発者も多いけど、情報を操作する人がいて、政治的な理由で解雇されるのが現実なんだ。
図書館についての講義で本が貸出中の話をされたら、反発するのと似てるよね。“図書館はクソか?”なんて題名だったら、もっと反発が強くなると思う。クソって言葉は多くの文化では穏やかじゃない表現だし。
hallucinationは病的なもので、システムがうまく動いてない時に起きる。LLMが虚偽を作り出すのはマルファンクションじゃなくて、正確には設計通りに推測して自信満々に振る舞ってること。間違ってもホロシネーションとは言えない。マーケティングにおける偏向が見えるね。
言葉の使い方にこだわるなら、彼らはクソを言ってるわけじゃない。クソってのは欺く意図がある場合で、LLMはテキスト予測をするのが精一杯だから。人間の意図と関係のある言葉を使う必要はないと思う。
多くの人間は欺く意図なしに自信たっぷりに憶測を述べることがあるから、意図の有無は必ずしも関係ないよね。
このウェブサイトの著者たちは有名な本を出していて、彼らの定義はこうだ。”クソとは、真実や論理的一貫性を無視して、印象を与えるための言葉やデータのこと”。欺く意図はないが、真実を軽視する場合がある。LLMも似たような理由で出力するよ。
著者たちのクソに関する明確な定義がある。それによれば、嘘は欺く意図があるが、クソは欺いていることに無関心ということ。信頼性や論理的整合性を無視している。
欺く意図があることを示すわけじゃない。H.G Frankfurtの”On Bullshit”を参照してみて。
LLMは常にクソを言っている。正しいことを言っても、彼らには真実としての概念がないから。
彼らは虚偽の概念がないから、人間が間違っているかもしれないと思いながら捏造するのとは違うね。
最初の部分にはもっと証拠が必要だと思う。モデルには欺瞞を行う能力があることが示されているからね。
人間が作り話をするとき、間違っているかもしれない自覚がない場合もあるよね。捏造の種類には3つあると思う。LLMは2か3どっちに当てはまるのかな?
面白いね。LLMをブラックボックスとして見た時、知識に限界があるのは自覚してるけど、その自覚が知識のあるふりをするのを止められない。内部のことを考えれば、分析しているわけじゃなくて刺激に反応してるだけ。
真実を生成するものと組み合わせられるよ。例えば定理証明機とかさ。
もしLLMに『私は知らない』と答えるように設計すると、上記のコメントは当てはまらなくなるね。
英米の思想(功利主義や行動主義など)では真実は確率として捉えられている。だからLLMが正しいトークンを出せればそれが思考と見なされる。大陸哲学はこれに反対しているけど。
面白いのは、アメリカ人が自分たちより賢い何かを作ると考えるが、フランスの哲学者はそれに賛同するという点だね。
すごく良いリソースだね。医療の進化に対処できるように医学生に必要な知識を教えるコースを作っているんだ。MLとLLMの進展について理解させたり、道筋を示すのが目的。
その医療学生向けコースでは、どんな基本的なポイントを学ぶべきだと思う?この分野は変化が激しすぎて、何を準備すればいいか分からないよ。
今の時代の技術は早いから、具体的な詳細を教えるのじゃなくて、MLやAIの仕組みをわかりやすく説明するんだ。医療データの背景を理解させるのが大事で、実際にどんなことが行われているのかも紹介するよ。倫理やデータ保護についても触れて、学生たちが新しい技術に対してどう取り組むか考えてほしい。これが初めてのコースだから、学生に役立つかすぐにわかるはず。
R1についての矛盾、つまり「論理的推論を行わない」という最初のレッスンの発言について、著者が説明できるかな。私の素人的な見方では、LLMは難しい問題で確認可能な答えを求め、自信を深めながら人間の推論のような過程を経るものだと思う。これが人間の研究プロセスに似てくるなら、もっと理解できるはず。
LLMの「思考」出力を信じられない理由は、内部で何が起きているかを正確に伝えていないからだと思う。出力されるトークンは、あくまで統計に基づいた結果で、例えば「Aは{A,B}のセットに含まれますか?」という質問に対して、LLMは「はい」と答えるが、それは統計的に最も可能性の高いトークンでしかない。
例えば、deepseekに簡単な数独を解かせたことがあるけど、論理的推論っぽい出力は出すけど、正しい答えは未だに出せてないよ。組合せ論の問題でも似たように、正しい論理ステップを踏まずに間違った答えになることが多い。
では、これが論理のない模倣なのか、単に推論が下手なのかという疑問が出るね。
今はLLMにフルサイズの数独を解かせることが目標じゃないよ。RLHFには時間がかかって、モデルが正しい答えを導くには大変だから、立ち上げるのは簡単ではない。
もし論理的推論ができるのであれば、提言だけでなくルールを教えて解決できるはずだよね。
さらに言うと、LLMはすでに数独のルールを“知っている”はずだよ。それとも、ウェブから取得した情報は全然“知らない”のか。
o3-miniで簡単な数独を試したら、意外と解けてるみたい。ただ、視覚的な確認だけだから、ちゃんと解けてるかはわからない。
つまり、AIの問題の本質だよね。良く記述された言葉でプロセスを説明できるから、推論できていると錯覚しちゃう。このままだと、実際に確認すれば誤答が多いことに気づくはずだ。
指摘サンキュー。解法が間違ってる。理論上、機械はプラウザブルな推論を再現できる。でも、解けない問題はあまり重要じゃないかも。この数独はSATソルバーが唯一の解法だと思うし、適切な環境があればLLMはそのコードを書いて実行できるはず。解けないからって、それが「推論できない」ってわけじゃないと思うけどね。
そうだね、これは間違った数独だと思う。残念だ。
ありがとう。まだ最初の二つのレッスンしか見てないけど、内容がクリアでアクセスしやすくて素晴らしいと思う。広めるし、自分の書き方も見直すきっかけになる。Shorthandの出版システムもすごく良かった、初めて知った。
ありがとう。デザイナーじゃないけど、Shorthandはすごく良いと感じてる。
本当に良くできてる。学生がAIの世界をうまくナビゲートするのは大変みたい。自分の学生と共有しようと思ってる。このコースを受けた後、学生のLLMへのアプローチが変わったか気になる。
科学的な執筆についての良いポイントだね。それに対して何かを追加するつもりだ。まだウェブベースの教材からこのコースを教えたことはないけど、秋に行った“Calling Bullshit”の2週間のユニットを凝縮してる。
素晴らしい作業だね。ページの下に次のレッスンへのリンクがあるとナビゲーションがもっと楽になると思う。
その通り!良いポイントだね。さっき更新したところだし、シンプルに次のレッスンへのリンクを使ったよ。
読みながら更新したみたいで、ページの最後にパンくずリストがあって良かった。全体的にうまく書かれてて、一般の人にも理解しやすい。
うん、たぶんそうだね。みんながくれるフィードバックにすごく感謝してる!
そのスクロールしにくいUI、2ページ目の途中でウィンドウ閉じちゃったわ。LLMにユーザーフレンドリーなUIを勧めたの?
ターゲットは19歳だから、このスタイルが好きみたい。まぁね…
テキストの間に長いギャップがあったけど、あんまり悪くは思わなかった。ターゲットの意見をチェックするのは大事だね。ただ、動画コンテンツは厳しいかも。AIが作ったスライドの先生の話は面白かったけど、音声が酷すぎて…。ボリュームもバラバラだし、せめて字幕付けたらどうかな?
お年寄り向けにページダウンで次のページにサクッと行けるようにして欲しい。PDFスライドみたいに使えるし、そっちが良さそう。
いい内容だったよ。コメントに結構パロット擁護派がいるけど、「LESSON 6 : No, They Aren’t Doing That」を見逃したのかな。
楽しんでる!素晴らしい仕事に感謝。今、Lesson 11なんだけど、2つほど脱字見つけた。サイト上で報告する場所が分からなかったから、ここで書くね。「誰もロボットによって動機づけられない…」と「問題に対する解決策を与えられた人は、あまり創造的でなくなる…」の2ヶ所で「be」が抜けてる。
ありがとう!修正したよ!
好きだな。シンプルだけど、幅広いオーディエンスに良い内容をカバーしてる。モデルを擬人化しないようにって言ったのも良かった。50歳以上の政策立案者にも受けて欲しいな。
素晴らしい、タイムリーだね!人間の試験でAIを判断できない理由をもっと詳しく知りたい。最近、Twitterでその事についてスレッド書いたから、もし興味があったら見てね。
AIモデルの一般化能力についての懸念は薄れてきてるみたいだね。最近のモデルは、特定のタスクだけでなく、色んなタスクを同時にやっちゃってるし。専門モデルは限界があったけど、今は進化が早いから、それが人間のように一般化できるんじゃないかって期待されてると思うよ。
あなたの主張はちょっと怪しいと思う。単一のモデルがいくつかのタスクをこなすことができるってだけで、全てのタスクに優れてるわけではないんじゃないの?できないタスクも山ほどあるし、どうやってプロンプトするかによって結果も変わるはず。
記事ではLLMがテキストの次の単語を予測する仕組みだって言っているけど、実際には仕組みがよくわからないって矛盾してる感じがする。LLMは単なるオートコンプリートか、それとも魔法のようなものなのか?その違いを理解することが大切だよね。
推論の過程は、ハンドクランクでギアを回して、最後のギアからトークンが出るって感じ。学習では、テキストを入力してどのギアをどうつなぐかを教える方法はわかるけど、ギアの比率や配置がどうなってるかわからないんだ。
あやふやな言葉がLLMのアルゴリズムとトレーニングデータ、重みに関する混乱を生んでるんだ。たくさんの人間の文書の中に存在するパターンや、それに基づいた重みの中にある部分的なパターンが重要だと思う。いい例えだと思うよ。
いい例えだね。あなたのおかげで理解が深まったよ。
このシステムは、トークンのリストを使い、そのリストを関数に渡すことで新しいトークンを返す方式だよ。新しいトークンをリストに追加して、これを繰り返すわけ。モデルの仕組みは完全には理解できていないけど、魔法ではなく、複雑すぎる数学なんだ。
私たちはどうやってこれが動いているか、わかってるよね?
私たちはフレームワークを作ったことはわかっているけど、それによって何が育っているのか、完全には理解していないんだ。トークンの生成過程がどうなっているのかわからないから、全てを説明することはできない。
トレーニング方法や大体のアーキテクチャはわかるけど、研究者たちにはまだまだ解明が必要だよ。
作者は結構明確で時には皮肉っぽい意見を持ってるね。例えば、「彼らは論理的に問題を考える能力がない」とか、これは議論が分かれる主張だと思う。この数年で言語モデルはかなり成功してるし、トークン予測が一般的だって考えてる人も多い。言語モデルの能力を過小評価するのは良くないと思うし、フィロソフィカルな反論は時代遅れなのかも。
多くの主張には疑問が残るし、テストに向けた訓練に見えるものもある。Appleの研究でも指摘されていたけど、LLMや関連モデルはノイズの多いテキストから抽象的な情報を引き出せないんだ。基本的な前置詞すら理解できないのは明らかだよ。
色の埋め込みの距離は、人間の感じる色の類似性パターンに従ってることが観察されてる。トークン予測が統計を引き出すだけだとしても、最終的な結果が私たちの概念の利用に合ってるなら、何が違うの?
5歳児に色を変えて描き直させたら、彼らはきちんと理解しているよ。
アートジェネレーターはCLIPを使ってて、テキストモデルとしてはあまり良くない。画像生成の初期段階はカオス的で、小さな変更にも敏感だから、編集が苦手なんだ。新しいツールはもっと制御された調整ができるけど、使い勝手は少し悪いかも。
モデルが「類似性」で訓練されてる可能性は低いけど、似たような概念で訓練されることは不可能ではない。
Midjourneyに赤いブーツを茶色に変えてって頼んだら、問題なく変更してくれたよ。ただ、猫がブーツを履くっていう概念はちょっと理解できてなかったけど。
Appleの研究に関して、リンクをシェアします。
「皮肉」って言葉は不適切じゃないかな。機械の知能の存在についての証明は難しいし、個人的な選択として考えるべきだと思うよ。認識を持つことも含めて、みんなで意見が違うことを理解しないといけない。
AIのラボを「マーケティングの天才」って描くのはちょっと皮肉すぎると思う。モデルをオートコレクトにしなかったのも、技術への信頼を持っているからだろうし、あまり先入観を持たずに考えるべきだよ。
ごめん、”不適切”って言葉が不適切だったかも(笑)要するに、機械の思考やその価値について解決できないしんどい議論が待ってるってことだね。
死と税金、そして機械の思考やその価値についての終わりのない議論、だな。
若い世代はLLMを知的だと思ってるみたいだ。科学は一つの葬式が終わるまで進まないってのもあるよね。
年齢による相関とは言えるけど、12歳の子には、”情報を得る方法だけど知的ではない”って強く思ってる子もいたよ。
昔エンジニアのAI使用に関する論文があったけど、年齢と強い相関が見られた。技術の採用は年齢に依存するからね。
このサイトはめっちゃ大事!AI企業が規制や監視を嫌がる理由を考えてみて。FOMOでAIブームに乗る企業も多いけど、最終的な結果は大変なことになるかも。技術は社会に役立たなきゃいけないのに、今は逆になりそうで怖い。
ほとんどの業種の会社は規制を好まないよね。LLMを使うと多くの人が時間を大幅に節約できるみたいだ。複雑な問題を解決する場合は自分にはそんなに差はないけど。
一人のライターが時間を節約して、他の読者がその内容が正しいかどうか理解するのに余計な手間がかかるのっていいことなの?
一人のライターが時間を節約するために負荷の高い質問をして、他の読者がその論の内容を理解するために余計な労力を使うのってどうなの?
それってLLMを使うか使わないかに関わらずそうだよね。責任あるライターは内容をちゃんと確認するから。無責任なライターもいるけど。AIを使うことでそれが簡単になっても、読者の視点からは変わらない。自分はAIを日常的に使ってて、”AIの補助”って感じだけど、時間も大幅に節約できて、最終的な品質もいいよ。
Aiderってツール使ったけど、LLMは期待外れだった。自分の方が大きくて正確なコードを作るのが速いし、LLMのコードをレビューするのはイライラすることが多かったよ。
FOMOって言葉にはあまり賛同できないな。FOBBWIIBM、つまり流行に乗り遅れる恐れとか、JOENT、新しい領域を探る喜びの方がいいかも。
主流になるなんて思えないな。AIは誰でも買えるから、企業が無理に飛びついているのがFOMOだと思う。
確かに違う動機があるから状況によって変わる。Copilotみたいに教育現場でどう使われるかはまだ不透明だね。
AI企業は規制を求めてるよ。OpenAIもロビー活動してるし、競争を保つためには必要だと思う。
最近、LLMがウェブの信頼を壊す視点も考えてる。全てが曖昧になってるし、深層偽造技術の脅威が現実になってる。
ウェブの信頼なんて、もう数年前にはなくなってたと思う。広告やSEOサイトが検索結果に溢れかえってたからね。
オンラインで全部信じるわけにはいかないけど、情報源を追いかけることができた。今はその元が見えにくくなってきてる。
情報源に辿り着けないものは疑わしいよね。今はデマの流れがすごいから、ネットを一度切ってしまうのもありかも。
ネットの信頼が崩壊するって言ってるけど、実際どういうこと?俺はWikipediaやニューヨークタイムズ、ガーディアンとか、信頼できるサイトから情報を得てるけど、以前より信頼性が低いとは思わないな。YouTubeでのインタビューも増えて、直接の意見を聞けるから逆に信頼性は高まってる気がする。ネットは元々、どうにでも情報を載せられる場所だったから、正確な情報を得るためには選別が必要だったんだ。
彼らの『預言者』カーティス・ヤービンが言ったように、ハーバードやニューヨークタイムズはもう過去のものかもしれない。攻撃されてるし、『Wokepedia』もしかり。数週間後には何かが起こるかも。
誇大広告ってのは、期待に応えなかったり、過剰に表現されたとき。でも最近の進展には驚かされてる。フォモがすごいし、何かが突然できあがるかもしれないって期待感がある。成長が続いていて、まだまだ資金や人も流入してる。進展が止まる兆しもないし、ロボットも進歩してる。マスクの意見はよくわからん。彼は自分のプロパガンダを広めたいだけで、状況は良くないみたい。
これは確実に破壊的だよ。MicrosoftがCopilotを全プロダクトに押し込むのも納得できる。理想的なシナリオとして、社員がいくつかのポイントを設定してCopilotにメールを作らせ、他の社員がそのメールを要約して行動する。結局、彼らはCopilotのライセンスを払ってるだけで、Microsoftは勝ってるってわけ。でもそれが実際に役立つのかは疑問。LLM生成の内容が人間に読まれることもないだろうし、エネルギーやリソースの無駄遣いだ。
このタイトルを見て笑っちゃった。だって、彼らはただのクソ機械だから。同時に多くの詐欺師よりはコーディングが巧いけどね。
@ctbergstromに感謝!この価値のある、そして客観的なコースをシェアするね。
Reductionistな見方は『思考』や『知性』にも当てはまる。質問されたとき、脳は経験に基づいて適切な言葉の連なりを選んでいる。話すことは知的な生き物にしかできないと思われているが、知性の優越性を認めたくない人たちの苦悩のように感じる。最終的には、AIができないことを見つけたって騒ぐ人たちが現れるかも。
これ、トップダウン的すぎると思う。LLMについての幅広い主張があって、良いのも悪いのもあるけど、もっと基本的な知識が必要だ。タイトルが問いになってるけど、実際は効果的に教育してるとは思えない。現実の状況を教育するのではなく、原理主義的なアプローチが強調されている気がして、もったいないかも。
オートコンプリートの比喩について重要な部分が欠けてる。意味やアイデア、関連概念をベクトル空間にマッピングすることで、LLMはただのテキスト予測エンジンとは言えない。文化的・言語的知識がどう統合されているかを理解することが、信用性のある結果を生む理由だし、どこが役に立たないかを予測する手助けにもなる。
彼らが捉えるのは知識じゃなくて、言葉の関係性だ。それは力強くて役立つこともある。俺はこのツールに感謝してるけど、情報を引き出す機械であって、知識エンジンじゃない。
彼らは本を読むときのように知識を引き出すって意見なんだよね。しかし、知識は単なる単語以上のもので、概念や感情、価値観も含まれてる。そのせいで、間違った結論に至ることもあるけど、全人類の文化を自在に行き来する感覚は知性と見分けがつかないってこと。結局、現実とシミュレーションの議論になってしまうよね。
うん、そうとも言えるし違うとも言える。本から知識を引き出すのは教育を受けた無邪気な読者にも似てるけど、もちろん、経験の相違があるから、得られる知識には限界がある。書籍は知識の伝達手段だけど、それ自体が知識ではない。音楽の楽譜に例えると、楽譜を読んでもシンフォニーそのものではない。
だからこそ、彼らは微妙に間違った、有害な出力を出すことがあるんだ。特に信じちゃいそうなコードが出力されて、ちょっと前にレビューしてなかったら、使っちゃってたかも。90パーセントの確率で大丈夫だからこそ、むしろ問題が深刻化するんだよ。
確かにこれが大きな痛点だよね。微妙に間違ってるけど、ほぼ優れた結果なんだ。
能力の不気味の谷って感じかな。
“僕たちは書くことで思考を共有するし、読むことで他者の考えに触れる。しかし、LLMが作者のときは、読者が覗き見る心はない。”って意見には賛成できないな。生成された物語も、人間の物と同じくらい感動的になり得ると思う。
これに関連して、LLMの出現以来、他人との長い議論がすぐに脱線していくことに気づいたんだ。まるで自分たちの内部のトークン制限が超えたかのように。
関連するけど、3つの異なるプログラミング言語をつなげるのが自分の“コンテキストウィンドウ”として呼べるようになったんだ。具体例としてはHTML、CSS、JSのことね。LLMはこの点で自分の能力をはるかに超えている。
> 僕たちは動物の心の中のナレーターみたいな存在で、自分の行動を説明しようとしていると思う。これはある程度真実だけど、全てではないと思う。私たちは因果関係を捉えるために物語を創作するし、その原動力は適応にとって重要なんだ。
LLMの登場で、自分の議論がどうでもいい方向に流れやすいことに気づいたよ。本当に無意識に話のトピックが変わるみたいで、自分の内部トークン制限が超えた感じ。