Perplexityで深く探る!最新の研究が明らかにする驚きの真実とは?
引用元:https://news.ycombinator.com/item?id=43061827
毎週新しいAIが登場して、前のAIより20%くらい良くなってると言われてるけど、実際は最初のChatGPTの頃とあまり変わらない気がする。こいつらの推論力は幼児並みなのに、ますます権威的に見えるように調整されてるだけで、見た目は研究論文そのものなんだよね。
昨日、OpenAIで知ってるテーマについてDeep Researchを試したけど、期待外れだった。見た目はちゃんとしてるけど、中身はガッカリ。今は「プロンプトをうまく使え」って言われそうだけど、その前にこういう高級そうな資料に注意書きを入れるべきじゃないかな。
>見た目はちゃんとしてるけど、中身はガッカリ。
販売デモのための最適化なんだろうね。購入担当者は成果物を読んでないから。
博士号レベルで仕事を全部やってくれると思った?そうは思わないけど、少しずつは近づいてると思う。3年でかなり進歩したよ。
違うよ。プロンプトはアプリのマーケティング戦略についてのもので、すごく一般的だったから、最初からアプリのカテゴリーを間違えた。でも、プロンプトの設計にはそんなに時間をかけてないことは認めるよ。
みんなが感じているのは、見た目は良い結果が出るけど、実際に深い「インサイト」がまったくないってこと。要するに、ただの強化版検索エンジンで期待外れ。
それは良いことのように思える!「専門的に聞こえる」ことが説得力を持たなくなってきて、虚偽は減って、また人間の本能に戻れるかも:証明するか、戦ってみろ。
専門家をがっかりさせるのは間違いないと思う。現状は公の検索結果を見ているだけで、アクセスできない有料データは使えないから。良い結果を出せても、Googleにインデックスされてない情報を知ってる人には劣る。
ChatGPT/GPT-3.5とGPT-4で二つの大きな変化があって、それ以降はずっと小さな進展ばかり。GPT-4が到底できることの範囲を示したから、今後は徐々にタスクの質を高めることが目標だと思う。
でも、もうマルチモーダルだよ。Googleのはライブストリーミング動画の理解もできて、カメラを持って世界を話しながら歩けるんだ。テキストは見えないけど、内部ではテキストに変換してるかも。
そうだけど、OpenAIも半年前にそれをやってた。但し、限定アクセスで自分もつい最近使ったけど、実際に役立つことにはつながってない気がして、やっぱりGPT-3レベルだ。それでも、次の大きな進化はこの分野から来ると期待してる。
元のChatGPTは好奇心をくすぐる面白いアプリってだけで役立たなかったと言ってる人もいるけど、PerplexityはGoogleの代わりになってるし、毎日無料で質問できてるからすごいよ。去年の信頼できるツールの登場がLLMsの利用を爆発的に高めたと思う。
一歩信頼できない情報源を別のもので代替するつもりなら確かにそうかもだけど、GPT 3.5は相当数のクエリでGoogleをアウトパフォームしたと思う。しかし、今の状況では、やっぱり大量の情報を取り入れたプロンプトが使えるから、逆に不安があるな。
>”cat [62 random files we googled] > prompt.txt”が学術的な言葉で“62 sources”として掲げられているのはちょっと考えさせられる。最近Perplexity(Pro)を専門的な政治問題で試したけど、特定のニュースカバレッジに関する特別用意されたRAGと比較しても、遜色なかったよ。
PerplexityとDeepseek R1(アメリカのAmazonサーバーで実行中)はゲームチェンジャーだよ。Google検索のトップ結果だけじゃなくて、ドメインも考慮に入れて情報を探してくれる。AIをボイコットしてたけど、最近はPerplexityで何でも答えを見つけてる。
Perplexity+R1が情報源を推理部分にどう統合してるかについて知りたいな。
>”無料で運営するなんて安い”って考えは違うよ。AI企業は運営にものすごい額の現金を使ってるから、結局誰がこれにお金を払うのかが最大の疑問。
>”誰がこれにお金を払うかが疑問”確かに、AI企業のリーダーは公開してキャッシュアウトしようとしてるから、質は下がると思う。
その時に”enshitification”が始まって、結果ページにポップアップ広告が増えて、見栄えが悪くなるだろうね。
“人が払うか”の疑問は解決済みだよ。OpenAIだけで年間約40億ドルの収益がある。また、比較的小さな企業も印象的な収益を上げてて、利益も出している。
OpenAIの製品が好きな私だけど、月200ドルも払ってるとしたらそれって騙されてると思う。 5年以上コーディングしてなかったけど、プロジェクトでCursor, Warp, OAI Proを使った結果、開発時間が3週間から3日になった。費用対効果はすごいよ。 その製品の価格には疑問があるけどね。 タダじゃなくて、運営コストが安いから無料ってわけじゃないんだよ。彼らはレイトステージのVCマネーを使いまくってるんだから。ツイッターだけ見てると信じられないかもしれないけど、彼らの製品の大部分、つまり検索インデックスは主にbraveやbing、serpAPIに基づいてる。広告への期待が会社の方針を決定すると思う。 Perplexityを使ったのは初めてだけど、かなり気に入ってる。モデルに対する人々の利用度のばらつきがあって、Feynmanが量子電気力学に対する言語モデルの意見にあまり価値を見出さないのと同じで、私の母もそうだと思う。好奇心と無知のスイートスポットがあると思う。Deep ResearchはarXivの論文を読んで、結果をまとめて参考文献を示してくれる。すごい。 OPの意見は理解できない。ChatGPT 3.5は基本的にただの新しいおもちゃだったけど、この後に出てきたモデルたちは私の作業フローに組み込まれて、効率の倍増因子になってる。2022年に比べて明らかに良くて、有用性が大きく向上してる。 毎日最先端のml研究を支援するためにこれらのモデルを使ってる。Sonnetは私のコードに大きな変更やバグ修正を行えるけど、GPT 3.5 Turboは特定のコードブロックを繰り返すことすらできなかった。O1は複雑なモデル設計や信号処理を考えることができるので、私も理解に苦しむことがある。 AIだけを使ってコードを作ろうとした時、ちょっとしたミスでもデバッグにかかる時間が膨大になることがあるよ。大きなAIコードの理解も、自力で問題解決するのと同じくらい難しいことがある。 コードが正しいかどうかを確認しやすくするのは大事だよ。 OpenAIのChatGPTを毎日使ってるけど、今日Perplexityの無料Deep Research機能を試したら、その素晴らしさに驚いた。OpenAIのモデルでは見たことがないものだ。月額のOpenAIのサブスクリプションをキャンセルしたよ。 何を尋ねたらそんなに驚いたの?新しいAIのことで誰かが興奮してるコメントを見ると、自分でも試してみたくなるけど、本当に満足できる難易度の実例が思い浮かばない。 記事をさらに詳しくするための情報を拡張してくれるように頼んだら、オンラインで検索してそれを実行してくれた。 あまりにも現実をわかってないね。多くのAI企業は熱を乗せていて、あたかも少しLLMを微調整すれば意識が芽生えるかのように過大評価されている。この技術ではそんなことは起こらないと思う。LLM-AGIのバブルは早く弾けてほしい。 gemini 2やo3 miniのようなモデルがGPT-4よりもはるかに優れていることに気づかないなら、明らかにそれを使うのが得意ではないね。 こういうディープリサーチアプリケーションがリリースされるのはすごく嬉しい。LLMの明らかな利用ケースだから。Perplexityで試したクエリもいくつかあるけど、「Fortune 100 CEOsの大学専攻を全部リストにして」と尋ねたら、うまくいかなかった。OpenAIやGeminiはそれなりに上手く対応し、結果のテーブルを生成しているけど、Perplexityはその話題について一般的にダラダラ喋るだけだった。別リストを調べて結果を重ね合わせる必要があると、彼の性能が落ちると思った。 全部正確に答えられる?経験上、全状態やFortune 100の情報を網羅するってなると、数個は抜けてることが多いからね。 この商品を使う人は、LLMについて何かしら理解しておいてほしいな。“Fortune 100のCEOの出身大学を全部リストアップして”なんて質問には向いてないんだから。 “深い研究のワークフローで、これが良い使い方じゃない理由を教えてくれませんか?”って感じだね。 LLMはうまく対処できるはずだけど、OPのコメントはちょっと違うんじゃない? 詳しくないけど、なんでこの質問がLLMにとって特に難しいのか教えてほしいな。 “深い研究”がこれも扱えないってなると、もっと複雑な仕事も任せられないな。 OpenAIが$200/月のDeep Research出してから約2週間で、Hugging Faceでオープンソースされ、Perplexityが無料提供し始めた。進化のスピードに驚くし、OpenAIに今は守られてるものはないのかも。 興味が湧いて、先週からChatGPT Pro使ってみたんだ。深い研究でニッチなゲームの戦略をうまく考えてくれたけど、来月はプレミアム$20のに戻そうと思ってる。でも、仕事でChatGPT Enterpriseを使えるようになったら、O1 Proが昨日の難しい問題をサクッと解決してくれたんだ。 .NET APIの認可ポリシーと認可フィルターの話。以前に使ったことがなくて、許可ポリシーが必要だったんだ。“たくさんの属性を使えるようにしたい”って言ったら、すぐに認可フィルターを書いてくれた。基本的なことかもしれないけど、本当に助かった。 現在OpenAIのサブスクやってるけど、他に切り替えるほどじゃないな。DeepSeek使ったけど、ちょっと不具合あったし、Claudeもそこまで変わらないし。チャット履歴があるから再度同じことやるのも面倒だしね。だから、結局今は満足してる。ただ、もし相手が価格上げたり、トップと比べて遅れたりしたら、すぐキャンセルするかも。APIも好きだけど、他もそれをマネし始めてるし、今のところは特に切り替える理由は無いかな。 >「APIが好きだけど、他に切り替える理由は無い」 4oはDeepSeek R1と比べられない。最新のo3-mini-highかo1を使った方がいいよ。 コーディングプロジェクトでは4oの出力がDeepSeek R1より良かったところもあった。ただし、特定のケースね。最近の4oはさらに良くなったし、o3-mini-highもいい。他のモデルに長いスクリプトを直させると、いくつかの行や変数を忘れられることが多いから、デバッグがイライラすることがある。o1は結構良いよ。 全部書き直すんじゃなくて、ピンポイントで修正できるツールを使った方がいいんじゃない?WindsurfやCursorみたいに。 正直、これらのモデルを使うユーザーにとっては、大差ないと思う。クラウドサービスもそうだけど、結局価格競争になりそう。 OpenAIは一般ユーザーをつかんでるね。周りの賢い人たちも、ChatGPTのGUI以外使ったことない人がほとんど。 『Deep Research』って名前を使った商品、これで三つ目だね。最初はGemini Deep Researchで、次はChatGPT Deep Researchで、今はPerplexity Deep Research。 ちょっと補足:『Deep Research』のWikipediaページにはOpenAIのことしか書いてないよ。 Geminiは「変なインターフェース使ってもらうけど、EUからは無理」ってこともあったし、その結果OpenAIやAnthropicに遅れをとったから、知名度も上がらなかったと思う。 みんながGeminiは遅れを取ってるって言ってるのがよく分からないんだ。Gemini Flash Thinking Experimentalはo3 miniよりずっと良いと感じる。 2023年と2024年の初めはGoogleはAIレースで遅れをとってたけど、Gemini 1.5でほぼ追いついた。Gemini 2ではOpenAIやAnthropicと同じくらいの先端モデルになったし、一部では先を行ってると思う。2025年はAIにとって面白い年になりそう。 Googleは前に行ってるかもしれない。WaymoやDeepMindなど、LLM以外の使い道が多いし、自社ハードウェアもあるからNvidiaに依存してない。 Demis HassabisはあまりPRしないから、他の連中の方が騒がしい。 これに賛成。Flash 2.0やPro 1.5の結果はOpenAIモデルと比べても素晴らしいと思う。特に私の作業においてGeminiを使うのがデフォルトだよ。 昨日Geminiの利用をやめた理由を話すよ。最近の米国選挙の結果を年齢別に知りたくて聞いたけど、Geminiはデータを提供してくれなかった。4回聞き直したけど、まるで天安門事件のように拒まれ続けた。ChatGPTとClaudeは喜んでおおよその内訳を教えてくれた。投票年齢別のパターンは1968年のNixon-Humphrey-Wallaceとあまり変わらなかった。 確かに以前はかなり遅れてた。でも数週間前まではそう言われていて、あまり論争にはならなかった。EUにいる私にはアクセスできないし、最近改善されたみたいだけど、当時は誰も注目してなかった。ようやくアクセスできるようになって、Googleは競争に戻れるチャンスを得た。 私にとってはかなり異なる日もある。一日ではバラバラな文書を使って素晴らしい要約を作ることができるのに、次の日には詳細な入力で段落すら難しいこともある。ただGoogleはフィードバックに素早く応じてる気がする。同じ問題に直面することはないし。 >それは確かにGoogleはフィードバックに素早く対応しているように思える。どうやってそのモデルの挙動を素早く変えられるのか不思議だね。何が調整されているのか、モデルはすでにトレーニング済みだと思うし、単なる randomness だ。 魔法だね。ファインチューニングもある。選んでみて。 システムプロンプトは出力に大きな影響を与える。ChatGPTなどのプロンプトは約1000語で、何をするべきか、何をすべきでないかの例がある。そこに少し調整するだけで大きな違いが出ることがある。 とりあえずGeminiは日によって調子が違うね。いい日なら最高だけど、悪い日はひどい。なんか不思議だ。 o3 miniはまだo1 proに劣るね。あんまり感動しなかった。OpenAIに近いと思ってる人はプロサブスク持ってないんじゃないかな。 200ドルのバージョン?存在は面白いけど、普通のユーザーには…いないも同然だね。プロは消費者向けじゃないから、一回のクエリを払えるまでは比較対象にはしたくない。 速さのおかげで反復がしやすい…o1 proは遅すぎか、まだ待つほど良くない。 Elicit AIも科学研究論文の分析用の似た機能を出したみたいだよ。詳しくはここを見てね:https://support.elicit.com/en/articles/4168449 実際、このツールは私のPhDのテーマに合ってる。論文の推薦が結構いいよ。 これが商標登録されてないなら問題はないんじゃない?Apple Mapsみたいに他にも「Maps」って商品があるし。私は代替商品の名前を標準化してくれるのが嬉しいし、もっとやってほしいな。 商標弁護士じゃないけど、Deep Researchはプロダクトの特徴を単に説明してるだけだから、商標としての保護を受けるのは難しいと思う。明確に特定できるためには、5年間の独占使用が必要だけど、競合が多すぎてそれは無理だよ。 DeepCQ.comを早くから持ってるんだけど、金融リサーチ用の“deepseek”ができるかもしれない。これも積み上げちゃおうかな。 最初のテストでUpside magazineに関する記事がすぐに見つからなかった。他の深いリサーチ版も有名な記事で苦戦してた。さすがにヒントは必要ないと思うけど、まだ始まったばかりだし、進歩は凄い。LLMにこんな急激な進化は他にあったかな? 必ずしも早かったとは言わないけど、iPhone以降の携帯電話の発展もすごかったよね。 マジで?私の結果ではその記事についての投稿が山ほど出てきたよ。 徹底的に確認したいときの標準的なプロンプトはこれだよ: Huggingfaceの研究者を忘れてたね。ところで、1時間前に同じようなコメントしたけど、今日のコピーキャット倫理は製品だけじゃなくコメントセクションにも当てはまるね。笑 さっきのコメントは、今のコメントほど分かりやすくなかったよ。その人がコピーしたわけじゃないと思う。もっとコメントを表示(1)
もっとコメントを表示(2)
litellmやopenrouterみたいなツール使えば、API選びの手間が省けるよ。もっとコメントを表示(3)
概要はこちら: https://www.datacamp.com/tutorial/fine-tuning-large-language…
詳細はこちら: https://www.turing.com/resources/finetuning-large-language-m…
いいグラフもあるよ: https://blogs.oracle.com/ai-and-datascience/post/finetuning-…
大きなプラットフォームは、あなたのプロンプトを書き直す中間ステップを使っているようだ。ChatGPTデータをダウンロードしたら、かなりの変更があった。通常はより良い方向に。書き直しの仕方が結果を変える。
“見逃してることはない?”
“これをファクトチェックできる?”
“これがそのテーマに対する意見の範囲を正確に反映してる?”
他のLLMに同じ質問をすれば、もっと詳細が引き出せるね。