Perplexityで深く探る！最新の研究が明らかにする驚きの真実とは？

Perplexityで深く探る！最新の研究が明らかにする驚きの真実とは？

引用元：https://news.ycombinator.com/item?id=43061827

alexvitkov 2025-02-16T07:21:40

毎週新しいAIが登場して、前のAIより20％くらい良くなってると言われてるけど、実際は最初のChatGPTの頃とあまり変わらない気がする。こいつらの推論力は幼児並みなのに、ますます権威的に見えるように調整されてるだけで、見た目は研究論文そのものなんだよね。

baxtr 2025-02-16T09:06:16

昨日、OpenAIで知ってるテーマについてDeep Researchを試したけど、期待外れだった。見た目はちゃんとしてるけど、中身はガッカリ。今は「プロンプトをうまく使え」って言われそうだけど、その前にこういう高級そうな資料に注意書きを入れるべきじゃないかな。

rchaud 2025-02-16T16:36:45

＞見た目はちゃんとしてるけど、中身はガッカリ。
販売デモのための最適化なんだろうね。購入担当者は成果物を読んでないから。

numba888 2025-02-16T22:12:57

博士号レベルで仕事を全部やってくれると思った？そうは思わないけど、少しずつは近づいてると思う。3年でかなり進歩したよ。

baxtr 2025-02-17T10:24:10

違うよ。プロンプトはアプリのマーケティング戦略についてのもので、すごく一般的だったから、最初からアプリのカテゴリーを間違えた。でも、プロンプトの設計にはそんなに時間をかけてないことは認めるよ。

jaggs 2025-02-16T17:25:33

みんなが感じているのは、見た目は良い結果が出るけど、実際に深い「インサイト」がまったくないってこと。要するに、ただの強化版検索エンジンで期待外れ。

zarathustreal 2025-02-16T12:03:02

それは良いことのように思える！「専門的に聞こえる」ことが説得力を持たなくなってきて、虚偽は減って、また人間の本能に戻れるかも：証明するか、戦ってみろ。

ankit219 2025-02-16T09:16:03

専門家をがっかりさせるのは間違いないと思う。現状は公の検索結果を見ているだけで、アクセスできない有料データは使えないから。良い結果を出せても、Googleにインデックスされてない情報を知ってる人には劣る。

TeMPOraL 2025-02-16T09:57:05

ChatGPT/GPT-3.5とGPT-4で二つの大きな変化があって、それ以降はずっと小さな進展ばかり。GPT-4が到底できることの範囲を示したから、今後は徐々にタスクの質を高めることが目標だと思う。

mattlondon 2025-02-16T10:17:29

でも、もうマルチモーダルだよ。Googleのはライブストリーミング動画の理解もできて、カメラを持って世界を話しながら歩けるんだ。テキストは見えないけど、内部ではテキストに変換してるかも。

TeMPOraL 2025-02-16T10:25:41

そうだけど、OpenAIも半年前にそれをやってた。但し、限定アクセスで自分もつい最近使ったけど、実際に役立つことにはつながってない気がして、やっぱりGPT-3レベルだ。それでも、次の大きな進化はこの分野から来ると期待してる。

exclipy 2025-02-16T07:29:20

元のChatGPTは好奇心をくすぐる面白いアプリってだけで役立たなかったと言ってる人もいるけど、PerplexityはGoogleの代わりになってるし、毎日無料で質問できてるからすごいよ。去年の信頼できるツールの登場がLLMsの利用を爆発的に高めたと思う。

alexvitkov 2025-02-16T07:55:27

一歩信頼できない情報源を別のもので代替するつもりなら確かにそうかもだけど、GPT 3.5は相当数のクエリでGoogleをアウトパフォームしたと思う。しかし、今の状況では、やっぱり大量の情報を取り入れたプロンプトが使えるから、逆に不安があるな。

senko 2025-02-16T13:30:20

＞”cat [62 random files we googled] > prompt.txt”が学術的な言葉で“62 sources”として掲げられているのはちょっと考えさせられる。最近Perplexity（Pro）を専門的な政治問題で試したけど、特定のニュースカバレッジに関する特別用意されたRAGと比較しても、遜色なかったよ。

jazzyjackson 2025-02-16T19:31:28

PerplexityとDeepseek R1（アメリカのAmazonサーバーで実行中）はゲームチェンジャーだよ。Google検索のトップ結果だけじゃなくて、ドメインも考慮に入れて情報を探してくれる。AIをボイコットしてたけど、最近はPerplexityで何でも答えを見つけてる。

dleink 2025-02-16T23:59:32

Perplexity+R1が情報源を推理部分にどう統合してるかについて知りたいな。

rr808 2025-02-16T13:25:29

＞”無料で運営するなんて安い”って考えは違うよ。AI企業は運営にものすごい額の現金を使ってるから、結局誰がこれにお金を払うのかが最大の疑問。

rchaud 2025-02-16T16:53:11

＞”誰がこれにお金を払うかが疑問”確かに、AI企業のリーダーは公開してキャッシュアウトしようとしてるから、質は下がると思う。

jaggs 2025-02-16T17:27:19

その時に”enshitification”が始まって、結果ページにポップアップ広告が増えて、見栄えが悪くなるだろうね。

calebkaiser 2025-02-16T15:43:33

“人が払うか”の疑問は解決済みだよ。OpenAIだけで年間約40億ドルの収益がある。また、比較的小さな企業も印象的な収益を上げてて、利益も出している。

もっとコメントを表示（1）

season2episode3 2025-02-16T16:57:33

OpenAIの製品が好きな私だけど、月200ドルも払ってるとしたらそれって騙されてると思う。

jdee 2025-02-16T22:15:30

5年以上コーディングしてなかったけど、プロジェクトでCursor, Warp, OAI Proを使った結果、開発時間が3週間から3日になった。費用対効果はすごいよ。

calebkaiser 2025-02-16T17:12:34

その製品の価格には疑問があるけどね。

danielcampos93 2025-02-17T19:20:42

タダじゃなくて、運営コストが安いから無料ってわけじゃないんだよ。彼らはレイトステージのVCマネーを使いまくってるんだから。ツイッターだけ見てると信じられないかもしれないけど、彼らの製品の大部分、つまり検索インデックスは主にbraveやbing、serpAPIに基づいてる。広告への期待が会社の方針を決定すると思う。

psytrancefan 2025-02-17T03:11:33

Perplexityを使ったのは初めてだけど、かなり気に入ってる。モデルに対する人々の利用度のばらつきがあって、Feynmanが量子電気力学に対する言語モデルの意見にあまり価値を見出さないのと同じで、私の母もそうだと思う。好奇心と無知のスイートスポットがあると思う。Deep ResearchはarXivの論文を読んで、結果をまとめて参考文献を示してくれる。すごい。

danielbln 2025-02-16T07:49:10

OPの意見は理解できない。ChatGPT 3.5は基本的にただの新しいおもちゃだったけど、この後に出てきたモデルたちは私の作業フローに組み込まれて、効率の倍増因子になってる。2022年に比べて明らかに良くて、有用性が大きく向上してる。

zaptrem 2025-02-16T07:50:44

毎日最先端のml研究を支援するためにこれらのモデルを使ってる。Sonnetは私のコードに大きな変更やバグ修正を行えるけど、GPT 3.5 Turboは特定のコードブロックを繰り返すことすらできなかった。O1は複雑なモデル設計や信号処理を考えることができるので、私も理解に苦しむことがある。

nicce 2025-02-16T08:04:33

AIだけを使ってコードを作ろうとした時、ちょっとしたミスでもデバッグにかかる時間が膨大になることがあるよ。大きなAIコードの理解も、自力で問題解決するのと同じくらい難しいことがある。

zaptrem 2025-02-16T09:01:38

コードが正しいかどうかを確認しやすくするのは大事だよ。

vic_nyc 2025-02-16T15:08:54

OpenAIのChatGPTを毎日使ってるけど、今日Perplexityの無料Deep Research機能を試したら、その素晴らしさに驚いた。OpenAIのモデルでは見たことがないものだ。月額のOpenAIのサブスクリプションをキャンセルしたよ。

pgwhalen 2025-02-16T15:13:49

何を尋ねたらそんなに驚いたの？新しいAIのことで誰かが興奮してるコメントを見ると、自分でも試してみたくなるけど、本当に満足できる難易度の実例が思い浮かばない。

vic_nyc 2025-02-16T17:36:54

記事をさらに詳しくするための情報を拡張してくれるように頼んだら、オンラインで検索してそれを実行してくれた。

kookamamie 2025-02-16T18:25:44

あまりにも現実をわかってないね。多くのAI企業は熱を乗せていて、あたかも少しLLMを微調整すれば意識が芽生えるかのように過大評価されている。この技術ではそんなことは起こらないと思う。LLM-AGIのバブルは早く弾けてほしい。

dangoodmanUT 2025-02-16T14:37:06

gemini 2やo3 miniのようなモデルがGPT-4よりもはるかに優れていることに気づかないなら、明らかにそれを使うのが得意ではないね。

CSMastermind 2025-02-16T00:19:42

こういうディープリサーチアプリケーションがリリースされるのはすごく嬉しい。LLMの明らかな利用ケースだから。Perplexityで試したクエリもいくつかあるけど、「Fortune 100 CEOsの大学専攻を全部リストにして」と尋ねたら、うまくいかなかった。OpenAIやGeminiはそれなりに上手く対応し、結果のテーブルを生成しているけど、Perplexityはその話題について一般的にダラダラ喋るだけだった。別リストを調べて結果を重ね合わせる必要があると、彼の性能が落ちると思った。

danielcampos93 2025-02-17T19:22:30

全部正確に答えられる？経験上、全状態やFortune 100の情報を網羅するってなると、数個は抜けてることが多いからね。

stagger87 2025-02-16T01:07:24

この商品を使う人は、LLMについて何かしら理解しておいてほしいな。“Fortune 100のCEOの出身大学を全部リストアップして”なんて質問には向いてないんだから。

iandanforth 2025-02-16T01:28:02

“深い研究のワークフローで、これが良い使い方じゃない理由を教えてくれませんか？”って感じだね。

jhanschoo 2025-02-16T03:46:17

LLMはうまく対処できるはずだけど、OPのコメントはちょっと違うんじゃない？

collinvandyck76 2025-02-16T01:29:54

詳しくないけど、なんでこの質問がLLMにとって特に難しいのか教えてほしいな。

もっとコメントを表示（2）

rs186 2025-02-16T14:14:25

“深い研究”がこれも扱えないってなると、もっと複雑な仕事も任せられないな。

melvinmelih 2025-02-16T01:33:10

OpenAIが$200/月のDeep Research出してから約2週間で、Hugging Faceでオープンソースされ、Perplexityが無料提供し始めた。進化のスピードに驚くし、OpenAIに今は守られてるものはないのかも。

wincy 2025-02-16T02:51:26

興味が湧いて、先週からChatGPT Pro使ってみたんだ。深い研究でニッチなゲームの戦略をうまく考えてくれたけど、来月はプレミアム$20のに戻そうと思ってる。でも、仕事でChatGPT Enterpriseを使えるようになったら、O1 Proが昨日の難しい問題をサクッと解決してくれたんだ。

wincy 2025-02-16T20:27:09

.NET APIの認可ポリシーと認可フィルターの話。以前に使ったことがなくて、許可ポリシーが必要だったんだ。“たくさんの属性を使えるようにしたい”って言ったら、すぐに認可フィルターを書いてくれた。基本的なことかもしれないけど、本当に助かった。

NewUser76312 2025-02-16T01:47:38

現在OpenAIのサブスクやってるけど、他に切り替えるほどじゃないな。DeepSeek使ったけど、ちょっと不具合あったし、Claudeもそこまで変わらないし。チャット履歴があるから再度同じことやるのも面倒だしね。だから、結局今は満足してる。ただ、もし相手が価格上げたり、トップと比べて遅れたりしたら、すぐキャンセルするかも。APIも好きだけど、他もそれをマネし始めてるし、今のところは特に切り替える理由は無いかな。

0xDEAFBEAD 2025-02-16T07:12:28

＞「APIが好きだけど、他に切り替える理由は無い」
litellmやopenrouterみたいなツール使えば、API選びの手間が省けるよ。

saretup 2025-02-16T04:09:01

4oはDeepSeek R1と比べられない。最新のo3-mini-highかo1を使った方がいいよ。

NewUser76312 2025-02-16T05:25:41

コーディングプロジェクトでは4oの出力がDeepSeek R1より良かったところもあった。ただし、特定のケースね。最近の4oはさらに良くなったし、o3-mini-highもいい。他のモデルに長いスクリプトを直させると、いくつかの行や変数を忘れられることが多いから、デバッグがイライラすることがある。o1は結構良いよ。

exclipy 2025-02-16T21:57:15

全部書き直すんじゃなくて、ピンポイントで修正できるツールを使った方がいいんじゃない？WindsurfやCursorみたいに。

rockdoc 2025-02-16T12:26:15

正直、これらのモデルを使うユーザーにとっては、大差ないと思う。クラウドサービスもそうだけど、結局価格競争になりそう。

TechDebtDevin 2025-02-16T07:04:19

OpenAIは一般ユーザーをつかんでるね。周りの賢い人たちも、ChatGPTのGUI以外使ったことない人がほとんど。

simonw 2025-02-16T00:40:04

『Deep Research』って名前を使った商品、これで三つ目だね。最初はGemini Deep Researchで、次はChatGPT Deep Researchで、今はPerplexity Deep Research。

shekhargulati 2025-02-16T08:02:50

ちょっと補足：『Deep Research』のWikipediaページにはOpenAIのことしか書いてないよ。

TeMPOraL 2025-02-16T09:41:17

Geminiは「変なインターフェース使ってもらうけど、EUからは無理」ってこともあったし、その結果OpenAIやAnthropicに遅れをとったから、知名度も上がらなかったと思う。

CjHuber 2025-02-16T11:15:42

みんながGeminiは遅れを取ってるって言ってるのがよく分からないんだ。Gemini Flash Thinking Experimentalはo3 miniよりずっと良いと感じる。

DebtDeflation 2025-02-16T12:21:46

2023年と2024年の初めはGoogleはAIレースで遅れをとってたけど、Gemini 1.5でほぼ追いついた。Gemini 2ではOpenAIやAnthropicと同じくらいの先端モデルになったし、一部では先を行ってると思う。2025年はAIにとって面白い年になりそう。

hansworst 2025-02-16T16:37:14

Googleは前に行ってるかもしれない。WaymoやDeepMindなど、LLM以外の使い道が多いし、自社ハードウェアもあるからNvidiaに依存してない。

tim333 2025-02-16T17:12:43

Demis HassabisはあまりPRしないから、他の連中の方が騒がしい。

tr3ntg 2025-02-16T11:24:21

これに賛成。Flash 2.0やPro 1.5の結果はOpenAIモデルと比べても素晴らしいと思う。特に私の作業においてGeminiを使うのがデフォルトだよ。

robwwilliams 2025-02-16T20:19:54

昨日Geminiの利用をやめた理由を話すよ。最近の米国選挙の結果を年齢別に知りたくて聞いたけど、Geminiはデータを提供してくれなかった。4回聞き直したけど、まるで天安門事件のように拒まれ続けた。ChatGPTとClaudeは喜んでおおよその内訳を教えてくれた。投票年齢別のパターンは1968年のNixon-Humphrey-Wallaceとあまり変わらなかった。

もっとコメントを表示（3）

TeMPOraL 2025-02-16T13:59:24

確かに以前はかなり遅れてた。でも数週間前まではそう言われていて、あまり論争にはならなかった。EUにいる私にはアクセスできないし、最近改善されたみたいだけど、当時は誰も注目してなかった。ようやくアクセスできるようになって、Googleは競争に戻れるチャンスを得た。

Kye 2025-02-16T12:33:25

私にとってはかなり異なる日もある。一日ではバラバラな文書を使って素晴らしい要約を作ることができるのに、次の日には詳細な入力で段落すら難しいこともある。ただGoogleはフィードバックに素早く応じてる気がする。同じ問題に直面することはないし。

lambdaba 2025-02-16T14:40:07

＞それは確かにGoogleはフィードバックに素早く対応しているように思える。どうやってそのモデルの挙動を素早く変えられるのか不思議だね。何が調整されているのか、モデルはすでにトレーニング済みだと思うし、単なる randomness だ。

Kye 2025-02-16T16:22:50

魔法だね。ファインチューニングもある。選んでみて。
概要はこちら: https://www.datacamp.com/tutorial/fine-tuning-large-language…
詳細はこちら: https://www.turing.com/resources/finetuning-large-language-m…
いいグラフもあるよ: https://blogs.oracle.com/ai-and-datascience/post/finetuning-…
大きなプラットフォームは、あなたのプロンプトを書き直す中間ステップを使っているようだ。ChatGPTデータをダウンロードしたら、かなりの変更があった。通常はより良い方向に。書き直しの仕方が結果を変える。

brookst 2025-02-16T16:30:52

システムプロンプトは出力に大きな影響を与える。ChatGPTなどのプロンプトは約1000語で、何をするべきか、何をすべきでないかの例がある。そこに少し調整するだけで大きな違いが出ることがある。

jaggs 2025-02-16T17:19:54

とりあえずGeminiは日によって調子が違うね。いい日なら最高だけど、悪い日はひどい。なんか不思議だ。

xiphias2 2025-02-16T15:27:38

o3 miniはまだo1 proに劣るね。あんまり感動しなかった。OpenAIに近いと思ってる人はプロサブスク持ってないんじゃないかな。

viraptor 2025-02-16T17:57:40

200ドルのバージョン？存在は面白いけど、普通のユーザーには…いないも同然だね。プロは消費者向けじゃないから、一回のクエリを払えるまでは比較対象にはしたくない。

taf2 2025-02-16T23:18:18

速さのおかげで反復がしやすい…o1 proは遅すぎか、まだ待つほど良くない。

mrtesthah 2025-02-16T01:05:53

Elicit AIも科学研究論文の分析用の似た機能を出したみたいだよ。詳しくはここを見てね：https://support.elicit.com/en/articles/4168449

masmm 2025-02-17T13:10:34

実際、このツールは私のPhDのテーマに合ってる。論文の推薦が結構いいよ。

exclipy 2025-02-16T00:56:59

これが商標登録されてないなら問題はないんじゃない？Apple Mapsみたいに他にも「Maps」って商品があるし。私は代替商品の名前を標準化してくれるのが嬉しいし、もっとやってほしいな。

anon373839 2025-02-16T04:41:01

商標弁護士じゃないけど、Deep Researchはプロダクトの特徴を単に説明してるだけだから、商標としての保護を受けるのは難しいと思う。明確に特定できるためには、5年間の独占使用が必要だけど、競合が多すぎてそれは無理だよ。

jsemrau 2025-02-16T05:41:55

DeepCQ.comを早くから持ってるんだけど、金融リサーチ用の“deepseek”ができるかもしれない。これも積み上げちゃおうかな。

qingcharles 2025-02-16T01:55:51

最初のテストでUpside magazineに関する記事がすぐに見つからなかった。他の深いリサーチ版も有名な記事で苦戦してた。さすがにヒントは必要ないと思うけど、まだ始まったばかりだし、進歩は凄い。LLMにこんな急激な進化は他にあったかな？

willy_k 2025-02-16T02:58:31

必ずしも早かったとは言わないけど、iPhone以降の携帯電話の発展もすごかったよね。

qingcharles 2025-02-16T08:38:24

マジで？私の結果ではその記事についての投稿が山ほど出てきたよ。

Kye 2025-02-16T12:37:16

徹底的に確認したいときの標準的なプロンプトはこれだよ：
“見逃してることはない？”
“これをファクトチェックできる？”
“これがそのテーマに対する意見の範囲を正確に反映してる？”
他のLLMに同じ質問をすれば、もっと詳細が引き出せるね。

transformi 2025-02-16T01:06:26

Huggingfaceの研究者を忘れてたね。ところで、1時間前に同じようなコメントしたけど、今日のコピーキャット倫理は製品だけじゃなくコメントセクションにも当てはまるね。笑

2099miles 2025-02-16T13:37:58

さっきのコメントは、今のコメントほど分かりやすくなかったよ。その人がコピーしたわけじゃないと思う。

記事一覧へ

著者

海外テックの反応まとめ

暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。