AIツールが研究論文の誤りを発見!研究の質を向上させる新たな試みとは
引用元:https://news.ycombinator.com/item?id=43295692
AIが研究論文のミスを見つけるのは素晴らしい一歩だと思う。AIが明らかなエラーを見つけられれば、著者は提出前に自分の作品をチェックできるし、査読プロセスに組み込むことも可能だ。これで多くの論文の質が向上するかもね。重要なのは、専門家である著者や査読者と一緒に進めるプロセスで、彼らは誤検知を排除できるし、専門外の統計ミスなどに警告を受けられる点だ。
逆に、不正をする研究者がAIを使って自分の作品をチェックすることで、詐欺的な論文の信憑性が高まる可能性があるよね。未来がどうなるのかまだ分からないけど、信頼が失われた世界について考えている。
学生や研究者が論文を提出する前に plagiarism checker を使うのは一般的な実践だし、みんなやってることだよ。もし誰かが捏造した実験結果を改ざんしてAIでも検出できないようにしたら、結果が発表されても再現できない。悪質な結果が出ても数年はバレないこともあるし、同じような問題は今も続いてる。ただ、競争が激しい学術界ではAIの検出をかいくぐるメリットが大きいとは思えない。
彼らの結果が発表されると、誰も再現できなくなるだろうね。不正が見つかった場合、厳しいペナルティがあると思っているみたいだけど、実際には軽いお咎めで済むことが多いんだ。何も起こらないケースがほとんどで、詐欺を続けることができる。
独立した団体が不正な研究を追跡して悪事を暴くこともあるし、業界が改善していくかもしれない。NIHがすべての研究を電子ラボノートを使って公開するように強制しているから、オープンアクセスのジャーナルも増えるしね。
NIHが研究のイデオロギー的な遵守を強制するツールになってしまったことで、品質が犠牲になるからもっと悪化するんじゃないかな。
bskyにはこちら: https://bsky.app/profile/retractionwatch.com って感じ。
不正が広がっているのを過小評価しているんじゃないかな。願望的な思考の方が不正よりも問題だと思う。つまり、自分の弱点を深く考えずに仕事を進める姿勢が問題なんだ。
それって単に悪い科学じゃない?研究をきちんと定義し、結果を分析する前に発表するべきじゃない。学術界は科学の目的を果たせてないのが問題だと思う。
それについては狭くて、出版のプレッシャーが影響してると思う。
“Academia”をR1校の信頼できる研究者たちと定義するなら、この話は信じられない。世界中の誰でも研究論文を出せるとするなら、確かに詐欺は多いよね。信頼できる研究者の中で、詐欺の割合を計算したことある人いる?0.1%や0.01%すら超えてたら驚くけど。
p-hackingが広がってるって証拠はたくさんあるよ。20%がp-hackedだって推定するところもある。上位の大学でもこの問題は存在していて、分野によっては上位校の方が酷いこともあるんだ。
その証拠はどこ?引用された論文は実験的な会計研究でp-hackingがあるとうたっているけど、アーカイブに関してはそうじゃない。一般的に見て、詐欺の割合は低いらしいよ。研究によると2%って数値もある。
2%の数字は詐欺率の調査じゃなく、自分が詐欺を犯したかどうかのアンケートだよ。みんな他の研究者の詐欺率を推定すると、10%から15%くらいっと言ってる。
その15%ってのは、実際に詐欺を犯した訳じゃなく、知っている人が学問不正をしたかどうかの話だからね。これは過大評価になってるはず。大事なことは、報告した場合には大体のケースで何かしらの影響があったってことだ。
では、どの数字がより正確だと思う?
興味深い記事があるよ。0.04%の論文が撤回されて、1.9%には意図的な改ざんを示唆する重複画像がある。2.5%が詐欺を認め、他の研究者では10%が詐欺を犯してると推定してる。心理学では50%以上が誤った結果を出しているんだ。
0.04%は非常に少ない数字で、撤回された論文の中にはエラーによるものも含まれているから、この結果を詐欺の証拠として考えるのは誤りだ。
0.04%が低いことじゃなくて、むしろもっと高くあるべきだって点が重要なんだ。明らかに詐欺的な論文を撤回するのは難しいし、重複が発見されるのは無報酬のボランティアによってだから、実際の数字は下限に過ぎない。
“無報酬のボランティア”というのは大部分の学術出版プロセスに当てはまるから、あなたの言いたいことがよく分からない。読者が問題を報告するのは普通のことだし、それに反論しているわけじゃない。ただし、現在の状態が常に正しいとは思わない。
議論の基準の不一致は人々の共感を損ない、未来の味方になってくれる人を諦めさせる。毎年、科学的な詐欺に関する記事が増えているけど、反応はいつもこんな感じ。アカデミックは給料をもらって専門的な仕事をするけど、重要な任務から逃げると急に無給のボランティアになる。このプロセスが信用の源なのに、詐欺的な記事が出てきたら突然、ジャーナルは無法地帯になる。信頼性が意味を持たないのに、多くの有名大学でも詐欺をする研究者がいたりする。 「心理学の出版された結果の50%以上が間違っている」というのは誤解。間違うことと詐欺をすることは違う。量子力学以前の物理学論文はほとんどが間違ってたけど、意図的ではなかった。 アカデミアにいないけど、再現性のある結果を試みる人が少ないって聞くね。再現できない論文を出しても、誰にも気付かれずにキャリアを続けられる。 再現できない論文はあまり役に立たないってことだと思う。もちろん、「役に立つ」は「引用される」と同じとは限らない。ただ、実際に使える結果を出せば、雇われるのも簡単じゃないかな。 再現できない論文は全く役に立たない。再現って面白くない作業だから、誰もやらないし、科学って結局は資金を得て結果を即したものを求められるようになってる。 再現はつまらないけど、他の研究の成果を基にして自然発生的に行われることが多い。ある反応がXを作り、Yを作るためにはXが必要ってなったとき、YができなかったらXが原因かもって気づくはず。 分野によるね。心理学はその辺がひどい。 分野によるよね…特に純粋さに欠ける領域で、ほとんど海の向こうの話かな…。 研究の現場でこれが行われているのは見たことがない。どれくらい一般的な実践かは分からない。 AIは詐欺師にとって大きなリスク。彼らは現行のツールに合わせてごまかしを調整するけど、発表されたものは未来のツールで分析される。古い論文を最新のツールで調査するスタートアップも既にフォーカスしている。 AIには懐疑的だけど、ポスト・クォンタム暗号のたとえがいい感じ。今のAIは不正を見逃すこともあるけど、将来のAIが進化すれば、出版された結果は変わらず、今後はバレるってことだよね。 あんまり関係ないけど、ひどい論文は発表されたらすぐに読まれてバレるけど、その後のフォローがない。機関は自動生成されたスパムを気にしないし、過去の論文に対してAIを使って責任を取ることもない。 AIを論文のレビューに使うのはいいアイデアだと思う。でも悪い科学者がそれを使ってバレないようにすることも考えたことがなかったな。 人間はすでに“ポスト・トゥルース”を体現してる。SNSのおかげで一瞬で情報が広まるけど、独立した思考よりも忠誠心が求められることも多い。AIは必要ないかも。 インターネットのおかげで素晴らしいコミュニケーションができるけど、誤情報が真実を隠すことがある。どう解決すればいいんだろう。権威のあるものに誘導するのもどうかと思う。 どっちにしろ、両方起こるだろう。世界はすでに長い間、信用を失ってる。 責任の部分をもっと強化するべきだと思う。教授やディレクターが虚偽の出版で裁判にかけられないのはおかしいし、他の人のキャリアにも影響が出る。 ほとんどの分野には明らかな誤りなんてない。AIが真実を知るには独自の情報を集めないと無理だろう。むしろ異なる考えをブロックしてしまう気がする。 もちろん、地球が太陽の周りを回ってたのは1000年前もそうだと思う。人間の観測から論じられるし、何千年も重力的な変化もなかったはず。AIが私の意見を誤りと判断するなら問題だと思う。 1年生でもこれが真実だって知ってるよ。1000年前にそれを主張したらみんなが間違ってるって言っただろうね。そんな考えが通じない時代だったかも。 もっと頑張ってほしいな。現在、YesNoErrorのサイトには多くの誤検出があるってNick Brownが言ってるよ。40本の論文を調べて14本に誤検出があったみたい(例として、テキストに言及されている図が実際には論文に存在しているのに、モデルがそれを指摘したケース)。“彼らが見つけている問題の大半は文章の問題に思える”とも言っていて、検出結果が間違っていることが多いんだ。“技術が大きく改善されない限り、これは明らかな利益なしに大量の作業を生み出すことになるだろう”とも警戒しているよ。 CVEを探すスキャンツールみたいなもんだね。今、何千人もの開発者が疑わしい脆弱性を追いかけてる。このツールたちはまだまだ発展途上。論文を見直すのは、コードのチェックと同じように良いことだと思う。研究者が応答できるまでプライベートで保つアプローチもいいね。 >例えば、モデルがテキスト内で言及されている図が論文に存在しないって言うことはあり得ない。ほとんどのジャーナルではクロスリファレンスとリンクが必要だから、LaTeXとか使えばエラーが出るはず。 ここでは、通常、引用する論文のLaTeXソースは手に入らないから、どのラベルを使うか分からないんだよね。最近の変化かもしれないけど、他の論文のFigure 2.2をリンクできるかい?リンクが壊れてたらLaTeXがエラーになるの?どうなってるの? 内部参照を指していると思う。おそらく、ツールに引用された論文を入力しているわけではないみたい。 ああ、そういうことか。私がその引用を間違って理解していたみたい。 ここで話されているのは2つの異なるプロジェクトだね。1つはオープンソースの取り組みで、もう1つは“AI Entrepreneur”の取り組み。YesNoErrorは後者だ。AIは、仮想通貨と同じように、様々なレベルの否定的な評価を受けていて、詐欺から初歩的な応用まで色々ある。こういう批判が分野全体に広がっているのが気になる。過去には、詐欺があっても医療を全面的に否定することはなかったと思うけど、パンデミック以降は少し不安があるね。各事象をその独自のメリットで評価しなければならないね。 現代のAIによってこれが動かされていることを忘れないで。人々は、これが詐欺や論理の誤りをチェックしていると思うかもしれないけど、実際には自己一貫性やトレーニングデータとの整合性を確認しているんだ。誤植や誤解を招く表現、事実や図をクロスチェックするには良いが、捏造データや信じられるけど間違った結論には効果が薄いと思う。関連論文のコンテキストで論文を評価できるようになれば、「あまりにも良すぎる」と思われるものを見逃さないかもしれない。ここでいいアイディアがあるよ:撤回された論文の影響をマッピングするのにAIを使うのはどう?詐欺でもエラーでも関係なく、撤回された論文からサポートされなくなった結論が後続の論文でどこに出現するかを探るんだ。 >人々はこれが詐欺や論理の誤りをチェックしていると思うかもしれないけど、実際には自己一貫性やトレーニングデータとの整合性を確認している。これは人間全体にも当てはまることだよね。 いやいや、それは違うよ。本当に一人も詐欺や論理の誤りをチェックできないって言ってるの?AIの話を擁護してる時に、あらゆるバカげたことを主張するのはおかしいよ。 いや、ほんとに誰も不正や論理の誤りをチェックできないって言ってるわけじゃないよ。要は、基本的に『自己一貫性と訓練データとの整合性を確認してる』ってことさ。人の研究を調べるのもその延長だと思う。コンピュータももう不正や論理の誤りをチェックしてるし、でもどちらも特定の訓練なしにはできないんだ。 まぁ、少なくとも人間は複数の視点やスキルを持つ仲間がいるからね。AIに関する研究の話って、よくチームが一つの思考体みたいだと仮定してるけど、実際の最高のコラボレーションはそれじゃないんだよ。 能力の違いは明確だね。ただ、いくつかの失敗を共有してるのも事実。 製造されたデータをチェックできるなら、著者より本物のデータについて詳しいってことだよね。そんなAIがあれば、科学はもう解決した問題になるよ。 自然なデータにはパターンがあって、改変されたデータや偽造データにもいくつかのパターンがあるんだ。もちろん完璧じゃないけど、少なくとも疑いを高めることはできるよ。 上手く隠された根本的な誤りのある主張は、多分検出できないだろうね。 トリリオンドル使って、しょぼいスペルチェックを作っただけだよ。 俺たちの記憶が短すぎるんじゃない?curlがAIによる虚偽のバグ報告でどうだったかもう忘れたの? ”YesNoError”は、暗号通貨の保有者がどの論文を優先的にチェックするかを決められるようにする予定らしい。ため息。 良さそうなアイデアが”それ全部チェーン上に”って終わるのを頻繁に目にして、元のコンセプトに対する信頼がすぐに失われるのはショックだ。 特に驚くことじゃないよね。異なるアプローチに惹かれる人は、複数のものに興味を持つことが多いし。今のところ、楽観的なのはcryptoだけかもしれない。役立つことがあれば、技術が優れているからじゃなくて、ただ信じていたからだと思う。投資家に頼るのがいいか、トークン化の仕組みに頼るのがいいかは、解決しようとしている問題によるよね。どちらも捨てるのがベストだけど、堅実な資金がないと難しいよね。 なんでため息をついたの?株主が企業の方針を決めるみたいだね。 おお、君は10000ポイントも持ってるのに、なぜため息の理由が分からないの?一般的に、リテール業界は高圧的なセールス手法のせいであまり良いイメージないよね。cryptoも詐欺の歴史があるから、みんな知ってるし。それなのに一般的なcryptoの話でため息を付く理由が分からないのは理解できるけど、それを笑うのはおかしいよ。 ディスカッションの本質から外れた部分もあるけど、ため息が正当なのかどうかが本題だよね。みんなが浅いコメントをするのはイライラする。単語一つのコメントが思慮深いと捉えられるかもしれないけど、詳しく書くべきだと思う。その方がみんなが何を意図しているか理解できるしね。 時には一言で説明できることもあるよ。みんなが理解してるし、そのほかのコメントでも同じ意見だと思う。ただ、経験豊富なのに理解できないと言うのは親切じゃない。あんたのコメントは少し厳しいんじゃないかな。 進化生物学者のCarl T. Bergstromの言葉を引用するよ:>”みんなペンキを吸ってるの?”>”cryptoの人が研究論文のエラーを検出するためのLLMベースのツールを作ったと主張してる。そしてその資金は自身の暗号通貨からで、コイン保有者がどの論文を調査するか決められる。これは未検証で完全にブラックボックスだ。Natureは新しいタンパク質構造のように報じている。” ”未検証で完全にブラックボックス”というのは確かに正当な批判だけど、他の部分は感情を表現してるだけだと思う。Bergstromはこれが好きじゃないのは分かるけど、その理由は読み手に任せられてる。 まだ理解できない。”暗号通貨”は技術であって、製品じゃない。君の言うことは”インターネット”や”株”にも当てはまる。確かに詐欺や悪用は多いけど、このプロジェクトの投票の仕組みは株主が企業運営を指揮するのと変わらないと思う。単に”cryptoはダメ”と考えるのはもったいない。具体的に何が問題なのか教えて。 多分、同じ旧来のツールが適してないだけかも。透明性のある評判の方が必要な場合もあるんじゃないか?もしかしたら多くの状況でそうかも。暗号通貨で裁判を決定するのはどう?君が暗号通貨を定義していないから、みんながブログの形で解決策を考えなきゃいけない。申し訳ない。 私の暗号通貨への嫌悪感はさておき、引用の続きを考えてみて:>”YesNoErrorは暗号通貨の保有者にどの論文を優先的に調査するかを決めさせる”お金を出すことがその分野を判断する資格になるわけじゃない。悪意のある人がたくさんのお金を出してプロジェクトを歪める可能性がある。ニュース組織が”共有者が報じる内容を決める!”なんて言ってるなら、ただのプロパガンダ機関だ。これはニュース組織に近いよ。 ニュース組織が『株主が報道内容を決めるべきだ!』と言うのは、ニュース組織とは言えず、プロパガンダ機関だと思うんだが。The Informationの株主が関心のあるテーマを設定するのはいいのか?それともライターがドラッグレースに集中するのは許可されるべき? 出版の核心的価値観は個々のストーリーを指揮することとは違うってことだね。YesNoErrorのトークンホルダーがどの論文を調査するか決めるのは、株主がどのストーリーを調査・公開するかを決めるのと同じだよ。 その通りだね。だからため息。 そうなんだけど、面倒な『証券法』とかが無ければね。 暗号関連のプロジェクトのいいところは、どうせ何にもならないのが分かるから、無視できるってことだね。すぐに崩壊するだろうし。 私たちが主要なエラーを検出したBlack Spatulaプロジェクトの2つの例を紹介するね: このBlack Spatulaのケースは結構有名でネットに散らばってたね。AIが検出してるのは、そのトレーニングデータに既にあったものかもしれないね。 これが問題を発見した元の研究だよ。 ネット上には、Black Spatula論文のエラーがMcGill UniversityのJohn Schwarczによって論文レビュー中に発見されたと言ってる情報がたくさんあるんだが、John SchwarczはYesNoErrorやBlack Spatulaプロジェクトに関わってるのか? これはマジで悪いアイデアだね。最初のセクションはスキップして、>「false positives」のセクションを読んだ方がいいよ。”もっとコメントを表示(1)
もっとコメントを表示(2)
もっとコメントを表示(3)
>“https://github.com/The-Black-Spatula-Project/black-spatula-p…”
>“https://github.com/The-Black-Spatula-Project/black-spatula-p…”
複雑なマルチエージェントパイプラインは必要なく、一発のプロンプトでこれらのエラーを検出できた。