1.5BモデルでRLを活用しO1-Previewを超える！DeepScaleRの驚異的な成果とは？

1.5BモデルでRLを活用しO1-Previewを超える！DeepScaleRの驚異的な成果とは？

引用元：https://news.ycombinator.com/item?id=43017599

gpjanik 2025-02-11T21:20:07

これは特定のベンチマークにチューニングされてるだけで、O1-Previewとは別のタスクでは全然ダメ。これらの問題を解決したいって思ってるなら見る価値はあるけど、すごいことは確かだね。

mluo 2025-02-11T21:29:34

O1-previewを超えたし、多くの7Bモデルにも勝ったって。これはテストセットでの結果だし、トレーニングセットには入ってないよ。もしモデルを完全に一般化したいなら、コーディングデータセットでトレーニングしてもいいよ。

zamadatix 2025-02-11T21:41:02

すでに良い成果だけど、小さいモデルを一般的にトレーニングするのが専門のファインチューニングと同じ効果があるとは思えない。限られた情報量の中で、どれだけの背景データを扱えるかが難しいよね。訓練サイズによってどれだけ違いが出るのかも難しいし、最適化が進むにはもう少しコンピュートが必要かも。しかし、これをオープンにしてくれてありがとう！

mluo 2025-02-11T22:19:04

量子化すると小さいモデルには大きな影響があって、AIMEで最大10％落ちることもあるよ。私たちのモデルはbfloat16で最高の成果を出してる。私たちのリポジトリもぜひチェックしてね：

https://github.com/agentica-project/deepscaler

rvnx 2025-02-11T22:32:39

素晴らしい発見だね。これはAIの次のステップで、MoM（Mixture of Models）が開ける可能性もある。小さなファインチューニングされたモデルがタスクの各部分を担当するっていうね。

mluo 2025-02-11T22:34:40

以前の私の作品もチェックしてみて：
https://stylus-diffusion.github.io/
このプロジェクトは多くのモデルやLoRAの選択・ルーティングをスケールアップするよ。

rvnx 2025-02-11T22:35:40

いいね、ありがとう！見てみるよ。

numba888 2025-02-12T00:10:22

o1は数学の解法以上のものだし、小さいモデルでそれだけのものを訓練するのは無理だと思う。ただ、専門的なモデルが世界の複雑さを扱うにはいい方針かも。もう一段上の専門家の混合みたいな感じかな。それを統合するのはまた別の問題だね。全てを支配する一般的なモデルが必要かも。

mdp2021 2025-02-12T00:29:48

特殊なタスクに対して専門モデルを一般的なハードウェアで動かす重要性について考えたことある？（たとえば、CPUコアが数個あれば動くとか）

numba888 2025-02-12T08:00:38

小さいモデルはただのツールに過ぎない。たくさんあっても道具セットにしかならない。AGIを彼らだけで進化させることはないけど、構造（脳）の中で組み合わせると何かに近づくかも。大きなスマート計算機みたいな感じ。‘キャラクター’を作るにはもっと必要だし、たとえばターミネーターみたいなのを作るのは容易ではない。

janalsncm 2025-02-11T21:39:04

俺は反対だ。トレーニングコストを劇的に18倍下げたことを示したんだから、それだけでも注目に値する。O1のどのベンチマークでも勝つのは簡単じゃないし。

pona-a 2025-02-11T23:25:53

基本的な足し算問題を試したけど、よく小数点を間違えたり、無駄に推論トークンを使ったりしていて、DeepSeek 1.5Bよりも信頼性は微妙だった。自分で書いたフィボナッチアルゴリズムも全然ダメだったし、SchemeではなくPythonみたいな文法で話し始めた。

viraptor 2025-02-12T04:47:12

そのフィボナッチアルゴリズムについて言うと、このモデルは数学問題データセットのみで訓練されたみたいだから、プログラミングにはあまり強くないのは納得だな。

pona-a 2025-02-12T10:34:44

元のモデルはプログラミングのミスだけでなく、倍増の公式も覚えてなかった。解決されたのは嬉しいけど、もっと一般的な性能向上も期待してたんだ。

ekidd 2025-02-15T14:19:15

このモデルは全然コーディングできない。高校レベルの数学や簡単な物理の宿題は驚くほど上手くやるけど、それ以外は俺のテストプロンプトでは毎回失敗する。純粋な専門特化モデルだね。

nabakin 2025-02-11T23:18:44

数学タスクでもあまり印象的じゃない気がする。ChatGPTが出たとき、ChatGPTレベルのパフォーマンスを示すために微調整されたLLMがあふれたけど、どれも誤解を招いた。これらのLLMは狭いベンチマーク用に微調整されていたから、一般的なLLMと比較するのはリンゴとオレンジを比べるようなもんだ。

torginus 2025-02-11T23:20:23

じゃあ、ベンチマークは何を意味するの？

nabakin 2025-02-11T23:29:45

自動ベンチマークはまだ有用だよ。でもLLMがそれにオーバーフィットするように訓練されると、あんまり意味を持たなくなる。人間の評価が金の基準だけど、それにも問題がある。

torginus 2025-02-12T00:54:59

LLMをどうやって’チート’しないように訓練するかが問題だよ。テストの問題が漏れたらどうやって準備するか？テスト問題を暗記するのは問題だけど、出そうな問題を練習するのは少しマシかな。

nabakin 2025-02-12T01:20:16

データセットをチェックして、ベンチマークの漏洩を取り除くのが唯一の方法だと思う。でも、そうすると訓練する側が正直じゃないと仮定することになっちゃうし、漏洩がチェックを通過する可能性もある。ダイナミックなベンチマークを作るのも面白いんじゃないかな。

avbanks 2025-02-11T23:54:57

コミュニティのみんなは、この手のベンチマークには懐疑的なんだよね。

Aiguru31415666 2025-02-12T10:44:31

これは見てみる価値があるよ！素晴らしい発見だね。

dang 2025-02-11T20:54:09

URLをhttps://github.com/agentica-project/deepscalerから、リポジトリも指してる背景を紹介する記事に変えたよ。

neom 2025-02-12T00:45:07

好奇心から教えてほしいんだけど、休暇とかどうしてるの？休むことってあるの？HNを何年も使ってるけど、休暇を取るのを見たことがないよ。

dang 2025-02-12T01:42:14

ワークショップによく行くから、興味があることをやってるし、休憩中や夜にHNをちょっとやってるよ。

ukuina 2025-02-12T05:20:53

HNの裏にはチームがいるのはわかるけど、君の意志の力はHNを素晴らしい議論の場にしてるよ！感謝してる。

thorum 2025-02-11T21:39:48

鍵になるのは、特定のタスクに対して1Bモデルをトレーニングするシンプルで信頼できる formula だね。これまではなかったんだ。エッジデバイスがもっと賢くなるよ。

manmal 2025-02-11T21:47:35

Appleがこのことに注目して、デバイス上のモデルを改善してくれるといいな。

Aperocky 2025-02-11T22:34:35

結局、$4500もかかるから、家でトレーニングするのは難しそうだけど、将来的にその数字も変わるかもね！ワクワクする。

amazingamazing 2025-02-11T21:50:44

結局、小さな強化モデルが勝つはず。みんなの会社もチームも、特化した人が多いんだから。でも、今のベンチマークに過剰に重点を置くのは問題だね。本当に何かを測るならユーザーのKPIと比べるべき。

ericd 2025-02-11T22:04:01

今のやり方は人間の限界の産物だと思うんだ。永遠に生きる共有MLモデルにはそんな制約はないし、異分野の知識がとても役立つことも多いよね。ただ珍しいけど。

noman-land 2025-02-11T22:15:31

人間が専門化と協力で地位を得たなら、無限のマスターマインドと協力を合わせたらどうなるんだろうね。

UltraSane 2025-02-11T22:28:54

最悪の場合、超知能で優しいAIが経済問題を解決して、数千兆人の幸せで豊かな人間をペットにするような社会になっちゃうのかな。

jazzyjackson 2025-02-11T22:22:17

競争する超知能の政党がクラウド投資家を説得するために宣伝を作る様子が待ちきれないよ。

6510 2025-02-12T00:10:35

帯域幅がまだヘボいから、人間並みに頭脳の集まりはグループ内の最高のマスターマインド以上にはならないと思うな。時間がかかりすぎるし、創造的な考えが出るのも遅くなる感じ。一年か十年待って、一つの結果を出す価値があればいいけど。軽い思いつきだけど、十分な頭があれば非常に安価な基盤から、限られたストレージと遅い計算を得る方法を見つけられるかもね。塩の結晶を湖や海で育てるみたいな感じで。ランダムにエンコードしても、十分な頻度でやれば全体のセットが得られるし、正確に読む必要もないし。あれ？宇宙の説明しちゃった？

evilduck 2025-02-12T14:55:00

人間の代わりになるようなものは、蜂の巣やアリの巣が似たようなものになるのかな。

6510 2025-02-11T22:24:07

私たち猫になっちゃうんじゃない？

nomel 2025-02-11T22:15:18

専門化された人たくさんいるけど、あんまり見ないな。むしろ、広い知識を持ってる人が特許やデザインで成功してるから、皆が専門的にやってる中でボックスの外を見るのができるのがその人たちだけだよ。

jazzyjackson 2025-02-11T22:21:06

いや、クリエイティブになるにはマスターマインドが必要なんだ。小さいモデルはデータ変換の明示的な指示に従うのは得意だけど、自分がまだ解決してない問題には役に立たないと思うよ。

EE84M3i 2025-02-11T22:25:32

JSONスキーマに従うのは普通は解決済みの問題じゃないの？トークンを制限すればゴミみたいなモデルでも大丈夫なはずでしょ。

jazzyjackson 2025-02-12T01:35:23

そういうことだよ。明確なタスクとJSONスキーマがあれば、小さいモデルでも使えるけど、やっぱり幻覚起こすことは多いよね。Llama3 7Bなんて、メール署名から連絡先を抽出する時に電話番号を作っちゃったし。

czk 2025-02-11T21:47:28

このベンチマーク、信じられる？何か意味あるの？簡単に操作できそうで、本当にモデル同士を比較するのに正確な方法とは思えない。モデルが見たことのない類似の問題を出すとパフォーマンス下がるし。

thorum 2025-02-11T21:55:08

AIMEには重大な問題があるみたい。テストセットとほぼ同じ問題がオンラインにあるみたいだし。

janalsncm 2025-02-12T02:03:12

それがRLで訓練されたモデルにどう関係するのか分からない。もし答えをすでに覚えてるのなら、なんで訓練が必要だったの？

javaunsafe2019 2025-02-11T21:50:26

結果が気に入らないと、テストを疑う人もいるんじゃない？

simonw 2025-02-11T21:03:34

新しい”推論”モデルを試すためのシンプルなプロンプトを知ってる人いる？‘strawberry’の中のRの数を数えるのはちょっとつまらないよね。ローカルで一番小さいGGUFバージョンで試してるけど、自己確認を9回して正解出してくれたよ。ただ、最初の方でクリティカルなエラーを犯してた。

cheeko1234 2025-02-11T21:25:28

2つあるよ。1つは深層学習モデルR1だけがクリアしたと思うやつ。12リットルのジョグと6リットルのジョグがあって、どうやって6リットルを得るか？Deepseekは答えを出したけど、他のLLMはうまくいかなかった。面白いのは、追加で’ステップバイステップで考えて’って言わないと、他のモデルは正解できないことが多い。

rfurmani 2025-02-11T21:32:31

Wow、Gemini 2は最初の質問に9ステップのプロセスが必要だった。12リットルのジョグと6リットルのジョグを使って6リットルを得る手順だ。

sdwr 2025-02-11T22:33:58

あいつ、自分に酔ってるよね！

wnissen 2025-02-11T22:26:06

二つ目の無駄なジョグを加えると、4oがひどくなるよ。これで6リットルの水を測る方法を説明するね。

neodypsis 2025-02-11T21:49:11

面白いことに、o3-mini-highは最初に正しいことを考えてたみたい。6リットルを測るには、6リットルのジョグをそのまま使うのが簡単だと思ったんだけど、何かトリックがある気がする。

jazzyjackson 2025-02-11T22:24:58

この比較はあまり信じられないな。どのモデルでも20回テストしないから、確率的な性質が影響してると思う。

DebtDeflation 2025-02-11T21:36:06

他のLLMでも同じだよ。12リットルのジョグをフルにしてから6リットルのジョグに注ぐのも。4リットルのジョグで同じようにやらせてみて！

CamperBob2 2025-02-11T22:27:12

R1には問題ないよ。混乱してる時は、ただのトリッククエスチョンか気にしてるだけ。

egorfine 2025-02-11T21:34:43

Deepseekはこう言ったよ：12リットルと6リットルのジョグで、正確に6リットルを測るためには、12リットルを満タンにして6リットルのジョグに注ぐだけ。

wnissen 2025-02-12T17:12:18

Llama v3.3 70bで試したら、5回のサンプルで毎回正解したよ。他のモデルはトリッククエスチョンだと思ってるみたい。

wincy 2025-02-11T21:54:40

O1 Proに最初の質問したんだけど、48秒考えて間違えた。12リットルのジョグを満タンにして、6リットルのジョグに注いだ。ちょっと冗談言われた。

mluo 2025-02-11T21:27:10

この研究のリード著者の一人だよ。小さいモデルにはfp16じゃなくてBfloat16の量子化を使うのをおすすめする。性能がかなり落ちるからね！

CamperBob2 2025-02-11T21:35:32

元のR1に基づいた1.58ビットの動的量子モデルと比較した？Unslothがやったことは、フルQ8バージョンに比べて推論性能があまり落ちなかったみたいだね。

mluo 2025-02-11T22:17:05

モデルが小さいから（1.5B）が重みの変動に敏感なんだよ。

simonw 2025-02-11T21:36:35

GGUF版のモデルってどこかにある？Macを使ってるんだけど。

mluo 2025-02-11T22:16:04

私たちのモデルの枝として作った人がいるGGUFもあるみたいだから、試してみて！

newman314 2025-02-12T20:01:40

フルムーンのiOSアプリに追加できるMLX版はある？

rfurmani 2025-02-11T21:26:23

ストロベリーのRsに関して、いくつかのモデルを並べてみたけどSky T-1とGemini 2 Flashは外したよ！

throwup238 2025-02-11T21:22:55

各モデルにQtのQSyntaxHighlighterサブクラスを実装させるのが好きなんだ。C++で、木の座標に基づいて実装してる。コーディング以上にAPIをどう組み合わせるかの推論が重要なんだよ。最近はDeepSeekモデルにはがっかりしてて、期待が薄れてる。

rubymamis 2025-02-12T10:31:50

（Qt開発者仲間として）君の意見がすごくいいと思う！どこかで連絡取れるところはあるかな？プロフィールに社交メディアがあるから、そこでもいいよ。

greenavocado 2025-02-11T21:34:17

nvidiaのllama 3.1 nemotron 70bを使ってみて！Gstreamerのコードを役に立つ形で出せる唯一のモデルだから。

coder543 2025-02-11T21:51:08

f/2.8とf/4.5は何ストップ違うか気になるな。正しい計算式を使えば解けるよね。普通のLLMだと0.67ストップとか言うけど、実際は約1.37、もしくは1と1/3でいいと思う。少し難しい質問だけど、LLMは計算式を出すのに困らないし、答えをチェックする力も持ってるはずだから、きちんとした結果を期待したいな。

Palmik 2025-02-11T21:17:31

小さいモデルは量子化の影響を受けやすいから、これがちゃんと動くのは意外だね。

simonw 2025-02-11T21:18:46

そうだね、一番小さい量子化版が部分的に使えるなんてびっくり。大きなモデルでも同じバグを再現できたよ。

varispeed 2025-02-12T22:03:46

モデルがどうやって解くか聞いてくるのが好きだな。Sonnetを使って問題を解こうとした時に、モデルが好奇心を持って助けてくれる感じが面白い。

evrimoztamur 2025-02-11T21:20:21

これって量子化の問題なのか、それともトークン化の問題なのか疑問だね。

simonw 2025-02-11T21:22:25

F32で再現できたから、トークン化の問題かもしれないと思ってる。

mluo 2025-02-11T21:30:08

bfloat16を試してみて！モデルがfp32として保存されたバグがあるよ。

simonw 2025-02-11T21:47:11

この3.6GBのF16モデルで試したら、今度はストロベリーのトークン化に混乱しなかった！

mluo 2025-02-11T22:09:27

やったね、ちゃんと動くのが嬉しい！小さいモデルはdtypeに敏感だよね。

buyucu 2025-02-11T21:37:33

「ストロベリーの中のRの数を数えて」って、もうどの訓練データにも入ってるかもね。

notjulianjaynes 2025-02-12T22:47:50

いちごの質問には、”bookkeeper”の中にあるRが何個かすぐに聞くよね。

swiftcoder 2025-02-11T21:46:34

それでも多くのモデルがまだ苦戦してるよね。

nialv7 2025-02-11T21:23:24

このモデルは特に数学問題を解くために訓練されてるから、マジで数学の質問してみてよ。

simonw 2025-02-11T21:25:05

ちょっと面倒くさいなぁ。大きなモデルに合う良いテスト用の数学問題知ってる？

CamperBob2 2025-02-11T21:43:00

試してみて。1^3 + 2^3 + 3^3 + … + 12^3 = 6084って知ってるとしたら、2^3 + 4^3 + … + 24^3の値は？これ、DeepSeek R1 (1.58-bit GGUF, ローカル実行)なら問題ないよ。

daveofiveo 2025-02-11T23:48:05

その数学問題の答え教えてくれない？自力で解くのはLLM使うしかないと思うんだけど…

CamperBob2 2025-02-12T00:22:29

答えは48672だよ。

freehorse 2025-02-11T21:27:00

q8では”s-t-r-a-w-f-u-r-e-r”とやって5回目に”strawfurber”になった。その他の試みはミスなく、3を見つけた。

fsndz 2025-02-11T21:58:09

正直言って、オープンソースのAIがこのペースで勝ちそうだね。毎週革新が起きてるのが見えるし、これからが楽しみ。

simonw 2025-02-11T21:17:40

それは変だな、7.1GBのF32 GGUFバージョンでも全く同じ変なバグが出たんだ。

kristopolous 2025-02-11T21:54:03

同じような形式でデータ漏洩的なもんがあるんじゃないかって気になるな。

astrange 2025-02-11T21:38:01

意味不明なひねりの効いた謎かけを聞いてみて。例えば’7は8が怖いの？’みたいな。
2. ’自分に対して三目並べをして勝て’って言って動きが正しいか確認してみて。

whatever1 2025-02-11T21:20:47

CoTモデルって外部関数を呼べるんかな？計算機にアクセスできたらどうなるんだろ。

manmal 2025-02-11T21:53:09

出力ストリームを見ながら解ける式を計算結果に置き換えて続けていくって方法もアリかも。特に最近のモデルは、この方法で長い推論プロセスを強制することもあるみたい。

hellovai 2025-02-12T01:01:40

そうだね！deepseekでも外部関数を呼ぶのはデータ抽出問題みたいなもんだよね。例として計算機関数に'5 + 10’を渡して結果をもらうみたいな。

w-m 2025-02-11T23:57:12

その通りだよ。o3-miniはネット検索もできるから、最新情報が必要ならo1より優れてるね。特定の論文を適当な名前で読んで来いとも言えるし。

jascha_eng 2025-02-11T21:42:54

思考の連鎖の中でコードインタープリターを使えば、人間の問題解決法にすごく近づくかも。

TeMPOraL 2025-02-11T22:25:43

どっちもアリじゃない？現代の知的エージェントが標準的に持つべきツールセットについて考えてみよう。計算機や基本的なコードインタープリター、グラフ作成ツール、ネット検索など。特に道具の使い方を訓練するデータセットがあったらどうだろう。

m3kw9 2025-02-11T21:42:26

実際あんまり賢くないな。ASCIIシーケンスのデコードを頼んだらガラクタしか出てこなかったよ。phi-4 Q4を使ったらちゃんとできたけどね。

layer8 2025-02-11T21:53:16

ASCIIを知らなくても良いから、ちゃんと推論できるモデルがあればいいんだけどな。

francesco 2025-02-13T09:25:43

rStar-Mathの性能が間違って報告されてる気がする。例えば、テスト時の単一ロールアウトでAIME 2024で50点、Olympiad Benchで65.3点、AMC 2023で87.5点を達成してるのに、報告では26.7点、47.1点、47.5点になってる。これっておかしくないか？

Chikimonki 2025-02-12T05:26:20

テクノロジーの最前線と普通のテレビ視聴者とのギャップが大きすぎて、話すのが難しいね。モデルが自分の運命を決めるようになってきた一方で、国際的には経済が崩壊することもある。

Svoka 2025-02-11T21:29:38

大学時代にはこれをオーバーフィッティングと言ってた。評価セット以外ではあまり性能が良くない感じがする。

buyucu 2025-02-11T23:13:51

1.5Bモデルだから、最適化された範囲以外であまり期待するのは無理だよ。

atemerev 2025-02-11T21:48:08

最近考えてるけど、AGIへの道は単に力任せではないし、今までもそうではなかった。

daft_pink 2025-02-11T20:49:49

こういう方法で検閲なしのモデルが手に入ればいいな。

xeckr 2025-02-11T21:48:20

確かに、そんな方向に進んでいるように見えるね。

6mirrors 2025-02-12T08:36:07

試してみたけど、実際には存在しない入力に基づいて生成してるのが夢のよう。

mrcwinn 2025-02-11T20:56:29

初歩的な質問なんだけど、大手がネット全体をクローリングしてモデルを訓練してるのに、OSの代替品はどうやってそれを上回ろうとしてるの？普通にネットをクローリングするだけなの？

simonw 2025-02-11T21:09:42

実際には”ネットの全てを盗む”っていうのは正確じゃないね。今はただ闇雲にデータを集めるだけではなく、データを選別して訓練するのが大切になってきてる。

woctordho 2025-02-12T03:42:17

インターネット全体をクロールするのは、分布のロングテールの問題を解決するのに役立つよ。ビッグデータの目的はゴミを入れて信号を出すことだからね。

nicce 2025-02-11T21:26:57

本を全部盗んだり有料の研究論文を集めたりすれば、かなりの量になるよね。

simonw 2025-02-11T21:50:30

最近のMetaがLibGenをトレントで落としたって話、知ってる？

smallmancontrov 2025-02-11T21:02:16

そうじゃなくて、前のモデルの出力を乾燥機に入れてアイロンかけたようなデータを使えば、自然に集めたデータのように見えるってのが秘密だよ。

sebzim4500 2025-02-11T21:01:36

確かに、でもこのRLステージは実際には大量のデータを必要としないんだ。ほとんどのデータは事前学習フェーズで処理されるし、最近の論文では一つのモデルで千例未満の微調整でも良い推論パフォーマンスが出せたって書いてあったよ。

yieldcrv 2025-02-11T21:02:50

いや、微調整にはそんなにデータはいらないし、モデルはもう2年前から合成データセットを使ってるんだ。要するに、大きなモデルがクロールした後、次のモデルが大きなモデルと対話してるんだよ。

mekaron7 2025-02-11T21:18:28

これってLLM＝検索エンジンの時代も終わりに近づいてるの？今のChatGPTモデルはニッチな知識が結構あるし。

regularfry 2025-02-12T09:00:13

検索エンジンの作り方はもうわかってるし、LLMに道具として使わせる方がいいモデルだと思うよ。ユーザーは同じインターフェースを使えるし、データ取得にかかるコストも抑えられるからね。

astrange 2025-02-11T21:39:41

クリエイティブライティングも事前学習データが限られると影響を受けるよ。DeepSeekにストーリーを書かせると、要点だけのアウトラインにしかならないし、他のモデルは常に同じ名前のキャラクターを使うから。

yieldcrv 2025-02-11T22:07:52

企業は四半期ごとにモデルを更新しなきゃいけない泥沼にはまってるね。今は新しいモデルを出すだけで、最新の情報を取り込むグループや、合成データセットばかり使うグループがいるし、それぞれ好きなように微調整したLLMを作ってる人たちがいる。

kingo55 2025-02-11T21:33:11

いろんなタイプのモデルができるかもね。知識が豊富なモデルや推論能力のあるモデルとか。

plufz 2025-02-11T21:01:33

専門家じゃないけど、DeepScaleの成功の一因は合成データを使ってたんじゃなかったっけ？特にコードや数学のために。

littlestymaar 2025-02-11T21:22:19

大きなモデルを使えるなら、わざわざインターネットのデータを収集してフィルタリングする必要はないよね。

janalsncm 2025-02-11T21:24:32

ネット全体をクローリングするのはベースモデルを訓練するためで、高コストで計算集約的なんだよね。R1はすでに訓練されたベースモデル（V3）の上に追加のステップをしたんだ。この人たちも似たようなことをやってる。

著者

海外テックの反応まとめ

暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。