【朗報】深層学習って実はそんなに難しくない!?意外と身近な存在だった
引用元:https://news.ycombinator.com/item?id=43390400
MLを深く学びたいなら、Stanfordの”Probability for computer scientists”がマジでおすすめ。
https://www.youtube.com/watch?v=2MuDZIAzBMY&list=PLoROMvodv4…
確率論とMLの理論的基礎を、他のどのコースよりも深く掘り下げてると思う。(Andrew Ngはレジェンドだけど、彼のコースは線形代数の知識が必要)。
あと、deep learningなら、3b1bが視覚的に理解するのにめっちゃ良いよ。
https://www.youtube.com/watch?v=aircAruvnKk&list=PLZHQObOWTQ…
3b1bのニューラルネットのシリーズを数年前に見たんだけど、それが今でも自分のAIの理解の95%を占めてるわ。自分はMLの専門家じゃないけどね。あの人はマジで説明が上手い。不確定性原理に関する彼のビデオは、自分の学部時代の教育全体で理解できなかったことを説明してくれたんだから。
>あの人はマジで説明が上手い
この意見に異議あり。
彼が他の人より才能があるとは思わないな。彼は説明が上手くなるために、たくさんの時間と努力を費やしたんだと思う。フィードバックを考慮して、長年にわたって説明を改善してきたんだよ。彼のビデオが素晴らしいのは、彼が努力したからであって、才能があるからじゃない。自分の経験では、この能力に欠けている教授は、努力が足りないからであって、生まれつき持ってないからじゃない。
前の人の”gift”っていう言葉の選択を深読みしすぎじゃない?ほとんどの場合、それは努力なしに得られた能力を伝える意図ではなく、ちょっと誤用された慣用句だと思うよ。
本当の天才は、重い記号操作をすべて視覚的なプロセスに翻訳して、人々が見て解釈できるようにすることだと思う。抽象的な演繹ではなく、一時停止して推論できる別の現実の視覚的プロセスを見ていることになるんだ。それがコンセプトを理解させるんだよね。
何かが非常に得意であるためには、才能があることが必要だけど、それだけじゃ十分じゃない。残りの85%は努力だよ。どんなに意欲があっても、その辺の人を連れてきて同じレベルの教育を受けさせられるわけじゃない。
才能があるか努力してるかのどっちか、あるいは両方かもしれないね。才能があることと、時間をかけて正しく理解することは、両立しないわけじゃないし。
3b1bはカリキュラムから始めるんじゃなくて、自分のスタイルに合ったトピックを選べるのが強みだよね。
https://www.youtube.com/playlist?list=PLZHQObOWTQDNU6R1_6700…
以前書いたコメントから、テキスト版の情報。
CS109のコースリーダー[1]があって、pdf版をダウンロードできるよ。Caltechの優れたコース[3]の書籍[2]もあるよ。
[1]
https://chrispiech.github.io/probabilityForComputerScientist
[2]
https://www.amazon.com/Learning-Data-Yaser-S-Abu-Mostafa/dp/
[3]
https://work.caltech.edu/telecourse
それ、他の場所に投稿したからじゃないかな(よくあるミスだよね… HNだとコメントの全文が表示されないから、コピー&ペーストすると省略記号だけになっちゃうんだ)。
https://chrispiech.github.io/probabilityForComputerScientist…
https://www.amazon.com/Learning-Data-Yaser-S-Abu-Mostafa/dp/…
Caltechのlearning from dataもマジ良かったよ。もしMLの理論的な理解を求めてるならおすすめ。
https://work.caltech.edu/telecourse
あなたが言ってるYaser Abu-Mostafaの講座、マジでおすすめ。基礎を学ぶには今でもおすすめできるよ。数学と直感のバランスがすごく良いし、Abu-Mostafa自身が最高の先生。講義の最後に質問に答えてくれるんだけど、それがまた丁寧なんだよね。初心者には特に重要だと思う。ちょっと古い内容もあるけど、基礎としてはマジで固められる。
Paul Grahamによると、どうやら“delve”って単語を使うのがChatGPTを使った最大のサインらしいよ。
それ、マジで意味不明だわ。自分は“delve”って単語あんまり使わないけど、普通によくある単語じゃん。LLMが生成した文章だってバレるような、なんか普通じゃない使い方とかされてるのかもだけど、単語だけじゃ全然わかんない。
ナイジェリア英語でよく使われる単語なんだって。RLHFタスクを外注してた場所でよく使われてたらしい。兄弟コメントにリンクがあるけど、ググってもすぐ出てくるよ。
ネイティブスピーカーじゃないから“delve”って単語知らなかったけど、これで覚えたわ。ネットコミュニティはLLMから学んでるってこと?
>learning from LLM
それとも、お互いから学んでるのかな?
そんなこと言うやつは、Paul Graham(pg)本人だって言ってるようなもんだよね。
それってどういうことなのか、記事で深掘りしてほしいな。
それってナイジェリア英語でよくある言い方だから。RLHFの調整作業をそこにアウトソースしてたからね。 マジで!?ソースある?本当ならめっちゃ興味深いんだけど。 https://www.theguardian.com/technology/2024/apr/16/techscape… ネイティブじゃないんだけど、覚えとくわ。あー、それ使っちゃったことあるかも。意味が伝わるようにと思って。正しい使い方は何?何て言えばよかったの? ネイティブだけど、正しい使い方だよ。「delve」は認識される程度には一般的だけど、アメリカ英語ではそんなに使わないから、AIが生成したのかと思った。 なるほどね。この場合、よく使うフレーズは何?兄弟コメントと同じ? じゃあChatGPTかナイジェリア人か、はたまた俺かってことか… :`( Deep Learningがテーマなら、’deep’って言葉を使うのは自然だよね。深堀りするって感じでさ。 俺にとっては、’eerie’って言葉を使いすぎなのが気になるんだよね。マジで。 その通りだね。理由はこうだよ。 ナンセンス。Chatgptがその言葉をよく使うのは、みんながよく使うからだろ。 どうやら地域差があるみたい。アメリカ英語ではあんまり使わないけど、アフリカ英語ではよく使うらしいよ。LLMのトレーニングには大量の人間によるフィードバックが必要で、LLMメーカーはコスト削減のためにアフリカに外注することが多いんだって。それでLLMがアフリカ英語を拾って使うようになるんだってさ。詳しくはこの記事[1]を見て。 全部見たよ。サンキュー!UC Berkeleyの修士課程CS:AIプログラムには頭が悪くて入れないんだけど、確率のクラスの初日を見たとき、まるでそのプログラムが始まったみたいに感じたよ。AIの旅を始める人にオススメなのはこれ。 この投稿の論文で言及されている統計的概念(VC-dimension, PAC-learningなど)をもっと深く掘り下げたい人は、この本がお勧めだよ。 良さそうだね。文章版はあるの? CS109のコースリーダーがあるよ[1]。PDF版をダウンロードできる。 確かにそうかもね。でも、PAC‐BayesとかVC理論の派生って、一番いい説明とは言えないかも。アルゴリズムの安定性の方がずっと説得力あると思うよ。[1]の11節と12節あたりを見てみて。 HNが好きな理由の一つは、こういうOPの投稿やプロダクトを、もっと良いものでぶっ壊すようなレスがあることなんだよね。少なくとも半分はそれが理由でここにいる。良い記事をありがとう。 そうそう、しかも「より良い」ってわけじゃなくて、OPと違って最適化とかGDに頼ってるから、実際には汎用性低いんだよね。 それは違うと思うな。あなたのリンクは勾配降下法(gradient descent)を説明に使ってるけど、OPはDLの汎化を理解するのに最適化は必要ないって説明してる。PAC‐BayesとかもVC次元とは全然違う。OPのポイントは、VC次元と違って、他のフレームワークは仮説空間がどれだけ柔軟でも汎化を説明できるってことみたい。 そう、それが問題なんだよね。[2]でZhangらがはっきり示したのは、仮説空間だけに注目するのは不十分だってこと。なぜなら、同じ仮説空間は現実のデータにもランダムなデータにも適合しちゃうから、すでに大きすぎる。だから、仮説空間に注目する方法は、より良い部分空間へのバイアスについて語る必要があって、そのためには、特定の仮説を選ぶ理由を理解するために、特定の最適化アルゴリズムを研究する必要がある。でも、そこまでやるなら、アルゴリズムの安定性で十分。ベイズアンサンブルとか他のプロキシや単純化について考える必要はなくなる。アルゴリズムの安定性は新しい考えじゃなくて、VC理論の数年後に、近傍探索法が汎化する理由を理解するために登場したんだ(当時はそう呼ばれてなかったけど)。興味があったら[3]もおすすめ。 でも、それは問題じゃない。OPの説明がより一般的であることは良いことなんだよ。OP論文の主なポイントの一つは、プロキシや単純化が必要ないということ。最適化の動特性に頼らなくても、この挙動を説明する汎化境界を導き出すことができる。これはZhangらのテストに正確に対応してる。OPは”ベイズアンサンブルとか他のプロキシや単純化”に頼ってない。それは論文の誤解だと思う。ニューラルネットワークが実際に到達するソリューションを分析している点が、他の多くの研究と異なるところ。また、他の単純なモデルクラスが同じ挙動を再現する方法も示していて、これらの再現は最適化に依存していない。 統計力学のレンズが一番しっくりくるし、よく研究されてるよね。 良い記事だね、シェアしてくれてありがとう MLをわかりやすくしたいなら、Josh Starmerの”The StatQuest Illustrated Guide to Machine Learning”を読むべきだよ[0]。Starmerほど複雑なアイデアをわかりやすく説明できる先生はいないと思う。まるで子供向けの本みたいで読みやすいんだ。NNに関する本も出版してるし、 эксперт でも教え方や伝え方の参考になると思うよ。 StatQuestとか他の動画も結構見てるよ(トレッドミルでYoutube見るのは運動にも勉強にもなるし最高)。 YouTubeチャンネルもあるよ >過学習を避けるために仮説空間を制限するのではなく、データと矛盾しない、より単純な解を好む柔軟な仮説空間を受け入れるべきだ。この原則は多くのモデルクラスでエンコードできるため、ディープラーニングは他のモデルクラスほど神秘的でも異質でもない可能性がある。 その通り。探してる言葉は”正則化”だよ。 Dropoutはレイヤー固有のL2正則化とほぼ同じ。漸近的には、ランダムなニューロンをドロップアウトすると、重みをその(二乗)の大きさに比例してゼロに近づけるのと似た効果が得られるからね。 マジか!最初のパラグラフはなんとなく直感的に理解してたかも。2つ目のパラグラフは方向性としてはわかる(L1の方がゼロを促進するから、部分空間を選ぶみたいでよりそうかなと思ってたけど)。 L1正則化の解は、実は深層学習で使われる古典的なReLU非線形性の特定の形なんだ。他の非線形性でも同じことが言えるかわからないけど、閾値処理が数学的に何をしているのか理解するのに役立ったよ! データ効率の良いVision Transformersの例だよ。https://arxiv.org/abs/2401.12511 俺もグルじゃないけど、間違ってたら誰か訂正してくれるはず(笑) 彼らが批判してる論文「Understanding deep learning requires rethinking generalization」の結果を再現するのは簡単だよ。明示的な正則化とか、「より単純な解決策に対するソフトな好み」と簡単に説明できるものなしにね。 それってただの正則化された最適化で、実際にはベイズ学習規則であり、実際には変分ベイズに過ぎないんだ。 AdamWオプティマイザ(最近のDLでは基本的にデフォルト)はまさにそれをやってるんだ。 「Deep」ネットワークが必要な興味深い例が、RNNに関する最近の人気の論文[1]で議論されているよ。彼らが提案するminGRUやminLSTMモデルは、明示的に順序付けられた状態依存性をモデル化してないけど、十分にDeepなら(deep >= 3)学習できるんだ。 まあ、Mysterious LearningとかDifferent Learningとは呼ばれてないからね。 DNNには特別な汎化能力はないよ。どちらかというと、SVMみたいな数学的原理に基づいた手法よりも汎化能力は弱いかも。 これを見てみるといいかも。ランダムなラベルを記憶できるだけの容量を持つニューラルネットワークモデルでも、実際のデータを与えられた場合はうまく汎化できるんだ。 Deep Learningを始めた頃、普遍近似定理の証明を学ぶのがすごく役立ったんだ。ニューラルネットワークが関数を近似できる理由を理解すると、その上に構築されたものがすべて理解しやすくなるよ。 10年前の論文「Understanding deep learning requires rethinking generalization」[0]へのレスポンスって感じみたい。 それって、dropoutとかl2ノルムみたいな正則化テクニックから来るんじゃないの? Benign overfittingを再現するのに、それらは必須じゃないよ。 これ試してみたいんだよね。 スケーリングがマジでエグいんだよね。2万語の語彙で3グラムやろうとしたら、20000^3の行列が必要になる(8兆)。ほとんど空っぽになるけど。 重要なのは、LLMはトレーニング中にembeddingを入力として受け取らないってこと。トークンを受け取って、トレーニングの一部としてembeddingを学習するんだ。 トークンはバイトレベルまで下がってきてるね。 ありえない組み合わせを全部割り当てる必要はないんじゃない?見つけたら新しいペア/距離を動的に追加すればいいと思う。簡単なforループで。 これ読むと面白いかも。20年前の最先端技術をまとめた今年のドキュメント。 最近の研究[0]で、このアイデアを探求してて、word2vecベクトルを使って類似性を理解しながら、n-グラムモデルを大幅にスケールアップしてる。著者がCreativity Index [1]と呼ぶものを計算するために使用されてる。 Claude Shannonもこの手のことに興味持ってて、英語の文字とか単語のエントロピーに関する論文書いてたんだよね。有名な”A Mathematical Theory of Communication”にも、いくつかの本から前のn=1,2個の単語に基づいて次の単語の条件付き確率を使う実験があったよ。条件付きエントロピーは、エルゴード性仮定するとnが増加するにつれてゼロに近づくのかな?でも条件付き確率テーブルのエントリー数は指数関数的に爆発するよね。複数の異なる距離のn=1を組み合わせるってのは面白そうで、contrastive predictionのml手法をちょっと連想させるかも。 これって90年代から2000年代の言語モデルの仕組みにかなり近いよね。deep language models、GPT 2とかはもっとずっとすごいけど。一方で、n-gram言語モデルはnが小さくても意外と使えるんだよね。 それに、attention mechanismはコンテキスト長に対して2次関数的にスケールするんだよね。これが莫大なメモリ帯域幅が必要になる原因なんだ。 すべてのものは、他のすべてのものとの共起頻度との正確な関係において意味を持つんだよね。 問題は、Nにある程度の値(>100)を設定すると、途方もない量のストレージが必要になるってこと。しかも、めちゃくちゃスパースになるし。N-99とN-98の間の相互作用も捉えられない。 >GPT 2にどれくらい近いかって? 2021年に聖書で似たようなこと試したことあるけど、scalingがマジで大変。この手のモデルのトレーニングはマジで難しい。 厳密には同じじゃない?GPTは現在のコンテキストの状態に基づいて、確率とランダムな要素に基づいて次のトークンを選択する。それって数学的にはMarkov chainと同等じゃない?もっとコメントを表示(1)
[1]
https://news.ycombinator.com/item?id=43394220
https://www.youtube.com/watch?v=_xIwjmCH6D4
。最初のステップが”Pythonを学べ”だから、中級レベルのCS知識は必要かも。
https://amzn.eu/d/7Zwe6jw
それから、caltechの素晴らしいコース[3]のための本[2]もあるよ。
[1]
https://chrispiech.github.io/probabilityForComputerScientist…
[2]
https://www.amazon.com/Learning-Data-Yaser-S-Abu-Mostafa/dp/…
[3]
https://work.caltech.edu/telecourseもっとコメントを表示(2)
”なぜ特定の仮説をその空間から選ぶのかを理解するために、特定の最適化アルゴリズムを研究する必要がある”って言うけど、OP論文は、”ヤマ勘”でもSGDと同じように汎化できることを説明してる。DLの汎化を理解するために、最適化アルゴリズムの役割は歴史的に過大評価されていた可能性があることが、より良く理解されるようになってきている。それは損失地形(loss landscapes)についてのことみたい。
誤解しないでほしいんだけど、あなたがリンクしてるこれらの参考文献はとても興味深いものだよ。でも、OP論文から何かを奪うものではないし、OP論文は議論に非常に価値のあるものを追加している。
[0]: https://www.goodreads.com/book/show/75622146-the-statquest-i…
一つの情報源だけじゃなかなか理解できないけど、色々見ることで互いに補完しあえるんだよね。Serrano Academyも参考になるよ。
https://www.youtube.com/@SerranoAcademy/videos
良いチュートリアルは、先生が原理をちゃんと理解してて、それがどうして応用できるのかを明確に示してくれる。そうじゃないのも結構あって、’Xをするには、{数式}’って言うだけで、なぜ{数式}が正しいのか理解してないんじゃないかって思う時があるんだよね。細かいことを説明するだけで、何をしてるのか理解したことにはならないんだ。
UMAPを見てた時に特にそう思った。数学的な細かいことばかり説明して、なぜそれを調べてるのか説明がないんだよね。Leland McInnesの講演は違った。
>{数式}は{目的}を達成するためのツール。動くことは証明されてるし、使えれば理解しなくてもいいけど、知りたければ情報はあるよ。これが目的だから、ツールを使おう。
ツールは魔法のブラックボックスでもないし、目的と混同されることもない。トピックを完全に理解するってこういうことなんだなって思った。
https://youtube.com/@statquest
ディープラーニングはどうやってこれを実現してるんだろう?前に機械学習に深く関わっていたときは、ペナルティ付きの尤度アプローチを使ってた。モデル空間でコスト関数を最適化して、モデルの予測とデータ間の差とモデルの複雑さを定量化する2つの項の合計がコスト関数だった。これはまさに”データと矛盾しない、より単純な解を好む”ことをエンコードしてるけど、ディープラーニングもそうなのか?ディープラーニングでの複雑さのペナルティはもっと複雑で、直接的じゃない印象がある。
一般的な方法は2つある。
・L1またはL2正則化:重み行列が複雑なモデル(大きな要素がたくさんある)にペナルティを与える。
・Dropout:ニューロンのランダムなサブセットで学習させて、重み全体に分散した単純な表現に頼るように強制する。
Trevor Hastieの”Elements of Statistical Learning”には、(線形モデルの場合)L2正則化が次元削減と半ば同等であるという証明がある。これを深層学習における”単純さの事前分布”の動機付けに使える。
別の考え方として、ReLUユニットの場合、ReLUのレイヤーは特徴空間に打ち切られた超平面基底(スプラインみたいだけど高次元)を形成し、正則化はこのN次元基底を平坦な超平面に縮小することで滑らかにする。
3つ目のパラグラフは理解するのに時間がかかったよ。正則化はハイパースプラインの結合点で”鋭い角”があることを罰するってこと?それってすごい発想だし、ReLUレイヤーが何をしてるかを考える上で面白い方法だね。
考えさせられるコメントありがとう!
Vision Transformersは仮説空間が柔軟だけど、畳み込みネットワークよりサンプル複雑性が悪くなりがち。畳み込みネットワークは強い構造的な帰納バイアスがあるからね。
ソフトな帰納バイアスは、この論文みたいにVision Transformersを初期化する特別なスキームを持つことかな。初期化みたいなスキームは、モデルが過度に制約せずに正しい解決策を見つけるように促すから、より単純な解決策に対するソフトな好みになるんだ。
教師ありMLの普通のアプローチは、モデル(レイヤー、パラメータ)を”発明”するか、既知の良いリファレンスからコピーして、コスト関数を定義してデータを投入することだよね。”Deep” learningは、レイヤーを少数使う代わりに大量に使うってこと。
それってアーキテクチャを自動で調整する方法ってこと?やったことないけど、アルゴリズムにそれをやらせるにはコストが高すぎるからね。でも、このアプローチは使われてるのかな?
>代わりに、以前の状態への依存性を明示的にモデル化して長距離依存性を捉える代わりに、これらの種類のリカレントモデルは複数のレイヤーを積み重ねることで学習できます。”
[1] https://arxiv.org/abs/2410.01201
実際、世の中には誤称がたくさんあるけど、Deep Learningはかなり良い名前だと思うよ。トレーニングデータと結果の重みが十分に複雑で、学習プロセスだけを見ても結果のシステムを理解するには十分じゃないってことをちゃんと伝えてると思うな(他の”Deepじゃない”機械学習とは違ってね)。
UCI Machine Learning repo[0]の「Wine Quality」データセットみたいな古典的なML問題をDNNで解こうとすると、ひどい結果と過学習になるよ。
LLMの”魔法”はトレーニングパラダイムから来てるんだ。最適化が単語予測だから、事実上コーパス内の単語数と同じデータサンプルサイズになるんだよ。膨大なデータセットに対してトレーニングしてるから、比例して巨大なモデル(例えば400Bパラメータ)を過学習なしに使えるんだ。この巨大なモデルの複雑さがGPTの驚くべき能力を生み出してるんだ。
10年前には明らかじゃなかったのは「再利用性」の原則だよ。LLMパラダイムを使ってトレーニングした巨大なモデルが実用的な価値を持つだろうって考え。単語予測マシンを作って何が嬉しいんだ?って思うかもしれないけど、単語予測から学んだコンセプトは、関連するNLPタスクに再利用できるんだ。
[0] https://archive.ics.uci.edu/dataset/186/wine+qualityもっとコメントを表示(3)
Zhang et al (2021) ‘Understanding deep learning (still) requires rethinking generalization’
https://dl.acm.org/doi/10.1145/3446776
Deep neural netsは、過剰なパラメータがあっても汎化性能が高いのが特徴で、学習データにオーバーフィットしないんだって。hold-outデータや未知のデータでも性能が良いことが多いらしい。
論文[0]では、ランダムなラベルでも学習できるって指摘されてる。過剰な適合を防ぐ強い帰納バイアスはないみたい。
この論文では、それが当然だって主張してる。柔軟な仮説空間と、データに適合することを要求する損失関数、そして単純さを優先するバイアスがあれば、どんな学習アルゴリズムでも起こりうるって。
でも、3つ目の条件が満たされるのは自明じゃないし、まだよく分かってないよね。[0]の結果は、様々なアーキテクチャで再現可能で、明示的な正則化があってもなくても同じ。もしDeep neural netsに単純な解を求めるバイアスがあるなら、それはSGD自体から来るか、アーキテクチャにすごく一般的なバイアスがあるかのどっちかだと思う。
SGDによる暗黙的な平滑化に関する研究もあるけど、[0]で観測された現象を説明するには不十分だと思うな。Benign overfittingを取り除くablation studyがあれば嬉しいけど、どうすればいいか分からないから、まだ誰もやってないんだよね。
(+) >分かりやすく言うと、モデルは汎化するけど、ランダムなラベルには適合しなくなるってことじゃなくて、>”モデルがholdoutデータに対して意味不明な結果を返す”ってこと。
1) 大量のテキスト(書籍とか)を用意する。
2) 各単語について、次のN個の単語との距離を記録して、単語ペア/距離のカウントを増やす。
3) 各単語について、各N距離で最も頻繁な単語を記録する。[a]
4) ユーザーの入力から、次の単語(または単語のセット)を予測するアルゴリズムを作成する。基本的には、単語ペア/距離を比較して、最も可能性の高い次の単語(または単語のセット)を見つける感じ。
これってGPT 2にどれくらい近いかな?
[a] >もっと進んで、各距離に対して複数の単語を頻度順に格納することもできる。
GPTとかは、各単語を個別にモデル化するんじゃなくて、高次元の”embedding”(新しい語彙が不要ならただのベクトル)を使ってる。embeddingは、類似した単語をこの空間内で近くに表現するんだ。有名なking-man-queenの例みたいにね。だから、トレーニングセットに”The Queen ordered the traitor
特にTransformerベースのモデルは全部そうで、古いモデルはword2vecとかelmoを使ってたけど、今のLLMは全部embeddingをゼロからトレーニングしてるよ。
https://ai.meta.com/research/publications/byte-latent-transf…
https://web.stanford.edu/~jurafsky/slp3/3.pdf
基本的には、コーパスに実際にあるすべてのn-グラムをカウントして、0のところを簡単なルールで確率を平滑化するだけ。
[0]:
https://infini-gram.io
[1]:
https://arxiv.org/abs/2410.04265v1
Shannonの論文の実験は、データ量とか距離は少ないけど、あなたが説明してることと似てるから参考になるかも。
テキストから引用:
>最初の単語近似。
>tetragramとかn-gram構造を続けるよりも、単語単位にジャンプするのが簡単で良い。
>ここでは単語は独立して選ばれるけど、適切な頻度で使用される。
>REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME CAN DIFFERENT NAT-URAL HERE HE THE A IN CAME THE TO OF TO EXPERT GRAY COME TO FURNISHES THE LINE MESSAGE HAD BE THESE。
>2番目の単語近似。
>単語の遷移確率は正しいけど、それ以上の構造は含まれていない。
>THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED
俺も同じこと考えてたんだ。単語から単語へ、段落から段落へ。文字から文字へも。
あと、テキストを信号空間で処理したらどうなるんだろう?それって可能なのかなってずっと思ってる。そうすれば、ウィンドウじゃなくて一度にすべてを取得できるじゃん。すべてのページの変更の微分を使用すると、位相空間はエンドツーエンドの信号になる。
Transformersはそれをかなりうまくやってくれるし、トレーニングもかなり効率的だよ。
2015年の投稿だけど、これと似たようなことをしてる人がいるよ[1]
[1]
https://nbviewer.org/gist/yoavg/d76121dfde2618422139