「AIを駆使して文化を守る!先住民族エンジニアたちの挑戦」
引用元:https://news.ycombinator.com/item?id=42969993
自分、Kikshtって言語を話せる数少ない人間の一人なんだ!言語学、NLP、MLの研究背景持ってるから、この仕事にぴったりな立場なんだけど、まだモデルにKikshtの文法を覚えさせるのは難しいみたい。英語とは全然違うから、訓練データを集める必要があると思うんだよね。Kikshtは動詞の三重接頭辞構造が重要で、語順がほとんど関係ないんだ。とにかく、今後も頑張っていくつもり!
すごい!頑張ってね!自分も中米のローレス言語に取り組んでるけど、そっちも復活に向けて情報を集めてるのかな?Wikiに載ってるリンクいくつか見たんだけど。
幸運なことに、Kikshtには他の文献や録音された資料が結構残ってるんだ。1900年代初頭にSapirみたいな言語学者に研究されてたし。ただ、復活については少し誤解があるかも。GladysはKikshtの母語話者の最後の一人だけど、話者の最後ではないからね。言語は常に変化するし、1804年に放置されてたら今とは違ったはず。
Kikshtって面白い言語だね!その言語に関するリソースとかあったら教えてほしいな。接頭辞のある動詞で一文になるって、めっちゃ面白い言語の特徴だと思う!
残念ながら、Wasq’uとしてはKikshtはコミュニティのものと考えられてるから、誰かに教えてもらったり、学ぶためのリソース探すのはめっちゃ難しいと思うよ。
「接頭辞付きの動詞が文になる」ってのが気になってる!こういう文法特徴って結構面白いよね!アグルチネイティング言語って呼ばれてるけど、エスキモー語族、トルコ語、フィンランド語なんかが有名だよ。トルコ語やフィンランド語を学ぶためのリソースはいくらでもあるよ!
頑張って!良い結果を願ってるよ。LoRAを作って既存のモデルを微調整することになると思うけど、書かれた材料は十分にあるのかな?言語モデルが増えれば、意味構造の違いからくる強みも活かせると思うんだ。
書かれた資料はそれなりにあるけど、その量で微調整するのはめっちゃ難しいんだよね。でも、関連言語の共有コーパスを使って何か始められるかもしれない!
ウィキペディアによると1990年にはKikshtの流暢な話者が69人いたらしいけど、最後の一人が2012年に亡くなったんだって。どうやってその言語を学んだの?
おばあちゃんとGladysの孫から教わったよ。GladysはKikshtが母語の最後の人だったけど、まだ他にも話せる人がいるんだ。
llmsの本来の使い方は翻訳だし、最初の頃の文脈の理解はそこから来てるんだよね。llmsが過大評価されてるって言う人もいるけど、これが元のコアなユースケースなんだ。
オーストラリアの先住民の俺が何年か前からこの問題に取り組んでる。今はOpenAIで辞書を処理してる段階なんだ。俺の部族の辞書も100kのコンテキストウィンドウに収まる。正直言って、保存は難しいけど、若い人が言語を学ぶのにいいインターフェースがあればそれが勝ちだと思ってる。
最近、物件の名前付けでChatGPT使って地名の特徴を提案してもらったんだけど、Kaurnaを試したら関連する提案がいっぱい出てきてびっくりした。Google Translateには載ってないけど、ちゃんとKaurnaの辞書とも合ったよ。
LLMの素晴らしい活用法だね!研究者たち頑張れ!ただ、残念ながら多くの言語に残された時間があまりないのが現実。
この話題、ちょっと冷めた目で見がちだけど、LLMの本来の目的は言語を総合的にモデル化することなんだからね。名前からしてそう。ハルシネーションは無効な文法や存在しない単語を作ることは滅多にないけど、問題なのは事実で、これって言語保存の目的には関係ないんじゃない?
強力な言語モデルがあれば、たとえば『フロッピーディスク』をあらゆる絶滅した言語でどう言うかを自信満々に教えたり、コンピュータ以前の言語でも教えたりするかもしれないんだよね。でもそれって面白いけど、あくまで真実じゃないんだよね。
ほら、言語を話す人が残っていたら、人間も同じことするんじゃない?
プログラミング言語でのハルシネーションも有効な英語の単語を並べてなんか適当な概念を作り出してるだけだし、新しい単語をゼロから作ってるわけじゃないんだよね。絶滅した言語で『フロッピーディスク』がどう言うかを聞いて、それなりの言い回しを作ったら、それが悪いこととは思わないな。文化遺産に触れたい人は、ちょっとした創造的な使い方には文句ないだろうし、学者は制限を分かってるからね。言語モデルをデータベースとして誤用することが問題なんで、この使い方ならその影響は小さいと思うよ。
簡単な英語とかPython以外はあんまり強くないみたい。大きなLLMのトーンはちょっと非人間的だし、どこかのマイナーな言語の資料を見つけるのは大変だろうね。
どの言語で失敗したの?ヨーロッパの言語いくつか試したけど、完璧かそれに近いから、特に問題ないよ。
LLMの実際の利用法って感じ。原住民の言語データを使ってモデルを構築して、文法とか語彙を見つけるのかな。例えば、ナバホ語で「大きな言語モデル」ってどう言うんだろう?LLMが新しい単語を作るかもしれないし、コミュニティがその提案を受け入れたり、変えたりできる。
趣味でランダムなニッチな言語を学べるAIツールないかな?Toki Ponaとか。
これはマジで役に立つのか疑問。アーカイブにはいいけど、文化の「保存」にはならないんじゃない?文化が生きてないと意味ないし。インドみたいに、一度書かれ始めると、実際の知識が失われがちだよ。AIで言語助ける話は大事だけど、結局お金儲けのネタになってるだけな気がする。
書かれることが始まると、実際の知識が失われやすいっていう話なんだろう。インドなんか見てもそうだし。 それ、どういう意味?英語によるインドの言語の大量消失を気にする知識人はあまりいないみたいだけど。ボリウッドの映画は人気だし、全部ヒンディー語で作られてるじゃん?英語がインド社会でそんなに広まって、ボリウッド映画もほとんど英語で作られるようになる危険があるのかな。
文化をドキュメント化してるのはいいことだと思う。文化や言語はツールだと思ってて、役に立たなくなったらもっと機能的なものに置き換えるべきじゃね?
インドやアメリカの知識人たちがインドの言語の大量消失を気にしてないっていうのは驚きだな。他の地域の言語に対してはもっと関心があると思ってたけど。
LLMが先住民の言語を知ってれば、最後の話者が亡くなっても、未来の世代はその言語を学んでLLMと会話できるんだよ。LLMは先住民族の言語だけじゃなく、新しい言語を学ぶのにもいい使い道だね。それに「悪いイギリスの人がインドを壊した」ってのは、個人的な政治の話に聞こえるな。
でも、LLMって実際にはトレーニングされたコーパスのロスィ圧縮みたいなもんだから、そのコーパス自体を保存しておけば、将来的にもっといいLLMか何かをトレーニングするために使えるんじゃね?データ保護の理由でコーパスが保存できないってこともあるかもしれないけど、LLM自体は保存できるとか。それにしても、その可能性はあまりに現実的じゃない気がする。
両方やれって。コーパスの保存とLLMの構築、未来の世代にとって最高のチャンスになるだろ。
やっとLLMの良い使い道が見つかったな。すでに解決された自動化問題を人間ぽくするだけじゃないってのがポイントだ。
俺も同感。