MetaのAIデモが話題沸騰中!最新技術を見逃すな!
引用元:https://news.ycombinator.com/item?id=42992643
デモのツールボックスがあって、以下の機能があるよ:Segment Anything 2で楽しいビジュアル効果を数クリックで作成、Seamless Translationで別の言語での自分の声が聞ける、Animated Drawingsで手書きの絵をアニメーション化、AudioboxでAI生成の声と音でオーディオストーリーを作れる。
このデモはイリノイ州とテキサス州からはアクセスできないっぽいよ。多分AIに対する法律が影響してるんじゃないかな。立法者がAIのいい使い方を見れば、むやみに規制しなくなるかも。
イリノイ州はバイオメトリクスに関する法律があって、顔をバイナリ分類するだけでも該当するんだ。翻訳デモって顔を使うからね。Metaがそのデータを保存するのは知ってのことだ。
Metaだけじゃなく、AIを扱う企業はデータを保存してるだろ。
Anthropicは違うって言ってるけど。
テキサスは全般的に合理的だと思う。ライセンステキスト書いてる時もテキサスを除外したよ。特許ゴロのホームだし。
テキサスには「バイオメトリック識別子の捕獲または使用」に関する法律があって、イリノイ州の法律と似てる。2022年から厳しく取り締まられたけど、最初のターゲットはMetaだったみたい。
ここにある条項は、別に悪い要求じゃないと思うよ。
この条項は、テキサスの新しいElectronic Genital Verificationシステムには問題を引き起こしそう。結局、手動の検査を戻す必要があるかも。
なんか、Meta FAIRのデモでカメラが勝手にオンになって、許可なく俺の写真を撮られたらしい。公共の場の写真をニュースにのせるのとは訳が違う。これはやばいだろ。
ネブラスカにいるけど、ISPのせいでシカゴにいるように見えるわ。まあいいか。
モバイルデータだと州ごとにインターネットゲートウェイがない場合もあるし、州ごとの制限はちょっと無理がある気がする。
シームレス翻訳ってすごいよな。英語とスペイン語話せるけど、翻訳は自分のスペイン語にかなり近かった。
友達に試してもらったら、全然わからんらしい。バイリンガルでも通じないことがある。
試したけど、全然俺の声じゃなかった。妻が「それクソ」と言ったぐらい。
俺もそうだった。ドイツ語から英語に翻訳したけど、全然合ってなかった。
フランス語から英語も試したけど、声が全然俺じゃなかったし、90歳のじいさんみたいになるし。
俺は声が深い方なんだけど、訳されたのは普通の女性AIボイスだった。
クリックミスじゃね?普通の女性AIボイスはお前の言ったことの訳だよ。
それは良いことじゃん。深いフェイクが欲しいのか?みんな分からないようなやつ。
それが広告の仕方なら、そういう理由で試してる人も多いと思うよ!
でも、実際俺の声に似てた?全然似てない気がする。
最初は全然ダメだった。2回目はしっかり発音して多く言ったら良い結果が出た。
翻訳技術が“そこまで来た”かどうかはまだ議論中だけど、そのうち“大丈夫”ってなると思うよ。すごくもあるし恐ろしいことでもある。
ミスに対する許容度によるね。簡単な質問にはこれでいいけど、外交には厳しい。芸術作品の翻訳も難しいよ。
提供された例がマジでひどくてロボットみたいだった。試す気が失せたけど、再考するかも。
HNのタイトル通り、わざと”Aidemos”って書いてるの?
HNはタイトル中の単語を自動で大文字にするから、”AIDemos by Meta”で投稿されたのかも。
少なくとも、AI Demonsじゃなくてよかった。
Aidemos… 知恵のギリシャ神?
シームレスなトランジションデモすごいな。翻訳された声も自分の声に近い。リアルタイムでこれができたら最高!
できるよ!Kyutaiで、先週リアルタイムの音声翻訳デモをリリースした。今はフランス語から英語だけだけど。
いい仕事だね。遅延は約5秒みたい。もっとリアルタイムにできるかどうか気になる。
すごい、これマジで驚き。バベルの魚がすぐそこにある気がする。
MetaのAIについてどう考えてるの?研究してるみたいだけど、最終的な目標が見えない。GoogleやMSFTはわかるけど、Metaはちょっと謎だよね。
MetaはAIレースの成果がウalled gardensとプロプデータにあると考えてるんだ。競争相手がモデルやデータセンターを使って崩しにかかるのを防ぎたいんじゃないかな。最終的にMetaは個人やグループの心理的プロファイルを持ってて、ターゲットコンテンツを提供できるかもしれない。
現実のものを見ながら話しかけられるGeminiの新モデル試した?音声で質問できるし、”her”レベルの技術だよ、今すぐ試せるんだから。
Herは音声で質問するだけじゃないよ。ChatGPTも似たような機能があったし。
そんなことないよ。スケジューラー加えたり、会話の内容を記憶するRAGがあれば、それだけでいいんじゃない?
ChatGPTはずっと前からできてるよ。Geminiのってそんなに違うの?
Geminiはビデオもできるんだ。カメラを向けて話しかけられる。私のChatGPTアプリは音声だけだけどね。
OpenAIは半年前にデモしたけど、その後アクセスは限定的だったよ。先週やっとChatGPTアプリでアクセスできたんだけど、USの人はもっと早く使えてるのかな?
MetaはAI生成コンテンツをウalled gardensの中にどうやって守るつもりなの?外部の人がアクセスを制限されるのか、内部にAI生成コンテンツがあるのか分からない。生成モデルに独自性がないと、どこでも同じコンテンツが得られると思うよ。
最初なら、もう泥に膝まで浸かってるって教えてやれ。MetaはAI生成コンテンツの消費量を簡単に測れるはずだし、シンプルにエンゲージメントを増やして金を稼ぎたいだけだろ。高品質な人間生成コンテンツの観客を広げるのも手だよ。
Appleもやろうとして崩れかけてるし、Meta/Zuckerfuckも遅れをとってるんじゃね?
株がむちゃくちゃ過大評価されてると思う。データの元が枯渇してるし、AIも面白いけど効率的じゃない。そろそろ限界だと感じるよ。
Metaのプロダクトがオリジナルじゃないってずっと言ってたけど、広告ビジネスだけは確かにお金の木だよね。
YoYの収益成長がすごいとか、まだまだ成長してるじゃん。VRも狙えるし、WhatsAppの monetization も期待できる。全体的にMetaは株として魅力的だと思うよ。
実際に聞いたら、GDPRの影響について話してたし、データ制限の問題もあった。低い果物は残ってないかもだけど、あまりオープンにはしてないみたい。
つまり、ターゲティングが良くなるってこと?それだけ?
ターゲットを良くするのが中心だと思うけど、AIの事業がコアだから自分たちでも作りたいのはわかる。でも、OpenAIなどを危険にさらすためにオープンソースしようとしてるのは不明。
自動生成の個人化されたコンテンツ公開って、やっぱりターゲティングとは質が違うよね。不正行為の監視と人間操作は本当に危険だと思う。
原爆も「ただの」良い爆弾だって言うけど、Metaが子供を中毒にさせるために膨大な資源を使ってるのは異常だ。
アルゴリズムの仕組みを理解して、意図的に例を用意すれば、結構役に立つんだよね。原子力や薬の例がいいみたいに、使い方次第で生活が豊かにも、逆に大惨事にもなっちゃう。
2002年のJoel Spolskyの話、企業がどうやって一つのレイヤーを支配して競争を促すことで、他のレイヤーの価格を押し下げるかってことだね。これが大手テック企業の意外な動きを説明してる。
面白い疑問だね。今はまだ試行段階にあって、過去のメタバースみたいな感じ。しかし、UIがクソで、広告ばっかりじゃ本当に役立つかは疑問。もし彼らがオープンソースに貢献するなら、まぁ、それは良いことだと思う。
メタバースが失敗した後、何か次に「未来」となるものを探してるのかな?多くの金を持ってるから、新しい流行に乗っかるのもリスク管理の一環だね。
AIの狙いは、広告のターゲティング強化や、より良い推薦をすることだと思う。結局、Metaのビジネスは広告なんだよね。
AIを使って、みんながコンテンツを共有しやすくしたり、AR/VRで活用するってことが重要。Metaの本業はFacebookやInstagramじゃないよ。
人工的なものがビジネスを再活性化すると思う?メタバースで失敗したのに、会社名も変えてないじゃん。
AIを使った面白いミームも回ってきてるよ。ビジネスは好調で、AR/VRとAIに投資してるから、利益を上げ続けてるのがポイント。
ARウェアラブルは、個人コンピュータの未来だって思ってる。
可能だろうけど、Metaになるかは分からんよな。
金と操作?それがリアルな質問だったの?
それがリアルな質問だよ。特に金の面で、どう役立つのか疑問。
数学は全部暗号化に、メディアは広告につながる?
競合を出し抜くことを忘れてるぞ。どうでもいいけど、彼らのオープンウェイトモデルがOpenAIの優位性を崩してるのは面白い。
AIで株が上がる。19年からLLMs/MLに夢中だったのに頑張らなかった自分を後悔。AIベンチャーのアイデアはいくつかあるぞ。
ユーザーや自動生成のコンテンツが前提。
IGやFBフィードで生成されたコンテンツなんて誰も望んでないから、将来的にはどうなるか分からん。
訂正:誰もAI生成だって分かるコンテンツは望んでない。
自分の非アクティブなインスタアカウントが子供のAI写真を投稿し始めるのが待ちきれない!
どこかで期待に満ちたスタートアップの創業者がモレスキンに必死にメモしてる。
みんなそう言うけど、生成されたコンテンツってどれくらい「いいね」やシェアされてるんだろうね?
90%以上のが1. ボット 2. お年寄り 3. 発展途上国から来てると思う。この層って、広告主が狙うべきターゲットじゃないと思うけど、今はエンゲージメントは高いかもだけど、長期的には持続可能じゃないんじゃないかな。
残念だけど、ユーザー数がこれだけいると、彼らは「みんなが欲しい」ことなんて気にせず、強引に何かを押し付ける方法を見つけると思う。
MSFTとGoogleの理由は何なの?
両社は検索、デバイス、OS、ブラウザをやってるから、AIと統合するのは自然な縦割りだよね。それに開発者に売るクラウドプラットフォームもあるし。MetaはAIが望まれる縦割りが思いつかないな。Questくらいかな。
MetaはMSFTとGoogleが研究してるクローズドソースAIに負けないように、オープンソースAIを推進してるんだ。
segment anythingのデモめっちゃすごいな。実際にプロダクトに統合されてるのかな?友達のために趣味で動画編集してるけど、これがあると超便利そう。
PhotoroomはY Combinator出身で、実質的にSAMに磨きをかけた製品みたいだね。使ってるかどうかは分からないけど、使った方がいいと思う。
SwarmUIっていう画像生成モデルのフロントエンドが、ささっと画像の一部をマスクするためにSAM2を統合したんだ。インペインティングに便利だし、すごくいいよね。
多分そうだろうけど、そんな風には宣伝されなさそうだね。
Meta FAIRは”Facebook Artificial Intelligence Research”の略で、今は”Meta AI”に改名されてるんだって。
網羅的じゃないな。Meta Motivoのデモが抜けてるよ。リンクはここ。
MetaはGPT-3とChatGPTの影響をしっかり理解していると思う。モデルはスタート地点で、使い方が知性を表すんだよね。特にビジュアルモデルでそれが顕著。SAM2が”何でも見える”って面白いし、サッカーボールをクリックしてモデルが動画内で追う様子は凄い。
企業は国際市場や一部のアメリカの州でAI製品に注意しないといけない。AIの法律がいろいろあって、それを確認するのが大変だから、最先端のモデルが特定の地域で遅れてるんだ。そのため、デモのために全ての準拠を確認するのはコストに見合わないから、USと一部の地域にのみ許可されているんだろうね。
“Metaでこのブラウザのクッキー使用を許可しますか?”って出てきたんだけど、クリックしてもいいかな?
アメリカからアクセスしたらダメだったけど、LAにVPN切り替えたら通ったわ。Metaのエンジニアがいるからかな。追記: こっちの州、IllinoisやTexasからのアクセスはダメって注意書きがあった。あ、俺Texasなんだよね。
おお、情報サンキュー!俺もTexasなんで、iCloud Private Relayかと思ってた。
Texasの最近の法律で、音声クローンとかの技術に対して警戒してるみたいだね。法律家に聞いてみる時かも。
アバウトリンクをクリックしてみて: https://ai.meta.com/sam2/ GH: https://github.com/facebookresearch/sam2
面白いけど、Metaがこれの本質をはっきり言ってくれたらいいのに。過去に似たような手法で年齢推定したことがあるけど、もっと実用的なデータが欲しい。
もっと期待してたのにな。
最近2年間で作られた役に立たないAIの一部になっちゃったな。こんなん見てるより芝刈り機の雑誌の方が面白いわ。
Metaのやってることは微妙で怪しいね(笑)でも、国によって不正規のジャンクフードが手に入らないことは、逆に良かったりするよね。
このデモは怪しい不正行為とは程遠いね(笑)
これらは半端な出来ばっかり。お金を無駄に使ってる感じ。2025年にMetaで才能ある人が働くかは疑問だな。
大手企業の中でAIで本気で取り組んでる会社の中でも、Metaは働く価値がある方だと思うよ。
おそらくLlamaをオープンソースにしたことを言ってるんだろうね。
贅沢品が戻ってきてるのがいいね。いくつかオープンソースにすると、技術者たちは他のことには目を瞑るんだよ。
でも、実際にはオープンソースじゃないんだよね(笑)
Metaは才能ある人がいるなら、世界で働く場所のトップ5には入るよ。
なんか、学部生がこういう仕事するの見てみたいわw
どんな学部生が70Bモデルとかトレーニングするんだよ?