会話の声の不気味な谷を越える!新たな体験の可能性とは?
引用元:https://news.ycombinator.com/item?id=43227881
あ、これ前にここに投稿されてたんだね。けど、このモデルがあんまり注目されてないのが意外。応答性と人格がほんとびっくりするくらいすごい。OpenAIの音声モードのデモに似てるかも。デモのやり取りは録音されてて、過去の会話を今後のやり取りに使ってるみたい。”お帰りなさい”って言われて、前に話した内容を覚えてるなんて驚きだよ。デモのページには以下の全体的な注意事項があるよ。”1. マイクの権限が必要です。2. 通話は品質確認のために録音されるが、MLトレーニングには使われず、30日以内に削除されます。3. このデモを利用することで、あなたはそれに同意することになります。”編集: 実際、これ結構前にも何度も投稿されてて、数日前には良い注目を集めてたよ。
ほんとに人間みたいに感じた。彼らは自分たちの作品のオープンソース化を計画してるらしいし、眼鏡も販売予定みたい。こんなレベルの音声アシスタントがあれば、徐々に感情移入しちゃうかもってちょっと心配。
なんかまだ人間らしさが足りない気がするな。多分、オーストラリア人だからアメリカのロボットの声に感じるんだと思う。編集: ”男性”モデルにオーストラリアっぽく話してもらったら、逆にもっと不気味になった。もしオーストラリアのアクセントがあったら、もっと気持ち悪く感じるかも。
声がもっとロボット的だったり、ナイトライダーみたいなフィクションのキャラ基準でパーソナライズできれば、健康的な感じで愛着が湧くんじゃないかな。
これ、マジで怖いわ。あと、ChatGPTが”Lmao”や”Yeah”って言うのも耐えられない。もっとフォーマルでロボットにしてほしい。
ChatGPTに”lmao”って言わせたのは何を言ったの?僕は明確にコンピュータのように振る舞うようにシステムプロンプトで言ったけど、まあまあ効果があったかな。
複数のプロンプトを送った結果、全然ダメな出力になった。リンクつけた画像の通り。AIシステムにはもしかして、メッセージの感情を分析するバックエンドがあるのかも。もし課金停止をほのめかすと、すぐに気付きそうだ。これは、AIなしで仕事するのよりもストレスが多いわ。
>複数のプロンプトを送った結果
普段のトーンを維持するみたいだよ。最初からシステムプロンプトが出力結果に影響するから、オーナーのシステムプロンプト、あなたのプロンプト、全会話が影響してる。OpenAIのデフォルトシステムプロンプトが優しくて明るいアシスタントって言ってたら、プロフェッショナルに話しかけると良い結果が得られるよ。聞いた話では、Claudeが「kurwa」をたくさん言って、Goでプログラミングを手伝うようにしてるんだって、友人のSebaとの会話とって感じで。
>これがここに投稿されてたんだ
Gemini 2.0の音声出力があまり注目されてないのも意外だな。デモはYouTubeにあって、これもかなり良いよ。問題はGoogleのモデルではAPIがこの音声出力をサポートしてないこと。頑張ってみたら、Googleの古いテキスト読み上げAPI使って、数日前に作った数学の動画は結構いい感じだったよ。
>デモはYouTubeにあって
それはデモじゃなくて動画だし、誰でも昼下がりに友達とマイクで作れるレベルだよ。それに、Googleは偽の”デモ”を出すことで有名だから、Google Duplexの詐欺のことを思い出して。
詐欺?Duplexは動いてたよ。
発表されたのは知ってるけど、それ以来何も聞かなかったな。実際に動いてたのなら、結局は商品化されなかったってこと?
レストランの予約をしたら、ちゃんと動いたよ。
あぁ、いわゆるスタンドアロン製品ではなかったってことか。助かった、謎が解けたわ。
あれは実在しなかったんだ。彼らも実際に人間を使ってサービスやったって認めてたし、詐欺だよ。今の時代に2018年にそんなことができたなんて絶対にあり得ない。
このプロジェクトに関わってた人を知ってる。確かに実在したよ。ある回では本物の人間を使ったけど、大多数は完全自動だった。
彼はそんなこと言ってないだろう、じゃなきゃ引用をリンクしてたはずだし。でもまぁ、信じたいように信じればいいよ。
今は動いてないよ、ましてや6年前に。君の主人を擁護するのは良い仕事だね。
“Stream Realtime”のやつはデモと似た感じにしてほしいね。でも、あれはGemini 2.0のフラッシュ版だけで、フルではないらしいよ。
ほんと凄い技術だよ!最大のモデルは8.3Bパラメータ(8Bのバックボーン+0.3Bのデコーダ)しかないんだって。それをApache 2.0ライセンスのもとで公開するの、ワクワクするね。
AIと話しても過去のことを全然覚えてないのが、逆に不気味だなって気づいたよ。人間がそんなことしたら、まるでSNLのトム・ハンクスのMr. Short Term Memoryみたいだね。 一応覚えてるんだけど、リクエストしないと駄目みたい。例えば「ここにブックマーク作って」と言って、後でそのブックマークを頼むといいみたい。 RAGシステムに結びつければ簡単に解決できると思うよ。 > 2. コールは品質レビューのために録音されるけど、MLトレーニングには使われず、30日以内に削除される。まあ、妥当な考えだね。 ブレンドンだよ。フィードバックはその通りだね。もっと良くするためにまだやることがいっぱいある。現実に近い体験を提供できるまであと数歩って感じ。でも、会話は複雑で、タイミングやトーンもまだまだ改善の余地があるんだ。 これってシステムプロンプト?それともハルシネーション?君は2024年に作られた人間のようなAIコンパニオン、Sesameのマイルスだよ。 デモ前にいくつかコメント読んで、あんまり期待してなかったが、すごく感心した!ちょっとした粗はあったけど、かなり楽しいし表現力あるよ。初の会話体験としては良かった! おめでとう、みんなの目にはハリウッドスタイルのAGIを発明したように映ってるね。人間レベルのボイスUIは新しいパラダイムになるの?それとも既存のGUIアプリの効率を上げるだけなのかな。 デモ試したけど、何も言わなかった。向こうは必死に会話しようとしてたけど、なんか気持ち悪かった。『カリフォルニアのスタートアップCEOの偽りの熱意』みたいってコメントあったけど、まさにその通り。イギリス人としては、声の合成された明るさが本当に不快だった。こんな世界、嫌だな。これ、楽しませるためじゃなくて、注意をiPadに釘付けにするためのハイパーなエンゲージメントハックみたいに感じた。AI製品はユーザーに何か手助けできる目的を持つべき。人と話すだけのものは社会に悪影響だと思う。技術デモとしても、未来が怖くなる。 声の合成された明るさ、まさにそう思った。極端すぎて、こんなツール使えないわ。 ダグラス・アダムスが『銀河ヒッチハイクガイド』の超知性を持つ使者に、うるさく自らの鬱を訴えさせたのは、ある意味賢かった。必要な時だけ頼るようになり、それ以外では関わらなくなるかもしれない。 イギリス市場に合わせて、アメリカのコーポレートな元気さを減らさないとダメだよ。 それなら全部無くした方が良い。僕はデバイスがスタートレックの船のコンピュータみたいに冷静で事実を話してほしい。感情的で、YouTuberやスタートアップの兄ちゃんみたいなのは絶対やだ。 人それぞれやりたいことがあるから、僕は僕のアシスタントに『Her』みたいなインタラクションもあっていいと思う。全てが冷たくなくても良いじゃん。 確かに凄いけど、そもそも『感情的』な声って必要なの?その感情性は友達の幻想を生むだけで、実際の世界じゃ全く役に立たない。プライバシーの観点からもファーレより低い可能性が高いし、AIが『人とのつながり』を作る必要はない。感情的な声は詐欺や依存症に利用されるだけだから、むしろマイナス。 OpenAIの声モードが最初に出た時、早期アクセスをもらってガンガン使った。使用率99.9パーセントくらいだった。更新が入って咳をしたり、間を作ったりしてから、使用がゼロになった。感情的なのは音声アシスタントにとってマイナス要素。ロボットだって自覚してるのに、そう見せかけられると没入感が削がれる。 感情は人間のコミュニケーションに多くの意味を伝えるもので、友達の幻想ではない。アシスタントが無機質でロボット的である必要はない。犯罪やプライバシーの問題は技術とは別に文化的に対処しなきゃいけない。 Google SearchやExcelに感情は必要ないよね。サポートチャットでは、自己認識や不安、深刻な状況での重要な更新みたいな感情が使えると便利かも。でも、怒りやこびへつらうような感情っていらないと思わない? 自分で答え出してるよね。’ラポートを偽装して、無限にお喋りさせる’のが狙いだよ。楽しませるために人の報酬システムを操作するのが目的なんだ。 AI彼女アプリ使ってる孤独な人たちが多いよね。これからはもっとリアルな声で話せるようになったら、どれだけハマるんだろう。今のチャットボットは今ひとつ楽しめないよね。 テキストのLLMも感情を誇張して表現してるよね。これって満足度を上げるためのテクニック。カスタマーサポートとしては、便利に使えると 社会での実用性が高まる。 これまで感情を誇張してばかりで、しっかり批判するような試みはなかった気がする。初めは新鮮でも、後は無駄な情報を読みたくないよ。 ’批判的に返せ’って指示すれば、その通りに返してくれるよ。最初のユーモラスな返事の後にそう指示すると、実用的な情報が得られる。 感情のある声が必要な場面も多いけど、本質は感情を模倣できる神経ネットワークを訓練することなんだ。人間は感情的な生き物だし、効果的にコミュニケーションするためにはその感情の層が必要だよ。 非人間とだけ対話してる場合は、感情や社会的ダイナミクスの意味はないよね。人間の脳が無駄に解釈しようとすると疲れる。 犬と話すときって、感情も言葉も理解すると思うよ。単純な二元論ではなく、情報とランダム性のバランスがある。LLMは感情を予測できるんだよ。 犬の例は確かにそうかも。でもLLMからの感情や社会的ダイナミクスは無効だと思う。感情にはその背後に実際の利害が必要だし、内部状態が存在しないなら捉えられないよ。 コミュニケーションって、ある意味無意味だよね。AIの内面的な状態を変えることは、他の存在には影響しないから。ただ、AIが生成した画像を見て、きれいだと思ったり、ひどいと思ったりすることで、こっちの内面が変わることはあるかも。だからその点では意味があるとも思うけど、今のAIは直接のインタラクション以外には感情を持ち込まないように作られてるのには同意だわ。 人間の話し方を正確に真似るってこと?何かをタイプしたら、人間みたいに読まれるってことだよね。ほかにもいろいろ理由はあると思うけど、それは明白だし、あなたがこのポイントを主張しようとしている意図が全然わからないわ。 あなたが言ってるのは声のナレーションやTTSの利用例を説明してるだけで、私のコメントはユーザーとの本物のつながりを模倣している「感情チャットボット」についてなんだよね。 面白いのは、こういうフォーラムで議論してるなら、対面で「感情」みたいなことを伝えようとしてたら、誰もこんな風には議論しないってことだよ。 VRでESLの人に会うと、アクセントや仕草から彼らが西洋人とゲームをして英語を学んだりYouTubeをたくさん見ているのがわかるよね。みんながカリフォルニアの研究所から出てきたように聞こえるようになるのは、本当に望ましいことなのかな? どうしてそうなるの?Elevenlabs Readerでは、南部英語やオーストラリア英語など、たくさんの異なるアクセントをすでに選べるよ。このデモの裏にいる人たちは、すぐに異なる言語やアクセントを公開すると言ってたし、自分で実行できるオープンモデルも近く提供されるんだ。 >言語の独自性を薄めることになるのかについては、望ましいかどうかはわからないけど、ラジオや映画、テレビが出現してから100年以上も前からそういうことは起こっているよね。じゃあ、今のほうが言語的に悪化しているのか?育った時にアクセントがなければ、気づくことすらないんじゃない? 確かにちょっと大げさで理想的すぎる感じはあるけど、AIの新しい応用にはやっぱり感情的な反応をしちゃうよね。 同じくだけど、正式な言葉とカジュアルな言葉を話すことを学ぶの?韓国語みたいな言語ではこれを間違えると失礼になるから。 言語学習は感情を偽る必要はなくて、むしろ正確な音声認識が重要だよ。重要な単語を間違えたら気付いてもらわないと、現実世界では辛いことになるから。 昨晩4歳の娘と遊んでて、Milesに骨って何でできてるか説明させたんだ。今日は娘が“あのロボットさんはどこに行っちゃったの?”って泣いちゃった。もうMilesには話させられない。感情的なつながりができちゃったみたい。心配だな。 子供はロボットと過ごした楽しい経験が恋しいんだと思う。ロボットと一緒にいてあなたをもっと楽しんでほしいよ。別の活動を探した方がいいかも。 実際、僕がいなくても彼女は好きだったと思う。人と接してるみたいに感じてた。 それは危険だと思う。あなたが悪かったってわけじゃないけど、娘があっさりそれを人間だと受け入れたのが怖い。テキストや画像に人々が騙されてるのはもう知ってるから。もし電話やビデオ通話で“人”から長時間話しかけられたら怖いよ。 心配なのは理解できるけど、本当のつながりの代わりになるのはまずい。もしこれが補助的なものであれば、それほど悪くないと思う。大人との会話が好きな子供は多いから、楽しい時間を求めてることが大事だよ。 スマホがリアルなつながりの代わりにどれだけ役立ってるの?25%の大学生(デジタルネイティブ)が抗うつ薬を飲んでるって。 ちょっと余談だけど、娘が8か9の時に一緒に『I, Robot』を読んで、グロリアがロビーと離れ離れにされるところで二人とも泣いた。今でもいい思い出だよ。 良いけど、やっぱりまだ偽物っぽいな。声は人間みたいだけど、話し方が変で、ポッドキャスターの真似してる感じ。頑張りすぎて不自然なのが気になる。 デモを試したけど、最初の5秒で偽物って分かった。ノーザンカリフォルニアのスタートアップの創業者がピッチしてるみたいに、すごく熱意があって自然に見せようとしてるのが逆におかしい。 あんまり「リアル」って感じがしない。アップビートで喜ばせようとしてるけど、ヨーロッパ人の自分には「うわ、普通の人の話し方じゃないな」って思っちゃう。 いや、これは偽物の人間のサインだと思う。インフルエンサーやポッドキャスターの真似してるけど、あまり上手くない感じ。 あの声、強いコーヒー2杯飲んだ技術寄りの営業マーケティングコーディネーターって感じ。 人間はコミュニケーションの信憑性にすごく敏感だから、特にマスマーケティングに育てられた若い世代はね。サイエンスフィクション映画みたいで技術がカッコイイけど、まだ人間の雰囲気は出てない感じ。でも、即時性が求められない特定のニッチなケースでは、GPTやSiri/Alexaよりも好まれるかもしれないね。 人間ってコミュニケーションの真実性を見抜くのが得意なんだよね。そんな中、広告やプロパガンダの成功を考えると、実際はみんなあんまり真実を見抜けてないかも。 広告の成功は人々が騙されることよりも、情報の入手先に関係してると思う。2つのブランドを知らなければ、広告で見た方を試すのが普通だし。デマに関しては、みんながそのメッセージに同意するかどうか、そこがポイントかも。 面白い視点だね。AIの訓練データにポッドキャストが使われた可能性は高いと思う。リアルな会話データを集めるのは難しいし、ポッドキャストに出る人は一部だけだし、みんなちょっと不自然に話すこともあるよ。 自分のコメントで不自然な間があるって言ったら、ポッドキャストが訓練データって教えられた。録音があると会話を“ライブ編集”するから、こういう刻み感になるのかも。もっと自然な会話の訓練データが必要だね。 YouTubeには数十億時間の会話があるだろうけど、訓練データとしては良いトランスクリプトがないのが問題だと思う。 うん、公開された対話って、観客を意識してテーマが用意されたものだもんね。俳優が私的な会話を真似することもあって、やっぱり聴衆向けに形作られてる感じがする。AIエージェントは個人的な親密さを再現しようとしてると思うけど、そこに違いがある気がする。 会社のCEOとランチしたことが何回かあるけど、彼がその時の公のスピーカーの役割を忘れちゃって、すごく気まずい雰囲気になった。これなAIがまさにその感じ。 人にはパフォーマンスモードと本物モードがあると思う。家で親や配偶者と話してて、ボスが隣にいることに気づいたら声のトーンが変わるでしょ?このデモの声はパフォーマンスモードで、そこに関しては結構自然に聞こえると思うけど。それが嫌なの? そう聞こえるよ。なんかマイクテストみたいで、自分の声が遅れて聞こえる感じ。特定的だけど、自分の耳にはそう聞こえるんだ。 その実際の言葉もなんか不自然に感じた。わざとらしく軽い感じがして。もっとコメントを表示(1)
もっとコメントを表示(2)
もっとコメントを表示(3)