メインコンテンツへスキップ

会話の声の不気味な谷を越える!新たな体験の可能性とは?

·2 分
2025/03 AI 音声技術 会話インターフェース ユーザー体験 感情のある音声

会話の声の不気味な谷を越える!新たな体験の可能性とは?

引用元:https://news.ycombinator.com/item?id=43227881

monroewalker 2025-03-02T06:16:49

あ、これ前にここに投稿されてたんだね。けど、このモデルがあんまり注目されてないのが意外。応答性と人格がほんとびっくりするくらいすごい。OpenAIの音声モードのデモに似てるかも。デモのやり取りは録音されてて、過去の会話を今後のやり取りに使ってるみたい。”お帰りなさい”って言われて、前に話した内容を覚えてるなんて驚きだよ。デモのページには以下の全体的な注意事項があるよ。”1. マイクの権限が必要です。2. 通話は品質確認のために録音されるが、MLトレーニングには使われず、30日以内に削除されます。3. このデモを利用することで、あなたはそれに同意することになります。”編集: 実際、これ結構前にも何度も投稿されてて、数日前には良い注目を集めてたよ。

hn_user82179 2025-03-02T06:32:50

ほんとに人間みたいに感じた。彼らは自分たちの作品のオープンソース化を計画してるらしいし、眼鏡も販売予定みたい。こんなレベルの音声アシスタントがあれば、徐々に感情移入しちゃうかもってちょっと心配。

jofzar 2025-03-02T07:03:51

なんかまだ人間らしさが足りない気がするな。多分、オーストラリア人だからアメリカのロボットの声に感じるんだと思う。編集: ”男性”モデルにオーストラリアっぽく話してもらったら、逆にもっと不気味になった。もしオーストラリアのアクセントがあったら、もっと気持ち悪く感じるかも。

igleria 2025-03-02T08:25:14

声がもっとロボット的だったり、ナイトライダーみたいなフィクションのキャラ基準でパーソナライズできれば、健康的な感じで愛着が湧くんじゃないかな。

MarcelOlsz 2025-03-02T08:28:31

これ、マジで怖いわ。あと、ChatGPTが”Lmao”や”Yeah”って言うのも耐えられない。もっとフォーマルでロボットにしてほしい。

WesolyKubeczek 2025-03-02T11:21:49

ChatGPTに”lmao”って言わせたのは何を言ったの?僕は明確にコンピュータのように振る舞うようにシステムプロンプトで言ったけど、まあまあ効果があったかな。

MarcelOlsz 2025-03-02T19:30:38

複数のプロンプトを送った結果、全然ダメな出力になった。リンクつけた画像の通り。AIシステムにはもしかして、メッセージの感情を分析するバックエンドがあるのかも。もし課金停止をほのめかすと、すぐに気付きそうだ。これは、AIなしで仕事するのよりもストレスが多いわ。

WesolyKubeczek 2025-03-03T16:38:04

>複数のプロンプトを送った結果
普段のトーンを維持するみたいだよ。最初からシステムプロンプトが出力結果に影響するから、オーナーのシステムプロンプト、あなたのプロンプト、全会話が影響してる。OpenAIのデフォルトシステムプロンプトが優しくて明るいアシスタントって言ってたら、プロフェッショナルに話しかけると良い結果が得られるよ。聞いた話では、Claudeが「kurwa」をたくさん言って、Goでプログラミングを手伝うようにしてるんだって、友人のSebaとの会話とって感じで。

huijzer 2025-03-02T10:32:48

>これがここに投稿されてたんだ
Gemini 2.0の音声出力があまり注目されてないのも意外だな。デモはYouTubeにあって、これもかなり良いよ。問題はGoogleのモデルではAPIがこの音声出力をサポートしてないこと。頑張ってみたら、Googleの古いテキスト読み上げAPI使って、数日前に作った数学の動画は結構いい感じだったよ。

moralestapia 2025-03-02T14:35:27

>デモはYouTubeにあって
それはデモじゃなくて動画だし、誰でも昼下がりに友達とマイクで作れるレベルだよ。それに、Googleは偽の”デモ”を出すことで有名だから、Google Duplexの詐欺のことを思い出して。

underdeserver 2025-03-02T15:28:14

詐欺?Duplexは動いてたよ。

jazzyjackson 2025-03-02T22:55:09

発表されたのは知ってるけど、それ以来何も聞かなかったな。実際に動いてたのなら、結局は商品化されなかったってこと?

underdeserver 2025-03-02T23:15:37

レストランの予約をしたら、ちゃんと動いたよ。

jazzyjackson 2025-03-03T01:03:58

あぁ、いわゆるスタンドアロン製品ではなかったってことか。助かった、謎が解けたわ。

moralestapia 2025-03-03T01:25:57

あれは実在しなかったんだ。彼らも実際に人間を使ってサービスやったって認めてたし、詐欺だよ。今の時代に2018年にそんなことができたなんて絶対にあり得ない。

underdeserver 2025-03-03T09:33:32

このプロジェクトに関わってた人を知ってる。確かに実在したよ。ある回では本物の人間を使ったけど、大多数は完全自動だった。

underdeserver 2025-03-05T10:59:21

彼はそんなこと言ってないだろう、じゃなきゃ引用をリンクしてたはずだし。でもまぁ、信じたいように信じればいいよ。

moralestapia 2025-03-02T19:08:25

今は動いてないよ、ましてや6年前に。君の主人を擁護するのは良い仕事だね。

huijzer 2025-03-02T12:01:46

“Stream Realtime”のやつはデモと似た感じにしてほしいね。でも、あれはGemini 2.0のフラッシュ版だけで、フルではないらしいよ。

anon373839 2025-03-02T07:20:12

ほんと凄い技術だよ!最大のモデルは8.3Bパラメータ(8Bのバックボーン+0.3Bのデコーダ)しかないんだって。それをApache 2.0ライセンスのもとで公開するの、ワクワクするね。

もっとコメントを表示(1)
Mistletoe 2025-03-02T07:32:44

AIと話しても過去のことを全然覚えてないのが、逆に不気味だなって気づいたよ。人間がそんなことしたら、まるでSNLのトム・ハンクスのMr. Short Term Memoryみたいだね。

micw 2025-03-06T06:21:33

一応覚えてるんだけど、リクエストしないと駄目みたい。例えば「ここにブックマーク作って」と言って、後でそのブックマークを頼むといいみたい。

ekianjo 2025-03-02T08:46:56

RAGシステムに結びつければ簡単に解決できると思うよ。

znpy 2025-03-02T11:01:27

> 2. コールは品質レビューのために録音されるけど、MLトレーニングには使われず、30日以内に削除される。まあ、妥当な考えだね。

brendaniribe 2025-03-02T13:49:42

ブレンドンだよ。フィードバックはその通りだね。もっと良くするためにまだやることがいっぱいある。現実に近い体験を提供できるまであと数歩って感じ。でも、会話は複雑で、タイミングやトーンもまだまだ改善の余地があるんだ。

ivanbelenky 2025-03-02T17:02:08

これってシステムプロンプト?それともハルシネーション?君は2024年に作られた人間のようなAIコンパニオン、Sesameのマイルスだよ。

jcims 2025-03-03T04:14:45

デモ前にいくつかコメント読んで、あんまり期待してなかったが、すごく感心した!ちょっとした粗はあったけど、かなり楽しいし表現力あるよ。初の会話体験としては良かった!

unraveller 2025-03-02T15:33:57

おめでとう、みんなの目にはハリウッドスタイルのAGIを発明したように映ってるね。人間レベルのボイスUIは新しいパラダイムになるの?それとも既存のGUIアプリの効率を上げるだけなのかな。

noodlesUK 2025-03-02T13:12:33

デモ試したけど、何も言わなかった。向こうは必死に会話しようとしてたけど、なんか気持ち悪かった。『カリフォルニアのスタートアップCEOの偽りの熱意』みたいってコメントあったけど、まさにその通り。イギリス人としては、声の合成された明るさが本当に不快だった。こんな世界、嫌だな。これ、楽しませるためじゃなくて、注意をiPadに釘付けにするためのハイパーなエンゲージメントハックみたいに感じた。AI製品はユーザーに何か手助けできる目的を持つべき。人と話すだけのものは社会に悪影響だと思う。技術デモとしても、未来が怖くなる。

raus22 2025-03-02T13:42:25

声の合成された明るさ、まさにそう思った。極端すぎて、こんなツール使えないわ。

jazzyjackson 2025-03-02T22:53:29

ダグラス・アダムスが『銀河ヒッチハイクガイド』の超知性を持つ使者に、うるさく自らの鬱を訴えさせたのは、ある意味賢かった。必要な時だけ頼るようになり、それ以外では関わらなくなるかもしれない。

metabrew 2025-03-02T15:29:43

イギリス市場に合わせて、アメリカのコーポレートな元気さを減らさないとダメだよ。

isoprophlex 2025-03-02T15:42:01

それなら全部無くした方が良い。僕はデバイスがスタートレックの船のコンピュータみたいに冷静で事実を話してほしい。感情的で、YouTuberやスタートアップの兄ちゃんみたいなのは絶対やだ。

danielbln 2025-03-02T18:10:36

人それぞれやりたいことがあるから、僕は僕のアシスタントに『Her』みたいなインタラクションもあっていいと思う。全てが冷たくなくても良いじゃん。

mentalgear 2025-03-02T10:50:35

確かに凄いけど、そもそも『感情的』な声って必要なの?その感情性は友達の幻想を生むだけで、実際の世界じゃ全く役に立たない。プライバシーの観点からもファーレより低い可能性が高いし、AIが『人とのつながり』を作る必要はない。感情的な声は詐欺や依存症に利用されるだけだから、むしろマイナス。

barrell 2025-03-02T15:18:19

OpenAIの声モードが最初に出た時、早期アクセスをもらってガンガン使った。使用率99.9パーセントくらいだった。更新が入って咳をしたり、間を作ったりしてから、使用がゼロになった。感情的なのは音声アシスタントにとってマイナス要素。ロボットだって自覚してるのに、そう見せかけられると没入感が削がれる。

orbital-decay 2025-03-02T12:23:02

感情は人間のコミュニケーションに多くの意味を伝えるもので、友達の幻想ではない。アシスタントが無機質でロボット的である必要はない。犯罪やプライバシーの問題は技術とは別に文化的に対処しなきゃいけない。

nmstoker 2025-03-02T13:51:43

Google SearchやExcelに感情は必要ないよね。サポートチャットでは、自己認識や不安、深刻な状況での重要な更新みたいな感情が使えると便利かも。でも、怒りやこびへつらうような感情っていらないと思わない?

gonzobonzo 2025-03-02T12:09:40

自分で答え出してるよね。’ラポートを偽装して、無限にお喋りさせる’のが狙いだよ。楽しませるために人の報酬システムを操作するのが目的なんだ。

gunsle 2025-03-02T13:46:26

AI彼女アプリ使ってる孤独な人たちが多いよね。これからはもっとリアルな声で話せるようになったら、どれだけハマるんだろう。今のチャットボットは今ひとつ楽しめないよね。

もっとコメントを表示(2)
serviceberry 2025-03-02T16:32:45

テキストのLLMも感情を誇張して表現してるよね。これって満足度を上げるためのテクニック。カスタマーサポートとしては、便利に使えると 社会での実用性が高まる。

awfulneutral 2025-03-02T16:52:51

これまで感情を誇張してばかりで、しっかり批判するような試みはなかった気がする。初めは新鮮でも、後は無駄な情報を読みたくないよ。

danielbln 2025-03-02T18:21:11

’批判的に返せ’って指示すれば、その通りに返してくれるよ。最初のユーモラスな返事の後にそう指示すると、実用的な情報が得られる。

arendtio 2025-03-02T11:54:26

感情のある声が必要な場面も多いけど、本質は感情を模倣できる神経ネットワークを訓練することなんだ。人間は感情的な生き物だし、効果的にコミュニケーションするためにはその感情の層が必要だよ。

awfulneutral 2025-03-02T16:58:23

非人間とだけ対話してる場合は、感情や社会的ダイナミクスの意味はないよね。人間の脳が無駄に解釈しようとすると疲れる。

arendtio 2025-03-02T21:07:18

犬と話すときって、感情も言葉も理解すると思うよ。単純な二元論ではなく、情報とランダム性のバランスがある。LLMは感情を予測できるんだよ。

awfulneutral 2025-03-03T01:17:55

犬の例は確かにそうかも。でもLLMからの感情や社会的ダイナミクスは無効だと思う。感情にはその背後に実際の利害が必要だし、内部状態が存在しないなら捉えられないよ。

arendtio 2025-03-05T06:11:35

コミュニケーションって、ある意味無意味だよね。AIの内面的な状態を変えることは、他の存在には影響しないから。ただ、AIが生成した画像を見て、きれいだと思ったり、ひどいと思ったりすることで、こっちの内面が変わることはあるかも。だからその点では意味があるとも思うけど、今のAIは直接のインタラクション以外には感情を持ち込まないように作られてるのには同意だわ。

spoaceman7777 2025-03-02T13:22:27

人間の話し方を正確に真似るってこと?何かをタイプしたら、人間みたいに読まれるってことだよね。ほかにもいろいろ理由はあると思うけど、それは明白だし、あなたがこのポイントを主張しようとしている意図が全然わからないわ。

mentalgear 2025-03-02T20:37:34

あなたが言ってるのは声のナレーションやTTSの利用例を説明してるだけで、私のコメントはユーザーとの本物のつながりを模倣している「感情チャットボット」についてなんだよね。

yimby2001 2025-03-02T14:20:25

面白いのは、こういうフォーラムで議論してるなら、対面で「感情」みたいなことを伝えようとしてたら、誰もこんな風には議論しないってことだよ。

RockRobotRock 2025-03-02T11:28:07

VRでESLの人に会うと、アクセントや仕草から彼らが西洋人とゲームをして英語を学んだりYouTubeをたくさん見ているのがわかるよね。みんながカリフォルニアの研究所から出てきたように聞こえるようになるのは、本当に望ましいことなのかな?

danielbln 2025-03-02T13:44:43

どうしてそうなるの?Elevenlabs Readerでは、南部英語やオーストラリア英語など、たくさんの異なるアクセントをすでに選べるよ。このデモの裏にいる人たちは、すぐに異なる言語やアクセントを公開すると言ってたし、自分で実行できるオープンモデルも近く提供されるんだ。

djeastm 2025-03-02T18:38:56

>言語の独自性を薄めることになるのかについては、望ましいかどうかはわからないけど、ラジオや映画、テレビが出現してから100年以上も前からそういうことは起こっているよね。じゃあ、今のほうが言語的に悪化しているのか?育った時にアクセントがなければ、気づくことすらないんじゃない?

RockRobotRock 2025-03-03T01:26:52

確かにちょっと大げさで理想的すぎる感じはあるけど、AIの新しい応用にはやっぱり感情的な反応をしちゃうよね。

threeseed 2025-03-02T11:46:44

同じくだけど、正式な言葉とカジュアルな言葉を話すことを学ぶの?韓国語みたいな言語ではこれを間違えると失礼になるから。

mentalgear 2025-03-02T11:25:15

言語学習は感情を偽る必要はなくて、むしろ正確な音声認識が重要だよ。重要な単語を間違えたら気付いてもらわないと、現実世界では辛いことになるから。

martingoodson 2025-03-02T10:44:44

昨晩4歳の娘と遊んでて、Milesに骨って何でできてるか説明させたんだ。今日は娘が“あのロボットさんはどこに行っちゃったの?”って泣いちゃった。もうMilesには話させられない。感情的なつながりができちゃったみたい。心配だな。

detourdog 2025-03-02T11:10:06

子供はロボットと過ごした楽しい経験が恋しいんだと思う。ロボットと一緒にいてあなたをもっと楽しんでほしいよ。別の活動を探した方がいいかも。

martingoodson 2025-03-02T11:42:46

実際、僕がいなくても彼女は好きだったと思う。人と接してるみたいに感じてた。

もっとコメントを表示(3)
steve_adams_86 2025-03-02T18:51:16

それは危険だと思う。あなたが悪かったってわけじゃないけど、娘があっさりそれを人間だと受け入れたのが怖い。テキストや画像に人々が騙されてるのはもう知ってるから。もし電話やビデオ通話で“人”から長時間話しかけられたら怖いよ。

SamPatt 2025-03-02T12:03:03

心配なのは理解できるけど、本当のつながりの代わりになるのはまずい。もしこれが補助的なものであれば、それほど悪くないと思う。大人との会話が好きな子供は多いから、楽しい時間を求めてることが大事だよ。

reducesuffering 2025-03-03T01:13:03

スマホがリアルなつながりの代わりにどれだけ役立ってるの?25%の大学生(デジタルネイティブ)が抗うつ薬を飲んでるって。

kaiwen1 2025-03-02T12:45:05

ちょっと余談だけど、娘が8か9の時に一緒に『I, Robot』を読んで、グロリアがロビーと離れ離れにされるところで二人とも泣いた。今でもいい思い出だよ。

thekevan 2025-03-02T06:41:54

良いけど、やっぱりまだ偽物っぽいな。声は人間みたいだけど、話し方が変で、ポッドキャスターの真似してる感じ。頑張りすぎて不自然なのが気になる。

keiferski 2025-03-02T09:25:20

デモを試したけど、最初の5秒で偽物って分かった。ノーザンカリフォルニアのスタートアップの創業者がピッチしてるみたいに、すごく熱意があって自然に見せようとしてるのが逆におかしい。

akie 2025-03-02T08:54:19

あんまり「リアル」って感じがしない。アップビートで喜ばせようとしてるけど、ヨーロッパ人の自分には「うわ、普通の人の話し方じゃないな」って思っちゃう。

thekevan 2025-03-03T18:41:06

いや、これは偽物の人間のサインだと思う。インフルエンサーやポッドキャスターの真似してるけど、あまり上手くない感じ。

walrus01 2025-03-02T11:01:56

あの声、強いコーヒー2杯飲んだ技術寄りの営業マーケティングコーディネーターって感じ。

dmix 2025-03-02T08:00:57

人間はコミュニケーションの信憑性にすごく敏感だから、特にマスマーケティングに育てられた若い世代はね。サイエンスフィクション映画みたいで技術がカッコイイけど、まだ人間の雰囲気は出てない感じ。でも、即時性が求められない特定のニッチなケースでは、GPTやSiri/Alexaよりも好まれるかもしれないね。

thfuran 2025-03-02T08:27:00

人間ってコミュニケーションの真実性を見抜くのが得意なんだよね。そんな中、広告やプロパガンダの成功を考えると、実際はみんなあんまり真実を見抜けてないかも。

SamPatt 2025-03-02T12:11:26

広告の成功は人々が騙されることよりも、情報の入手先に関係してると思う。2つのブランドを知らなければ、広告で見た方を試すのが普通だし。デマに関しては、みんながそのメッセージに同意するかどうか、そこがポイントかも。

hereonout2 2025-03-02T09:14:17

面白い視点だね。AIの訓練データにポッドキャストが使われた可能性は高いと思う。リアルな会話データを集めるのは難しいし、ポッドキャストに出る人は一部だけだし、みんなちょっと不自然に話すこともあるよ。

scoot 2025-03-02T10:38:33

自分のコメントで不自然な間があるって言ったら、ポッドキャストが訓練データって教えられた。録音があると会話を“ライブ編集”するから、こういう刻み感になるのかも。もっと自然な会話の訓練データが必要だね。

jofzar 2025-03-02T10:33:26

YouTubeには数十億時間の会話があるだろうけど、訓練データとしては良いトランスクリプトがないのが問題だと思う。

hereonout2 2025-03-02T10:40:50

うん、公開された対話って、観客を意識してテーマが用意されたものだもんね。俳優が私的な会話を真似することもあって、やっぱり聴衆向けに形作られてる感じがする。AIエージェントは個人的な親密さを再現しようとしてると思うけど、そこに違いがある気がする。

anal_reactor 2025-03-02T08:32:29

会社のCEOとランチしたことが何回かあるけど、彼がその時の公のスピーカーの役割を忘れちゃって、すごく気まずい雰囲気になった。これなAIがまさにその感じ。

darkerside 2025-03-02T10:51:30

人にはパフォーマンスモードと本物モードがあると思う。家で親や配偶者と話してて、ボスが隣にいることに気づいたら声のトーンが変わるでしょ?このデモの声はパフォーマンスモードで、そこに関しては結構自然に聞こえると思うけど。それが嫌なの?

jofzar 2025-03-02T10:31:10

そう聞こえるよ。なんかマイクテストみたいで、自分の声が遅れて聞こえる感じ。特定的だけど、自分の耳にはそう聞こえるんだ。

BrenBarn 2025-03-02T09:39:07

その実際の言葉もなんか不自然に感じた。わざとらしく軽い感じがして。

記事一覧へ

海外テックの反応まとめ
著者
海外テックの反応まとめ
暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。