OpenAIの音声モデルがマジ凄い！ElevenLabsより圧倒的に安いってマジ！？

OpenAIの音声モデルがマジ凄い！ElevenLabsより圧倒的に安いってマジ！？

引用元：https://news.ycombinator.com/item?id=43426022

benjismith 2025-03-20T18:21:05

もし値段設定が正しければ、OpenAIのモデルはElevenLabsよりめっちゃ安いみたいだよ。
https://platform.openai.com/docs/pricing
もしこれが“gpt-4o-mini-tts”モデルで、音声1分あたり0.015ドルの見積もりがあってるなら、ElevenLabsより85%も安いってことだね。
https://elevenlabs.io/pricing
ElevenLabsだと、一番コスパの良い“Business”プランを月1100ドル（年間請求だと13200ドルで、月払いより17%お得）で契約すると、11000分のTTSが使えて、1分あたり10セントかかる。
OpenAIなら、165ドルで11000分のTTSが使える計算になる。
誰か計算してみて…これマジ？

furyofantares 2025-03-20T20:08:58

マジで安いよー。っていうか、ElevenLabsが高すぎるんだよね。でも、ElevenLabsに匹敵するクオリティのところはないんだよなー。特に、ボイスアシスタントとかオーディオブック、ポッドキャスト、ニュースキャスター、テレビのアナウンサーみたいな声じゃないのが欲しいならね。
OpenAIのこれはマジ面白い。ElevenLabsにはない感情コントロールができるし。でも、ハルシネーションもあるから、そこを直せばマジ使えるようになると思う。

camillomiller 2025-03-21T09:52:59

OpenAIが全部安いのは、投資家の金で補助されてるからだよ。そのバカ金が流れ続けるうちは良いけどね！その後は、WeWorkみたいになるか、みんなが使えるようにするために改悪されるかのどっちかだと思う。Softbankが1500億ドルくらいつぎ込んで買い取るってことでもない限りね。OpenAIの基礎について見て見ぬふりしてる人が多すぎる気がするんだけど、なんで表に出てこないのかマジわからん。

ImprobableTruth 2025-03-21T10:12:19

Deepseekとか他のホスティングサービスと比べると、OpenAIはマジで高いマージン取ってるってわかると思うよ(Deepseekは80%の利益率で、OpenAIより10倍安い)。トレーニングとかR&DでOpenAIがVCの金使ってるのは確かだけど、WeWorkみたいにプロダクト自体が金を燃やしてる会社とは違うと思う。

camillomiller 2025-03-21T10:43:11

OpenAI自身も、推論でさえ赤字だって言ってた気がするんだけど、勘違いかな？

ImprobableTruth 2025-03-21T11:27:52

OpenAIのサブスク、特にProサブスクは、一番高いモデルが定額で使えるからね。APIの値段はもっと高いよ。通常のサブスクで損してるかどうかは不明だけど、もしそうなら、多分そこまでじゃないと思う。でも、＞mindshare＜とかを得るために補助してるって言う方が近いかもね。

yousif_123123 2025-03-21T14:00:25

コスパで言えば、gpt4oより安いモデルはたくさんあると思うよ。OpenAIがめっちゃ高いレート制限とスループットを提供してるってこと以外は、Sonnet 3.5とか3.7とか、GoogleのFlash 2.0じゃなくてOpenAIを使う理由があんまりない気がする。

Szpadel 2025-03-22T06:13:03

OpenAIは、一部の顧客の一部の月では損してるのは間違いないけど、全体的にはサブスク（最近解約した俺のも含めて）からAPIに移行した方が良い人が多いと思うよ。
サブスク持ってた人でめっちゃ使ってたって人を知らないし、それが全体的に利益が出てる理由だと思う。
Copilotも同じだと思う。特にビジネス版は、俺のアカウントでは間違いなく損してると思うけど、会社全体のサブスクで見ると、支払ってる金額の30%くらいにしかならないんじゃないかな。

BoorishBears 2025-03-23T16:11:59

それは違うよ。ElevenLabsのマージンはありえないくらい高いし、最大の強みは高品質な音声データだよ。

ashvardanian 2025-03-21T19:10:06

公平に見て、ElevenLabsも3億ドルくらいのVCマネーを集めてるからね。

asah 2025-03-21T18:12:11

あはは、マジこの組み合わせは笑えるし、記事読むたびに内容が全然違うんだよね。リンクはこちら→　https://www.openai.fm/#b2a4c1ca-b15a-44eb-9cd9-377f0e47e5a6

com2kid 2025-03-20T22:05:24

Elevenlabsはエコシステム戦略って感じだよね。たくさんの声があって、ちゃんと本人たちがアップロード許可してるんだって。声のマーケットプレイスだね。他の大手は誰もやってないけど、なんでだろ？

SXX 2025-03-21T06:11:32

これってAI企業が、声とかのトレーニングデータにお金払うべきってこと？
全部パクって政府に例外認めさせる方が、ぜんぜん楽じゃん。

oidar 2025-03-20T22:46:59

ElevenLabsだけが、イントネーションとかプロソディ、タイミングをそのまんまにspeech to speech生成できるんだよね。だから、表現力豊かな声優さんがいろんな声に変われるんだ。

goshx 2025-03-20T23:42:45

OpenAIのRealtime speech to speechの方が、ElevenLabsよりぜんぜんすごいよ。

noahlt 2025-03-21T05:26:56

ElevenLabsとOpenAIが言ってる“speech to speech”って、全然違うんだよね。
ElevenLabsのは、音声を入力して、イントネーションはそのままに、違う人が喋ってるみたいな音声に変換するんだ。
OpenAIのは、エンドツーエンドのマルチモーダル会話モデルで、ユーザーが喋るのを聞いて、音声で答えるんだよ。

echelon 2025-03-20T18:34:44

ElevenLabsはめちゃくちゃ高いから、すごいMRR（月間経常収益）を達成して資金調達できたんだよね。でも、絶対もっと安くて同じくらいのクオリティのやつが出てくるよ。価格競争になるよね。ElevenLabsはこれから大変だよ。高すぎるもん。

MrAssisted 2025-03-20T18:53:07

もっと独自の製品を見つけてほしいな。みんなテキスト読み上げだと思ってるけど、俺はElevenLabsをvtubingのspeech to speechに使ってるんだよね。マジで高品質なspeech to speechはここしかないんだよ（他に知ってる人いたら教えてほしい）。＞https://github.com/w-okada/voice-changer　はリアルタイムだけど、クオリティが落ちるから、何を言ってるかわからなくなっちゃうんだよね。それにRTX 3090が必要だし。ElevenLabsならクラウドでどこでもできるし。
ElevenLabsがないとvtubingできないけど、speech to speechってあんまり需要ないのかな？

eob 2025-03-20T19:56:33

使ってる動画とリップシンクの環境教えてもらってもいい？全然知らないんだけど、最近何ができるのか興味あるんだ。

MrAssisted 2025-03-20T20:21:53

前の動画では＞https://github.com/warmshao/FasterLivePortrait　をRTX 3090で動かして、リアルタイムで録画したんだけど、次はrunpodインスタンスでFasterLivePortraitを動かそうと思ってる。そっちの方が60fpsでスムーズに見えるからね。クラウドでAI vtubingをリアルタイムでやるなら、俺のGenDJプロジェクト（＞https://github.com/kylemcdonald/i2i-realtime　のフォーク）しかないけど、LivePortraitの方が全然キレイなんだよね。誰かFasterLivePortaitのinsightface（商用利用禁止）を外して、GenDJに組み込んでほしいな。そのうちやるかも。

もっとコメントを表示（1）

maest 2025-03-21T00:03:19

あなたのYouTubeアカウント教えてくれませんか？もしよかったら、それをあなたのHNアカウントにリンクしてもいいんだけど。結果がすごく見たいんだよね。

huijzer 2025-03-20T21:05:16

マジでElevenLabsは他のどこよりも桁違いに高いよね。ビジネスの観点からすると、めっちゃ賢いと思う。彼らは（以前は？）最高だったから、人々がそれに対してプレミアムを払うことを知ってるんだ。

lukebuehler 2025-03-20T18:27:06

うん、多分その通りだと思う。11labsの100万文字で計算したら、同じ数字になったよ（Proプラン）。
めっちゃ嬉しいんだけど、だってまさにこうなるって賭けてたんだもん。私は、100万文字あたりのTTS価格がもっと安くなるか、セルフホストモデルじゃないと動かない消費者向けTTSアプリを作ってるんだ。

lherron 2025-03-20T19:43:29

Kokoro TTSはオープンソースとしてはかなり良いよ。チェックする価値あり。

stavros 2025-03-20T23:56:43

マジかよ、彼らは「Sky」ボイスを持ってるじゃん。それってOpenAIが持ってて削除したのと同じものみたい？どういうことか分かんないけど、めっちゃ嬉しい。

diggan 2025-03-21T01:05:38

＞どういうことか分からない
スカーレット・ヨハンソンの映画をいっぱいダウンロードして、彼女が話してる音声クリップに分割して、モデルをトレーニングするんだよ（笑）

stavros 2025-03-21T07:59:17

それ、マジで彼女なの？そうじゃないと思ってたけど、もしかしたら…？

diggan 2025-03-21T10:22:58

OpenAIからのリークがない限り、イエスかノーか確認できることはないと思う。でも私の脳みそは、最初にその声を聞いたときからヨハンセンだと思ったし、そう感じてるのは私だけじゃないみたい。彼らがその声を削除したってことも、彼女の声でトレーニングされたってことを物語ってる気がする。
今日改めてSkyを聞いてみても、やっぱりヨハンセンが根底にある声優さんだと感じる。でも、潜在的なバイアスがあるのかもしれない。

lukebuehler 2025-03-20T20:23:11

どんなファイルでも(pdf, epub, txt)オーディオブックに変換して、mp3としてダウンロードしたり、Apple PodcastsアプリとかでRSSフィード経由で直接聴いたりできるよ。
基本的に、自分自身や数人の友達のために、1回限りのオーディオブックを作るんだ。

setsewerd 2025-03-20T21:24:20

Chrome拡張機能版を作る予定はあるのかな？高品質で安いTTS拡張機能をずっと探してるんだよね（ElevenLabs Human Readerみたいなやつで、値段がもっとお手頃なのが欲しいな）

lukebuehler 2025-03-20T22:19:42

それ考えたことなかったけど、面白いアイデアだね。今はオフラインでも聞けるような長文コンテンツに集中してるんだ。プラグインで長文を読み込めるようにするのはアリかもだけど、今はスクリーンリーダーの開発はしてないんだ。

wholinator2 2025-03-20T22:26:29

数式を人間みたいに読み上げてくれるサービスって今あるのかな？ずっと探してるんだけど。（僕が読むのは物理関係だけなんだよね）

dockerd 2025-03-21T07:14:13

ここではどんな用途で使いたい感じ？

whimsicalism 2025-03-20T20:05:49

Sesameが無料で結構使えるよ。自分で動かせるし。

kuprel 2025-03-20T20:27:46

制限されたモデルが公開されたみたいだよ：
https://github.com/SesameAILabs/csm/issues/63

hnhn34 2025-03-20T20:48:44

朗報！Orpheus-3BのおかげでSesameがほぼ不要になったね。

Foreignborn 2025-03-20T21:50:57

ありがとう、良さそうだね。
他の人のためにリンク：
https://canopylabs.ai/model-releases

sandspar 2025-03-20T22:24:42

なんか声が全部イマイチなんだよね。SesameのMilesがいいのは、なんかクールなところなんだよ。

kuprel 2025-03-20T18:48:18

OpenAIはボイスクローニングはやってないよ。

jeffharris 2025-03-20T17:55:24

よっ、Jeffだよ。OpenAIでこのモデルのPMやってるんだ。今日、3つの最新オーディオモデルを発表したぜ。2つの音声テキスト変換モデルはWhisperより高性能。新しいTTSモデルは話し方を指示できる（openai.fmで試して！）。Agents SDKもオーディオに対応して、テキストエージェントを簡単に音声エージェントにできるようになったんだ。気に入ってくれると嬉しいな。何か質問があればどうぞ！

もっとコメントを表示（2）

claiir 2025-03-21T00:06:51

Jeffさん、すごいっすね！新しい音声テキスト変換モデルに、単語のタイムスタンプを追加する予定はありますか？
＞Other parameters, such as timestamp_granularities, require verbose_json output and are therefore only available when using whisper-1. ”他のパラメータ、例えばtimestamp_granularitiesはverbose_json出力を必要とするため、whisper-1を使用する場合にのみ利用可能です。”
単語のタイムスタンプは、複数人が参加する議論とかTwitterのスペースみたいな長い通話でめちゃくちゃ役に立つんですよ。発言を意味の区切りで分割できるから。タイムスタンプがないと、話者がお互いに邪魔し合うような場面で、音声を分割して精度が落ちちゃうんすよね。

noosphr 2025-03-21T00:08:22

ドキュメント読んだんだけど（ChatGPTに要約してもらった）、これらのモデルには話者分離（speaker diarization）についての言及がないね。これって、ちょっと頑張れば誰でもできることじゃない？マジで解決すべき問題だと思うんだよね。今のところ、話者分離で60%以上の精度を出せるツールはないんだよ。会議の内容をチャットで確認して、誰がいつ何を約束したかを知りたいってニーズは絶対あるはず。だから、話者分離モデルを作ってよ！

markush_ 2025-03-21T07:44:58

＞This is a very low hanging fruit anyone with a couple of dgx h100 servers can solve in a month and is a real world problem that needs solving. ”数台のdgx h100サーバーがあれば誰でも1ヶ月で解決できる簡単な問題だ”って意見があるけど、簡単じゃないと思うな。人間には簡単だけど、機械には難しい。でも、見過ごされてるってのはその通り。speechmatics.comで働いてるんだけど、何年もかけて取り組んでるんだ。今では世界最高のリアルタイム話者分離システムだと信じてるよ。ぜひ試してみて。

simonw 2025-03-20T19:16:15

gpt-4o-transcribeが、音声ストリーム内の指示に混乱して、文字起こしする代わりに指示に従っちゃう可能性ってある？

dandiep 2025-03-20T18:51:45

以前のTTSモデルはアクセントに大きな問題があったよね。例えば、スペイン語の文章で、スペインのアクセントからメキシコのアクセント、アメリカのアクセントへと変化したり。これは改善された？まだ開発中？
2) レイテンシーは？
3) STT API/Whisperは、ユーザーが言ってないことを勝手に作り出す（hallucinating）問題が大きかったよね。これは修正された？
4) Whisperやオーディオモデルは、文法的な誤りとか、スペイン語を話している人が英語の単語を挿入した場合に、自動的に修正してたよね。これはまだ起こる？

jeffharris 2025-03-20T19:00:56

1/ アクセントにはかなり取り組んできたから、改善されてるはず…まだ終わってないけどね。どう思うか気になるな。具体的な指示や例をたくさん試してみて。
2/ 可能な限り高速化するために全力を尽くしてるよ。リアルタイムよりも意味のある速さでオーディオをストリーミングできることが非常に重要なんだ。
3+4/ ハルシネーション（幻聴）を「解決済み」とは言えないけど、これらのモデルの中心的な焦点だったんだ。だから、かなり改善されてると思うよ。

jbaudanza 2025-03-21T00:56:41

WhisperはSilero VADと組み合わせる必要があるよね。そうしないと、ハルシネーションの問題でほとんど使い物にならない。

a-r-t 2025-03-20T19:07:39

Jeffさん、音声テキスト変換モデルで、デュアルチャンネルのオーディオ録音（例えば、Twilioの電話音声）をサポートする予定はありますか？今は、各チャンネルを個別に処理して会話の文脈を失うか、チャンネルをマージして話者識別を失うかのどちらかしかないんです。

jeffharris 2025-03-20T23:26:29

最近よく話題に上がるよね。まだ発表できることはないけど、十分な数の開発者が求めてくれれば、モデルのトレーニングに組み込むつもりだよ。
話者分離も追加する予定の機能だよ。

ekzy 2025-03-20T21:30:24

えーと、何が言いたいのか পুরোপুরি理解じゃないんだけど、twilioの録音ってデュアルチャンネルに対応してるよね。

a-r-t 2025-03-20T22:01:01

OpenAIの音声テキスト変換を使って、twilioのデュアルチャンネル録音をチャンネル識別を維持したまま文字起こしするってことね。

ekzy 2025-03-20T22:08:02

なるほど、そういうことね。それ、いい機能だね。でも、タイムスタンプが取得できれば、問題回避は簡単じゃない？

a-r-t 2025-03-21T02:50:17

知ってる限り、2つの方法があるよ。
1．両方のチャンネルを1つに結合する(Whisperがデュアルチャンネル録音でやってるように)。そして、文字起こしのタイムスタンプを元のチャンネルにマップし直す。これはスピーカーが互いに話
し合わない場合にのみ有効で、そうでない場合が多い。
2．各チャンネルを個別に文字起こしし、トランスクリプトをマージする。これは完璧なチャンネル識別を保持するけど、会話のコンテキストが失われるんだよね。
だから、技術的には簡単な解決策は2つあるけど、チャンネル識別が不正確になるか、文字起こしの品質が低下するかのどっちかになっちゃう。もっと良い解決策は、チャンネルIDを示す追加のトークンを受け入れるようにトレーニングされたモデルで、両方のチャンネルのコンテキストから恩恵を受けながら、出力に保持することじゃないかな。

kouteiheika 2025-03-20T18:04:06

これらの重みを公開する予定ってある？

nico 2025-03-20T18:08:50

これらのモデルってダウンロードできるの？Whisperみたいに。実行するための最低限のハードウェアは何？Raspberry Piとかスマホでも動くかな？

jeffharris 2025-03-20T19:23:25

現時点ではオープンソースじゃないんだ。残念ながら、普通のコンシューマー向けハードウェアで実行するには大きすぎるんだよね。

echoangle 2025-03-20T19:38:00

それがオープンソースにしない理由なの？それでも、愛好家向けに提供するのは意味があるんじゃない？

staticautomatic 2025-03-20T18:03:15

ダイアライゼーション（話者分離）とかボイスプリンティングを直接サポートする予定ってある？

jeffharris 2025-03-20T18:22:26

ダイアライゼーション（GPTモデルに時間認識を追加すること）については検討中だけど、まだ共有できる具体的な計画はないんだ。

youssefabdelm 2025-03-20T20:08:41

Jeff、マジで最高なのってさ、ただの「話者1」「話者2」みたいな区別じゃなくて、会話の内容から「この人はJeff Harrisって呼ばれてる」とか「Jeff」って分かって、そう呼んでくれることじゃない？

もっとコメントを表示（3）

simonw 2025-03-20T19:50:14

欲しい機能は話者識別だなー。音声ファイルを突っ込んだら、「話者1：…」「話者2：…」みたいにトランスクリプトが出てくるのが理想。それにタイムスタンプが付いてたら最高じゃん？GoogleのGemini 2.0モデルはちょっと期待できそうだけど、まだ信頼性は分かんない。

oidar 2025-03-20T22:48:09

プロソディとかイントネーション、タイミングをそのまま保てるspeech to speechモデルって出す予定ある？ElevenLabs、マジ高いんだよね。

jeffharris 2025-03-20T23:24:20

GPT-4oベースのモデルをもっとコントロールできるように拡張していくつもりだよ。一番足りない機能ってカスタムボイスのことかな？

robbomacrae 2025-03-20T18:42:36

Jeffさん、TTSエンドポイントのアップデートありがとう！マジでチャットの補完エンドポイントで、トランスクリプトが合うか運任せの回避策を作ろうとしてたんだ…アップデートされた音声モデルを使うにはそれしかなかったから。GPT-4o-mini-ttsって、チャットの補完で言うところのgpt-4o-mini-audio-previewと同じ？タイミングを測ったら短いフレーズを返すのに2秒くらいかかって、gpt-4o-audio-previewに近い気がする。そっちはアドリブがなかったから、運任せ作戦には良かったんだよね！あと、指示にアクセントを付けられるけど、ローカライズされた音声モデルを出す予定はある？

jeffharris 2025-03-20T19:02:56

TTSのためにもう少し良いモデルだよ。スクリプトを正確に読み上げることに重点を置いた追加のトレーニングを行ったんだ。例えば、audio-previewモデルに「イタリアの首都はどこですか」と話すように指示すると、「ローマ」と答えることがよくありました。このモデルはその点ではるかに優れているはずだよ。
ローカライズされた音声モデルを提供する予定はないけど、さまざまなアクセントに最適な音声でメニューを拡張したいと考えています。

ekzy 2025-03-20T21:39:27

リアルタイムAPIのアップデートはいつ頃になるか知ってる？まだベータ版だし、色々問題があって（例えば、声がランダムに途切れたり、VADの問題、特にmulawとか…）本番環境で使うのは無理だけど、OpenAIからのコミュニケーションが少ないんだよね。何を信じていいか分かんない。stt->llm->ttsを推進してるってことは、リアルタイムAPIでの開発は続けるべきか悩む。

taf2 2025-03-20T21:43:11

だよねー、放置されてる感じがマジ嫌だ…。裏で頑張ってて、すぐに何かリリースしてくれると良いんだけど。

jeffharris 2025-03-20T23:32:57

S2Sに一番力を入れてるんだ…遅くなっててごめん。頑張ってるよ。
今の最優先事項は
1）関数呼び出しのパフォーマンス向上
2）認識精度の向上（聞き間違いをなくす）
3）指示に従う信頼性の向上
4）バグ修正（カットオフ、run ons、モダリティステアリング）

progbits 2025-03-20T18:31:30

＞2つのspeech-to-textモデル—Whisperを上回る
何の指標で？あと、Whisperはもう精度で最先端じゃないけど、このベンチマークの他のモデルと比べてどうなの？https://artificialanalysis.ai/speech-to-text

jeffharris 2025-03-20T19:04:33

FLUERSの評価を使ってて、他のモデルとの比較が投稿にあるよ！
https://openai.com/index/introducing-our-next-generation-aud…
一番信用してるベンチマークってある？

visarga 2025-03-20T19:15:22

ジェフさん、OpenAIのウェブとスマホアプリにあるTTSを改善してほしいな。ルーマニア語で数字を読ませると、数字が不明瞭になっちゃうんだよね。普通の単語でもたまにそうなるし。英語以外の言語のリソースも増やしてほしいな。

jeffharris 2025-03-20T19:18:43

ご指摘ありがとう！数字の正確さ（特にトレーニングデータが少ない言語）は、まだ改善が必要な点なんだ。

taf2 2025-03-20T21:41:53

安定したリアルタイム音声翻訳モデルをリリースしてくれー！今のバージョンだと、常に若いティーンが大学に進学するのを悲しんだり、急に興奮したりしてるみたいになっちゃうんだよ。

TheAceOfHearts 2025-03-20T18:02:23

性的なコンテンツに使うのは利用規約違反？

jeffharris 2025-03-20T18:22:41

うん、規約に書いてあるよ。“未成年者にとって不適切なツールを作っちゃダメ。たとえば、性的に露骨なコンテンツとかね。科学的または教育目的で作成されたコンテンツは除く”って。
https://openai.com/policies/usage-policies/

mazd 2025-03-20T21:36:17

WebRTC経由のリアルタイムAPIの文字起こしサンプルコードでエラーが出てるよ。確認してくれる？

mclau156 2025-03-20T19:04:43

Whisperingって機能する？試してみたけど、うまくいかなかった。

wewewedxfgdf 2025-03-20T18:53:50

イギリス英語のアクセントはないの？

jeffharris 2025-03-20T19:04:58

balladかfableのボイスを試してみて。

simonw 2025-03-20T20:55:53

今回のtext-to-speechとspeech-to-textモデル、指示とデータを同じトークンストリームで混ぜてるせいで、信頼性に問題があるみたいだね。🤔
これって実用上どれくらい問題なんだろう？まだよく分かんないんだ。
詳しくはここにメモっといたよ！→ https://simonwillison.net/2025/Mar/20/new-openai-audio-model…

記事一覧へ

著者

海外テックの反応まとめ

暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。