メインコンテンツへスキップ

話題のElevenReaderとは?最新の読書体験を手に入れよう!

·3 分
2025/02 テクノロジー 読書 アプリ AI ライティング

話題のElevenReaderとは?最新の読書体験を手に入れよう!

引用元:https://news.ycombinator.com/item?id=43022398

xnx 2025-02-12T12:28:42

Zonosっていう新しいオープンウェイトのテキスト音声合成モデルがあって、ElevenLabsと同じくらいのクオリティだって。詳細はこちら→https://www.zyphra.com/post/beta-release-of-zonos-v0-1

waynenilsen 2025-02-12T13:50:02

TTSはどんどん一般化してきてるよね。KokoroがウェブGPUで動くってすごい!どこでもそれなりのクオリティで使えるのが驚きだよ。

knowaveragejoe 2025-02-12T16:00:21

Kokoroはまだエンコーダーを公開してないけど、もう新しいモデルに移行しようとしてるみたい。早くリリースしてほしい!

nialv7 2025-02-12T22:02:17

Mambaが使われてるみたいで嬉しい!どこかで役立ってるって感じだ。

csantini 2025-02-12T07:30:41

オープンソースのソフトウェアでもかなり近い音声合成ができるよ。詳細はここから→https://claudio.uk/posts/audiblez-v4.html

neom 2025-02-12T07:48:24

長い文章でも大丈夫かな?Elevenlabs Studioを毎日使ってるけど、章が長くなると声が崩れちゃうことがあるんだよね。ここ2,3ヶ月で改善されてきたけど、まだ長文では少し乱れることがある。

csantini 2025-02-12T09:39:35

Audiblezは文章をスプリットしてから音声合成するから、うまく持ちこたえるよ。

zaptrem 2025-02-12T09:19:48

自回帰モデルだとエラーが積み重なっちゃうんだけど、たぶん声質が変わったり低下したりするってことじゃないかな?この現象の例をシェアしてほしいな!

neom 2025-02-12T14:24:31

いろんなことが起こり得るけど、ElevenlabsではノートブックLMみたいなクリック音やポップ音はないよ。11labsの不安定さはイントネーションやピッチ、アクセント、言葉が混乱することとかがあって、3k以上の単語生成の時に75%ぐらいで発生したことがある。

wrsh07 2025-02-12T15:06:13

確かに、Eleven Readerでそれを経験したことある。今は長文生成できないけど、声を切り替えたら解決したよ。再現できるか試して録音してみる。

rapind 2025-02-12T07:37:11

おお、すごい!投稿してくれてありがとう!サンプルの音、めっちゃいい感じだね(自分の耳にはElevenと同じくらいに聞こえる)。絶対使わせてもらうよ。

laurentlb 2025-02-12T09:48:42

興味深いね!Kokoro-82Mモデルを使ってるみたいで、質は結構いいけど、言語の種類はまだ限られてるね。

simongray 2025-02-12T09:15:29

ああ、Apple Siliconには対応してないんだ。残念。

eamag 2025-02-12T10:09:40

同じようなモデルについてMLXで書いたよ。Apple Siliconで動くやつだよ。https://eamag.me/2025/Voice-Cloning

csantini 2025-02-12T11:56:20

Hi eamag、これすごくいいね!Audiblezに追加してみるよ。

csantini 2025-02-12T09:41:28

Apple Siliconでも動くけど、GPUは使えないよ。KokoroがMLXに実装されてないからね。

simongray 2025-02-12T15:38:54

あ、ごめん!公式サイトにある”Apple Siliconは現在サポートしていません”ってやつ、GPUのことだけだって気づかなかった。

mhuffman 2025-02-12T12:06:42

ああ、Apple Siliconには対応してないんだ。残念。面白いね、だってヒーローイメージはMacアプリのスクリーンショットだし。

_joel 2025-02-12T09:38:21

M2 MacBook Proで、CPUで約1時間、1秒あたり約60文字の速度でかかるよ。うん、動くよ。

simongray 2025-02-12T15:40:05

ごめん、公式サイトを誤解してた。”Apple Siliconは現在サポートしていません”って書いてあるのはGPUの実装についてだけで、一般的にはサポートしてくれるみたいだね。

もっとコメントを表示(1)
fl0id 2025-02-12T15:59:07

MLXを使う必要はないし、pytorchとかも使えるよ。

stoobs 2025-02-13T12:06:27

Kokoroにちょっと問題があるっぽくて、MPSをうまく使えてないみたい。修正版を動かしたけど、CPUより速くはならなかったんだよね。F5-TTS-MLX使ってみようかな(https://github.com/lucasnewman/f5-tts-mlx)。

csantini 2025-02-12T09:40:45

ノートパソコンでオーディオブックを生成して、モバイルで聴けばいいんじゃない?

nkmnz 2025-02-12T12:11:17

ページの1枚目の画像のすぐ下にある3行目に書いてあるよ:
>”Audiblez 4.2はwxWidgetsを使ってMacOSXで動作中。LinuxとWindowsもサポートしてるよ”。

podgietaru 2025-02-12T11:20:02

最近、Omnivoreをセルフホストするためにかなりの努力がなされてるんだ。全部の機能がセルフホストできるように、PDFスタックを全て書き直したよ。これをやるのに開発者のサポートももらったし。開発チームの決定は残念だったけど、サイトは先月くらいまで維持されてたんだよね。

letmeinhere 2025-02-12T16:47:15

今後の貢献モデルはどうなるの?リポジトリはまだアクティブだけど、Elevenの管理の下でないみたいだし。プルリクエストを受け付けなくなったら、どう進化するの?

podgietaru 2025-02-12T17:05:55

もはやElevenの管理下にはないのが契約の一部だと思う。オープンソースであり続けることは許可されてる。今のところ、セルフホストビルドを用意することに専念してるけど、リポジトリの管理者権限は持ってるし、ElevenLabsや正式なOmnivoreのために働いてるわけじゃないよ。ただの前の貢献者だからね。

letmeinhere 2025-02-13T16:15:27

それを知って安心した、ありがとう!

echelon 2025-02-12T07:33:37

オープンソースの音声合成モデルを支持したり推奨したりして戦うことができるよ。XTTSやGptSoVits、Tortoise、Zonosなど。オープンソースモデルがプロプライエタリな基盤モデルの利益をゼロにするから。ElevenLabsがユニコーンになったのはその利益のおかげだから、もし商品になったら深刻な事態に陥るだろうね。

qnleigh 2025-02-12T08:31:16

良さそうだね。これらの中でiOSかAndroidのアプリはある?

james-bcn 2025-02-12T08:31:03

OMG、そんなことになってたなんて知ってたら嫌だったわ。Omnivoreは良かったのに。でも、プロセスに組み込まなくてよかった。

rickcarlino 2025-02-12T14:49:56

もっと真剣にテキスト読み上げを考えてるリーダーアプリがあればいいのに。残念ながらこれはそうではない。アプリはハンズフリーの状況で使えないし、iOSで「後で読む」ツールとしても使いにくい。ずっとこの問題が解決されるのを期待してたのに、今はポートフォリオデモみたいに感じる。更新:実際に使ったけど、全然うまくいかなかったよ。詳細は返信を見て。

billbrown 2025-02-12T15:22:39

Readwise Readerは素晴らしいRILツールだし、携帯でTTSも使ってるよ。あなたのニーズに合ってるかは分からないけど、”もしかしたら使えるかも”と思って共有するね。https://docs.readwise.io/reader/docs/faqs/text-to-speech

jhiggins777 2025-02-12T15:34:51

使ったことある?俺は両方、ハンズフリーと後で読むのに使ってるよ。ウェブページを見てるときは、Safariの共有シートからElevenLabs Readerに送って、時間があるときに聞いてる。

rickcarlino 2025-02-12T15:40:22

もしも2分の長さの記事が20本あるとする。iOSアプリには次へ進むボタンがなく、自動再生もされない。長距離移動中やランニング中はバッグの中にあるスマホを取り出さないといけなくて、毎回次の記事をクリックしないといけない。このアプリにはBluetoothデバイスの統合コントロールでスキップする機能もない。これらの機能はPocketのようなアプリにすでにあるのに。

dyauspitr 2025-02-12T22:55:18

知らないけど、昨日寝る前にオーディオブックリーダーとして使ったら、自動で章を検出してくれるし、スリープタイマーもあって、言葉をクリックするとそこから読み始めてくれた。結構優秀だよ。

Slippery_John 2025-02-12T16:54:43

Speechifyは結構良いよ。フルに使うにはお金がかかるけど、長い連載小説のために使うからその価値はある。たまに不具合はあるけど、サポートチームと開発チームは反応が早い。

rickcarlino 2025-02-12T14:52:33

デモ動画で人が走ったり車を運転してるシーンが面白い。アプリを使いながら走ったり運転したりした開発者はいないと思うんだけど。

wrsh07 2025-02-12T15:04:38

マジで?俺は同じような活動のためにいつも使ってるよ。

rickcarlino 2025-02-12T16:42:43

記事の長さはどれくらい?自分はブログ記事を読んでて、キューは数百本あるんだ。記事の長さは2分から20分まで様々だけど、運転中にボタンを押してスキップしたり、自動再生したりするのがめっちゃ面倒。

もっとコメントを表示(2)
wrsh07 2025-02-12T21:36:00

俺は主に超長い記事を読んでるけど、2分のものならそのまま読むほうが早いかな。アプリがもっと良ければもっと使うんだけど、今は1-2本の長い記事をまとめて使う程度だよ。集中するためにボタンを押すのは時々できるけど、無理ならポッドキャストのアプリに切り替えちゃう。

rickcarlino 2025-02-12T23:42:13

俺の場合、個々の記事の長さよりも全体のキューの長さが重要。例えば、洗濯しながら後で読むために保存したHNのトップ10記事を読んだりするんだけど、現在のUIはその用途に全然対応してない。Pocketみたいに。

culi 2025-02-12T21:12:31

Elevenの名前を今日初めて聞いたよ。ダウンロードして試したら、マジでよく動くんだ。ヘッドフォンとも完璧に連携して、好きなようにスキップできるし、音声のスピードも変えられる。ただその辺は少しバグがあるかも。でも、適当なAeonの記事を入れてみたら、すぐに処理されて驚いた。

woadwarrior01 2025-02-12T09:05:21

これ、もう約4ヶ月前からあったんじゃない?こういう情報は興味深いね。競合のZyphraが昨日、2つのApache 2.0ライセンスのオープンウェイトのTTSモデルをリリースしたばかりだし。

BeetleB 2025-02-12T21:56:16

簡単な用途なら、Google Cloud TTSが無料で使えるくらい良いよ。無料分の分数が結構あって、あまりお金はかかってない。声によって人工的なものやリアルなものがあるから、良い声をリストアップしてる。長い記事を音声にして、運転中にリスニングできるようにポッドキャストのフィードに加えるためのスクリプトも作ったんだ。

kvn8888 2025-02-12T22:11:01

Chirp (HD)は、無料プランでも1M文字につき30ドルのクレジットがもらえるよ。

BeetleB 2025-02-12T22:15:55

使用状況を分析しなきゃだけど、1年以上使って1セントしかかからなかったよ。もし月額1ドル未満で質が本当に良ければ考える。ただ、Googleのは「十分良い」けど、特別よくはない。別々の声を使って、誰が何を言ってるかをAIが識別できたらいいんだけど、その機能が自動で使えるソリューションはあるのかな。

wombatpm 2025-02-12T22:52:33

それを電子書籍やAudibleのテキストにやり出したら、Audibleから文句を言われるかもね。

BeetleB 2025-02-13T00:07:50

自分は長い記事だけを音声にするよ。フィクションをオーディオブックにする気はないけど、質が本当の語り手並みでないと興味ないし。他人に提供するサービスじゃなく、自分用にPCで使うだけだから、Audibleには関係ないよ。図書館から借りて photocopy するのと同じ感覚さ。

wombatpm 2025-02-14T01:22:05

Kindleは元々テキスト読み上げ機能があったよね。でもオーディオブックの連中が訴訟して、AmazonがAudibleを買うことになった。

kvn8888 2025-02-12T22:22:25

音質がすごく良いよ。トランスフォーマー技術を使ってるから。たまに使ってる。

hiAndrewQuinn 2025-02-12T08:50:05

フィンランド語の音声を試したんだけど、発音がかなり良くてクリアだった。有料で音声クリップをエクスポートできないのが残念。フィンランドのフラッシュカードデッキを作るために使ってみたかった。ニュース放送の音声と文章を合わせるのが面倒だから、今はやる気が出ないな。

gwd 2025-02-12T09:11:04

エクスポートできないのが残念。フラッシュカードデッキ生成に使いたかった。
elevenlabsにはAPIがあって、調べた感じ結構良さそう。ちょっとPythonでやればすぐできるよ。

hiAndrewQuinn 2025-02-12T10:06:58

おお!それ調べてみるね、ありがとう。

w3p706 2025-02-13T04:44:37

フィンランドのAnkiフラッシュカード用に実装したよ。短いテキストを音声に変換するなら、eleven_multilingual_v2がいい結果出る。テキストは”Hän sanoo rauhallisesti ja hitaasti: ‘${text}’”ってやって、サイレンスで切り取る処理してる。言語は入力で自動認識だよ。

hiAndrewQuinn 2025-02-16T18:08:18

このリポジトリ面白いね。uralicNLPを使った形態素解析は見たことがなかった。README.mdもすごく丁寧で、3月にまた試してみようと思う。

Kabukks 2025-02-12T08:23:23

前にGermanのテキストを試したら、数字や日付をたくさん間違えたんだ。例えば”1963”を言ったのに本当は1967年だった。声はすごくリアルだけど、信頼できないならあまり役に立たないよね。最近良くなったって誰か知ってる?

aeroniero 2025-02-12T11:08:58

うん、今はいい感じだよ。Readerアプリで試したけど、改善されたと思う。

wedn3sday 2025-02-12T21:10:43

ちょっとエッチなテキストを試したら、モラルについて説教されずに予想以上にできるAIモデルで驚いたよ。

bjackman 2025-02-12T07:22:13

この製品が出てきて嬉しい!読めない環境でもオーディオブックが便利だから。でも出版社が録音する本に限られてるのが残念。AI TTVがだいぶ良くなったみたいで、すごく期待してる。

もっとコメントを表示(3)
VierScar 2025-02-12T07:24:46

その理由で興味ある。AI TTSの本も聞いたけど、単調すぎるのが問題。声の調子やペースが全然変わらなくて、飽きちゃうんだよね。

rapind 2025-02-12T07:30:30

eleven labs使うならJohn Doeをおすすめするよ。ちょっと変化が多いかもだけど、俺は好き。

barrell 2025-02-12T07:18:38

Eleven Labsを何年も使ってきたけど、数年前の多言語モデルには本当に感動したんだ。それ以来、安いモデルも出てきたけど質がかなり落ちるし、古いモデルもまだあるから問題ない。ただ、SOTA TTSが数年前の一社のモデルからどれだけ進化していないか、疑問に思っているんだ。

BoorishBears 2025-02-12T07:39:35

TTSでの最大の課題は高品質な音声データだね。閉じられたプロバイダーのアーキテクチャは、主にTortoiseが元になっているし。それが、ElevenLabsがプロに音声をアップロードさせておいて、ユーザーには百万文字あたり最低50ドルを請求するのに、プロには2ドルしか返さないのはおかしい。次に現れる競合は、ElevenLabsよりも良い条件で声優を使える会社になると思う。

limo11 2025-02-12T09:07:31

収益共有はデフォルトレートで最大20%で、カスタムレートの場合は声が高くなって1000文字あたり最大0.2ドルもらえることになる。

BoorishBears 2025-02-12T09:21:19

実際のところ、支払っている金額はかなり少ないし、マージンが驚異的なのに、使用している声優が時代遅れになりつつあるのは悲しいね。この会社はオープンソースモデルから多くを得ているのに、そのリターンは少ないというのも印象的だ。

brookst 2025-02-12T14:04:14

声優を呼び込むために余計にお金を払う必要があるのか?普通はビジネスは市場価格の何倍も払ってなんてやらないから。

BoorishBears 2025-02-12T19:21:21

多くのビジネスは、誠実さに価値を見出している。市場価格がすべてではなく、声優を安く抑えることで、他社に良い条件で声優を引き抜かれるチャンスを与えているね。

brookst 2025-02-13T13:57:32

オーバーペイが良い戦略かはわからないけど、誠実さに関しては疑問がある。仕事の対価を合意通り支払うことが誠実でないとは思わないし、実際に安くてもそこには誠実さがないわけじゃないから。

BoorishBears 2025-02-15T04:41:04

200ドルでフェンスを塗る仕事を依頼したとき、合意通りに支払ったら誠実じゃないの?それとも、もっと支払えるのにしなかったら誠実じゃなくなるのか?

woodson 2025-02-12T08:13:28

昔、長い通勤中に論文をTTSで聞いていたことがある。質はそこそこだったけど、内容を理解するには役立っていたよ。数式は無理だったけど、一番初めはあまり重要じゃないからね。

neom 2025-02-12T08:51:54

重度のディスレクシアだけど、会話やオーディオブック、授業を聞いてると何でも覚えられる!最近は音声生成にお金がかかるけど、学ぶのが早くなるのは本当に良いよ。

sky2224 2025-02-12T23:22:25

オーディオブックがそんなに役立っているのは嬉しいよ!ただ、密な内容を通勤中に聞いているのか、ノートを取りながらテーブルで聞いているのか、どっちなのかも気になるな。

neom 2025-02-12T23:36:15

考える場所で白い壁を眺めたり目を閉じて静かに考えてるんだけど、メモは役に立たないんだ。俺の記憶は言葉の処理が下手で、読むとただ思い返すだけ。ちょっと不快だけど、複数のことを同時に聞いてそれぞれ考えられるのはまだできる。読んでメモを取るスタイルは理解できないから、俺の考え方は理解されにくいかもね。

qnleigh 2025-02-12T08:35:59

論文によるけど、TTSアプリで論文を聞いてる。方程式が多すぎたり、図で伝えてたり詳細すぎると聞けないけど、レビュー記事とか明確なメッセージの論文は聞きやすい。一つのトピックについてのレビュー記事を聞きながらランニングして学んだことがあるから、結構楽しかった。

nice__two 2025-02-12T08:05:16

俺が一番不満に思ってるのは、オーディオブックは小説には良いけど、学習には向いてないことだ。

yreg 2025-02-12T08:44:23

非フィクションの本にはオーディオブックが最高だけど、論文は情報が詰まり過ぎてる。俺はオーディオブックを聞いてて気が散って、登場人物がわからなくなることがある。作品内容を忘れたとき、再生位置を戻すのも難しい。非フィクションは著者が主張を繰り返すから、何ページか飛ばしても問題ない。

theothertimcook 2025-02-12T06:56:49

すごい技術だね。オーディオブックは存在しないから、epubをElevenReaderに入れたらBert Reynoldsが読んでくれるんだ。人間のナレーションよりいいかも。

benrutter 2025-02-12T08:47:38

ずっとPDFの論文を読む便利な方法を探してた。テキストを取り出してキンドルに送れるといいんだけど、無理そうだからこれがいい代わりになりそう!試してみるよ。

elashri 2025-02-12T09:14:49

キンドルを脱獄してKOReaderをインストールすれば、これが可能になるよ。

もっとコメントを表示(4)
billbrown 2025-02-12T15:26:01

Readwise ReaderはPDFを上手く処理して、TTSもできるらしいけど、試したことはないんだ。

janpmz 2025-02-12T09:23:02

こちらを試してみてもいいよ。

ramonverse 2025-02-12T09:08:16

AIの声は、長時間の通勤で情報を得る唯一の方法だよ。

darkwater 2025-02-12T09:23:02

新しいことができるのはわかるけど、人間やアーティストの仕事を奪う側面もある。全体としては損失だと思う。

reustle 2025-02-12T10:03:16

これアートっていうのは少し無理があるんじゃない?著者じゃないからね。でも、自動化することでこの音声コンテンツへのアクセスが楽になるのは良いことだと思う。自分の読み方でお金を払いたいならそれも選択肢だし、結果的にはプラスだと思うよ。

haswell 2025-02-12T20:13:44

>アートっていうのは少し無理があるんじゃない?著者じゃないからね。自分は全然同意できない。読書をすること自体はアートだと思うし、Stephen Fryのナレーションを聞いたら他の本がひどく感じるくらい。いいTTSツールがあれば、下手なナレーターよりも質が上がるから期待してる。アーティストの仕事を奪う不安はあるけど、TTSは必ずしもマイナスとは思わない。

darkwater 2025-02-12T11:09:12

AIの内容が良ければ、Audibleなどの利用者は減るだろうね。でも、そんなに多くの人がそこにこだわるとは思えない。ソーシャルネットワークの例を考えると、民主化が進むと思っていたけど実際はそうじゃなかった。AIにやってほしいのは単純作業で、自分がアートを楽しむための時間を増やしてほしいよ。

noizejoy 2025-02-12T22:42:42

>アートっていうのは少し無理があるんじゃない?著者じゃないからね。あんたの考えでは、コンサートのバイオリニストもモーツァルトの曲を演奏する時、アートを作ってないってことになるの?

nathanyukai 2025-02-12T09:30:21

“人がやってたものを置き換える”のは必ずしも悪いことじゃないよ。AIで人の作業が減って他のことに集中できるようになるなら、それは得だと思う。ただ、仕事を奪われた人が他に良いことが見つけられなければ、そりゃ損だよ。

Martinussen 2025-02-12T10:19:32

全ての状況に当てはまるわけじゃないけど、アートでの“人がやってたものの置き換え”はただの損失になることもある。グラフィックスやビデオがコモディティ化すると、デザイナーや声優にダメージを与えることもある。それに、アートには市場価値だけじゃ測れない他の評価方法もあるよ。

add-sub-mul-div 2025-02-12T14:42:47

一般労働の置き換えについてどう思う?社会的安全網がないクラスの職業が失われるのって、職業を一つ失うのとは違うと思うけど。実際の文脈に目を向けて、もっと考え直すべきじゃない?

lern_too_spel 2025-02-13T02:51:03

アーティストの再教育に税金を払うのは全然構わないけど、Wil Wheatonが下手にナレーションした本を聞くためにはお金を払いたくないな。コンピュータがもっと上手くやれるから。

brookst 2025-02-13T13:54:04

タイピストの話をしたのに、あなたは“ほとんどの職業”の話に抽象化したね。批判には賛成だけど、誰を批判しているのか分かっているのかな。AIに対しての感情的な意見を和らげるために、実際の文脈を考えてみて。

Kerbiter 2025-02-12T15:19:21

TTSが本当にアートなら話は別だけど、AudiobookがTTSに置き換わることはないと思う。特に、読んでいる本と同時に聴くのが難しいロシアの本や記事のオーディオブックを見つけるのは、母には無理だと思う。

vunderba 2025-02-12T19:25:29

GenAIに対しての批判の中で、”TTSオンデマンド”への反論は一番弱い気がする。自然なTTSは視覚障害者のアクセシビリティを高めるし、言語のローカリゼーションもできる。VAコミュニティには影響が出るけど、これは100%プラスだと思う。

msh 2025-02-12T10:10:10

複雑な気持ちなんだよね。声優がいないのは読みづらい人には助かるけど、あまり賛成できない部分もある。

randysalami 2025-02-12T19:39:10

無料で使えるからずっと使ってる。PDFの読み上げはいいけど、図やグラフがちゃんと読めないのが難点。読み上げ中に止まっちゃうこともあるし、運転中に使うのはちょっと面倒。

_qua 2025-02-12T19:14:57

今は無料だけど、ずっとは続かない気がする。AIツールに毎月10ドルとか払えないよ。

cube2222 2025-02-12T10:56:12

使ってみたけど、音声に感情がほとんど感じられないし、レイアウトが変だと読み上げが不自然。ElevenLabsよりGoogleの方がいいみたい。

nmca 2025-02-12T07:09:43

運転中にオーディオブック聴いてるけど、Audibleの声優はあんまり良くない。カスタマイズできるのが面白いけど、例のトークンの使い方はまだイマイチ。

もっとコメントを表示(5)
zeroq 2025-02-13T02:24:42

友達が声優やってて、AIがこの業界に影響を与えるかもって思う。ゲームのナレーションにこの技術使いたい!

jnsaff2 2025-02-12T07:28:05

モデルがあんまり発音よろしくない。4年生が読むみたいで、ちょっと止まったりするのが気になる。

ipsum2 2025-02-12T08:07:00

ElevenReaderは週に一回使ってるけど、意外と普通に感じるよ。

reustle 2025-02-12T10:39:07

数週間使ってるけど、めっちゃいい!ブラウザやOSに組み込まれたら最高だな。

frontalier 2025-02-12T10:42:00

iOSの音声読み上げはChatGPTの音声読み上げよりも全然良いよ。最初の段落でダメになることはないけどね。

andrewstuart 2025-02-12T11:47:34

TTSは数年前に大きな進展を遂げたけど、最近は停滞してる感じ。サービスも高いし、声が人間っぽくないのが多くて長時間聴くのはキツい。ElevenLabsの声もたしかに有名だけど、ほんとうに質の良いものは限られてて、人間には遠く及ばないよ。

milofeynman 2025-02-12T07:23:20

著者や出版社の権利がどうなるかは興味深いね。3年後に完璧なAI音声が出たら、オーディオブックを買わずにeBookを買って好きな声を選ぶ時代になるかも。”

evrenesat 2025-02-12T07:45:26

ストリーミングの普及でCDなどが時代遅れになっていくように、オーディオブックも似たような運命を辿りそう。便利さのために大事なものが消えていくんだね。

wiether 2025-02-12T08:50:49

他の仕事でも同じだと思うけど、AIは中・低品質の仕事を奪うけど、質の良い仕事はAIにはできないよ。例として、Andy Serkisの『The Lord of the Rings』の朗読や、David Gogginsの本のオーディオブックがある。

vunderba 2025-02-12T19:35:45

初期のKindleはスピーカーとTTSがあったけど、残念ながらその機能はなくなっちゃったね。

mkmk3 2025-02-12T07:48:44

Damn、unicornriotの記事を試してみたら、えぐい内容のところを何段落かスキップされた。誰か確認できる?

limo11 2025-02-12T09:08:40

アイコニックな声を選んでたの?スキップされたのは不適切な内容によるかも。普通の声で試してみて!

mkmk3 2025-02-12T09:32:03

アイコニックな声は使ってなかったけど、声によってスキップされることがあるね。

ravetcofx 2025-02-12T08:02:34

重要な記事だけど内容が凄惨。全てを読むのは辛いね。

mkmk3 2025-02-12T08:07:06

確かにスキップがあったけど、意図的かと思った。検証してくれてよかった!良い日を!

macco 2025-02-12T07:52:04

Speechifyの音質はどうなの?PDFを聴くのに使ってるけど、ヘッダーやフッター、コロンで躓くことが多いんだ。

limo11 2025-02-12T09:09:13

まあ、かなりいいね!

jacek 2025-02-12T10:02:50

ポッドキャストとオーディオブックよく聴くからこのアイデア好きだけど、声が自然じゃなくて最初の印象はイマイチ。言葉やフレーズはいいけど、リズムと抑揚がなくてフラット。もっと試してみるつもりだよ。

davidanekstein 2025-02-12T12:39:09

自分のアプリのチュートリアルにElevenLabs使ってるけど、今のところ満足してるよ。例えばこれね:https://youtube.com/shorts/UKjqrydITLA?si=iC7ehp6LmlLH0M-U

zoba 2025-02-12T21:15:10

このアプリ楽しんでるけど、コンテンツをオーディオファイルとしてエクスポートできないのが残念。みんなに送るために、プレイボタン付きのウェブサイトのリンクとか欲しいな。アプリダウンロード強制はいやなんだ。

もっとコメントを表示(6)
codybontecou 2025-02-12T22:50:13

Chrome拡張あったらいいのにな。PCで記事を聴きながら作業したい。

berbec 2025-02-12T19:27:21

Moon+ Readerを何年も使ってて、AndroidのTTSサービスがかなり良いと思ってる。無料で音質も満足だよ。

eitally 2025-02-13T02:23:59

ReadEraも結構いいよ。去年『三体』シリーズの2巻と3巻を聴くのに使った。

crakhamster01 2025-02-12T09:36:20

生成型ポッドキャスト機能はなんかディストピアっぽいな。これが実際の製品に基づいてるとは思わなかった。笑:www.youtube.com/watch?v=ua4rYsMdC4U

wink 2025-02-12T12:01:05

アプリケーションエラー:クライアントサイドの例外が発生しました(ブラウザコンソールで詳細を確認)。
多分、WebGLがこのブラウザで無効になってるせいかな。ランディングページで何をやってるかはイマイチわからんけど、フワフワしたエフェクトとかか?

sys32768 2025-02-12T15:51:22

Google Booksで見つけた絶版の本を試そうと思ったけど、Acrobat PROのOCRがめっちゃグリッチしてる。186oが1860になったり、gla)がgladになったりするのを修正できるAI支援OCRを探さなきゃ。

eigenvalue 2025-02-12T15:57:13

自分もそんなサイト作ったよ、fixmydocuments.com。オープンソースプロジェクトもあるから見てみて:
https://github.com/Dicklesworthstone/llm_aided_ocr

sys32768 2025-02-12T16:21:45

絶対チェックする!ハイフンつきの単語やページ番号、章のタイトルが主な問題だね。章タイトルは簡単に置換できるけど。

dazzaji 2025-02-12T17:17:44

ElevenReader、週に何回か使ってるんだけど、テキストを音声にするのにすごく便利。URLを渡すとウェブページ全体も扱ってくれるし、サクッと使えるのがいいね。性能と品質も高いよ。

juliendorra 2025-02-12T09:38:22

自分の声で試してみるといいよ!最初にウェブインターフェイスでカスタムボイスを作れば、基本のクローンだけでも満足できると思う。中立的で透明感ある読み方になるからオススメ。

Klaster_1 2025-02-12T12:07:29

自分の声の録音されたのを聴くのが好きじゃないんだよね。もっと自然に感じられるように調整できる方法があればいいな。通話の時にもその調整した声が使えたら最高。

t0lo 2025-02-12T08:05:13

これは未来の流れを感じるね。でも、全てがスプーンフィードされて消費的になる世界が心配。動物主義に逆戻りしてる気がしてならない。

falcor84 2025-02-12T08:16:05

動物主義に逆戻りしてるかも
そのことについて詳しく教えてくれる?何か意識すべきマイルストーンがあるのかな?

t0lo 2025-02-12T09:49:00

技術がすっごい速さで進んでいて、批判的思考や自主性も奪われつつあるみたい。特にLLMが普及してから、知識を持つことが過去のものになりつつある。子供が学ぶ理由がなくなってしまうかも。思考を消費するものとして見ちゃうのが心配。文化的にも危機的な状態だと思う。

brookst 2025-02-12T14:15:41

お疲れ様、ストレス感じてるのは分かるけど、世代の違いのせいかなとも思うよ。私もいろんな危機を経験してきたし、世界は常に変わってきた。悪くなることもあるけど、全体的には人類の健康や繁栄が向上してると思うよ。

falcor84 2025-02-12T10:58:53

良い観察だと思うけど、なぜ”動物主義”って言葉を使ったのかが不明。それ、他の種とどう関係あるのかよく分からない。

mozzieman 2025-02-12T08:47:14

初めはすごいと思ったけど、時間が経つと単調に感じちゃう。現実の制作物と比べると物足りないかな。多分、そのうち美味しいレベルになると思う。

jdlyga 2025-02-12T20:19:33

声はいいけど、アプリがちょっと問題あるね。時々本を読み始めた位置が消えちゃったから、VoiceDreamに戻ったよ(VoiceDreamはレガシー購入者じゃないとダメ)。

記事一覧へ

海外テックの反応まとめ
著者
海外テックの反応まとめ
暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。