会話AI革命かオープンソースのリアルな対話生成モデル「Dia」登場で音声コンテンツの未来が変わる

会話AI革命かオープンソースのリアルな対話生成モデル「Dia」登場で音声コンテンツの未来が変わる

引用元：https://news.ycombinator.com/item?id=43754124

sebstefan 2025-04-22T09:07:01

文章の途中に「(pauses)」って非言語コマンド入れたら、なんか脳動脈瘤みたいになっちゃったんだけど(笑)
マジで変な挙動する。

abrookewood 2025-04-22T12:10:27

そりゃ確かに珍しい現象だね。

antiraza 2025-04-22T13:25:53

マジか…すげー。

cchance 2025-04-26T02:47:18

[pauses]なんか悪魔の声が聞こえた気がする…

throwaway-alpha 2025-04-22T10:47:21

ラジオ番組のデータを引っ張ってきて、クオリティ高く見せてるんじゃないかって勘ぐってる。このスクリプトで試したらバグったし。
＞[S1] NPRのデータをTTSモデルのソースに使ってるっぽい。
＞[S2] マジか…なんか嫌な感じ(しょんぼり笑)。
＞[S3] マジでこういうのやめてほしいわ。

yahoozoo 2025-04-23T10:44:24

「Yeah…」の後の長すぎる間からの、もう一回「Yeah…」で腹筋崩壊したわ。

degosuke 2025-04-22T16:36:06

最後に余計なfワードまで付け加えてるし(笑) でもめっちゃすごい。

sebstefan 2025-04-23T07:26:33

もしこれ使ってて、4ヶ月後にユーザーに向かってランダムにfワードをぶっ放してることに気づいたらどうなるんだろ。

yencabulator 2025-04-23T21:45:17

前の行の最後で「maaan」って言ってる気がする。あと「dejectedly」って言葉をそのまま読み上げてる。

xdfgh1112 2025-04-22T17:38:52

「dejectedly」って単語をそのまま言ってるのに気づいた。

hemloc_io 2025-04-21T19:22:26

マジすごい！
オーディオモデルって、まだ簡単に成果出せる余地がたくさんあるんだな。少人数チームが数ヶ月で、資金豊富な大手と競えるもの作れるってヤバくね？

miki123211 2025-04-22T08:50:32

Eleven Labsはマジで儲けてるだろうな。
Eleven Reader使えば何時間も無料で音声生成できるし、推論コストそんな高くないんだろうな。なのに、ウェブサイトとかAPI経由だと、同じクオリティで同じ時間分の音声が100ドルとかするんだぜ。他のプロバイダーより遥かに高いじゃん。価格設定おかしいだろ、価格差別じゃねーの？
研究者とか個人レベルじゃなくて、もうちょい資金力あるやつがEleven Labsと競争してコスト下げてくれ。
オープンTTSモデルって、オーディオブックとかネットからデータ集めてないんだよな。まだLibrivoxとかLJ Speechレベル。それってWikipediaだけでLLM学習させて、すごい結果期待するようなもんじゃん。2018年ならまだしも、2020年ですらもっと良い方法知ってたし、2025年にもなってそれはないわ。
TTSモデルには「Stable Diffusionみたいなブレイクスルー」がまだないんだよな。そろそろ欲しい。LLMとか画像生成で学んだことを応用して、データもっと集めて、もっとスクレイピングして、もっとGPU使って、倫理とか安全とか気にせずやれば、誰かができると思うんだよな。Eleven Labsはもうやってて、それでガッポガッポ儲けてるし。

pzo 2025-04-22T10:58:22

Kokoroは特に英語の発音が素晴らしい。モデルも小さいからスマホでもリアルタイムの3倍速で動く。

miki123211 2025-04-23T09:57:28

Kokoroがまさに俺の言ってることの証明だよな。「個人がガレージ」で作って、蒸留された音声データ1000時間（多分）とパラメータ数100mくらい。
Stable Diffusionの10分の1の予算で、倫理的な問題も気にせずやれば、簡単に10倍とか100倍にできる。

cchance 2025-04-26T02:48:10

みんな、Elevenreader使って色んな本から高品質なコンテンツ作ってデータセットにしないのが不思議だわ。

bavell 2025-04-22T11:56:38

俺もKokoroに+1。高品質で速度も速い。

toebee 2025-04-21T22:54:44

優しい言葉ありがとうね＜３

kreelman 2025-04-22T02:15:57

これマジですごい。
Eleven Labsみたいに、選んだ声で生成できるようにすることは可能？
…これってgitのサマリーに書いてあるかもだけど、めんどくさいから聞いちゃう：＝）
素晴らしい作品をありがとう。

JonathanFly 2025-04-22T04:33:34

うん、これ見て：
https://github.com/nari-labs/dia/blob/main/example/voice_clo…

Versipelle 2025-04-21T18:27:56

マジすごいじゃん！夢に一歩近づいた感じ。EPUBからちゃんとしたオーディオブックを作れる日が来るなんてさ。ただロボットみたいな声で全部読むんじゃなくて、主人公ごとに声を変えて、LLMが文章を分析して誰の声を使うか、どんなトーンで読むか決めるんだよ。まるで声優みたいにさ！EPUBをオーディオブックにするツールは試したことあるけど、全然ダメだった。本物のナレーターとは比べ物にならないし、全然入り込めなかったんだよね。

もっとコメントを表示（1）

mclau157 2025-04-21T20:01:28

オーディオブックでリアルな声優の演技、ページごとにリアルな画像、リアルな動画…あれ？これって映画じゃん。もしかしてプロットも変えられる？ってことはビデオゲームも作れるじゃん！

hleszek 2025-04-22T06:52:57

次はVRでやって、インタラクティブにしようぜ。

azinman2 2025-04-21T20:16:02

オーディオブックは、やっぱり本物の人間の声で聴きたいと思わない？理想は作者本人の朗読だよね。

Versipelle 2025-04-21T21:39:26

＞オーディオブックは、やっぱり本物の人間の声で聴きたいと思わない？理想は作者本人の朗読だよね。
もちろんそうだけど、いつもそうとは限らないじゃん。例えば、Stanisław Lemの『The Invincible』のオーディオブックが欲しいんだけど、ゲーム版をクリアしたばかりなのに、僕の母国語版が存在しないんだよね。作者本人が朗読してるオーディオブックってあんまりないし、ナレーターがひどいと、大げさな演技でキャラクターを台無しにしちゃうこともあるし。

satvikpendem 2025-04-22T06:50:21

なんで人間じゃなきゃダメなの？本は好きだけど、オーディオブックのナレーターが嫌いっていうケースって結構あるんだよね。そうなると、もうその本は聴けないじゃん。でも、機械なら自分の好きなように声を変えられる。

iamsaitam 2025-04-22T07:47:45

それだと、間違ってたり、ありきたりだけど、自分好みにカスタマイズされた朗読になっちゃうかもね。朗読って、ただ単にテキストを音声に変えるだけじゃないんだよ。

satvikpendem 2025-04-22T13:41:34

内容が薄くても、ただテキストを聴きたいって時もあるんだよね。例えば、英語のオーディオブックがないアジアのライトノベルとか。ベーシックなTTSで何冊も聴いてるけど、最近のAIモデルのTTSじゃなくても、すごく楽しめてるよ。

ks2048 2025-04-21T23:45:33

毎年100万冊以上の本が出版されてるんだから、人気のあるほんの一握りの本しか無理だよ。

senordevnyc 2025-04-21T21:09:54

正直、作者だけだよね。作者以外は、キャラクターとか感情とか状況とかをどう表現するかを解釈するしかない。AIも同じことをするわけでしょ？もしAIが人間より効果的にできるなら、それでいいじゃん。作者なら、少なくともテキスト以外の情報も持ってるから、台本から外れたり、ちょっとしたディテールを追加したりできるかもしれないしね。

DrSiemer 2025-04-21T21:36:00

オーディオブックめっちゃ聴いてるんだけどさ、作者本人が読むのはマジでおすすめできないんだよね。気持ちはわかるんだろうけど、ライターは役者じゃないじゃん？
上手いナレーターって、その人の朗読聴きたさに本読みたくなるレベル。ストーリーに独自の良さを加えるんだよね。自分で読んだり、映像化されたの見るのとは違うんだ。
今『The Age of Madness』ってやつをSteven Paceyって人が読んでるんだけど、マジ最高。Roy Dotriceって人も『Game of Thrones』で224役演じ分けてギネス記録持ってるレジェンド。
自動で朗読作れるようになったらマジすごいけど、TTSが最高のナレーターに勝てるようになるには、まだまだ時間かかると思うわ。

azinman2 2025-04-21T23:27:07

TTSの音質が良かったとしても、個人的には人間がいいな。理由はね、
1. 声優の仕事って応援する価値あると思うんだよね。練習にもなるし、スキルアップにも繋がるじゃん？
2. 声優さんって、役者と同じで独自のセンスを持ち込んでくれるし。
3. ちゃんと本の準備して、内容を理解した上で読んでくれるはずだし。

fennecfoxy 2025-04-23T15:48:35

GBC/GBA/PSPでまたゲームが主流になったら嬉しいけどねー。でもお金にならないことは誰もやりたがらないんだよね、結局。

cchance 2025-04-22T02:53:48

論文書いてる人たちが、いい声してると思う？マジ笑える。オーディオブックとかポッドキャストやれる人なんてほんの一握りだよね。声がクソみたいな人、多いじゃん。

tyrauber 2025-04-21T18:34:50

ちょっとこれ聴いてみてよ。
＞[S1] え、火事！？マジかよ！どうすればいいの？誰か助けて！煙がダクトから入ってくるかも！“
マジですごい。音源に直接リンク貼りたかったわ。
Diaチーム、マジGJ。

jinay 2025-04-21T20:13:37

聴きたい人はここからどうぞ。
https://yummy-fir-7a4.notion.site/dia

mrandish 2025-04-21T20:41:11

マジか。サンプルへの直リンクありがとう。めっちゃクオリティ高いし、最先端の研究室レベルだよ。数ヶ月でたった2人が作ったとか、マジ信じられない。

DoctorOW 2025-04-21T20:54:08

ちょっと大げさかも。昔のYouTubeにあったフラッシュアニメの声優みたい。でも、クオリティは高いと思うよ。なんかおバカな人間って感じだけどね！

3by7 2025-04-22T10:36:14

大げさで間抜けな人間たち、確かにね。
https://www.youtube.com/watch?v=gO8N3L_aERg

Cthulhu_ 2025-04-22T09:00:00

“YouTube初期のフラッシュアニメ”って、Newgroundsから来たんじゃないの？

DoctorOW 2025-04-23T23:44:15

マジ感謝！なんかNewgroundsの名前が出てこなかったんだよね～

もっとコメントを表示（2）

selimthegrim 2025-04-21T23:03:10

なんかFenslerfilmのG.I. Joeのコント思い出したわ。子供たちがコンロで何か燃やしてるやつ

wisemang 2025-04-21T23:23:03

ダウンロード止めろー！

dostick 2025-04-22T12:24:05

これはマジで名作の予感。Sesameの比較例が全部The White Lotusに出てくる金持ちのおバカさんみたいに聞こえる。

intalentive 2025-04-22T15:37:49

めっちゃ良いじゃん。女性の例の一つに、説得力のあるアプトーク（語尾上がり）があるね。潜在空間を操作して、アプトークとか、ボーカルフライ、喫煙者の声、舌足らずとかを制御できる方法があるはず。

toebee 2025-04-21T22:55:41

ありがとう！！Officeのシーンからインスパイアされたんだよね。

3abiton 2025-04-21T21:53:19

なんかOfficeっぽいな。もしかして、テレビ番組が学習データに入ってるのかな？

nojs 2025-04-21T20:53:19

これめっちゃ良いじゃん。Office思い出すわ。他の例がひどいのがまた良いよね。

fwip 2025-04-21T21:14:41

セリフはOfficeのシーンから取ってるね：
＞https://youtu.be/gO8N3L_aERg?si=y7PggNrKlVQm0qyX&t=82

hombre_fatal 2025-04-22T15:08:04

マジでヤバいね、あの例。なんかシステムプロンプトとか、どういう風に発声させるかのヒントがあるのかな？それともテキストから解釈してるの？だって、もしテキストから解釈してて、望んでないのにそういう演技をしちゃったら笑えるよね。例えば、事実を淡々と伝える警告ラベルを読む時とか。

toebee 2025-04-21T17:07:07

よっ、HN！俺らはTobyとJay、Diaのクリエイターだ。Diaは1.6Bパラメータのオープンウェイトモデルで、トランスクリプトから直接ダイアログを生成するんだ。
TTSモデルみたいに各スピーカーのターンを生成して繋ぎ合わせるんじゃなくて、Diaは会話全体を一度に生成するから、より速くて自然で、ダイアログ生成が楽になるんだよね。
それにオーディオプロンプトもサポートしてるんだ。特定の声や感情で条件付けして、そのスタイルで続けることもできる。
DemoページでElevenLabsやSesame-1Bと比較してるよ。
https://yummy-fir-7a4.notion.site/dia
このプロジェクトはNotebookLMのポッドキャスト機能に惚れたのがきっかけ。でもだんだん声とか内容が単調に感じてきてさ。APIでポッドキャストっぽさを再現しようとしたけどうまくいかなくて。
それで自分たちでモデルをトレーニングすることにしたんだ。音声モデルの経験はなかったから、大規模トレーニングからオーディオトークン化まで、全部イチから学ばなきゃいけなくて、3ヶ月ちょっとかかったよ。
SoundStormとParakeetにめっちゃ影響受けてる。学んだことを共有して研究を加速させるために、軽いテクニカルレポートをリリースする予定。
みんなの意見を聞きたいな！めっちゃ小さなチームだから、オープンソースの貢献は大歓迎！コードをチェックして、何か意見や提案があれば教えてね。

dangoodmanUT 2025-04-21T23:38:29

聞くのはタブーかもしれないけど、聞かせてくれ！データセットはどこから？オーディオモデルを色々試したいんだけど、既存のデータセットは制限が多くて困ってるんだ。

zelphirkalt 2025-04-22T01:01:09

なんでデータセットについて聞くのがタブーなの？モデルを見せられたら、常に聞くべき質問だし、場合によってはその情報に基づいてモデルを拒否すべきだと思うけど。

dangoodmanUT 2025-04-22T01:35:25

だって、この質問をする人は、モデルを作った人を炎上させようとしてるんでしょ？

tough 2025-04-22T02:17:56

あるいは、トレーニングデータの出所を証明することで、著作権者が訴訟を起こすための証拠を渡すことになるから。

fennecfoxy 2025-04-23T15:52:32

まあ、彼らは企業じゃなくて個人だから、法的な影響は少ないだろうけど、世論は良くないだろうね。でも新しいものに対する世論なんていつもそうじゃん？
歌やTV番組を切り刻んでYoutubeにアップロードして（フェアユースとかパロディ法とか騒ぎ立てて）も大丈夫だけど、こういうことにはみんな文句を言うんだよ。
AIはもうここにあるんだから。

deng 2025-04-22T08:50:15

いや、そうじゃない。クレジットはきちんと払うべきなんだよ。トレーニングデータを生成した人が、AIトレーニングに使うことを許可したかどうかも含めてね。
FOSSライセンス違反には激怒するくせに、著作権のある作品でモデルをトレーニングするのは平気でフェアユース扱いするこのコミュニティはマジで意味不明。

isaacfung 2025-04-24T15:36:39

最近、何のAIツールを使った？それらのツールが全部、許可を得て著作権のある素材でトレーニングされたモデルを使ってるか確認した？

deng 2025-04-25T18:03:54

ああ、それよくあるやつだ。「Big Oilを批判しながら車に乗るなんて！」みたいな。
別に隠遁者みたいに生きなくても批判はできるんだよ。ChatGPTはほどほどに使ってるけど、トレーニングはフェアユースに当たらないと思うし、クリエイターは補償されるべきだと思う。OpenAIのビジネスモデルがそれを許さないなら、潰れてもいいと思ってる。ChatGPTなしでも生きていけたし、またそうすればいいだけ。

xdfgh1112 2025-04-22T19:01:13

ポッドキャストじゃない？転写されたデータが大量にあるし、発音もマイクの質も良いし。声もポッドキャストっぽい気がする。

gfaure 2025-04-21T18:11:28

たった3ヶ月でこれを開発したなんてすごいね！オーディオデータをどうやって集めたのか、何か教えてくれるかな？

もっとコメントを表示（3）

isoprophlex 2025-04-21T18:42:34

それな！マジすごい。もしよかったら、train dataについて何をしたのか教えてほしいな！

heystefan 2025-04-21T20:44:20

これって、既存の本からオーディオブックを作るのに使えるかな？一回の処理で会話全体を生成するって言ってたけど、登場人物ごとに声を調整できるか知りたいな。速度が重要じゃない場合に、それは制限になるのかな？

toebee 2025-04-22T00:56:48

イエス！でも、本のコンテンツからスクリプトを作るLLMシステムが必要だよ。OpenNotebookLMってオープンソースプロジェクト(https://github.com/gabrielchua/open-notebooklm)が似たようなことをしてるよ。Diaモデルをそれに繋げれば、可能になるかも！興味を持ってくれてありがとう！

satvikpendem 2025-04-22T06:48:20

オーディオブック作成に特化した別のプロジェクト：https://github.com/prakharsr/audiobook-creator

smusamashah 2025-04-21T22:44:39

サイズとクオリティが素晴らしいね！本の朗読サンプルを見たいし、自分でも試してみたいな。
話は変わるけど、Notionサイトじゃなくて、github pagesだったらもっと良かったかも。同じページを置けるし、開いたり、リンクしたりするのがもっと軽くなると思うよ(オーディオをリンクしようとする人とかのために)。

toebee 2025-04-22T00:57:32

優しい言葉をありがとう！
https://huggingface.co/spaces/nari-labs/Dia-1.6Bで試せるよ！
時間があるときに、デモページをもっと軽くするようにアップデートするつもりだよ。フィードバックありがとう:))

karimf 2025-04-22T01:42:17

めっちゃすごい。
質問いくつかいいかな？
1. モデルを訓練するためにどんなGPUを使ったの？こういうモデルを訓練したいんだけど、今は16GBのMacBookしかないんだ。5090を買う価値があるか考えてる。
2. Sesameのウェブサイトのデモみたいに、リアルタイムオーディオ生成にこれを使うことは可能？

cchance 2025-04-22T02:52:29

マジですごい、早く触ってみたい。サンプルも最高…なんだけど、なぜか全部…すごく速く感じる。1.2倍速で再生されてるみたい。気のせいかな？

claiir 2025-04-22T09:43:52

気のせいじゃないよ。速度が上がるのは、モデルが使ってるCFG(Classifier-Free Guidance)のせい。
＞When we apply CFG to Parakeet sampling, quality is significantly improved. However, on inspecting generations, there tends to be a dramatic speed-up over the duration of the sample (i.e. the rate of speaking increases significantly over time).
＞Our intuition for this problem is as follows: Say that is our model is (at some level) predicting phonemes and the ground truth distribution for the next phoneme occuring is 25% at a given timestep. Our conditional model may predict 20%, but because our uncondtional model cannot see the text transcription, its prediction for the correct next phoneme will be much lower, say 5%. With a reasonable level of CFG, because [the logit delta] will be large for the correct next phoneme, we’ll obtain a much higher final probability, say 50%, which biases our generation towards faster speech.
Parakeetの論文[1]を参考にするといいかも。
Parakeet details a solution to this, though this was not adopted (yet?) by Dia:
＞To address this, we introduce CFG-filter, a modification to CFG that mitigates the speed drift. The idea is to first apply the CFG calculation to obtain a new set of logits as before, but rather than use these logits to sample, we use these logits to obtain a top-k mask to apply to our original conditional logits. Intuitively, this serves to constrict the space of possible “phonemes” to text-aligned phonemes without heavily biasing the relative probabilities of these phonemes (or for example, start next word vs pause more).

llm_nerd 2025-04-21T22:33:28

マジですごいね！たった3ヶ月で、しかも音声モデルの経験がない人が作ったなんて。

toebee 2025-04-22T00:58:12

優しい言葉、マジ感謝！自分たちの興味を追いかけて、流れに乗ってるだけだよ。

amp-lifier 2025-04-23T05:43:58

声とか表現を誘導するのに、音声プロンプトは良さげだけど、テキスト指示もまた違った体験を提供できると思うんだよね。そっちもサポートされる予定あるのかな？

new_user_final 2025-04-21T18:07:05

最近のOpenAIの音声モデルより余裕で10倍は良いじゃん！ロボットみたいな声はマジ勘弁。サンプルボイスがなんか大げさで、Andrew TateとかSpeedとか広告みたい。落ち着いた普通の会話とか、普通のポッドキャストみたいなやり取りが足りない。

toebee 2025-04-22T00:59:13

ありがとう！落ち着いた声の音声プロンプトを追加すれば、もっとスムーズになるかもね。
https://huggingface.co/spaces/nari-labs/Dia-1.6B
ここで試せるよ！

nickthegreek 2025-04-21T19:32:36

このモデルと、もっと大きいモデルとの音声の違いがわかるサンプルってある？

toebee 2025-04-22T00:33:21

まだ実験中だから、大きいモデルのサンプルはまだないんだ。今はDia-1.6Bだけだよ。

cchance 2025-04-22T02:52:52

見落としてたらごめん、もっと大きいモデルもリリースする予定ある？

bzuker 2025-04-21T20:48:53

マジすごい！いろんな言語に対応してる？それとも英語だけ？

toebee 2025-04-22T00:58:36

ありがとう！！残念ながら英語だけなんだ…((

notdian 2025-04-21T18:39:14

ちょっと修正したらM2 Pro 16GBのMacbook Proで動いたよ！マジでクオリティすごい。
https://github.com/nari-labs/dia/pull/4

記事一覧へ

著者

海外テックの反応まとめ

暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。