VibeVoice 最先端のオープンソースTTSモデル その実力は本物か?
引用元:https://news.ycombinator.com/item?id=45114245
VibeVoiceの評判を聞いて期待してたのに、全然ダメだったな。声はそこそこだけど、抑揚はほぼ全部ズレてるし、ロボットみたいな変調がはっきりしてる。数年前のTTSよりはすごいけど、今となっては全く響かないね。YouTube shortsで聞くAI音声の方が、このページのほとんどのサンプルよりマシだよ。
唯一すごかったのは英語と中国語のサンプルで、この二つの言語をシームレスに切り替えてたこと。でも中国語はよく知らないから発音の判断はできないし、異なる文字システムだから切り替えが分かりやすかっただけかもしれない。もし同じ表記システムの2つの言語(例えば「simple」をフランス語の発音で読むとか)だったら、どうなってたか気になるね。
あと、歌唱部分は本当にひどい。なんで入れたんだろ?
同感だね。なぜか女性の声の方が男性の声よりずーっと説得力があるんだよ。男性の声は10年前の音声合成とほとんど変わらないレベル。
結果は投資額に比例するよね。女性の声の合成にはより多くの投資がある。なんで女性の声に投資が集まるかって?みんな知ってるだろ。唯一違うのは、そのことに対する態度だけだね(もちろん正解は「最悪だ」)。
みんな知ってるって?女性の声の方が明瞭度が高いってこと?俺の推測だけど。
もっと良いモデルを知ってる?聞いてみたいね。進歩を過大評価する人もいれば(この件のように)過小評価する人もいるけど、どっちも進歩の妨げにはならない。個人的にはこれまで聞いた中でこれが一番だけど、見落としがあるかもね。
主に異性愛の男性の性的な欲求を満たすために、多額のお金と労力が費やされてるんだよ。女性向けに同じことをしようとする興味はそこまでない。
例えば、画像生成AIのモデルを探すと、女性をうまく生成したり、特定のスタイルで生成したりするものが山ほどある。プレビュー画像の中にはヌードを含むからって隠されてるものも結構あるし、明らかに女性のポルノを生成できることを意図してる。男性に特化したものはほんの一握りで、そういうモデルがあること自体が変だと思われてる。音声生成の世界ではここまではっきりした影響はないだろうけど、それでも存在してるはずだよ。
それはかなり安易な文化分析だと思うな。女性の声が男性の声より選ばれる理由は、セックスだけじゃない、もっと多角的だよ。異性愛の女性も男性の声より女性の声を好む傾向があるしね。女性の声はクリアで、聞き取りやすく、“温かい”って評価されることが多い。なぜそうなのかはまだ未解決だけど、セックスだけが理由じゃないのは確かだよ。
それを性別(ジェンダーじゃなくて)と考えるから、女性の音声が好まれるんだよ。デフォルトで男性の録音音声が使われる場所を考えてみて。
最高のローカルTTSモデルを挙げるのは難しいね。品質や機能でトレードオフがあるし、ElevenLabsのクローズドソース版ほど良くないからね。でもKokoro-82Mは小型モデルの中では絶対的な勝利だ。品質面では10~20倍のサイズのモデルをぶちのめすし、Raspberry Piみたいなデバイスでも動かせる。こんなものが存在するなんて驚きだよ。欠点は表現力がそこまでじゃないってことだけど、af_heartボイスはすごくクリアだし、Kokoroは他のTTSモデルよりずっと信頼できる。悪いシードを選んだせいで時々余分な音節が挿入される、みたいなよくある失敗がないんだ。もし説得力のある声優のパフォーマンスが欲しいなら、ElevenLabsにお金を払うか、待ち続けるしかない。もしローカルAIアシスタントを作りたいなら、Kokoroが完璧だよ。これを使って、半年後くらいに何かこれを超えるものが出てくるかまたチェックすればいい。https://huggingface.co/hexgrad/Kokoro-82M
ElevenLabsの音声モデルの方がずっと説得力あるよ。
歌声とかBGMに関するコメントはなんか変だな。
論文提出に間に合わなくてBGMを消せなかったのを“機能”って言ってる感じがするんだよね。“we genuinely like this and think its a differentiator”とは違う気がする。
これが唯一の要因とは思わないけど、一つの要因ではあると思うよ。
いいモデルだけど、最高のフリーモデルじゃないね。
Chatterboxの方がロボットっぽくなくてリアルだし、イントネーションももっと良い(完璧じゃないけど)。
特に女性の声はSOTAのエモーショナルパフォーマンスに近いよ。論文の人間評価スコアは信用できるし、僕の耳もその通りだと思う。
こんなオープンモデルが出てきたら、ElevenLabsがARRでこの分野のリードを維持できるか疑問だね。オープンモデルに負けてるのにどうやってリードを保つのか分からないな。
>女性に対して同じことすることに、そこまで関心がないのが一般的だよね。
女性も女性の声を好むんだよ。
全く同じように感じたよ!歌声が自発的に発生するって?何それ?
中国語を話す男性の声は、かなり強いアメリカンアクセントだったね。言葉自体に問題はないけど、ステレオタイプのドイツ人が話す英語みたいな感じ。ちょっと変に感じたな。
このモデルが実際にすごく得意なことの一つは、ボイスクローニングだよ。自分の声を録音したサンプルをvoicesフォルダに入れるだけで、ちゃんと動くんだ。
同意だね。うちはElevenLabsからchatterbox(Resemble.aiでホストされてる)に乗り換えたんだけど、めちゃくちゃ安くて良いよ。
オープンソースでもローカルでもないけど、ChatGPTのボイス会話モードを試してみてよ。俺の耳にはVibeVoiceのサンプルより一世代先を行ってるね。
いろんなローカル(とリモート)のTTSモデルを動かすために、俺がllm-ttsをかき集めて作ったんだ。URL: https://github.com/mlang/llm-tts 厳密に言えば、音楽生成も「テキスト入力、音声出力」のパターンに合うね。llm-ttsはまだ完成には程遠いけど、いくつかのモデルを統一的に試すのは比較的「簡単」にできるよ。
最近、プロジェクトでFishを導入したんだけど、TTSとしては十分、でも音声クローニングではめちゃくちゃすごかったね。最初は3~10個の音声サンプルが必要だったけど、ほとんどワンショットでいけたから最小値をなくしたよ。モデルは良いんだけど、推論コードは改善の余地が多いって言わざるを得ないね。正しいチャンク化とかストリーミングとか簡単なことのために、多くの部分を書き直さなきゃいけなかった。宣伝されてる表現豊かなキーワードも当たり外れが大きいし、残念ながら開発者は音信不通だよ。
Higgs Audio v2が現在、オープンソースのTTSでSOTAだね。
ElevenLabs v3はローカルじゃないって言ってるね。
リンク先のデータではVibeVoiceがElevenLabsより質がいいって言ってるのに、「いや、過去2年で聞いた中で一番悪い」「結局ElevenLabsには及ばない」って意見があるのが気になるな。コメントは俺の感じ方とは関係ないけどね。
Microsoftがオープンソースのコーディングエージェントを「Microsoft VibeCode」って名付けてくれるといいな。そうじゃなきゃ「Lo」にしてPhiと一緒にVibe code with Lo Phiって使うとか!
https://techcommunity.microsoft.com/blog/azure-ai-foundry-bl…
Microsoftのマーケティングの歴史を考えると、「Microsoft Copilot Code Generator for VSCode」とか「Zunega」みたいな名前にされそうだよね…。
「Microsoft SQL」も忘れるなよ。まるで自分たちが発明したかのように名前を付けて、Google検索で最悪の検索結果になるんだからね ;)
俺的には、Microsoftが発明したっていうより、SQLのMicrosoft版って感じかな。Microsoft版のものは全部嫌いだけどね。
「Microsoft Word」だってさ。古いジョークを思い出すよ:「Microsoft Works」は撞着語法だってね。
もっとコメントを表示(1)
うわー、「Microsoft Works」のこと忘れてたよ。2000年代にタイムスリップした気分だね。
Microsoft “Works”って引用ミスってるよ。
MariaDBもまるでデータベースを発明したかのように聞こえる、だろ?
後にMicrosoft Zuneって名前に変わった、ポケットに入るAIコンパニオンの話だね。
GitHub Dotnet Copilot Code Generator for VSC (新機能)!
Microsoft Copilot .NET for Workgroups。
新しいプロジェクトを作って「Zunega」って名付けたくなっちゃったよ…笑
天才的!
これ、明らかに高品質だけど、声、特に男性の声にコンピューター生成だとすぐ分かる何かがあるんだよね。それを表現できるだけのオーディオに関する語彙が足りないんだけどさ。
俺もオーディオエンジニアじゃないけど、コンピューター音声は「ノコギリ波」っぽい音に聞こえるんだ。俺の理解だと、基本的なモデルや技術がアンダーサンプリングしてるから、一連の音声パルスがブツブツした音質を生み出してるんだって。より良いモデルなら、もっと滑らかな出力になるらしいよ。https://www.perfectcircuit.com/signal/difference-between-wav…
「ブロック状」って表現するかな。音波を視覚化すると、ピークがなくて上下が切り落とされてるみたいで、金属的で箱っぽいエコーが生じてるように感じるんだ。
うん、めちゃくちゃ低ビットレートに聞こえるね。Bluetoothマイクを使ってる人みたいだ。
自分で聞いた感じだと、VibeVoiceの音声はちょっと音揺れするし、ひどくMP3圧縮されたみたいに聞こえる時があるよ。
男性の声は女性の声よりずっとひどくて、ほとんどロボットみたいだよ。公式サイトのサンプルは全部女性の声から始まるし、明らかに問題を認識してるよね。
僕も同じように感じたよ、男性の声はなんか人工的だよね。
コードと大規模モデルが削除された理由、何か知ってる?MITライセンスで出回ってるコピーもあるけど、なんでプロジェクトが削除されるのか理解できないんだ。もしMITで誤ってリリースされてコピーされた場合、開発元がコントロールできるコピーを撤回して、損害をコントロールできるのかな?まあ、ちょっとしたことでもPR的には良くないよね。
コードとウェイトへのリンク、誰か持ってる?
私もこれ気になってたんだ。
最高のオープンソースTTSモデルの最新リスト(できればランキング)ってある?
私はSTT(ASR)の方にもっと興味があるんだけど、そっちは選択肢がかなり限られてるよね。
はい、これだよ: https://huggingface.co/models?pipeline_tag=text-to-speech
一般的に、このページでトレンドのモデルは試す価値があることが多いね。この分野は主観的な意見が多いから、HFでトレンドかどうかの他に、一番いい評価方法は自分の耳で聞くことだよ。でも、トレンドじゃないものは良くないことが多いね。
最高のTTSはVibeVoice、Chatterbox、Dia、Higgs、F5 TTS、Kokoro、Cosy Voice、XTTS-2だよ。
Unmute.sh(Kokoroと同じチームだよ)は注目されにくいけど、本当に良いよ。
ハンバーガーメニューからリーダーボードをクリックしてみてね。URLはこれ: https://huggingface.co/spaces/TTS-AGI/TTS-Arena-V2
ホストされているモデルをフィルタリングする方法ってある?上位3つは全部プロプライエタリみたいだけど。あ、プロプライエタリモデルの名前の横にロックアイコンがあるね。
残念だけど、GPUがないと使い物にならないね。古い1080で動かす方法がわからなかったよ。VibeVoice-1.5Bを古いCPUでtorch.float32で試したら、66秒のオーディオ生成に832秒もかかったし、torch.bfloat16から切り替えたら変なノイズも入った。GPUがないなら、これまで試した中ではKokoroが一番良いTTSモデルだよ。
あと、テキストにアノテーションを追加して出力を制御できないのは良くないね。モデルがレベルアップするには、普通のテキストからアノテーション付きの出力を生成し、それをTTSモデルに渡す中間ステップが必要だと思うな。そうすればユーザーは最終出力をもっと細かく調整できるもんね。
これってバカげてるよ。macOSには昔からテキスト読み上げがあって、そこそこ使えたし、エネルギーや計算資源を食うモデルなんて必要なかった。すぐに反応するし、馬鹿げた遅延なんてない。この“AI”に関する過剰な宣伝は信じられないね、あまりにもabsurdだ。
”acceptable quality”って、IBMのSteven Hawkingの椅子と比べたら、ってことかもね。でもAppleのTTSは、SotAの現代的な理解からすると、許容できる品質じゃないと思うよ。
用途が違うよね。視覚的じゃないテキスト出力が必要なら、SoyAは電気の無駄遣い。人間らしい話し方を真似したいなら、そうじゃない。問題は、『だってできるから』以外に、なんでコンピューターにもっと人間らしい音を出させたいの?ってことだよ。
TTSで生成されたオーディオブックを聴いてみたんだけど、ほとんどの場合、集中力が途切れてしまうんだ。Googleのポッドキャストみたいなやつは、初めて不気味の谷を感じずに最後まで聴けたものだったよ。それがgenAIだと分かってたんだけどね。だから、そういうのを自分のコンテンツでやりたいんだ。たくさんの記事(長文で深く調査されたもの)や本を、誇張なしの自然な声で”ポッドキャスト化”して、出かける時に聴けるようにしたいな。
Googleのポッドキャストは、気持ち悪いほどポジティブで、精神的に苦痛だよ。誰もパイナップルonピザがそんなに素晴らしいとは思わないって!
もっとコメントを表示(2)
オーディオブックや記事を「聞く」のにTTSは超重要だよ。読む時間がないときに料理や運転しながら聞けるし、朗読が見つからないことや、声優の質が悪いこともあるからね。
TTSが人間に近いほど聞きやすいし、邪魔にならないんだ。「できるから」じゃなくて、ちゃんと価値がある。高解像度で本を読むのが快適なのと一緒だよ。
コンピューターが人間に近い声を出す必要性について?「感情や抑揚を保った他言語への翻訳」や「自国語で利用できないコンテンツのダビング」に超使えるよ。
あとは病気で声を失った人や、自分の声に不満がある人が、望む形でコミュニケーションできるようになる。カスタム映画やゲームのNPCみたいに、新しいインタラクティブメディアの可能性も広がるんだ。
TTSや音声認識がクロアチア語みたいなマイナー言語でも使えるようになる日が待ち遠しいな。今は英語、スペイン語、中国語のバリエーションばっかりで、まともに動くのが少ないんだよな。
Sonioxっていう音声認識サービス、クロアチア語に対応してるけど試したことある?オープンソースモデルだけ探してる?Sonioxはめちゃくちゃ安いし($0.1/h for async, $0.12/h for real-time)、登録すると$200の無料クレジットももらえるんだよ。https://soniox.com/ (元Soniox社員より)
俺が言ってたのはGoogleとかAppleの汎用ツールだよ。英語でデバイスと話すのは嫌だから、アシスタントとか”AI”がほとんど使い物にならないんだ。
Android AutoとかCarPlayでも、英語じゃないと音声案内すらまともに動かないし、通知読み上げやSTTでの返信作成なんて全然無理なんだよな。
Vibe codingっていう言葉、今年の春にできたばっかりだよな。この研究プロジェクトがコードネームをつけて会社承認を得たのが、それより後だとは思えないな。まだVibeって言葉自体は、一般的にネガティブな意味合いを持ってないと思うけどね。
「Vibe」っていう言葉や商品名が以前ほど一般的じゃなかったのは確かだね。「VibeVoice」が「VibeCode」の影響を受けてないってことはないと思う。
でも、ネガティブな意味合いはまだないっていうのは同意するよ。
Vibeって元々は「特定の感覚」を意味してたんだよね。AIコーディングを「感覚で」やるっていうのと、実際に何が起こってるかを理解するのとの対比で、筋が通ってたんだ。
でも、その結果があまり良くなかったから、今じゃ軽蔑的な言葉になっちゃったんだよな。
「Spontaneous Emotion」の対話、まるでLLMでチームメンバーが愚痴ってるみたいだね。
歌のパートは飛ばしてもよかったし、モデルが歌おうとしない方が良かったんじゃない?
この歌のおかげで[1]の曲をまた調べちゃったよ。感情を刺激する素晴らしい歌だね。でも、ロボットの歌唱はまだまだ発展途上だよ。
1. https://music.youtube.com/watch?v=xl8thVrlvjI&si=dU6aIJIPWSs…
オープンソースって言うけど、じゃあトレーニングデータはどこにあるの?
ほとんどのスクレイピングデータって、著作権とか利用規約、プライバシー法違反が多いんだよね。
それを”オープン”にするのは、商業的な会社には賢明じゃないよ。=3
オープンソースって言葉が、実際のソースコードを提供しない言い訳に使われてるんだ。
こんなのやめてほしい。
コードにはGPLと違い”汚染”しないFOSSライセンスが複数ある。GPL違反はコードに起こるがトレーニングデータとは無関係。
学術データセットは商用利用不可な場合が多く、これにGPL主張は「どっちの泥棒が先か」って話だ。
企業が法律違反を隠すのは弁護士の戦略的真実、「嘘はつかないが有利な情報は開示しない」ためだよ… =3
そうかもしれないけど、修正しやすい形式を提供しないなら、それは伝統的な意味でのオープンソースとは言えないよね。
奇妙なOSSライセンス規則で、最終ユーザーにビルドを配布する時だけ開示義務が発生するものもあるね。
こういう敵対的なやり方はFOSSコミュニティの精神に反するよ。プロジェクトがFOSSとして始まったなら、FOSSのままでいるべきだ。=3
英語を話す時にマンダリン訛りを、マンダリンを話す時に英語訛りを再現できるのはすごくない?