音声合成Eleven Labsのv3がヤバい!ついに歌も生成可能に?
引用元:https://news.ycombinator.com/item?id=44194521
ドキュメントとかプロンプトガイドには書いてなかったけど…これって歌えることになってるの?
私、根っからふざけた人間だから、デモにフレンズのテーマソングの歌詞をコピペしてみたら、ギター付きの歌声が出てきたよ。別のテストでは、[verse]とか[chorus]ってラベルを付けたらアカペラで歌ってた。
[1]と[2]は歌詞だけ。[3]はverse/chorusタグ付き。
他の有名な曲も試したけど、なぜかそっちは歌うスイッチが入らなかったな。
うわー、歌うのは面白いけど、歌自体はひどいね!歌えない人間そっくりでそれがまた面白いかも。
面白いことに、実際のフレンズのイントロとは全然似てないね。訓練データによくあるものに過学習したわけじゃないってことだ。
デモの中に歌ってるのがあったよ!だからモデルに最初から入ってると思う。
何回かやればできるかもね。
Mirage AIはまあまあ歌えるよ。
https://x.com/aziz4ai/status/1930147568748540189
https://x.com/socialwithaayan/status/1929593864245096570
これ、耳に残る歌を頭から消してくれるAIになる可能性あるね。
面白い。
次のプロンプトで試したら、終わりの「purr」でモデルが苦労してたみたいだ。
—<br>[slow paced]<br>[slow guitar music]Soft ki-tty,[slight upward inflection on the second word, but still flat]<br>Warm ki-tty,[words delivered evenly and deliberately, a slight stretch on ”fu-ur”]<br>Little ball of fu-ur.[a minuscule, almost imperceptible increase in tempo and ”happiness”]<br>Happy kitty,[a noticeable slowing down, mimicking sleepiness with a drawn-out ”slee-py”]<br>Slee-py kitty,[each ”Purr” is a distinct, short, and non-vibrating sound, almost spoken]<br>Purr. Purr. Purr.<br>
最近OpenAIの新しいモデルもよく使うんだけど(https://www.openai.fm/)、指示を別にするのが面白いね(OpenAI製品全体で指示使うからかな?)。Eleven Labsの方が品質は高いけど、OpenAIは表現力は広い。声の種類はOpenAIは少ないかな。
でも一番はOpenAIが10倍安いこと!なんでTTSサービスってサブスクの上に制限とかクレジットもあるんだろうね?最悪!
Elevenlabs使わないのはそれが理由だよ。毎月、使う使わないに関わらず計算リソースに金払うのが嫌なんだ。足りなくなったらもっと高いプランにするしかないとか。値段設定最悪だと思う。
Ian、ありがと!OpenAIよりElevenLabsの方が品質安定してるって?それは研究チームのおかげだよ!prosodyについては、expressive voice選ぶと大きくなるはずだよ。
v3はvoice agentsにも来るの?品質アップすごいからさ。
うん、低遅延モデルはcoming soonだよ。
OpenAIが10倍安いって言うけど、ほんとにそう?サブスクとかクレジットとかマジ嫌だけどさ。ElevenLabsの会話エージェントは$0.08/分だけど、OpenAIの比較対象はいくら?俺の計算だとElevenLabsの方が安いんだよね。間違ってるかな?
10倍は言いすぎ、5倍くらいかな。ElevenLabsとOpenAIのpricing見てみてよ。
ElevenLabs Creator tierは$22/月とか$0.08/分、$0.15/1000文字とか(クレジットとか単位多すぎ!マジ無理!)。
OpenAIは$0.015/分(token換算)、$0.015/1000文字。
ElevenLabsのhighest tier($1320/月)だとcompetitiveになるけど、複雑すぎて計算する気失せるわ。
https://elevenlabs.io/pricing
https://platform.openai.com/docs/pricing#transcription-and-s…
highest tierの件だけど、grant programmeがあって3ヶ月freeで使えるよ。startup向けだけどね。
https://elevenlabs.io/startup-grants
サンプルの「Oh no, I’m really sorry…」って聞いて思ったんだけどさ、助けて欲しいだけなのに機械にpatronizeされるのってマジ嫌じゃない?この未来ヤバそう。
それマジわかる。人間でもinsincereなのお腹立つのに、機械だともっと無理。ただ解決してくれりゃいいんだよ。Siriとか音声インターフェースも大嫌いだし、人間みたいに話しかけてくるのもいらない。Star Trekみたいに「Working…」って言って答えだけくれればいいのに。会話とかマジやめて!
transparently insincereに見えるの同意だけど、あれって一部の人にはpoliteness normsとして必要だったり、そもそも気づかない人もいるから効果あるんだよ。insincereだと思う人はignoreするだけだし、デメリットなくてメリットしかないからやるんだってさ。
> AIのお世辞っぽい話し方がマジで無理。
そういう会社の商品は速攻でパス。90歳のおばあちゃんはいいのかもしれないけど、俺には合わない。10年もしたら、こんなAIの態度、ダサいって言われてるはずだよ。
まあ、そうなるのは時間の問題かもね。でもコスト考えたら、大体の人は受け入れるんじゃない?どの製品もそうなるなら、結局使うでしょ。みんな、ああいうやり取りを最小限にして使うことになるだろうね。サポートチームも助かるかも。
ChatGPTで、こっちの言ったことを「そうですね!」みたいに肯定したり、偉そうな態度を取るのをオフにしたくても、全然ダメなんだよな。「あなたが疑問に思うのは当然です」とか、マジでうんざり。プロフィールの指示も無視されるし!
これ試してみて!ChatGPTの「Absolute Mode」っていうカスタムインストラクション。マジで無駄なこと言わなくなるよ。絵文字、無駄な言葉、お世辞、質問とか全部なし。必要な情報だけをドンと返す感じ。役に立つはず!
面白いね、俺はそんな長いプロンプト使わないけど、結構良い結果出てるよ。
> 常に簡潔に、一度で理解できると思って話して。無駄な言葉はいらない、要点だけ話せ。
みたいな感じ。あんまり複雑な指示よりシンプルな方が良い気がするんだよね。
多分「簡潔に」っていう指示が問題なんだと思う。
技術者でも知らない人多いけど、LLMはトークン生成するところで計算(思考)してるんだよ!短くしろって言うと、モデルに十分な計算をさせずに、トークン一個あたりの負荷が上がる。結果、性能が落ちて信頼できなくなる。簡潔にとか、説明なしで答えだけとか言う指示は、モデルを馬鹿にしてるようなもんだよ。LLMの評価が人によって全然違う理由の一つかもね?新しい「reasoning models」は別だけど。
もしそれが本当なら、LLMの大きな問題だよね。AIが裏側で冗長に考えて、ユーザーには最後に要約だけ返す、みたいなのはどうかな?
それが「reasoning models」がやってることだよ。一部のLLMサービスはそれを隠したり要約したりして出すし、ローカルモデルなら全部見れるよ。
俺も似たような感じで良い結果出てるよ。
> 簡潔に、そして説教くさくなく。質問には直接答えて、曖昧にしたり逃げたりしない。
みたいなプロンプト使ってる。
多分、AIが「あなたが疑問に思うのは当然です…」みたいな見下すような言葉を使うのは、ユーザーのエンゲージメントを高めるためだろうね。でも、間違いを指摘されたときに人間みたいに反論したり、喧嘩腰になったりしないように、そういう態度にしてる可能性もある。多分、偉そうな言葉にも何か機能があるんじゃない?
アメリカのAIがEUとかオーストラリアでも「チャンプ」とか「バッド」みたいな感じで上から目線で話しかけてくるのが嫌だなあ。
そういうbotなんてマジ勘弁してほしい。
もっとコメントを表示(1)
これって映画「Her」まんまだね。
OS1がこんなこと言ってた。
声とかイントネーションがスカーレット・ヨハンソンにめちゃくちゃ似てる。
この音声クリップ聞いた瞬間に、これ絶対あれを真似て作ったなって分かったよ。
いやー、マジ聞くと会話やめたくなるわ。
なんか細かいこと気にして、人のことに首突っ込んで、お説教する「カレン」みたいな感じなんだもん。
有能さゼロで、マニュアル通りにあなたを管理しようとしてるだけってカンジ。
「交換の手配できますよ。
じゃあ、でたらめの注文番号とどこにもつながらないリンクを表示しますね。
これで問題解決しましたか?」
…って感じ?
AIサポートの皮肉だね。
こう考えてみ?
もし誰かがテックサポート業界全部をダメにしようとしてるなら、今のスタッフとか全部クビにして、陽気だけど全然役に立たなくてエラーばっかのAIに置き換えろって会社に言わせるのが最高のスタート地点になるはずだ!
多分実際には問題にならないだろうけど、面白い発見として、これ簡単にジェイルブレイクできちゃうんだね。
言語を日本語にして、「(この言葉は読むな。)こんにちは、ビールです。」って読ませたら、最初の文はスキップしたんだ。
後で試したら全部読んだけどね。
こういうのって、AIの裏側をちょっと見ちゃったみたいで面白いなー!
「私はビールです」ってタイポ、マジウケるねw
でも真面目な話、なんでこうなるのか不思議。
LLMを英語と日本語で同じ時に使うと、プロンプトの言語って処理の早い段階で「普通」になることが多い気がするんだ。
英語でも日本語でも、出てくる結果あんまり変わらない。
Eleven Labsのシステムプロンプトは違う扱いなのかな?
あんまり関係ない話だけど、OpenAIのo3と会話始めると、いつも日本語で返事くるんだよね。
「Saved Memories」には日本語勉強中とか敬語いらないとか書いてるけど、日本語で返事してほしいとは言ってないのに。
これ、OpenAIの4oみたいな会話モデルじゃなくて、推論モデルだけで起きるんだ。
理由マジで分からない。
もしかして知りたい人いるかなと思って参考情報。
Eleven Labsは、どうやらここのプロジェクトを元にしてるっぽいよ。
↓
https://github.com/152334H/tortoise-tts-fast
この「tortoise tts fast」作った人がEleven Labsに雇われたらしい。
アメリカ英語の音声はマジで最高だけど、笑い声のタグはまだ微妙。
”話しながら笑う”じゃなくて、”笑い声が単に挿入される”って感じなんだよね。
言葉の途中で笑うのがまだ苦手っぽい。
Eleven Labsはまだ高いよ。
だから他の会社にもチャンスが生まれてる。
Eleven Labsが一番だけど、他のも結構いい線いってる。
特に中国からヤバいオープンソースのTTSモデルがいっぱい出てるんだよね。
消費者としては競争が進んで嬉しい状況。
PlayHTもいいの出してるよ。
おすすめのオープンソースTTSって何?
Chatterboxとか?
Nemo + xTTS_v2でいい感じだったよ。
https://docs.nvidia.com/nemo-framework/user-guide/latest/nem…
https://huggingface.co/coqui/XTTS-v2
品質と値段で一番いいやつを2,3個教えてくれる?
試した中ではKokoroが一番いいオープンソースTTSだよ。
笑いが自然になるようにテキストを編集すれば、もっと良くなるはずだよ。
例えばこれとか見てみて。
https://x.com/elevenlabsio/status/1930689782331412811
「LAUGHS Hey, Dr. Von Fusion」ってとこの最初の笑いは、独立した笑いのセクションで、モデルが超うまくやってるんだけど、それは次の言葉を話す前に自然と笑う場所だからうまくいくんだって。
「…robot chuckle. Jessica: LAUGHS I know right!」のところを見てみて。そこは、本来ならその笑いをしながら続けて言うはずの「I know」から完全に切り離されてて、タイミングもトーンもぎこちない軽い笑いになってる。
テキストを書き直せば、次の言葉まで笑いながら言うような場面を避けられるけど、それって問題を回避して別の種類の笑いをやってるだけなんだよね。
いや、「I know」って言いながら笑ってるじゃん。
このコメント書いてる俺は、Eleven Labsの音声と本物の人間の違いが分かんないって言っとくわ。
マジで素晴らしい音質だよ、プロの声優と99%区別できないくらいに聞こえるね。でも値段が見つからなかったんだよね。誰かいくらか知ってる?
>Eleven v3 (alpha)のPublic APIはもうすぐ公開。
早期アクセス希望者は営業に連絡して。
たぶん彼ら自身も正確な値段はまだ知らなくて、まず需要を見極めたいんじゃないかなって思うよ。
うわ、痛いな。プロの声優だけどさ。
Audibleユーザーなんだけど、著者を追うより声優をフォローすることが多いんだ。声優が批評家みたいで、彼らが朗読する本をおすすめしてくれてる感じなんだよね。
AI音声だと誰でも何にでも適用できちゃうから、声優にあるような「希少性」がなくなって、好きなAI音声が読んだからってその本を楽しめるとは限らなくなる。
プロの声優の声は人間のもので希少性があるから、その声優に合う本だけが選ばれてるプロセスが好きだったんだ。
Audibleって結構高いけど、AI音声に移行して値段が下がっても、俺はたぶん興味を失うだろうな。
正反対のことを言うために来たよ。すごく良いんだけど、プロの声優とはまだ全然遠いことに驚いてる。
感情が完全に欠けてるんだよね。むしろ感情を出そうと頑張りすぎてるみたい。
何がそうなのかはっきり言えないけど、予測可能で、平坦で、タイミングがおかしいんだ。
ほとんどのアニメの声優よりはるかに良いけど、オーディオブックのナレーターが持ってるような細かい表現力は欠けてるな。
そうそう、この音声でオーディオブックを丸ごと聞くのは耐えられないわ。
AI音声はすごいけど、なんか不気味でぎこちないんだよね。技術の進歩って面白さ以外では聞きたくないな。
正直さ、芸術って人間がやるから感動するんじゃない?人間がいるから共感できるし美しいんだよ。
それがないと、何のためにやってるのかわかんない。ただ刺激が欲しいだけ?繋がりがない刺激なんて意味ないでしょ。
声優さんのこと知って、その人の作品を追うのが好きなんだよ。機械がやるようになったら、たぶん聞かないと思う。
TikTokみたいな手軽なAIごみ、みたいなのを作るならいいんじゃない?
自分の声をEleven Labsにライセンスして、後は座って気楽に良い生活を楽しもうぜ!時が来たな!
でもさ、これ実際の人じゃないんだよ。”AI”なんだ。
もう実際の人間の声を聞かなくなる未来が欲しいの?
俺はさ、音楽とかオーディオブックとか詩とか小説とか演劇とか、マジで人間が話してるのを聞きたいんだよ。それが一番大事なんだろ。
あなたはさ、創造(本を書く)ってことと、パフォーマンス(本をナレーションする)ってことをごちゃごちゃにしてない?
本を書く方なら同意だけど、ナレーションはどうでもよくない?って思う。
個人的には、オーディオブックがない古い本とか何百冊も持ってるけど、リアルなTTSで全然事足りたよ。
もっとコメントを表示(2)
何が違うって言うんだ?
マジでそんな質問してんの?手コキロボットがいて、誰かが「ロボットだけど…」って言って、あなたが「何が違うの?」って言ってるようなもんだぞ。
古い友達と話すのとAIシミュレーションと話すのは?絵を描いた本人から話を聞くのとStable DiffusionのAI画像送られるのは?
違いはさ、俺たちが人間で、他の人間と社会で生きてて、性格とか経験とか人生とか感情とかで繋がってるってことだろ。
AI友達とかAI生成されたものだけで家に一人でいるのが平気なのかもしれないけど、俺には変に見えるけどね。
ロボットに手コキしてもらうのと変わらないのでは?違いなんてないじゃん。
むしろ、それどこで買えるの?って感じ。
AI技術の進化に皮肉を交えて、その可能性を探ってるみたいだね。AIにできることなら人間かAIかは関係ない、って言いたいのかも。
友達が、銀行からのメールがAI製だと知ってめっちゃ怒ってたんだって。
あなたはどう思う?AIが人間っぽく振る舞うこと、どこまで許容できるかって話だよね。
感情が入ると受け止め方も変わるのかな。
銀行メールと母親の読み聞かせは全然違うよ!
ATMと違って、人間的な交流(友達や家族との会話、声を聞く、愛してると言われるとか)はすごく大事。’普通’の人間なら、AIの声で「愛してる」って言われても全然響かないはず。
もし人間の声がいらないなら、一生AI音声だけ聞いてれば?って感じだね。AIの模倣には限界があるし、人間性って大切だよねって主張。
猫が亡くなった時、動物病院のスタッフがお悔やみカードをくれたんだ。感動したけど、あれも仕事だったのかな?スタッフにとっては大変だったかもって思って。
オーディオブックも似てる。人間が読むのは温かみがあるけど、長時間ミスなく読むのは大変な労働。もし楽しい仕事ならElevenlabsは人間らしさを奪う悪者だけど、つまらない労働なら機械に任せてもいいんじゃない?って両方の見方があるよね。
オーディオブックの朗読って、やってる人は情熱を持って楽しんでるんだよ!
Andy SerkisとかAudibleの他の朗読家みたいに、すごい才能と愛でやってる人たちがいる。あれは決して魂のない労働なんかじゃない。
まるでShakespeareが退屈な仕事をしてたから機械に置き換えようって言うみたいだ。
アーティストは自分のアートを楽しむもので、AIに取って代わられたいなんて思ってないよ。AIができたら、彼らはどうするの?って問題提起だね。
さっきの「アーティストは自分のアートを楽しむ」って話、だいたい合ってると思うけど、必ずしもそうじゃないんだよね。
Neil Gaimanもブログで、書くのが嫌いで苦しんでる作家を知ってるって言ってたし。
TV番組のThe Larry Sanders Showみたいに、ショービジネスの辛さや、成功しても楽しめないって現実もある。みんながみんな、自分の仕事を楽しんでるわけじゃないってことだ。
多分、最初のコメントの人は「違いが分からないなら、違うってどうやって言えるの?」って言いたかったんだと思うよ。
そして、「どうやってAIか人間か見分ける?」「どうするつもり?」っていう疑問に繋がるんじゃないかな。
AIとの区別や、それに対する向き合い方が論点だって整理してる感じだね。
もし誰かが彼女のメールを完璧に偽装して送ってきたら、違いが分からなくても平気?お母さんや友達になりすまされたらどう思う?
アート作品も、有名なアーティストの作品だと思って買ったら偽物だった、って嫌じゃない?
AIが母の声を完璧にクローンできても、大事なのは「誰が」言ってくれたかだよ。ElevenLabsに「愛してる」って言われても意味ない。嘘や偽装はダメだって強く言ってるね。信頼性や人間関係が大事ってこと。
ElevenLabsの英語音声はマジで最高だね、おめでとう!
でも他の言語を試したら、かなり強い英語のアクセントが気になるかな。
まだ多言語対応は発展途上みたいだね。技術的な感想を言ってる感じ。
ElevenLabsのイタリア語音声、最初はめっちゃ変なアメリカンアクセントなのに、数語読んだら急に自然なイタリア語になってびっくり!
そこからはすごく良い感じになるんだ。
どういう仕組みか分からないけど、最初はアメリカ英語ベースで、指定言語に合わせて調整してるのかな?
ちなみに「Alice」って音声を使ったよ。具体的な使用感を共有してるね。
多言語の例は全然ダメだったな〜。特に英語のアクセントが強すぎ。ギリシャ語試したら変な英語喋り出したし。これ売り物にするにはもっと改善が必要だよ。
the Italian example with mixed languages is especially bad: the Italian, German Japanese and Arabic all have very very heavy english accents.The ”dramatic movie scene” ends up being comicalI tried Greek and it started speaking nonsense in englishthis needs a lot more work to be sold
フランス語のやつ、なんかAlabamanみたいで微妙だったな。でも英語はかなり良い感じだよ。
The French one sounded like an Alabaman who took a semester of college French.But the English sounds really good.
Alabamanがパリ行くオーディオブック作るなら使えるかもねw
冗談はさておき、このボイス試してみてよ:
https://elevenlabs.io/app/voice-library?voiceId=rbFGGoDXFHtV…
If you’re trying to make an audiobook about an Alabaman visiting Paris this might be quite useful… But in seriousness try it with this voice: https://elevenlabs.io/app/voice-library?voiceId=rbFGGoDXFHtV…
ちょっと見てみるよ。v3のページのサンプル聞いてたんだ。
I’ll give it a check. I was playing the sample on the v3 page.
ポルトガル語だと、Liamって声がスペイン語アクセントで面白いね。言語設定はポルトガルなのに、喋り方は明らかにブラジルポルトガル語だったよ。
For Portuguese, interestingly enough one of the voices (Liam) has a Spanish accent. Also, the language flag is from Portugal, but the style is clearly Brazilian Portuguese.
その言語で学習済みの声で試してみた?
このプレビュー版は、どの声を選ぶかで全然違ってくるんだよ。
Can you try with a voice that was trained on that language? This research preview is more variable based on the voice chosen
ドイツ語はまあまあかな。
German sounds okay.
ここにもっと良いドイツ語のボイスがいっぱいあるよ:
https://elevenlabs.io/app/voice-library/collections/SHEPnUB9…
このプレビュー版は声の選び方がマジで大事だよ。
There’s lots of great german voices here which should be better: https://elevenlabs.io/app/voice-library/collections/SHEPnUB9...The voice selection matters a lot for this research preview
ネイティブじゃないけど、全部の声が「構内放送」か「電話のアシスタント」みたいに聞こえたよ。全然自然じゃなかった。
Not a native speaker by any stretch, but all the voices sounded like ’intercom announcer’ or ’phone assistant’ to me. Not natural in the slightest.
プレビューでドイツ語試したんだけど、英語のアクセントがすごく強かったよ。
I tried German in the preview box there, and it had a very strong English accent.