FFmpeg 8.0がAI音声認識「Whisper」に対応！動画・音声の文字起こしが劇的に進化？

FFmpeg 8.0がAI音声認識「Whisper」に対応！動画・音声の文字起こしが劇的に進化？

引用元：https://news.ycombinator.com/item?id=44886647

kmfrk 2025/08/13 12:24:59

Whisperは本当にすごいよ！人生が良い方向に激変したね。Subtitle Editっていうツールを使ってみてほしい。Whisperの文字起こしに最高のインターフェースなんだ。ビデオやオーディオファイルをドロップして、「Video ＞ Audio to text (Whisper)」を選ぶだけ。Faster-Whisper-XXLとlarge-v2（v3は問題あるかも）で一番良い結果が出るよ。完璧じゃなくても、「Tools ＞ Fix common errors」で修正できるし。NVIDIAカードだと「–compute_type float32」が必要な場合もあるし、Whisper.exeのエラーが出たらTorchライブラリを再インストールしてみてね。エラーが解決したら、解決策を共有してくれれば嬉しいな。
https://www.nikse.dk/subtitleedit
https://www.nikse.dk/donate
https://github.com/SubtitleEdit/subtitleedit/releases

pawelduda 2025/08/13 13:38:54

どうしてそんなに生活が良くなったのか、具体例を教えてくれない？

shrx 2025/08/13 14:05:02

難聴者として、今じゃYouTubeみたいなネット動画をダウンロードして、すぐに字幕を生成できるんだ。ひどく録音されたり、聞き取りにくい音声に苦労しなくて済むようになったよ。

dylan604 2025/08/13 14:28:10

もし会話がひどく録音されていたり、聞き取りにくかったりしたら、文字起こしプロセスはどうやって正確にするの？

gregoryl 2025/08/13 14:55:19

それは、Whisperが音声の全情報を使えるからだよ。難聴の人にはそれができないんだ。興味深いことに、耳は完全に聞こえてるけど、”ソフトウェア”のバグ（つまり、背景にノイズが多い声だと処理するのがめちゃくちゃ難しい）がある人にも役立つよ！

spauldo 2025/08/13 17:43:03

俺もその問題抱えてるよ。かすかな音は聞こえるけど、背景ノイズがあると何を言ってるか理解できないんだ。俺の場合は物理的な問題が根本にあると思ってる。バンドの練習でギタリストがいつもフルボリュームで弾きまくってた後から出始めたんだ。

Morizero 2025/08/13 18:37:09

話者分離（diarization）とライブ音声文字起こしを組み合わせたWhisperのソリューションって知らない？

notatallshaw 2025/08/13 14:02:58

uvなら、利用可能なCUDA（や非CUDA）ドライバーに基づいて、適切なTorchバージョンを自動で取得する機能があるよ（システムPythonじゃなくてvenv使うのがおすすめだけどね）。
uv pip install torch torchvision torchaudio –torch-backend=auto
詳細は
https://docs.astral.sh/uv/guides/integration/pytorch/#automa…
これで、PyPIから他の要件を、TorchインデックスからTorch関連だけを引っ張ってこれるから、要件を安全に混在できるよ。

dylan604 2025/08/13 22:41:32

それを”問題”って言うけど、俺からしたら”機能”だよ！パーティとかで興味ないおしゃべりを無視するのに最高なんだ。まるで人間関係での選択的聴覚みたいだけど、もっと広い対象に使えるって感じかな。

jokethrowaway 2025/08/13 14:39:49

Whisperは確かに良いけど、ちょっと遅いんだよな。
何でも字幕や文字起こしができるのは最高だけど、NVIDIAのNemo Parakeet（ほとんどWhisperみたいなもん）はパソコンとの付き合い方を完全に変えちゃったよ。ちゃんと使える音声入力ができるし、考えるのと同じくらい速いんだ。
俺は音声コマンドを待って色々やってくれるスクリプトも持ってるんだ。結果をLLMに送ったり、コマンドを実行したり、F5-TTSで音声を合成し直したりできるから、まるでローカルのJarvisがいるみたいだよ。唯一の制限は、英語だけってことかな。

xrd 2025/08/13 14:42:49

俺はuvが大好きで、Pythonで効果的に使うには「uv add」と「uv sync」を知ってるだけでいいって本当に感じるんだ。これはとんでもない偉業だよ。
でも、こういうおまけの話を聞くと、さらにワクワクするんだよね。CUDAとTorchを連携させるのには何度も苦労してきたからさ。Astralのチームはノーベル平和賞にノミネートされるべきだよ。

30360000 2025/08/13 17:39:48

俺は前のコメントの人と同じように、ダウンロードした動画の字幕を作るためにWhisperを使ったよ。耳が悪いんだ。YouTubeの自動字幕よりWhisperはずっと良いみたいだから、良い字幕を生成するために動画をダウンロードしてオフラインで見る手間をかける価値がたまにあるんだ。
あと、Whisper.cppを使って俺がため込んだポッドキャストのエピソード全部を文字起こししたよ。古いCPUが全コア100%で何日もかかったけどね（その後、ダウンロードした新しいエピソードを文字起こしするのに何度か短い時間で実行した）。期待通りにうまく動いたよ。もちろん、固有名詞のスペルは間違えるけど、それ以上は何も期待してないし、誰にも期待してない。ripgrepを使って特定のトピックの古いエピソードを見つけられるのは素晴らしいし、たまに聞く代わりにエピソードを読んだり、字幕付きでmpvで聞いたりもしてるよ。

taminka 2025/08/13 14:20:24

Whisperはすごいのに、なんでYouTubeの自動生成字幕はまだあんなにひどいんだろうね？一番小さいWhisperモデルですらGoogleのソリューションよりずっと良いのにさ？ライセンスの問題なのかな？それとも大規模に展開するのが難しいとか？

joshvm 2025/08/13 19:50:24

ずっと良いかどうかはわからないけど、俺はYouTubeの外国語コンテンツで（なぜか）自動生成字幕がないものに、Whisperで字幕をつけられるのが好きなんだ。例えば、ドイツの比較的マイナーなコメディスケッチとかで、耳だけで理解するには俺の語学力が足りない場合とかね。10年前なら、持ってる動画の正確なコピーに同期した字幕を、ランダムなデータベースを探し回ってたよ。古い講義動画でトランスクリプトがないものもね。多くのコースは国の資金援助を受けるために対応しなきゃいけなかったけど、全部じゃないし、多くの国際的なコースにはこの要件がないからさ（例えば、ドイツやスイスの機関の素晴らしいCS／数学入門コースとか）。
あと、この自動生成出力を活用して、講義ノートの要約やおすすめの読書リストを作ることとかも考えてみてよ。LLMはこういうのが得意なんだ。
外国語の字幕を取って、Whisperでそれも文字起こしして、Geminiみたいな大きなモデルに一行ずつ英語への翻訳をチェックさせるみたいな賢いこともできるんだ。これにはよくある文字起こしの間違いや、言語間のイディオムの違いも考慮させられるんだ。俺はCursorで、モデルが変更した内容を追跡したり、簡単に元に戻したりできるようにしてるよ。安価なモデルだとぐちゃぐちゃになるような聞き間違いを修正するには、これで十分な場合が多いんだ。モデルに、なぜ特定の翻訳がされたのかとか、同じことをもっと自然に言うにはどうすればいいかとか尋ねることさえできるんだ。たまには冗談も理解してくれるよ。速いプロセスではないし、完全に自動でもないけど、時間をかけてレビューすれば、品質はものすごく良くなるよ。
これが90%オフライン／オープンアクセスでできるっていうのも、すごく印象的だ。Qwen3みたいな新しいOSSモデルは試してないけど、うまくクリーンアップしてくれるんじゃないかなと思うよ。

gregoryl 2025/08/14 00:23:40

それがハードウェアに起因するかもしれないってことについて、君の考えを聞きたいな。俺の聴覚はだいたい問題ないと思ってるんだ。うるさい複雑な音楽（ブレイクコアが大好き！）を聞き分けるのに問題はないんだ。
でも、2曲同時に再生したり、かなりのバックグラウンドノイズがある中で話しかけられたりすると、他のほとんどの人と比べて明らかに聞き取りにくいんだ。集中すれば、なんとか乗り越えられることもあるんだけどさ。
俺の素人考えだと、一種のパイプラインがあって、なんらかの前処理がオンになってないんじゃないかってことなんだ。だから、その後の処理がずっと難しくなってるんじゃないかと。

forgingahead 2025/08/14 04:05:22

うん、スクリプトを共有してくれる？ざっとドキュメントを見たんだけど、Parakeetを使うにはNemoを全部インストールしないといけないみたいだね？めちゃくちゃ重そうだけど。

hart_russell 2025/08/13 16:51:34

動画ファイルからSRT字幕ファイルを生成する方法はある？

kmfrk 2025/08/13 18:52:01

Diarizationって、まだ「白いクジラ」みたいで難しいんだよね。以前調べた時は、外部サービスへのAPIアクセスが必要なオプションばかりで、それで諦めたんだ。確かpyannote.audio[1]だったと思う。[1]: https://github.com/pyannote/pyannote-audio

jduckles 2025/08/13 19:25:56

WhisperXのDiarizationは個人的には最高だよ。whisperx input.mp3 --language en --diarize --output_format vtt --model large-v2ってコマンドで使えるんだ。Zoomのインタビューにすごく役立つよ。Diarizationはたまにちょっとズレるけど、だいたい正確だね。

threecheese 2025/08/13 15:37:46

そのスクリプト、共有してくれない？

randomflyer20 2025/08/14 14:06:45

これ、君が言ってるのに似てるよ。https://x.com/thekrishdesai/status/1955390536422134109

spauldo 2025/08/14 04:40:04

僕が言ったこと以上に何かあるわけじゃないんだ。狭い部屋で危険なほど大音量に繰り返し晒された後に起こったことだよ。かすかな音は聞こえるけど、強いアクセントや背景ノイズが多いと単語が理解できないんだ。そのバンドを辞めてすぐ気づいたよ。最後の練習が耳にドリルをねじ込まれるようなうるささだったから辞めたんだ。

mschuster91 2025/08/13 14:55:55

「聞き取れない」の定義って人によって違うよね、特にアクセントで。例えば、ドイツ人の平均的な人なら問題なく理解できるけど…ザクセンの奥地出身の人とかはもう無理、みたいな。

ec109685 2025/08/13 22:53:33

再生回数が多い動画には、もっと良いモデルを使うべきだと思わない？（圧縮最適化の時みたいに、すでにやってるけどさ）。

ddingus 2025/08/14 11:12:42

君の識別能力が影響を受けたように見えるね。蝸牛には細かい有毛感覚細胞がたくさんあって、その広がりが周波数範囲を決めるんだ。音の大きさは細胞の形が影響する。君の場合は、大音量によって多くの感覚毛が影響を受け、同時発音の識別が難しくなったんじゃないかな。数が減ったか、曲がって寄与できない状態なんだよ。

spauldo 2025/08/13 23:36:24

ポンプ室で技術者の隣にいるのに、彼が何を言ってるか聞き取れないって状況はマジで最悪だよね。

rhdunn 2025/08/14 06:46:52

NeMoのASR機能だけ使うなら、Python 3.12でvenv作って、NVIDIA/NeMoをクローンして、必要なライブラリをインストールすればOK。
その後スクリプトを書いて実行すれば使えるけど、俺の低スペックPCだとメモリ不足だったわ。ワークステーションで試すのはまだこれから。出力形式は自分で加工してね。

Lio 2025/08/13 11:03:10

ローカルでの文字起こしが普及したら、コンテンツ制作者が動画に焼き込み字幕を入れなくなることを願うよ。プロの作品でも邪魔な字幕が消せなくて困るし、猫の面白動画じゃないなら不要でしょ。ローカルなら自動翻訳もできるのに、焼き込み字幕の上から重ねるのは読みにくいし。

ambicapter 2025/08/13 12:06:51

それってユーザー体験のためじゃなくて、”エンゲージメント”を増やすためにやってるんだよ。

iAMkenough 2025/08/13 14:13:10

あと、一部のSNSプラットフォームには字幕機能がないから、必要な人やスマホをミュートで見る人向けに、焼き込み字幕が唯一の方法なんだ。

もっとコメントを表示（1）

anchpop 2025/08/14 06:44:58

俺も一度（邪魔な字幕を）自分の動画でやってみたんだけど、すごく不評だったな。もうやらないけど、個人的には従来の字幕よりよっぽど見やすいと思ったから、なんでかなって困惑したんだよね。（テスト視聴者は誰も気にしなかったけど。）

appease7727 2025/08/16 17:53:45

字幕ってのは、そもそもエンゲージしたり注目したりするもんじゃないんだよ。だから、コンテンツより字幕を目立たせるのをみんな嫌がるんだ。字幕に注目させたいなら動画じゃなくてブログを書くべき。
字幕はアクセシビリティ機能なんだ。邪魔にならず、動画の内容を補完するものであって、損なうもんじゃない。必要な時にだけ見えるように、さりげなくあるべきなんだよ。

TsiCClawOfLight 2025/08/14 08:03:57

ADHDだったりする？それなら（字幕の好みの）違いを説明できるかもね :)

jiehong 2025/08/13 17:09:47

あの焼き込み字幕も、15年前のファンサブの、イントロ音楽に合わせたテーマ性のあるアニメ字幕には全然敵わないね。あれは今でもイケてると思うけど。

trenchpilgrim 2025/08/13 17:15:19

あと、ファンサバーたちが看板とか手書きメモみたいな作中文字を翻訳するためにマスクを作ったりするのもね。

mattxxx 2025/08/14 01:36:52

ファンサブがニュアンスや言葉遊びを説明する注釈（アスタリスク付き）を付けてくれるの、好きだわ。

freddie_mercury 2025/08/14 10:08:58

最近、Internet Archiveで『Tomodachi』版『ふしぎ遊戯』のファンサブを見つけたんだけど、あれがこの手法の最も有名な例だったのね。https://archive.org/details/tomodachi-fushigi-yugi-vhsrip

whywhywhywhy 2025/08/13 12:48:30

アルゴリズムが動画をブーストするから字幕つけるんだよね。たとえ全デバイスがリアルタイムで100%正確な字幕表示できても、動画のパフォーマンスが良くなるなら字幕は付け続けるはずだよ。

absoflutely 2025/08/13 14:42:19

このトレンドはYouTubeのサイレント自動再生が一因だと思うな。焼き付け字幕（Baked in subtitles）があると、動画に引き込まれやすいんだよね。

HPsquared 2025/08/13 11:05:41

焼き付け字幕のもう一つの問題は、言語を変えられないことだよ。

LorenDB 2025/08/13 12:22:30

焼き付け字幕のさらに別の問題は、たいていフォーマットがひどいこと。話されている間だけ一瞬表示される単語なんて、誰が読みたいと思う？

rkomorn 2025/08/13 11:13:27

確かにね。でも（ストリーミングアプリで字幕が一瞬しか表示されなくて巻き戻ししまくってる人間としては）焼き付け字幕もアリかなと思う時があるよ。Netflix、Viki、Apple TVとかで字幕が短時間表示される問題が蔓延してて、かつ一時的なのが謎なんだよね。

t-3 2025/08/13 15:32:43

私の経験だと新しい問題だし、自動文字起こし／翻訳ツールで字幕を生成してるのが原因だと思うな。例えばVikiの中国コンテンツだと、元の中国語字幕はちゃんとしたフォーマットなのに、英語字幕は音声に合わせたバラバラなスタイルなんだよね。レビューなしで転写＋翻訳ツールを使ったとしか考えられないよ。

rkomorn 2025/08/13 16:38:13

自動化関連のことだとは思わないな。大手アプリの有名番組でも起きるんだもん。イベントやタイマーが誤作動して字幕が消えちゃう、ツールキットの問題だと思う。巻き戻して再生し直すと起きない（一時的な問題だから）ってことからもね。

t-3 2025/08/13 16:47:38

少なくともVTTやSRTなら、表示されるテキストの塊は時間と明確に紐付けられてるから、ああいうことは起きないはずなんだけどな。動画のトランスコードみたいに、リアルタイムで字幕作成してるのかもしれないけど、動画や音声と比べて軽いプレーンテキスト形式なのにそれだと変だよね。

rkomorn 2025/08/13 17:03:16

LG WebOSでアプリや言語をまたいで変な挙動があるけど、まあそんなもんかなって感じ。別に大した問題じゃないし、たまにイラっとするくらいかな。これは競争状態の雰囲気があるね。

preisschild 2025/08/13 11:25:47

文字起こしって、通常のクローズドキャプション、つまりSRT字幕としてアップロードすればいいだけなんじゃない？

jimkleiber 2025/08/13 12:44:31

ソーシャルメディアによっては字幕やキャプションが表示されないんだよね。YouTube Shorts、TikTok、Instagram Reels、Facebook Reels、WhatsAppのステータスとか。だから、しぶしぶ動画に字幕を焼き込んでる人もいるんだよ。それが課題なんだ。

dzhiurgis 2025/08/13 12:24:56

Netflixみたいなところが、ほとんどのコンテンツで3〜4言語くらいしか提供してないのがイライラするね。ブラウザ拡張機能を使えば無料で手に入るのにさ。これって組合の関係なのかな？

dewey 2025/08/13 13:10:00

Netflixが、もっと字幕のライセンス料を払わなきゃいけないのに、海賊版や無許可の自動生成字幕と競争できないのは、別に驚くことじゃないよ。Netflixにお金を払わないと見れないのに、海賊版サイトでは無料で制限なく見れるってのも腹立つよね。

londons_explore 2025/08/13 10:48:52

これって、もっと情報が出てきた時に古い単語を編集する機能とかあるのかな？例えば「I scream」と「Ice cream」って発音は同じだけど、「I scream is the best dessert」より「Ice cream is the best dessert」の方が意味が通じるよね。低遅延と高精度を両立させるにはこれが必要そう。Androidの文字起こしみたいに、話してる途中で修正されるのが見えるやつだね。

yvdriess 2025/08/13 12:27:31

みんなに、僕のお気に入りの論文のタイトルを教える良い機会だね。それは「How to wreck a nice beach you sing calm incense」だよ。URLはこちら: https://dl.acm.org/doi/10.1145/1040830.1040898

Fluorescence 2025/08/13 12:50:24

人間の字幕制作者や脚本家が、意図的に曖昧な発言、ダジャレ、そして物語上重要な聞き間違いをどう文字起こしするか、すごく興味深いね。聞こえたものを字幕にするべきか、それとも言われたことを字幕にするべきか。生まれつきのろう者は、ダジャレや韻、聞き間違いを理解するために言葉の音を特別に勉強するのかな？経験的な要素なしに抽象的な数学をやってるみたいに感じるのかな…。

abound 2025/08/13 12:48:38

あの論文のタイトルが何のことか困惑してる人のために言うと、多分「How to recognize speech using common sense」のことだと思うよ。

ph4evers 2025/08/13 10:53:20

Whisperは30秒のチャンクで動くんだって。だから文字起こしできるし、それで結構幻覚（ハルシネーション）も出ちゃうんだよ。

0cf8612b2e1e 2025/08/13 15:18:42

字幕の質って、作成にほとんど手間がかかってないみたいだよね。高予算の映画やテレビ番組でも、字幕とセリフがどれだけズレてるか見てびっくりするよ。

smallpipe 2025/08/13 15:35:39

良い字幕って、言われたことの完璧なコピーじゃないんだよね。

kstrauser 2025/08/13 16:45:07

全くそうは思わないね。文字起こしを読む時は、クリエイティブな編集じゃなくて、話者が言った一言一句が欲しいんだ。話者の声が聞きたいんであって、文字起こしする人の声じゃない。自分の言語で字幕を見る時、字幕の言葉と聞こえる言葉が一致しないとイライラするんだよね。コンテンツから意識が離れちゃう最速の方法だよ。

jeroenhd 2025/08/13 10:55:10

FFmpegはデフォルトで3秒のチャンク（https://ffmpeg.org/ffmpeg-filters.html#whisper-1）。queueはWhisper処理前のキューの最大サイズ。小値だと頻繁に処理され品質は低いがCPU高め。大値（10-20秒）だと正確でCPUも少ないが遅延が高い。リアルタイムには不向き。大きなqueue値にはvad_modelオプションを検討してね。デフォルトは「3」だよ。

londons_explore 2025/08/13 11:06:16

「I scream」が1チャンク、「is the best dessert」が次のチャンクの場合、最初のチャンクの修正はできないの？それは最適じゃないね！他の文字起こしサービスは入力はチャンク分けするけど、過去のチャンクも編集できるよ。「ベストN」デコーディングを使うから、N個の出力があって、全部で同じ単語が出たら固定されるんだ。デコーダーの状態をN回複製する必要があるけど、数KBだから、何百ものNで前の単語の曖昧さにも対応できるんだ。

もっとコメントを表示（2）

strken 2025/08/13 13:53:41

ありがとう！「Calm incense（落ち着いたお香）」って、「calm」が「com」みたいに発音されないアクセントだと、ほとんど意味をなさないんだよね。

solardev 2025/08/13 22:27:59

そういうアクセントだと「calm」ってどう発音されるの？

DiogenesKynikos 2025/08/13 11:09:49

これって、君の脳が言語を処理する時にやってることなんだ。あまり話せない言語だと、音質が悪くなると理解力がずっと早く落ちることに気づくんだ。でも母国語だと、たとえ音質が最悪でも、脳が文脈に基づいて、その単語が何であるべきかという事前の期待で、ごちゃ混ぜになった単語を補完してくれるんだよね。

mockingloris 2025/08/13 11:30:31

ちょっと話はそれるけど、思考する言語が脳の思考や情報解析の範囲を制限する現象を知ったんだ。幸運にも僕は英語で考えていて、英語は常に進化してるから世界とともに広がっていく。僕の出身地のほとんどの人とは対照的で、彼らにとって英語は第二言語で、教える側のリソースも不足してたんだ。

anonymousiam 2025/08/13 12:34:11

Whisperは素晴らしいけど完璧じゃないね。先週電話の文字起こしに使ったら、「Gem」が「Jim」や「Jem」になっちゃったよ。正確じゃないと困ることもあるよね。

cyphar 2025/08/13 14:30:43

これは言語相対性の話だね。自分の母語が一番だと思ってる人が多いけど、言語ってのは話者のニーズに合わせて進化するものだよ。あと「言語で考える」ってのも怪しいし、非母語話者が表現に苦労するのをバカだと見るのは差別的だと思うよ。

creesch 2025/08/13 17:55:05

字幕ってのは完全な文字起こしじゃないんだよ。多くの人が読みやすいように、動画のペースに合わせて要約したり言い換えたりしてるんだ。全部正確にしたら、読むのが追いつかなかったり画面が文字で埋まっちゃうしね。母語話者には不満かもしれないけど、字幕は意味を伝えるのが目的なんだよ。

iczero 2025/08/13 18:54:08

YouTubeの字幕はいつも使ってるけど、ほとんど100%正確な文字起こしで、全然不満ないよ。むしろ verbatim の方が好きだね。もし読むのが遅いなら、動画を遅くするか、早く読む練習するか、字幕を消せばいいだけじゃない？

chipsrafferty 2025/08/13 14:38:16

いや、ちゃんと意味はあるんだよ。君をバカだなんて言わないけど、標準的な英語だと、早く話せば二つの文ってほとんど同じに聞こえるんだ。

dylan604 2025/08/13 14:55:06

ハック・フィンを読んでた時も同じこと考えたよ。あれって表音的に綴られてるだけじゃなく、全然違うんだよね。なんかマーク・トウェインが単語リスト作って、二年生の子供たちに綴りを教えてもらったみたい。変なスペルでもそのうち慣れるのかな？

creesch 2025/08/13 20:42:32

「読むのが遅いなら遅くしろとか練習しろとか、的外れすぎる！俺は自分やYouTubeだけの話をしてるんじゃないんだよ。お前の使い方だけがみんなの使い方じゃないんだから、そんなに難しいことじゃないだろ？

crazygringo 2025/08/13 17:54:39

字幕って大体同じだけど、スペースとか分かりやすさのために編集されることがあるんだ。繰り返しの言葉とかフィラーワードは消されるし、Fワードみたいな汚い言葉も飛ばされたりするよ。印刷物だと言葉の力が強く感じるからね。字幕って芸術なんだよ。忠実にやっても意味が伝わるとは限らないって、自分で作ってみて分かったな。フィクションの字幕は物語を伝えるためのものなんだ。

miki123211 2025/08/13 11:22:00

より長い重複するチャンクを使うのが正しい方法だよ。例えば3秒ごとに文字起こしするけど、直近の15秒の音声（録音の最初ならもっと短くてもいい）を文字起こしするんだ。ただ、これだと処理要件が大幅に増えちゃうね。キャッシュをうまく使えばある程度は回避できるだろうけど、オープンな実装でやってるところは多分ないと思う。

spauldo 2025/08/13 17:51:49

それって「口語体で書く」ってやつじゃないかな。テキストメッセージでそうしてるよ。イアン・M・バンクス（Iain M. Banks）の小説「フィアサム・エンジン（Feersum Endjinn）」でも、登場人物の一人がこれと似たようなことをやってて、すごく効果的だったよ。

t-3 2025/08/13 15:26:40

それは少なくとも人間と同等には良いよ。でも「人間以上」になるには、誰が話しているかを正確に推測して名前を正しくスペルするために、かなり侵襲的な統合が必要になるか、別の人が言ってたみたいに手動で文脈を与える必要があるだろうね。

brcmthrowaway 2025/08/13 15:07:02

AIの音声認識って、まだマルコフモデル使ってるの？

nomdep 2025/08/14 02:57:16

強く、猛烈に反対するよ。
字幕はコメンタリーじゃないんだ。オリジナルのメディアを作るアーティストは、ライターや声優、その他関わるすべての人だ。見知らぬ誰かが自分の意見や視点でそれを汚すべきじゃない。字幕は完璧な文字起こしか、最も正確な翻訳であるべきで、再解釈なんて絶対にダメだね。

codedokode 2025/08/13 15:54:39

俺の経験だと、例えば外国語の講義を見てるとき、正しい翻訳が分からない用語があって、母国語でそれについて考えたり話したりできないことがあるんだ。意味はわかるんだけどね。

JohnKemeny 2025/08/13 12:47:11

関連する情報だけど、パッチの作者によるブログ記事があるよ。「Run Whisper audio transcriptions with one FFmpeg command」ってやつ。
https://medium.com/@vpalmisano/run-whisper-audio-transcripti…
これはここで投稿されたんだけど、コメントは0件だったよ。
https://news.ycombinator.com/item?id=44869254

eXpl0it3r 2025/08/13 14:28:01

リンクが壊れてるよ、正しいリンクはこれ。
https://medium.com/@vpalmisano/run-whisper-audio-transcripti…

NiekvdMaas 2025/08/13 14:31:33

正しいURLはこれだよ。
https://medium.com/@vpalmisano/run-whisper-audio-transcripti…

記事一覧へ

著者

海外テックの反応まとめ

暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。