ハッカーニュース エムダッシュ使用率ランキング!ChatGPT登場以前のベテランは誰だ?
引用元:https://news.ycombinator.com/item?id=45071722
Emダッシュ (—) の使い方がAI生成の疑いを招くようになったよね。dang氏の提案に触発されて、ChatGPTが登場する2022年11月30日以前のHN投稿でEmダッシュを使ったユーザーのランキングを作ったんだ。dang氏自身も僅差で2位だったよ。
Google BigQueryでHNデータベースを検索する方法や、リーダーボードのHTML作成はClaude Codeに感謝してる。[1] https://news.ycombinator.com/item?id=45053933
元のURL (v1) は https://www.gally.net/miscellaneous/hn-em-dash-user-leaderbo… だったんだけど、もっと複雑なEmダッシュ分析をするためにv2に差し替えたんだ。詳しくはここを見てね :)
https://news.ycombinator.com/item?id=45075379 と https://news.ycombinator.com/item?id=45072635
Google BigQueryのHN公開データセット [0] を使って、Emダッシュの利用が確実に増えてることがわかるよ。
2025年には0.014まで増えてるね。
2022年11月30日までのEmダッシュ使用率の高いユーザーを調べたら、zmgsabst [1] が一番多く使ってて、westoncb [2] は古いアカウントだけど4番目に多かったよ。SQLクエリも載せておくね。
[0] https://console.cloud.google.com/marketplace/product/y-combi…
[1] https://news.ycombinator.com/threads?id=zmgsabst
[2] https://news.ycombinator.com/threads?id=westoncb
2025年にはEmダッシュがAIと関連付けられて語られ始めたってのは注目だね。
ひょっとしたら「em」って単語が入ってるコメント(CSSのem単位とか)は、除外しちゃってもいいかもね。
年配の人、例えば40代以上の人たちは、Emダッシュと共に育った世代だよ。
それは逆だよ。その年代の人たちは、Emダッシュが文字セットにないコンピューターや、マイナスキーしかないタイプライターで育ったんだ。
Emダッシュと共に育ったのは、30年前のHTML世代で — が少なくともそこそこ便利な文字エンティティだった人たちだよ。
その通りだね。俺は46歳でBBS世代、初期のインターネットと共に育ったけど、Emダッシュって名前を知ったのは、GPTの話題になってからだったよ。
…ってことは、君はここの投稿をある意味で読んでるってことだね。(-:
— IM2000
* Origin: Hacker NewsってWWWサイト (2:257/609.3)
ダッシュの使い方ガイド
ハイフン (-) = 単語をつなぐ
エンダッシュ (–) = 「〜から/〜の間」
エムダッシュ (—) = ポーズ、強調、ドラマチックな効果#
それは逆だよ。タイプライターにはマイナスキーしかなかったって?
俺たちはタイプライターでもEmダッシュを打ってたんだ。プラテンノブを1クリック下げて _ を打って、また戻してたんだよ。
80年代以前にタイピング覚えた人は、エムダッシュじゃなくて--
使うし、文の間にスペース2つ入れるんだよね。最近のワードプロセッサは自動でエムダッシュにしてくれるけどね。俺は独学のタイピストで、プログラミングは100WPM超えで正確に打てるけど、普通の文章だと結構エラー出すんだ。
俺は90年代にタイピング習って、二重ハイフン使ってたよ。文の間にスペース2つ入れるのも習ったけど、2000年代にはやめたな。
それはそういう習慣がなかったって意味じゃないよ。君の家だけが全てじゃないし、世界中の何百万もの企業のタイプライターの使い方を代表するわけじゃないからね。
確かにね。でもMacにデスクトップパブリッシングが登場したときは、すぐにそれを取り入れたよ。
“デスクトップパブリッシング”や“The Mac is not a Typewriter”で育った年配の人たちは、エムダッシュと一緒に成長してきたんだよ。
その通りだね。俺のタイプライター使いの父は二重ダッシュを使うだろうな –。
zmgsabstさんのコメントをちょっと見てみたら、ダッシュの周りにスペース入れてるんだよね — こんな感じで。ChatGPTはいつもスペースなしで使ってるよ—こんな風にね。
フィルターを特定の条件(emダッシュだけど前後にスペースなし)に変えると、westoncbがリードして、mucholove、trebbble、_zzaw、lexcorvusが続くみたいだね。
実は1ヶ月くらい前に、僕がLLMがemダッシュをたくさん使うようになった理由だってツイートしたんだよ(笑): https://x.com/Westoncb/status/196180304698671407
僕のWWWサイトやStackExchangeにはemダッシュがかなりあるし、Wikipediaにも書いた記憶があるな。でも、LLMを訓練した責任は君に押し付けるよ(笑)。
あはは、いいよ。実は面白い話があって、僕がemダッシュを多用したのはChatGPTと同じような経緯だと思うんだ。文法を勉強して、古典を読み漁り、句読点の使い方をマスターしたんだ。その練習として、日記やAIM/IRCでの会話を「正しく」句読点付きの文章に変換してたんだ。そうすると、自然な会話を正確に変換するとemダッシュがたくさん使われることになる。ChatGPT/LLMも自然で「正しい」スタイルを目指してるから、今の状況になったんだと思う。あくまで仮説だけどね。
ルールとしては、enダッシュは両側にスペース(– のように)、emダッシュはスペースなし(— のように)だよ。大事なのは、USキーボードにはこれらがなくてハイフンだけだってこと。複数のスタイルを混ぜるのは良くないね。
スペースがないと変に見えるよね — 僕の意見だけどさ。
僕もスペースを入れてたんだよ。スペースを入れないのが正しいって指摘されて、「LLMじゃない」って言われちゃった。カーニングがちゃんとされてれば、スペースがなくてもスペースがあるように見えるのかな?
いやいや、全然そんなことないよ。歴史的な例がいくつかあるから見てみて。1903年の『オズの魔法使い』— https://archive.org/details/newwizardofoz00baum/page/2/mode/…
1894年のライフ誌 — https://archive.org/details/sim_life_1894-08-23_24_608/page/…
1843年のThe Illustrated London News — https://archive.org/details/illustrated-london-news-v002-184…
emダッシュは文字を連結するものだから、そう見えるべきなんだ。
emダッシュにthin spaces (U+2009) や hair spaces (U+200A) を使うこともできるけど、HNだと普通のスペースとして表示されちゃうんだよね。
一般的なガイドラインでは、enダッシュはスペースあり、emダッシュはスペースなしって言われてるのを見たよ。
エムダッシュの使い方は、前にスペースなしで後にスペースを空けるのが正しいと思ってたんだよね。
英語に「正しい使い方」なんてないんだよ、全部みんなの合意次第さ。でも1900年代に出版された本では、エムダッシュのそういう使い方を見たことあるよ。
ダブルハイフン—これもランキング対象にしてみない?
俺も長年Linux使ってたけど、2022年末にApple Silicon搭載MacBookに乗り換えたんだ。
WindowsやLinuxだとエムダッシュは面倒だけど、MacOSならOptionキーで「–」って簡単に打てる。俺は使ってないけど、Macに移行した人の中にはエムダッシュを使い始めた人もいるだろうね。
もっとコメントを表示(1)
その文字は実はenダッシュ(5–10みたいな範囲で使うやつ)だよ。エムダッシュは[shift][option][-]さ。TeXユーザーはダブルハイフン「–」をenダッシュ、トリプルハイフン「—」をエムダッシュとして使うから、それもリストに加えるべきだね。
うん、TeXを使い始めてからエムダッシュをしょっちゅう使ってるよ。AIみたいに見えるかもしれないけど、それだけの価値はある。iPhoneでエムダッシュを出すには、ハイフンを長押ししてみて—一番長い3番目のオプションがそれだよ。(追記: タイプミス。結局iPhone使ってるからね。)
ダッシュの前後でスペースを入れてないね-それだけでAIっぽいかどうかのスコアが俺の中では下がっちゃうよ。
ChatGPTは(少なくとも俺の場合は)イギリス英語のスペルや慣習を使うように明確に指示しないと、エムダッシュの周りにスペースを入れないんだ。
エムダッシュは[shift][option][-]って言うけど、US配列ならそうだろうね。他の配列だと入れ替わってる場合もあるんだ(例えば⌥-がエムダッシュで⇧⌥-がenダッシュになる、とか)。
WindowsやLinuxでエムダッシュを入れるのは大変って話だけど、LinuxならComposeキーを設定できるよ。そうするとエムダッシュは「compose」にハイフン3つ(Macintoshはshift-option-hyphen)、enダッシュは「compose」にハイフン2つとピリオド(Macintoshはoption-hyphen)で打てるんだ。俺はそうやってるよ。他には「Level 3 shift」とかAltGrキーを設定する手もあって、English Internationalレイアウトなら引用符、English Macintoshレイアウトなら引用符とダッシュも使えるようになるよ。
2008年頃にカスタムキーマップでギリシャ文字やnbspを追加した時、エムダッシュを使い始めたんだ。でもMacOSが自動で入れるようになってからは使わなくなったな—だって、明らかにAppleユーザーだってバレちゃうからね(参照: https://www.jstor.org/stable/2096459)。最近、俺のRedditのコメントをエムダッシュでリストにして、2010年のコメントをChatGPTが書いたって冗談みたいなクレームをつけられたんだよ。
Bitcoin初期開発者だけど、詐欺師に兆ドル規模の訴訟を起こされ、裁判で勝ったよ。訴訟中にChatGPTが登場すると、そいつは偽造証拠や書類作成にすぐ使い始めた。結果、軽微な制裁を受け、今もAIが書いたとされる文章を自分で書いたと見せかけるため、ChatGPTで大量の駄文を毎日量産している。emdashの使い方は裁判でChatGPT使用を判断する要素ではなかったけど、AI利用の主張の根拠だと素人でも気づくシグナルではある。
TLDR: バカどもが僕を敵だと思ってる。
説明ありがとう。ひどい話だね、大変だっただろう。
うん、ずっとLinuxユーザーだったから、em dashはcomposeキーで打ってたな。macOS(昔のMac OS X)だとoption-shift-hyphenでさらに速く打てると知ってからは、ずっとem-とen-dashを使ってるよ。タイポグラフィを少しでも気にかける人が、その努力をAIのせいにされるのは悲しいし、驚かないね。LLMコーディングツールがあふれる今の職場では、難しいコードを見るとAIが書いたって勝手に思い込む人がいる。それは自分の無能さの表れだね。いつか、ちゃんとした大文字を使ってるだけでAIの印になるんじゃないかな。
iOSは二重ダッシュを自動でem dashに変換してくれるよ — ほらね?(二重ダッシュを打ったんだ)
僕には変換されなかったな – これは二重ダッシュだよ。もしかしてスマート句読点をオフにしてるからかな — うん、そうだった。そのオプションだけ選べれば良いのに、スマートクォーテーションはいらないんだよな。iOSユーザーとしては仕方ないね。
パスワードを入力したら自動でアスタリスクが表示されるよ。
hunter2
僕にはこう見えるよ: *******
本当に表示されるとは知らなかったよ、僕には*******って見えてるけどね。
LinuxならComposeキーを設定すればダッシュを書けるんだ。「–.」で「–」、「—」で「—」になるよ。
俺も「–」をem-dashとして使ってるけど、自然とそうなるんだよな。
em-dashを使った投稿の生の総数じゃなくて、全投稿に対する割合でデータを見たらどうなるか気になるな。後から登録した人たちがリストの上位に来るんじゃないかな?
Google Cloudプロジェクトを作ってBigQueryで試してみてよ。課金も無料トライアルもいらないから。このSQLクエリを使えば、em-dashの使用率を計算できるよ。俺は516人中47位で、コメントの0.29(875件中258件)にem-dashが含まれてる。
FROM bigquery-public-data.hacker_news.full
|> WHERE type = ’comment’ AND timestamp < ’2022-11-30’
|> AGGREGATE COUNT() AS total, COUNTIF(text LIKE ’%—%’) AS with_em GROUP BY by
|> EXTEND with_em / total AS fraction_with_em
|> ORDER BY fraction_with_em DESC
|> WHERE total > 100 AND fraction_with_em > 0.1
追記: タイムスタンプについても下のクエリで分析できるよ。
FROM bigquery-public-data.hacker_news.full
|> WHERE type = ’comment’ AND timestamp < ’2022-11-30’
|> EXTEND text LIKE ’%—%’ AS has_em
|> AGGREGATE
COUNT() AS total,
COUNTIF(has_em) AS with_em,
MIN(timestamp) AS first_comment_timestamp,
MIN(IF(has_em, timestamp, NULL)) AS first_em_timestamp,
TIMESTAMP_SECONDS(CAST(AVG(time) AS INT64)) AS avg_comment_timestamp,
TIMESTAMP_SECONDS(CAST(AVG(IF(has_em, time, NULL)) AS INT64)) AS avg_em_timestamp,
GROUP BY by
|> EXTEND with_em / total AS fraction_with_em
|> ORDER BY fraction_with_em DESC
|> WHERE total > 100 AND fraction_with_em > 0.1
多くの人にとって平均タイムスタンプは投稿開始から2022-11-30までのちょうど中間点だけど、トップユーザーのzmgsabstは2022年1月後半に始めたばかりなのに目立ってるね。
URL: https://console.cloud.google.com/bigquery?p=bigquery-public-…
URL: https://cloud.google.com/bigquery/docs/reference/standard-sq…
URL: https://news.ycombinator.com/item?id=41347188
このスニペットで自分のem-dash使用数を数えられるよ。俺のユーザー名を自分のものに置き換えてみて。このコメントの前は46だったんだ。curl -s ”https://hn.algolia.com/api/v1/search?tags=comment,author_sjs382&hitsPerPage=10000” \<br> | jq -r ’.hits[].comment_text’ \<br> | grep -o ”—” \<br> | wc -l
このスクリプトはすごいね。俺は「—」(em-dash)、「–」(en-dash)、それに「–」や他の適当な文字列もチェックしてみたよ。
面白いけど、1コメントあたりのem-dashの割合の方がもっと面白くないかな?じゃないと、この「競争」は投稿数が多い人に有利に見えるよ。
今日HuggingFaceのHNデータセットを使って実際に試してみたんだ。em-dashがあるコメント数/総コメント数で計算したら、2018年に何か理由で急増して、データセットの最後の方(2024年後半)でまた急上昇し始めたみたい。2025年のデータはなかったけど、em-dash好きが「genAI以前から使ってた」って主張が嘘じゃないって確信できたよ。
「2018年に何か理由で急増した」ってことだけど、たぶん何かオートコンプリート関連のソフトウェアがリリースされたんじゃないかな。
iOS 11(2017年9月リリース)でSmart Punctuation機能が追加されて、ダブルハイフンをemダッシュに変換するようになったんだって。
https://daringfireball.net/2018/02/ios_messages_smart_punctu…
Smart Punctuationって実はマジで嫌いなんだよね。もし三点リーダーが欲しいならオプションで選ばせてほしいし、勝手に推測しないでほしいな。それに、多くのフォントだと見た目も最悪なんだ。
これこそHNに必要な超一流のコンテンツだよ。こういう問題が本当に重要なんだ!
emダッシュの正体って、実際のUnicodeのemダッシュ文字のことだよね?俺は1990年代に論文を書くために仕事でLatexを学んで以来、”—”を使う癖がついちゃったんだけど、それが今じゃ変なLLMのサインみたいになってるのかなって思ってるんだ。
Macにはemダッシュの簡単なキーボードショートカットがあるんだ。俺はいつもそれを『句読法に十分関心があるMacユーザーがカッコの代わりにemダッシュを使う』サインだと見てたよ。でも今Macじゃないから、そのLatexの方法以外でどうやって本物のemダッシュを作るのか分からないんだ。
もっとコメントを表示(2)
簡単って言うのは控えめすぎるくらいだよ。Alt+ハイフンだよ。[編集: ごめん、それはenダッシュだった。この等幅テキストだと違いが分からないや。emダッシュはShiftを押さないとダメだよ。]WindowsだとテンキーでAlt+0,1,5,1か、Character Mapからコピペするのかな。
細かく言うと、emダッシュ(長い方)はOpt-Shift-ハイフンだよ。Opt-ハイフンだけだとenダッシュになっちゃうんだ。
…つまり、ページ1–2のように範囲を示すのに適切な文字なんだよね。ちゃんとしたタイポグラフィを使うことが今や眉をひそめられるなんて、ちょっと悲しいけど、もう時代は変わっちゃったみたいだね。
俺たちの広報部長(彼のこだわりは認めるよ)との議論からすると、USの用法ではこのようにスペースを空けずにemダッシュを使うべきなんだって。でもイギリスの用法だと、代わりにスペースを使ってenダッシュかemダッシュのどちらでもOKらしいよ。
エムダッシュ周りのスペースはスタイル次第で、決まったルールはないよ。ヘアスペース( )を使うのがいいけど、入力は面倒だよね。
「エムダッシュ周りのスペースはスタイル次第」って言われるけど、Hart’s RulesやChicago manual of styleではスペースなしが標準だよ。イギリスはenダッシュをスペースありで、アメリカはエムダッシュをスペースなしで使う傾向があるね。スマートダッシュの自動補正とかでenダッシュとエムダッシュが混同されてる気がするな。オンラインでは便利さ重視で、みんなハイフン1本をenダッシュ、ハイフン2本をエムダッシュ代わりに使うことが多いよ。俺は2-ハイフンエムダッシュにスペースを入れるのが好きだけど、自由にやってるんだ。
俺はMarkdownレンダラーを「 --
」を「 — 」に変換するように設定したんだ。これらの狭いスペースがHNのレンダリングでちゃんと表示されるといいな—ツールがやってくれるとすごく楽だからね。
https://github.com/andrewaylett/aylett.co.uk/blob/d338d35a3d…
俺がそのページにいない理由の一つは、怠け者だからenダッシュを使うようにしてるって方針があるからさ。
あるいは、何年もWinComposeを入れてて、Compose+ハイフン+ハイフン+ハイフンって打つ方法もあるよ。そうするとエムダッシュ(—)を簡単に入力できるんだ。LinuxでもComposeキーを有効にすれば同じようにできるし、WinComposeはWindowsにComposeキー機能を与えるプログラムで、ほとんどのディストリビューションのXComposeリストにあるデフォルトシーケンスを含んでるよ。
WinComposeに大感謝だよ、二言語を使い分ける中で、これなしじゃキーボード使えないってくらい素晴らしいんだ :)
Windowsにカスタムレイアウトをインストールするって手もあるよ、俺が作ったやつみたいにね:
https://typo.ale.sh/
Appleユーザーだけじゃないよ。Composeキーは様々なデスクトップOSで使えるんだ。エムダッシュはCOMPOSE+ハイフン3回、enダッシュはCOMPOSE+ハイフン2回+ピリオドだよ。
別の方法として、enダッシュはCompose+2+ハイフン、エムダッシュはCompose+3+ハイフンだよ。
また別のだと、〜じゃなくて…ってやつもあるね。
LLMっぽさが出るのは、対比の構造を作るスタイルの方だよ。ほとんどの人が入力方法を知らない記号を偶然使ってるだけなのは、ただの火に油を注いでるだけだよ。
エmダッシュは、対比表現とたまたま関連してるだけだよ。俺が主に使うのは、準括弧的な挿入で、補足にもっと強調したい時とか、すでに括弧やコンマを使ってる文章でそれを避けたい時に便利なんだ。
俺の使い方って、こういう風に使われる括弧的挿入だけじゃないんだ—皮肉にも連続する流れ — 文章の転換点なんだけど、独立してるわけじゃないんだ。で、その連続…正直言って?終わらないんだ。
• オプションキーを使ったダッシュや括弧をしょっちゅう使うユーザーだよ。オプションと8やセミコロンもね…。
MS Wordのスペルチェック機能を使うためにそこで文章を書いて、ブラウザにコピペする人は、自動的にハイフンがエmダッシュに変換されちゃうよ。
これって設定で変えられるし、オフにもできるよ。
今の時代、ほとんどの人がやるような短い、文脈依存の文章形式にはあまり役に立たないって事実だね。長い文章でも推敲されることが多いし、人々はLLMを昔ながらのコミュニケーション、例えば長文メールやレポートなんかに使ってる。AI分野で働いてるから、LLMが使う過度に飾り立てた冗長な文章への対抗策として、すごく簡潔に要点だけを書くようになったよ。一語一句に気を配って、必要以上に書かないようにしてるんだ。
無駄な言葉がなくなれば、文字数が少ないのはいいことかもしれないね。でも、複雑なアイデアを説明するのにもっと言葉が必要だったらどうする?『オレンジ色の男はいい』とか『オレンジ色の男は悪い』みたいな短いメッセージは簡単だけど、理由も説明したい時はどうするの?単純化するの?議論がすでに単純すぎたらどうする?
俺はコンポーズキーを右Altと左Ctrlに設定してるんだ。だから、ハイフン3つをエmダッシュに、ハイフン2つをエnダッシュに変換できるよ。(エnダッシュについては誰も話さないけどね)。