ヴォイニッチ手稿をSBERTでモデル化！構造を検証

ヴォイニッチ手稿をSBERTでモデル化！構造を検証

引用元：https://news.ycombinator.com/item?id=44022353

patcon 2025/05/18 18:49:05

PCAでクラスター探してるみたいだけど、PaCMAPとかLocalMAPみたいな新しい次元削減アルゴリズムでもっと深い構造探してみたら？—
Pol.is関連のプロジェクトで使ったら、すごく新しい発見があったんだよね！
（詳しいリンクは省略するね）
（Sorry，PCでしかうまく動かないかも）

brig90 2025/05/18 19:01:41

教えてくれてありがとう！— PaCMAPとかLocalMAPは知らなかったんだけど，これ絶対PCAより構造保つアプローチでこのデータに合いそうじゃん．Appreciate the nudge — もうちょっと深く調べてみるよ．

loxias 2025/05/19 03:21:14

Try TDA（”mapper”，or really，anything based on kernel density computed connectivity），it’s a whole new world．
This ain’t your parents’ ”factor analysis”．

patcon 2025/05/19 16:24:09

Ooooo I will definitely check it out！ It’s strangely hard to find any comparisons in youtube videos — it seems TDA isn’t actually a dimensional reduction algorithm，but something closely relayed，maybe？

khafra 2025/05/19 11:04:00

LLM model interpretability also uses Sparse Autoencoders to find concept representations（https://openai.com/index/extracting-concepts-from-gpt-4/），and，more recently，linear probes．

staticautomatic 2025/05/18 20:03:51

I’ve had much better luck with umap than PCA and t-sne for reducing embeddings．

patcon 2025/05/18 22:43:43

PaCMAP（and its descendant localmap）are comparable to t-sne at preserving both local and global structure（but without messing much with finicky hyperparameters）
https://youtu.be/sD-uDZ8zXkc

minimaxir 2025/05/18 17:01:51

使ってるparaphrase-multilingual-MiniLM-L12-v2モデルって4年前のだから、もう古いんだよね．
最近のモデルは小さいのでも性能すごい上がってるから、Voynich Manuscriptみたいに未知の言語には新しいモデルの方が合うかも．
あと、昔ながらのNLP手法（語尾とるとか）は文脈消してかえって品質下げるかもって注意ね．

brig90 2025/05/18 17:04:58

Totally fair — I defaulted to paraphrase-multilingual-MiniLM-L12-v2 mostly for speed and wide compatibility，but you’re right that it’s long in the tooth by today’s standards．I’d be really curious to see how something like all-mpnet-base-v2 or even text-embedding-ada-002 would behave，especially if we keep the suffixes in and lean into full contextual embeddings rather than reducing to root forms．
Appreciate you calling that out — that’s a great push toward iteration．

Ey7NFZ3P0nzAe 2025/05/23 05:41:46

Be careful：they have super short context length AND silently crop if the text is too long．To me there is really no reason to use them．
I recommend ollama to run the artic-embed-v2 model，it also is multimingual and you can use —quantize when loading the modelfile to get it even smaller．

thih9 2025/05/18 19:15:23

NLPわかんないんだけどさ、対照群で検証するのってどうなの？
例えば、人間が言語っぽくても言語じゃないものを書いて、それで同じプロセス（接尾辞取ったり、グループ化したり）やってみたら、似た結果になるかな？

flir 2025/05/19 02:47:38

仮にCardan grilleみたいな書き方の仮説があるならさ、そのやり方でテキスト作ってみて、同じ特徴が出るか見たらいいんじゃない？

awinter-py 2025/05/18 23:15:17

うん、まさにそれだよね。なんで単純に100人にヴォイニッチ手稿っぽいの書かせて、そのデータセットで訓練しなかったのさ。

cedws 2025/05/19 13:36:04

ちょっと手稿見たんだけど、イラストそばの文字の詰まり方が怪しいんだよね。
普通の言葉は行末で自然に改行するけど、手稿にはそれがない。
行末に詰め込めそうな文字全部書いてるように見えた。
行末・行頭の文字を分析したかったけど、転写版見つからなかった。
素人意見だけど、凝ったアートかデマだと思う。

IAmBroom 2025/05/19 19:29:04

言語によってはさ、行末で単語を分割してやったりもするんだよ。

tetris11 2025/05/18 16:44:41

UMAPとかt-SNEもいいんじゃない？PCAでも綺麗に分かれてるけどね。
各クラスターを他のクラスター全部に参照マッピングするのもさ、分析に残ってるばらつきが無いって示すのに良い方法だと思うよ。

brig90 2025/05/18 16:46:56

めっちゃいい指摘ありがとう。
PCAで綺麗に分かれたから最初はそれで行ったんだけど、君の言う通りUMAPやt-SNEはより細かいパターンを捉える非線形の視点くれるね。
クラスター間の参照アイデアもいいな。どれだけ信号捉えられてるかテストする次のステップだって思った。
フォローアップで試すかも。アドバイス感謝だよ。

lukeinator42 2025/05/18 17:42:03

この参照マッピングって、どうやるのか例ある？
他の分野の埋め込みでこれに興味あるんだけど、NLPはあんま経験なくてさ。

tetris11 2025/05/18 19:05:18

具体的な例はないけど、基本的には各クラスターへのアンカーポイント使って共有最近傍法やるんだよ。
これが補正ベクトルになって、あるデータセットから別のデータセットに投影できるわけ。

jszymborski 2025/05/18 16:50:58

PCAで綺麗に分かれた時は、個人的にはUMAPは使わないかな。
点の相対距離が解釈しやすいし。
t-SNEは絶対避ける。プロットの距離ほぼ無意味だし。（これは個人的な好みね。）

minimaxir 2025/05/18 19:34:45

PCAでうまく分離できるなんて、データがめっちゃきれいかパターンが分かりやすいときくらいだよ。簡単なMNISTデータセットでもPCAじゃきれいに分かれないしね。
https://github.com/lmcinnes/umap_paper_notebooks/blob/master…

jszymborski 2025/05/18 20:57:36

”めっちゃ珍しい”ってのは俺の経験とは全然違うなー。ちゃんと学習された埋め込みならよくあることだよ。
それに、分離できたからって見た目が超役立つわけじゃないんだよね。t-SNEとかだと、クラスター間の距離が実際の距離と全然違ったりするし。きれいに分かれて見えるけど、点の関係性が歪んじゃうこともあるんだよ。

DonaldFisk 2025/05/19 12:46:36

これ、めっちゃ面白いね。https://www.voynich.ninja/index.php
にリンク貼るといいかも。
SBERTとかNLP詳しくないけど、SBERTは文章使うのにヴォイニッチ手稿に文章区切りないのが気になるな。”Strips common suffixes…”も、ヴォイニッチの単語が接頭辞＋接尾辞だとすると、情報半分捨てることになるんじゃない？
自分の方法が、ちゃんとした言語、意味不明なの、暗号文でどう動くか試してみては。
俺も似たテキスト作ってるよ：https://fmjlang.co.uk/voynich/generated-voynich-manuscript.h…
EVA版：https://fmjlang.co.uk/voynich/generated-voynich-manuscript.t…

Avicebron 2025/05/18 16:41:48

READMEで見落としたかもだけど、「単語」の最初のエンコードってどうやったの？例えば”okeeodair”みたいな単語は、元のシンボルにどうマッピングしたの？

brig90 2025/05/18 16:45:39

うん、その通り！”okeeodair”みたいな単語は、EVA翻字ファイルから直接来てるんだ。あれは元のヴォイニッチの文字をASCIIに変換したものなんだよ。だから俺は文字そのものじゃなくて、EVA（European Voynich Alphabet）システムに基づいた、標準化された翻訳後の単語を使って作業してるんだ。
このプロジェクトでは何も文字に戻してないよ。全部、あのEVA翻字をスタート地点にして作ってるんだ。
だからもしデータセットに”okeeodair”があるなら、それは俺よりずっと賢い誰かが、あの文字の並びを見てそう呼ぶことに同意したからなんだ。

us-merul 2025/05/18 16:55:49

これ、一番面白い仮説の一つだと思うんだ：http://voynichproject.org/
この人、ヴォイニッチがゲルマン語だって仮定して、結構進展できたみたい。
ウラル語族とかフィン・ウゴル語族かもって話も聞いたことあるよ。君の手法、すごくいいと思うし、特定の語族に合わせて調整したらもっと進むか、めっちゃ興味あるな。

veqq 2025/05/18 17:44:24

このスレッドで、色んな”解読した！”って主張が議論されてるよ：https://www.voynich.ninja/thread-4341.html
Bernholzさんのサイトはいいんだけど、Childさんの研究は手稿の解読にはあんまり役立たないかな。

philistine 2025/05/19 02:21:35

この手稿が全然解読できないのを見ると、俺の個人的な説は、これ naive artist の作品で、中に言語はないんじゃないかってことなんだ。つまり、言語のルールを知らずに、それっぽく真似して描いただけ。
https://en.wikipedia.org/wiki/Naïve_art
精神的な問題とかじゃなくて、たまにある珍しいことなんだって。ヴォイニッチ手稿、naive artist の作品って説明にめっちゃ当てはまるんだよね。

cronopios 2025/05/19 07:30:23

んで、あのナイーブなアーティストがどうにかしてZipf’s lawに従う作品を作ったわけ？それも発見される4世紀も前に？

DonaldFisk 2025/05/19 12:23:22

ランダムなテキストとか、月のクレーターや地震みたいな自然現象もZipf’s lawに従う分布を示すんだって。だからVoynich Manuscriptの単語頻度がZipf’s lawに従うからって、自然言語で書かれてる証拠にはならないんだよ。

もっとコメントを表示（1）

riffraff 2025/05/19 06:02:47

君だけじゃないよ。多くの人が、独特な字形からこれはただのでっち上げのでたらめだって説を立ててるんだ。
最近の詐欺じゃなくて、古代のね。
中世やルネサンス期には、Donation of ConstantineとかPreserve John’s letterとか、偽文書なんて山ほどあったわけだし。

philistine 2025/05/19 13:59:22

君の言い方じゃ誤解されるよ。hoax／scamやfakeじゃなくて、作った人は存在しないものを作るのに真剣だったんだ。
人を騙すつもりはなかったと思う。
D＆Dキャンペーンを存在しないものが出てくるからってhoax呼ばないでしょ？

riffraff 2025/05/22 06:17:48

じゃあ小道具かルールブック？（古いxkcd漫画で触れてたけど）。
本物の言語じゃないからルールブックはなさそう。
小道具でも羊皮紙からしてめちゃくちゃ高価だよ。
だから儲け目的の詐欺の方が可能性高いと思う。あの時代の詐欺の多さからもそれが一番ありえそう。
まあ、将来もっと情報出て俺が間違ってたら嬉しいけどね。

GolfPopper 2025/05/18 23:33:36

Edward Kelly［1］がまさにその時その場所にいたんだ。
昔読んだ（出典不明だけど）記憶だと、彼がCardan grille［2］に詳しかったって証拠があったらしい。
それだけで、彼が一番可能性の高い著者で、この本はhoaxかfraudとして作られたんだって俺は確信できたよ。

renhanxue 2025/05/19 01:20:54

最近の炭素年代測定で、この手稿は1404–1438年（95％信頼度）の15世紀前半のものだって断定されてるよ。
中世研究家のLisa Fagin Davisもスタイルから同じこと言ってる。
Edward Kellyはその100年以上後に生まれてるから、彼が作ったってのは無理があるんじゃない？

emmelaich 2025/05/19 01:36:07

インクはずっと後のものって可能性は十分あると思うんだ。
たぶんKellyは、もともと羊皮紙に書かれてたものを消したのかも。
実際、絵は元の絵をうまく使って、その事実を隠したのかもしれない。
そっちの方が実際にはもっと悪いことだよね。
Kellyは、既存の価値ある手稿を半分消しちゃった可能性がある。

renhanxue 2025/05/19 01:44:17

この手稿がpalimpsest（前のテキストを削って再利用した羊皮紙）だっていう仮説は、完全に否定されてるよ。
そういうのは検出できるんだけど、Voynich manuscriptにはそういう兆候が全く見られないんだ。

emmelaich 2025/05/19 02:37:20

君の言う通りだね。ちょっと[0]の記事を読んだけど、同意するよ。高価な羊皮紙でも無学な人や”naive”な人、いかさま師が手に入れて使った可能性はまだあると思うな。[0] https://manuscriptroadtrip.wordpress.com/2024/09/08/multispe…

quantadev 2025/05/18 20:38:07

15世紀の暗号化は宗教迫害から逃れるためだろうね。”The Inquisition”とか。同じNLPでGospelsと比較して相関を探るのが面白そうだよ。’word’ベース、’character’ベースでBibleとVoynichのグラフを比べる感じ。
混乱させるためのダミー文字もあるかもね。あの変な”P”みたいなのとか、異常に”frequent”な文字はダミーかも。でも、純粋なフィクションの可能性もあるって分かってるよ。

codesnik 2025/05/18 20:26:15

手書きの本がもし暗号じゃなく落書きなら、スタイルや文字がページごとに変化するはずだよね？ページ順序は変わってるかもだけど、気づくはず。著者が似た本をたくさん書いてた場合を除いて。
このアイデアは斬新じゃないけど、こういう分析ってあるのかな？ページごとの一貫性について言及してるの、どこでも見たことないんだ。

veqq 2025/05/18 21:35:00

＞ページごとの一貫性について言及してるの、どこでも見たことないんだ。」
この点については研究がたくさんあるよ。筆記者は2人だと思われてるけど（Prescott Currierを見てね）、Lisa Fagin Davisは5人だって言ってる。Fagin Davisの立場に沿った実験の議論がここにあるよ：https://www.voynich.ninja/thread-3783.html

empath75 2025/05/19 13:19:25

このスレッドで一番面白いのはさ、もう解読されたって何人もが返信してるのに、誰一人として同じ解読結果を上げてないってことだよ。

bunderbunder 2025/05/19 15:49:01

＞伝統的な分析は統計的エントロピーチェックか当てずっぽうのどっちかになりがちだ。」
それはアマチュアの話かな。学術分析は言語学と暗号学の組み合わせだよ。統計も使うけどね。
例えば、Voynicheseが既知言語の代替じゃない強い根拠は、記号と音のマッピング比較にあるんだ。地域の言語の音韻体系と合わないんだよ。
あと、筆記者識別の研究もある。VoynicheseにはA/B二つの”languages”があるみたいで、それぞれ専門の筆記者がいるとか。こういう学術研究を知らないと、分析はかなり不利だよ。ちゃんと巨人の肩に乗ろうぜ。

brig90 2025/05/19 03:07:44

正直言って、この週末までこの manuscript のこと全く聞いたこともなかったんだ。NLP をもっと理解するための面白い方法を探しててね、それで：
1) これ良いかも、2) こういうアプローチは今までされてなかったかも？って思ったんだ。
2番目の部分はそんなに重要じゃなかったけどねー新しい発見より学習や実験が目的だったんだ。優しい言葉本当にありがとう、誰かがこれをもっと深掘りするきっかけになれば嬉しいな。

user32489318 2025/05/18 19:14:14

既知の言語で似たようなテキストの分析をしたら、同じようなパターンが出るかな？別の言い方をすると、こういう分析を使ってこの script が何を記述してるか理解するのに役立つかな？

frozenseven 2025/05/19 03:59:24

これ、めっちゃクールな研究だね。同じ手法を Rohonc Codex に適用するの考えた？私が知る限り、 Voynich Manuscript に似てる唯一の他の本だけど。

brig90 2025/05/20 02:57:00

正直 Rohonc Codex は聞いたことなかったよ。チェックしてみるね！ありがとう！

andrewla 2025/05/19 13:42:51

手法は好奇心でざっと見ただけだけど、本当に目が引かれたのは、リポジトリにある manuscript の転写なんだ。これがきっかけで、この manuscript の歴史的な転写や音訳の取り組みに関するラビットホール（深掘り）に入り込んじゃって、あるサイトにたどり着いたんだ。

ck2 2025/05/18 19:11:35

＞『Voynich manuscript の新しい多重スペクトル分析で隠れた詳細が明らかに』って記事があったけど、もし金持ちの子供の塗り絵か書き方練習帳だったらウケるw

Avicebron 2025/05/18 19:24:43

＞もし金持ちの子供の塗り絵か書き方練習帳だったらウケるw
たとえそれが「ただの」（めちゃくちゃ金持ちで早熟な）子供で、植物とか星とか女性の体に夢中で、同じ少ない文字を繰り返し落書きして、その子がアクセスできたであろう写本みたいに見える形にしただけだとしても、それでも印象的で面白いと思うよ。

marcodiego 2025/05/18 20:22:48

brute forceで解読するのってどれくらい大変？未知の単語を既知の言語の単語にマッピングして、スコアが高くなるまで改善していくのはどう？

munchler 2025/05/18 21:57:21

それって単語が1対1で対応するって前提みたいだけど、言語ってそうじゃないと思うよ。例えば複合語はうまくマッピングできないし、文化の違いによる深い意味の違いもあるし。

raverbashing 2025/05/19 07:52:12

そうそう。単語の1対1マッピングじゃどうにもならないよ（特にこんなに長い間解読されてないテキストには）。すごく近い言語（DutchとGermanとかFrenchとSpanishとか）ならkiiiindaうまくいくこともあるけど、それでも難しい。

brig90 2025/05/18 20:27:01

それすごく面白い質問だね。大規模なbrute-forceの現実性は分からないけど、Voynichの“単語”を他言語にマッピングって考えは実験的アプローチと合う。問題は語彙がmassiveなのと、“単語”が本当に単語か不明なこと。それが直接マッピングを難しくする。でも、単語じゃなくcluster IDs使ってlanguage modelでスコアリングするのは説得力あるアイデアだね。探求する価値ありそう！

quantadev 2025/05/18 20:47:20

別の投稿でも言ったけど、1500年代だから聖書テキストが一番暗号化されてたと思うんだ。あるKingに拒絶されて違法になった聖書バージョンとか？radiocarbon datingで年代とKingを調べて、その翻訳前の聖書が違法で暗号化されたものかも。これは一つの plausible な話だよ。

quantadev 2025/05/19 00:30:10

1500年代に暗号化されたものなんて、戦争計画か宗教テキストくらいだよ。でも戦争計画が植物図鑑に偽装されるのはありえないね、色々な理由で。戦争計画は一時的なもので、あんな芸術的な努力と永続性を捧げるものじゃないし。

tough 2025/05/19 13:30:23

Sun TzuのThe art of warはかなりタイムレスだけどね。

quantadev 2025/05/19 16:24:33

つまりさ、理論上は1500年代の王様が、その一般知識ゆえにあの本を違法にした可能性はあるってこと。それありえる話だよね。残念ながら、ラジオカーボンの年代測定で俺のぶっ飛んだ説二つは否定されちゃった。1）地球上の生命の初期の”バージョン”から生き残った本で、植物が全然違った時代のだとか。2）全ての惑星は同じ種類の炭素ベース生命体を形成してて、この本は別の惑星から俺たちに送られてきたとか。残念だけど、たぶん単なる誰かの”アート”の形であって、”本物”ですらないんだろうな。

marcodiego 2025/05/18 20:29:59

これってSETI@homeみたいなプロジェクトにするの、いいアイデアかもね。

mellow_observer 2025/05/19 07:30:29

それたぶん無理だと思うな。どうやってスコア決めるの？中世の単語集どこで手に入れる？膨大な計算量どうする？
ヴォイニッチ手稿の特異性（単語繰り返し、一般的単語欠如、複数言語の兆候、文字分布の不一致など）から、一対一マッピングで既知の言語になる可能性は低いよ。
もし暗号化されてない言語だとしても、既知の言語とは全く違うだろうね。

もっとコメントを表示（2）

gthompson512 2025/05/19 02:24:14

見落としてたらごめんね、でも語尾（suffix）を残して、元データでファインチューニングしてから、文ごと、あるいは少なくともページごとにクラスタリングしてみるのどう？本の構成的にまとまってるはずだし。

brig90 2025/05/19 03:04:18

すごくいい質問！俺も考えてたよ。
語尾はaiinとかdyとか、フィラーっぽい繰り返しを正規化するために削除したんだけど、残した方が失われた構造を保持できたかもって、君の言う通りだね。
文ごとやページごとのクラスタリングも面白そう — まだやってないけど、セクション間の一貫性を見るのは興味深いだろうな。洞察に感謝！

bpiroman 2025/05/18 23:30:08

あれって古いトルコ語かと思った？
https://www.youtube.com/watch?v=p6keMgLmFEk&t=1s

bpiroman 2025/05/18 23:31:58

手稿の英語翻訳は下のタイムスタンプだよ：
https://youtu.be/p6keMgLmFEk?feature=shared&t=559

Nursie 2025/05/19 01:48:59

そうじゃないみたい — https://www.youtube.com/watch?v=UgVZZrZ1eqY
これについてすごく長いスレッドもここにあるよ — https://www.voynich.ninja/thread-2318.html — 最初は”それすごく面白いね、もっと調べよう”って感じだったのが、”うーん、他のロマンス語とかヘブライ語とかに関する啓示みたいな発表と大体同じかな”ってなってくみたいだけど

thearn4 2025/05/19 16:08:28

Voynichは俺のお気に入りの未解決パズルの一つなんだ。このアプローチ、めっちゃ面白いね。ここで作品をシェアしてくれてありがとう！

GTP 2025/05/18 20:03:30

記事へのリンクが壊れてるみたいだけど、正しいの教えてくれる？

brig90 2025/05/18 20:13:14

ごめん、もう投稿編集できなくなっちゃって（HNは初めてなんだ）。でもリンクはこれね： https://brig90.substack.com/p/modeling-the-voynich-manuscrip…

rossant 2025/05/18 19:46:40

TIL about the Voynich manuscriptについて今日初めて知ったよ。面白いね。ありがとう。

adzm 2025/05/18 21:21:18

最高のコーヒーテーブルブックだよ！

Tade0 2025/05/19 13:00:49

それは分かってるけど、誰かが完全に無意味じゃない、こんな大量のテキストをどうやって作ったんだろう？

AStonesThrow 2025/05/19 16:24:52

https://m.xkcd.com/593/

glimshe 2025/05/18 16:57:10

俺はあの手稿、意味不明なガラクタって意味で解読不能だと強く信じてるんだ。証明はできないけど、今のところデマである可能性の方が高いと思うな。

lolinder 2025/05/18 17:11:42

今回みたいな統計分析は、ちゃんと”言語”っぽいパターンをいつも見つけてて、単なるガラクタを並べただけじゃそうはならないんだって。こういうパターンが出るには、誰かが本格的に人工言語を作るのに近いレベルまで作り込む必要があったはずで、それ自体が興味深いよね。

記事一覧へ

著者

海外テックの反応まとめ

暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。