MITがarXivに論文撤回を要請 AIと科学的発見に関するpreprintで一体何が?
引用元:https://news.ycombinator.com/item?id=44006426
MITの声明、うまいことやってるね。著者(元PhD学生らしい)にarXivへの撤回頼んだけど、やらないから声明出したって。プライバシーも守りつつ、状況わかるように伝えてる。著者は論文そのままに次の仕事探そうとしたのかな? MITが声明出さなきゃ静かに終わったのに、かえって大事になっちゃったね。
それは無理だよ。現実的じゃない。詐欺になるし、なりすましで捕まるかもよ。もし著者がarXivに言ったら論文戻されるし、今度はMITがなりすましたって怒られるよ。
それはSNSとは全然違う話だよ。MITはメルアドのドメインは管理してるけど、アカウント自体は違うじゃん。MITが無理やりやると、他のとこがMITのメルアド使うの嫌がったりして、面倒なことになるかも。アカデミアは自由な表現が大事なのに、それを制限するようなことしたら反発されるし、研究できなくなるよ。MITに権利があっても、絶対やらないと思う。メルアドは止めれてもarXivは無理。学術メールって、他のとこに移っても普通残しとくもんだし。デメリットが多すぎて、やらない方がいいし、やるべきじゃないね。
パスワードリセットしたらどうなんの? 相手が使ってたらメール届くはずでしょ? ちょっと手荒だけど、アカウント引き継ぐ方法はあるはずだよ。まず連絡して、返事なきゃ乗っ取り? 相手がなりすましたんだからさ。必要ならアカウント消して、期間置いてから作り直せば?
>現実世界ではそうはならんよ。それは詐欺みたいな依頼だし、誰かに成りすましてコンピューターシステムにアクセスしたら法的トラブルになりそうだね。メールは人じゃないじゃん。人に成りすますことはできるけど、メールアドレスには成りすませないよ。もし俺が会社持っててdick.less@privateequity.comってメアド発行したけど、そいつをクビにしたとしてさ…そのメアド使って会社の資産を責任ある人に移すのは詐欺じゃない(少なくともその目的ではね)。なんでこれと同じ問題じゃないの?
もし論文がメールアドレスで提出されたんなら、それは筋の通った主張だろうね。でも論文は人が提出したんだ。メールアドレスはその人を特定するためのもの。論文を撤回できるのはその人だけなんだよ。
もし自分がdick.lessだって偽るなら、そりゃ詐欺だろ。彼らは著者だけが撤回要求出せるって言ってるんだから、著者じゃないのに著者として振る舞わなきゃいけなくなる。それ詐欺だよ。
>なんでこれと同じ問題じゃないの?
はっきり書いてないけど、前のコメントではdick.less@privateequity.comを個人のNetflixアカウントをキャンセルするために使ってるって読んだよ。(privateequity.comが会社のメアドの個人利用を許してたとしてさ)メールアカウントにアクセスすることと、前の持ち主に成りすますことには違いがあると思うな。
ここでメールアドレスのこと言ってんの?それともメールメッセージのこと?
そういうことしてるとさ、ArXivがもうMITからの論文受け付けなくなるとか、少なくとももう撤回を認めなくなるとかになりかねないね。
第一印象ね。
1.ほとんどのプロット(appendix見て)のデータが偽物っぽい。現実のデータはあんなにキレイじゃないよ。
2. chatGPT注目前、2年生の学生が大手企業に1000人以上の実験させるなんてありえないし、モデルの詳細もGANs+diffusionとしか書いてなくて具体性ゼロ。大企業でのロールアウト時期も不自然。どう考えても怪しいな。
Q&AではGANじゃなくてGNNだったって言ってたらしいよ。このQ&Aでは研究の妥当性についてあんまり質問出てなかったみたい。
リンクはこれね https://doi.org/10.52843/cassyni.n74lq7
MITのPhD学生にしては話し方が不明瞭だし、”like”が多すぎると指摘。特に研究室の質問で困ってた様子を再現。「アカデミックじゃなく全部企業」と答えた部分を引用。8歳児より流暢と酷評。たぶん緊張?
arXivのファイルの中身を見てみたよ。(”I have”や” I ”がいっぱい出てくる部分のtexコードと、” I ”の出現回数の結果かな)
たぶん言いたいのは、論文で”I”っていう一人称がこんなにいっぱい使われるのは珍しいってことじゃないかな。”we”っていう一人称が普通で、単著でもそうなんだよ。
洗練されたTEDトークとアカデミアのセミナーは違うと指摘。アカデミアの評価システム(論文vs招待講演)や、学生に講演機会を与える慣習(旅行費のためなど)がセミナーの質に影響すること、それでも対面交流は重要だと解説。
同意!結構異様だよね。素晴らしい単著の研究も見たことあるけど、ブログ記事じゃない限り”I”を使ってるのは見たことないな。フォーマルな論文ではいつも単数の”we”だよ。その方が共同体って感じがするよね!
僕たちが立っている巨人の肩の上に立つ、っていう含みを持った共著者たちを含めるのは良いことだね。
”付録のほとんどの図のデータは偽物に見える”って話だけど、それを検出するのにBenford’s Lawの分析は使えるかな?
偽物のデータって大体きれいすぎるんだよね。
アカデミックじゃない俺からすると、学術論文で単数なのに「we」って聞くと「え? ポケットにネズミでもいんの? それとも王族気取り?」って思うんだよね。もっと良い解釈もあるって聞いて安心したわ。
「I」があんま使われないのは、論文って何人かで書くことが多いからってのもあるけど、アカデミック界には「we」使わなきゃって変な集団妄想があるからだよ。でも「I」使ってる論文もまあまああるけどね。
TEDトークみたいには期待しないけど、相手はMITだぜ? 8歳児のがもっとハキハキ話すの見たことあるわ。俺の地元じゃ皆の前で発表するの普通だったから、アメリカじゃ「like」連発したり10秒ごとに髪触ったりしないで喋れるのが珍しいってことなのかな。
「like」って単語使うの、思ってるほど悪くないし、昔から結構使われてたんだよ(まあ最近の世代は特に多いみたいだけど)。このことについて専門家が話してる良いポッドキャスト最近あったよ:https://open.spotify.com/episode/5w1gdbhmlCyTapoQ3EkMHp
実は、よく混同されがちだけど学術的な「we」には2種類あるんだよね。一つは作者と読者を含む「包括的なwe」で、「こうして我々は〜とわかる」みたいに使うやつ。これは全く妥当。もう一つは単数の作者が自分だけを指す「排他的なwe」で、これは「royal we」のちょっとバカげた版。ジャーナルによっては禁止されてるけど、逆になぜか必須なとこもあるんだ。
「集団妄想」とかじゃないって。正式な科学論文では一人称代名詞(Iとかwe)を使うの避けるって古くからの伝統があるんだよ。そうしないと発見が主観的に聞こえちゃうからね。これは最初からそう教えられる。まあ徐々に変わりつつはあるけど、まだ大体これがルールだよ。
「MITの博士課程の学生ならもっとハキハキして「like」連発しないはず」とか思った? 俺、MITの教授で人前で喋るのがクソ下手すぎて、水一杯頼むのに30分かかりそうな人に会ったことあるぜ。
そうそう、俺をイラつかせるのはその排他的なバージョンだね。「我々は試料をINTRONテスターで準静的条件下で破壊まで試験した。」みたいなやつ。ジャーナルが禁止してるとこもあるって聞いて良いね。
データだけ客観的に見てる奴なら誰でも、この分布が不自然だって気づくべきだよ。偽物のオーガニック(本物らしく見せること)はそんな簡単じゃないってことさ。
Wayback MachineでMITのセミナーページ見たけど、情報が消されてるね。まるで昔のPBSの番組みたいに記憶から消された感じだ。あのcassyniのMITトークはかなり変に見えたな。MITのQ&Aって独特だから。セミナーのテープとかないのかな。
「like」って言葉、結構昔からあるし、フィラーとか色々使い道があるんだよね。特に若い女性が優しく見せるために使うみたい。でも、僕はそれが大嫌いだ。一つの文で何回も聞くのは普通だし。なんか、洗練された言葉遣いがダメで、直接的は無礼、簡単な言葉が歓迎されるっていう風潮が嫌なんだよ。
もっとコメントを表示(1)
みんなが良いパブリックスピーカーなわけじゃないよ。MITが応募者をプレゼン能力で選んだり、必ずしもそれを教えたりするわけじゃないみたいだからね。
うん、MITだからってプレゼン上手いわけじゃないってのは同意。Ph.D.の学生って、プレゼンよりデータの収集・整理とか論文書くのが9割だよ。トークなんて最後に形式的にやるだけだし。MITだからってラクになるわけじゃないんだ。他のことが百万個もあるから、プレゼンはちょっと手を抜ける余裕があるんだよね。
これはBenford’s lawについてだったよ。
会議は発表じゃなくて議論の場であるべきだよね。学術界って全部自分たちで回してるのに、なんでこんなに非効率で文句ばっかりなんだろ?査読は適当だし、論文は無料であげて、後で高い金で買い戻すとか変だ。なんか、発表なしで、気軽に研究を議論できる新しい集まり方考えようぜ。昔のワークショップみたいに。そういえば、会議の廊下で床に座って論文書いてた教授たち見たな。年に2回しか会えないからって。ちょっと悲しい話だよね。
これはSloanからのポッドキャストで、David Autorがその研究についてまるで完全に有効であるかのように話してるんだ。
https://sloanreview.mit.edu/audio/feed-drop-how-ai-will-chan…
8歳児だって色々なこと話せるよ。MITのアカデミックはプレゼンは手を抜けるって話だけど、この件の場合は信頼性を持たせるのが一番大変だったんじゃないかな?適当なことを話してて矛盾しないようにするのって結構大変だし、それで話し方が変になるんだよ。僕が言ってる部分のトーク聞いてみてよ、質問聞こえないふりしてたみたいだから。
MITは学生をスケープゴートにして責任逃れしてる。悪名高いAcemogluとAutor教授が推薦してたのに。2年生のPhD学生が一人でできることじゃないだろ。論文のアブストの数字(44%発見増、39%特許増、17%イノベーション増)も材料科学の常識からしてありえない高すぎ。少し知ってれば怪しいって気づくはずだよ。
どうやら、彼は自分の痕跡を隠すために偽のウェブサイトも作ろうとしたみたい。ドメインを2025年1月12日に登録して、Corningと協力してたって見せかけようとしたのかもね。これに対してCorningがWIPOに申し立てて、ドメイン名の移転を強制されたらしいよ。URLも載ってるね:
Corningって当てた人が詳しいレポート(リンクあり)を出してるよ。
それによると、論文のデータ分布が製薬のプレプリントとそっくりで、材料科学としてはありえない分布らしい。材料科学を知らない人がやりそうなミスだってさ。
MITは、教員や管理者がヒト対象研究やNSFグラントの審査・承認要件をどう守ったか公表すべきだ。
論文に書いてある支援元やIRB承認についても、そのプロセスを明らかにする必要がある。
リンクもあるよ:
ここでは実際のグラントや審査、承認は何も行われてない気がするね。他の人も指摘してたけど、タイムラインがおかしいんだ。審査は著者がPhDプログラムに入る前に済んでなきゃいけないはずだからさ。
著者がZoomでやった論文セミナーの録画だよ(リンクあり):https://cassyni.com/events/MiPYGu3qzKP5MQFWNUn9Tb
今思えば、嘘をつくときに画面を見ない癖があるみたい。目がキョロキョロしてね。場当たり的な嘘が科学分野以外でも習慣になってるかもって思うと怖いね。
この場合は癖かもしれないけど、他の理由で人の目をあまり見ない人もたくさんいるから、それだけ知っておいてね。
wsjの最初の報道だよ(リンクあり):https://www.wsj.com/economy/will-ai-help-hurt-workers-income…
MIT関係者以外の意見がない、ずさんな記事に注意してね。AcemogluとAutorは絶賛してたらしい。Lahartって記者はジャーナリストの道具でペテン師だね。NYのエコノミクス記者だってさ。
それは科学じゃないね。ボディランゲージ、特に目の動きなんて俺が一番嫌いな疑似科学だ。俺は子供の頃のトラウマで、人と目を合わせるのが苦手なんだ。色んな理由で苦手な人はいっぱいいるんだよ。
MITのエコノミストでノーベル賞学者たちもこの論文を推してたみたいだけど、どうやら彼らは技術の仕組みやラボの存在に疑問を持って、MITに報告したんだね。学生は追い出されるかもしれないけど、「推してた」人たちはどうなの?学生と協力してたら、怪しいラボや使われてないAIツールに気づきそうなもんだけど。
どうやら、謝辞に名前があった21人誰もデータ元を疑わなかったらしい。ツイッターで研究をめっちゃ褒めてた人もいたけど、問題が発覚したら「どうやら論文で使われたデータは信頼できないみたいだね」って素っ気なく返しただけ。(名前を出す必要はないと思うけど)
研究不正は何度も起こる問題だね。STAP細胞の件みたいに、バレる前はシニアが支持して恩恵を受け、バレたらジュニア一人のせいにする。ジュニアの不正はもちろんダメだけど、自分の下の人の仕事を全然チェックしないシニアが多い現状も問題だと思うよ。
科学を支えるプロセスは、悪意ある人にはあまり強くないんだ。これは昔からある話で、資金不足のせいで事前の深いチェックができないからだね。データが明らかに嘘じゃない限り受け入れられがちで、徹底的なチェックはコストがかかるから研究者は自分の研究を優先しちゃうんだ。だから、スキルがあれば科学プロセスを騙すことは可能だよ。ただ、そのためには科学に関する深い知識が必要だけどね。
a) それは一般的な問題で、何度も見られるからb) この場で名前を挙げても役に立つとは思えないからc) 全体の話を知らないから。中には懸念を抱いてたけど力不足だった人もいるかもしれない。そういう人をこの不正と関連付けられるのは良くないと思うからね。d) 将来、SNSや直接会ってこの論文について話す機会があるかもしれない。その時に公に非難するのは良くないだろうね。e) 誰でも論文を読めばすぐに名前はわかるし。
ありがとう。「日光は最高の消毒剤」っていう考え方にずっと賛成してるよ。この場で名前を挙げても大きな違いはないかもしれないけど、みんなが自分の評判を気にするようになるのは、広く利益になると思うんだ。
アカデミアへようこそ…こういう「有名な」教授って最低な人も多いんだよね。論文をじっくり読むことすらしない人もほとんど。私もそういう教授の下にいるけど、論文に自分の名前を載せろって強制されるのに、私が書いた内容なんて全然理解してない。残念ながら、この大学にいる間は告発するのは安全じゃないな。良い点としては、素晴らしい副指導教授がいることかな(その人も状況を完全に理解してる)。
驚くことに、この論文はもう50回も引用されてるみたい。撤回されるかどうかはあんまり気にしないけど、従来の出版なら論文に修正通知とか問題に関するコメントが埋め込まれるんだよね。もしこの論文をどこかで見つけてarXivの元論文を見に行っても、この研究を取り巻く論争に気づくことはないだろうね。プリプリントサーバーはこういう点がちょっと弱いかな。
引用のほとんどがarXivみたいなpreprintとか研究まとめサイトだって。査読された論文での引用数を知りたいな。arXivは査読ないからWordpressとかMediumとかBlogspotとかX/Tweeterとかと信頼性は同じだよ。PDFなだけ。変な暗号の”ブレークスルー”の例もあるし。
査読があっても論文が信頼できるとは限らないし、なくてもダメってわけじゃないよ。査読って、質の違うレビューアーが適当に承認しただけかもしれないじゃん。駄作でも結構通るんだよ。
査読がないのは弱点だね。モデレーションはあるけど査読とは違う。研究を信じるかは、著者か自分で中身を見るしかないよ。撤回されたら、著者が説明するか、自分で探すかだね。定義ミスで撤回された例もあるよ。
査読って不正とか見つけるのには向いてないよ。詐欺データはぱっと見ちゃんとしてるし、査読する人は再現とかしないからね。査読は内容がおかしいとか、既存研究との繋がりが抜けてるとかを見つける方が得意。でも、その価値は微妙だし、論文出るのが遅くなるだけ。MLの分野ではpreprintが当たり前で、査読会議は後からチェックする感じだけど、これは結局、査読されてない研究が広まっちゃう問題に戻るんだよね。
この論文、数ヶ月前にHNで話題になってたよ。
あの時すでに怪しいって気づいてた人がいたのは良かったね。
何にでも反対する(君みたいな)のはシグナルじゃないよ。なんで研究が怪しいか説明すること(俺がしてる)はある意味シグナルだよ。
もっとコメントを表示(2)
何にでも反対してるって? 最初のコメント(GGP)の1点だけ指摘したんだけど。何でもかんでも反対してるわけじゃないよ。
一つの問題点って何? 怪しいって気づくのが良くないってこと? それとも、ネガティブなコメントがあるのがシグナルじゃないってこと? どれも意味不明なんだけど。
俺のコメントをちゃんと読めよ.「なんか感じ悪い」とか誰が言った?勝手にでっち上げか?そしたらお前の言葉もノイズだ.ネガティブコメントが”シグナルじゃない”って言うけど、情報理論ではいつも同じ反応はノイズなんだよ.天気予報士がいつも雨って言うのと一緒.同僚がいつも批判するのもノイズ.シグナルじゃないんだ.
Thanks! Macroexpanded:<br>Artificial Intelligence, Scientific Discovery, and Product Innovation [pdf] - https://news.ycombinator.com/item?id=42115310 - Nov 2024 (47 comments)
個人的には、あの論文は取り下げられるべきじゃないと思うんだ.代わりに、プレプリントの問題点や詐欺の可能性について注釈を付け加えるべき.それで十分だろ.Edit: Since the paper has been cited, others may still need to reference the paper to determine if it materially affects a paper citing it. If the paper is removed it’s just a void.
That’s what happens when a paper is withdrawn [1], and MIT requested to withdraw the paper [2]. This news title saying that they requested to take down the paper is subtly incorrect.<br>[1]: https://info.arxiv.org/help/withdraw.html#:~:text=Previous%2…<br>[2]: https://economics.mit.edu/news/assuring-accurate-research-re...
I agree, the offense should have a public trail. But there should be safeguards to prevent any citing of fraudulent paper, not allowing for bits and pieces to outlive the offense. Citing papers should be marked with a warning until resolved by their authors.
unless arXiv has a ”there used to be a paper here, but it was retracted” page
MIT’s article is quite scant on details. WSJ has more information, but still no specifics: https://www.wsj.com/tech/ai/mit-says-it-no-longer-stands-beh…<br>> The paper was championed by MIT economists Daron Acemoglu, who won the 2024 economics Nobel, and David Autor. The two said they were approached in January by a computer scientist with experience in materials science who questioned how the technology worked, and how a lab that he wasn’t aware of had experienced gains in innovation. Unable to resolve those concerns, they brought it to the attention of MIT, which began conducting a review.