商业动态

关于 MIT 博士论文造假:相信并加大质疑 AI 声称的最美好的东西

关于 MIT 博士生 Aidan Toner-Rodgers 论文造假一事,在 AI、经济学、科研、政策和媒体圈子里引起强烈反响,正如它 6 个月前在相同的圈子里引起轰动一样。

MIT 经过内部审查之后得出结论,这篇论文必须撤回。而全球最顶级的经济学期刊之一,The Quarterly Journal of Economics 原本即将发表。这篇论文的导师、诺贝尔经济学奖得主阿西莫格鲁 (Daron Acemoglu)以及奥托 (David Autor)教授公开请求撤稿。

这篇预印版论文 《人工智能、科学发现和产品创新》 所涉及的话题,正是亟待证明的一个问题:AI 能为经济带来多大增长贡献,其中最关键的一个领域,就是企业的研发与创新。

可以说,如果谁能拿出一篇论文,证明 AI 在像新材料发现这样具有重大经济价值的科学领域、在企业研发环境中能显著提升效率,并且在研究方法上有所突破的话,相当于摘取一个小小的研究圣杯。

于是,MIT 经济系二年级博士生 Toner-Rodgers 同学去年决定大胆一试,结果它现在已经被勒令退学了。

质疑 AI 发现新材料的化学家

这件事值得一提的是伦敦大学学院 (UCL)无机与材料化学教授 Robert Palgrave。

他在论文发布后的一周,在一片压倒性的赞誉声浪中,提出了自己的质疑,这方面科技媒体新智元在文章 《MIT 博士爆火论文造假,学校官宣撤稿!被骗诺奖导师亲手举报,愤而割席》 中做了非常好的梳理,不再赘述。

对 AI 在化学与材料科学领域的探索,Palgrave 教授一直以来持有保留态度。许多人应该还记得这篇 2023 年 11 月谷歌发布的这篇轰动一时的论文:

谷歌 DeepMind 使用一个名为 GNoME(图神经网络,与 MIT 博士论文里杜撰的那家企业用的基本一样)的模型,预测出了 220 万种新的晶体,其中 38 万种具有稳定的结构。

过去的十年,世界各国的科学家用计算机模拟的方法发现了 28000 种新材料,加上人类数百年来利用传统实验的方法发现的大约 20000 种稳定性材料,人类发现的稳定晶体数量总共达到了 48000 个。无机晶体的发现在固态化学中具有基础科学和技术的重大意义。

谷歌称:这相当于 「近 800 年的知识积累」,并且是 「人类已知稳定材料数量的一个数量级的扩展」。这也是听起来过于美好,似乎大模型一跑,科学难关都可以攻克。

包括普林斯顿、伦敦大学学院、加州大学圣芭芭拉分校的化学家和材料学家分析了 DeepMind 发现的一部分材料,他们认为,「我们尚未在那个子集中发现任何特别新颖的化合物」。用可信性、有用性、新颖性的尺度来衡量,还很难说 DeepMind 的研究是材料科学的突破。它的算法没有问题,但缺乏新颖性和有用性。

其中就有 Palgrave 教授。他在质疑 MIT 同学的论文时,引用了 《化学材料》 杂志上的一篇针对谷歌的观点论文,加州大学圣芭芭拉分校的化学教授 Anthony Cheetham 和 Ram Seshadri 随机选取了 DeepMind 发布的 38 万种提议结构的样本,并表示它们都不符合 「可信」、「有用」 和 「新颖」 的三部分测试。的确,大模型跑出来的 「许多都是对已知化合物的无关紧要的改编」,这些东西是不是新材料,有没有用,还是要化学材料专家说了算。

Bull Shit 探测器

另一位是来自美国能源部的国家能源技术实验室的 Ben(Benjamin Shindel)。他是一位化学专家和预测爱好者,谷歌和 MIT 同学的把戏,从本质上来说,就是用图神经网络,根据科学家的提示要求,生成新的晶体结构。

他的名字的简写是 BS,所以他开了个博客叫 BS 探测器。

这篇文章是 MIT 官方公布了其博士生造假论文之后写的,他提出了四点观察:

1. 像往常一样,论文从预印本开始,而且还有两位大咖的背书。阿西莫格鲁说:「这太棒了。」 奥托说:「我震惊了。」

2. 好得难以置信。「研究结果简直一尘不染。」

3. 有材料科学家读过这篇论文吗?「审查/阅读/关注这篇论文的绝大多数人都是经济学家和对人工智能使用的影响感兴趣的人。」

4. 教训:对这类研究结果持更加怀疑的态度。如果 arxiv 预印本启用评论功能,或许能更快地得出结论,证明该论文存在欺诈行为。

更有意思的是这篇文章在写完之后,又补充了一段,体现了 BS 探测器的灵敏。

「在写完这篇博文草稿后,我看到一条推文说康宁今年 1 月向世界知识产权组织 (WIPO)针对 Toner-Rodgers 注册 corningresearch.com 域名提起投诉。这证实了我之前关于这些数据可能来自哪些公司的猜测。然而,Toner-Rodgers 似乎一直在使用该网站私下证实虚假数据,而康宁对此毫不知情?我不确定这意味着什么,但确实很有意思。他可能用该域名给自己发虚假邮件,或生成看似可信的网址的 PDF 给导师看。康宁是一家很棒的公司,如果他们真的收集了这些数据,并以某种连贯的方式评估了材料特性,那真令人印象深刻。然而,我仍然认为,这些数据完全是 Toner-Rodgers 伪造的可能性更大。」

Toner-Rodgers 同学看来是一不做二不休了,连康宁这样大公司的网址都敢伪造——如果人类接触的东西都数字化和可生成了,还有什么不能伪造出来呢?

更有意思的是,Palgrave 教授推荐了一段视频。曼彻斯特大学创新研究所和佐治亚理工公共政策学院,1 月 15 日邀请 Toner-Rodgers 线上分享了其论文。「事后看这段视频,相当有意思。」

在问答部分,当这位教授提出相当有水准的问题时,Toner-Rodgers 的表现是这样的:

我们文章结尾附上了视频链接,可以跳过 Toner-Rodgers 同学前半部分介绍论文的 Bull Shit,直接跳到问答部分。

这些都是像阿西莫格鲁那样研究经济学、政策和管理专业的教授在问 Toner-Rodgers,可想而知,如果是真正的化学材料专家来问他,他的表现将会如何狼狈,说不定当场戳穿。

相信 AI,但需要更多的质疑

一位斯坦福毕业的化学工程背景的 AI 创业者和研究者认为,这提醒我们:对于那些宣称新兴技术已带来重大早期成果的说法,应保持怀疑态度。如果听起来好得不像真的,那它很可能就不是真的。我们应该更加警惕。

许多专家认为,这是一次全面的数据造假,在 LLM 时代,能产生大量看起来符合逻辑的数据集。几乎可以肯定这是一篇用 AI 帮助生成的论文。

也有专家批评了在预印本论文泛滥的时代,甚至一些主流权威的媒体,也会去报道那些根本就没有经过同行评审的论文。这就像是把一份大报 「书评版的头版,留给一份刚从投稿堆里捞出来的草稿一样荒谬。」

「记者们似乎总是愿意相信并宣传各种 AI 的夸大说法——越不可信,越容易被炒作。与此同时,大语言模型 (LLMs)正威胁着学术研究过程的诚信度。」

AIfor Science,新范式与新规范

MIT 博士论文造假带来的一个紧迫的问题,是 AI 对于整个科学研究带来的范式冲击,存在着破坏性大于或者多于建设性的可能性,目前正是处于这个阶段。

跨学科研究的问题,在 AI 时代会更加普遍,AI+某一学科,或者某一学科+AI,我们认为+AI 或者两者并重相对来说更加靠谱一些。至于说从第三方学科入手,如一位经济学者进入 AI 和材料科学的领域进行研究,这一定要由至少两个学科的专家合作完成,同时由三个学科的专家共同指导和评审。这篇论文的最大问题,在于它全部由经济学背景的人完成的——包括两位知名经济学家的指导,他们研究的领域主要是制度和劳工。

大型语言模型、多模态模型、推理模型,它们生成的文字、数据、视觉、结构等越来越逼真,越来越系统化,也显得越来越能帮助人类完成复杂的工作。它们完全可能不经过任何实验和调查,也不经过任何验证,就提出一套完整的假说,并且自我系统性地形成理论。许多专家认为,MIT 博士的这篇论文,应该就是 Toner-Rodgers 同学结合各种论文,以 AI 帮助形成论文的构思,指导 AI 合成出数据集,再提示 AI 撰写出来的,包括其中的数学公式,都可以生成。这是写小说和拍电影的手法。

这里牵涉到一个根本性的问题,未来连 AI 系统本身都主要是由合成数据训练的,而且在数据不足的领域,如一些物理智能领域,模拟数据已经成为主流并且被接受。模拟数据、合成数据、造假数据,未来如何区分?

有些领域可以区分,如在具身智能领域,使用大量的模拟数据,可以在实验室环境和真实的物理世界里进行重复性的验证。

但是,在一些非物理世界的领域,非真实人类生活工作场景,在数字世界和虚拟空间、在一些社会科学领域,包括经济学领域,是否和如何大量使用 AI 合成数据。包括 AI 研究本身,研究人员自己为自己制定测试基准,展示出不断逼近人类水平的测试分数。善于考试,甚至善于写论文,这固然是一个重要的能力,但是在实际训练 AI 的过程中,存在着」「弗兰肯斯坦数据集」 的情况,存在着数据污染问题,模型的后训练部分使用大量的与测试相关的数据进行强化。这肯定可以提升考试能力,但是在真实的世界里,它们的适应性和可用性大打折扣——甚至使用它们比完全依靠人工还更加费事。

预印本论文的发布,近年来有两个高潮,一个是在新冠疫情期间,一个是在 ChatGPT 之后所掀起的生成式 AI 热潮,大量的预印本论文发表出来。后来根据权威机构的复盘,发现无论是在疫情传播和趋势预测方面,还是在早期快速诊断或者抗疫药物发现方面,那些使用 AI 工具产生的几千篇论文,在公共健康领域几乎没有发挥预期作用。

这一次,MIT 的博士生用 AI 欺骗了 MIT、诺奖经济学家、经济学的顶级期刊。人们对 AI 充满了期待充满了争议,既然 AI 有可能对人类带来生存威胁,那为什么还要发展 AI?一个最有力的理由,是 AI 可以加快科学发现,能发现灵丹妙药、能治疗癌症、能应对气候变化、能解决能源问题,等等。既然如此,就一定会不断出现那些听起来过于美好的研究论文。

这可能是一个未完的故事。MIT 要求 Toner-Rodgers 从 Arxiv 撤掉论文,但是他拒绝了。这里面还会有什么更多猫腻吗?

我们也决定撤稿

我们最初看到这篇论文也很兴奋,终于有一个科学家样本量上千、而且是在一家大型硬科技制造业的研发部门的实证研究,证明 AI 能显著提升研发效率:使用 AI 工具的科学家们发现的材料增加了 44%,申请的专利增加了 39%,在下游的产品创新中增加了 17%,而且这些化合物具有更新颖的化学结构,产生更多突破性发明。

当时我们也感觉这好得有点令人难以置信。之前看过一些研究,也有知名的经济学家参与,如在企业的呼叫中心、客服部门的研究,证明提升了效率;也有在知名咨询公司的研究实例,但都处于非常初期、而且伴随更多的问题有待证明。而这一篇论文,各方面看起来相当整齐,似乎证明了使用 AI 工具与提升研发效率之间非常显著的因果关系。而且有当红诺奖经济学家背书。

我们当时的另一点疑惑,是一位二年级的博士生,怎么能在一家大型跨国公司的研发部门获取如此宝贵的数据,而且仅靠他一人完成;我们当时还开玩笑说,也许这是他们的家族企业吧,整个部门都要配合他做这项研究。最后,我们还是写了一篇文章介绍了论文 《AI 正再造贝尔实验室》,后来也数次引用该论文的结论。现在我们已经决定撤下这篇稿子。

参考:

https://cassyni.com/events/MiPYGu3qzKP5MQFWNUn9Tb

https://thebsdetector.substack.com/p/ai-materials-and-fraud-oh-my

https://pubs.acs.org/doi/10.1021/acs.chemmater.4c00643