诶李博,你今天这个polo衫配的什么,怎么感觉像是AI给你搭配的。
得了吧,我这审美至少比你上次那个荧光绿手机壳强。你那个壳子我到现在都有心理阴影。
行行行不提那个了。我跟你说啊,我最近看到一个事儿特别有意思,就是有个博士后研究员,他导师跑来跟他说,你的论文被引用得太多了。
被引用太多还能是坏事?这在学术圈不是做梦都想要的吗?
对啊,正常来说引用次数越高越好嘛,影响因子、h指数这些都跟引用直接挂钩,关系到升职加薪拿基金。但问题是,他那篇2017年的论文突然涌进来一堆引用,仔细一看,全是AI生成的论文在引他。
这个我知道,Peter Degen的案例。其实这背后的问题比大家想象的严重得多。我先抛个结论——AI论文现在最大的威胁不是质量差,恰恰是质量太好了。
等等,质量好还能是问题?这不反直觉吗?
你想啊,早期AI写的论文漏洞百出,语法错误、逻辑断裂,审稿人一眼就能看出来。但现在GPT-4、Claude这些大模型,参数规模几千亿级别,它们写出来的论文语法流畅、结构完整,连IMRaD格式都用得很规范。
IMRaD是什么?
就是论文的标准结构——引言、方法、结果、讨论。这些模型不光学会了格式,还能恰当地引用文献、使用专业术语,甚至构建看起来很合理的论证逻辑。你说你是审稿人,你怎么分辨?
这就像以前假货一看就是地摊货,现在做得跟正品一模一样,反而更难打假了。
对,完美的类比。而且更可怕的是引用污染这个事。
引用污染?这词听着就不太妙。
你看啊,AI在引用文献的时候有个系统性偏差——它倾向于引用训练数据里频繁出现的论文,而不是真正跟研究最相关的文献。这就导致某些论文的引用数被人为膨胀,而真正有价值的研究反而被埋没了。
我靠,这不就是学术界的流量造假吗?跟我们做产品的刷量一个道理。
而且它会形成正反馈循环——AI频繁引用某些论文,这些论文搜索排名就上升,然后更多AI系统又去抓取这些高排名论文继续引用。
越引越高,越高越引。
对,一旦这个飞轮转起来,你想纠正就太难了。整个学术引用网络的真实面貌都会被扭曲。
说到这个我突然想起来,我们组之前做推荐算法也遇到过类似的问题,热门内容越推越热,冷门的永远出不来。没想到学术圈也有这个困境。那审稿人就不能把关吗?
审稿人现在已经快崩溃了好吗。你知道同行评审本来就是无偿劳动吧?全球每年审稿工作量相当于几百万小时的免费打工。现在还得额外判断论文是不是AI写的、数据是不是真的。
本来就缺人手,现在活还翻倍了。
雪上加霜。而且还有论文工厂这个灰色产业链,就是专门批量生产假论文卖钱的组织。以前他们还得雇写手,现在用大模型几分钟就能出一篇,成本直接降到地板了。
真的假的?几分钟一篇?
每年有数万篇论文工厂的产品流入学术文献库,这还是AI普及之前的数据。你想想现在会是什么规模。
那检测工具呢?我记得有GPTZero什么的,还有Turnitin也加了AI检测。
你可拉倒吧。OpenAI自己做的AI文本分类器,准确率才百分之二十六,去年直接下线了。自己生的孩子自己都认不出来。
百分之二十六,这还不如抛硬币呢。
而且这些检测工具还有个公平性问题——非母语者写的英文论文容易被误判为AI生成。你想想全球那么多非英语国家的研究者,这不是歧视吗?
这个角度我之前完全没想到。那怎么办?靠技术检测这条路走不通的话。
我的观点是,制度改革才是治本之策。第一,强化数据和代码公开。你论文写得再漂亮,把原始数据和分析代码亮出来,能不能复现一试便知。
对,这个我理解。其实学术界之前就有可复现性危机嘛,2015年那个实验,100项心理学研究只有百分之三十六能复现。
没错。第二个是改革引用评价体系,不能再过度依赖引用数量了。可以引入替代计量学指标,比如论文在社交媒体的讨论度、政策文件里的引用、数据集下载量这些多维度的评估。
这个从产品角度我特别认同。单一指标一定会被刷,多维度评估才更健壮。还有呢?
第三是建立统一的AI使用透明度标准。你用了AI没关系,但你得说清楚用在哪了、用了多少。现在各家期刊政策不统一,有的要披露有的禁止,一片混乱。
其实我觉得AI本身不是敌人。我们做产品的天天用AI辅助写文档、做分析,效率确实高了很多。关键是用它来批量灌水,那性质就变了。
说得对。AI加速文献综述、辅助数据分析、降低语言障碍,这些都是实实在在的好处。但当它变成批量生产垃圾论文的流水线,那就从工具变成威胁了。
所以本质上还是人的问题,不是技术的问题。
嗯,透明、诚信、严谨,这些科学精神的基石,在AI时代反而比任何时候都重要。与其恐惧AI,不如把规则建好,让技术真正服务于知识创造。
行,那今天就聊到这儿。我回去得看看我们产品里的AI引用推荐逻辑,别也搞出引用污染来了。
你可得注意,别成了学术界的下一个反面教材。走吧,喝咖啡去。