播客频道 | Hugging Face Transformers 全面解析：16万星标的AI开源框架到底强在哪

李博！好久没录了，最近忙什么呢？嗨别提了，最近在组里折腾模型迁移，天天跟Hugging Face打交道，人都麻了。哎那正好，我最近也想跟你聊聊这个。Hugging Face的Transformers框架，GitHub上16万星标了你知道吧？知道啊，160K stars，我前两天还看了一眼。说实话这个数字放在整个开源圈都是炸裂级别的。 16万颗星到底什么概念啊？我平时不太关注GitHub的这些数据。这么说吧，GitHub上能过10万星的项目屈指可数。而且这16万颗星，每一颗都是程序员自己点的，不是买的流量，不是刷的数据。你想想程序员多懒啊，能让他们主动点个星标，那是真觉得好用。比微博粉丝含金量高多了。哈哈哈行吧，程序员用脚投票是吧。那它Fork数呢？我记得Fork数也挺夸张的。 3万3千多的Fork。这意味着什么？意味着大家不光在用，还在疯狂魔改它。开源社区的飞轮一旦转起来，就停不下来了。等一下，我先替听众问个基础问题。Transformers这个框架，它到底是干嘛的？我知道它很火，但你能用人话讲讲吗？好，人话版本来了。它就干了一件事——把全世界最聪明的人造出来的AI模型，用统一的接口包装成了乐高积木。你想用BERT？三行代码。想用GPT？还是三行代码。想用LLaMA？你猜？还是三行代码？对！就是这么离谱。以前你想跑不同的模型，每个都要配一套环境，装一堆依赖，搞半天。现在Transformers说：都别装了，装我一个就够。这个我有体感。我们组之前做一个AI产品的原型，光配环境就花了两天，后来换成Transformers，半小时就跑起来了。当时我还以为是实习生变强了。哈哈哈不是实习生变强了，是工具变强了。你们产品经理就是这样，功劳都归人，不归工具。得了吧！那我再问一个，它是不是只能搞文本？毕竟名字叫Transformers嘛，我印象里Transformer架构最早就是做NLP的。诶这个问题问得好，但答案可能会让你吃惊。它现在是个通吃型框架，文本、视觉、音频、多模态，全都能搞。真的假的？视觉和音频也行？真的。视觉方面有ViT、DETR这些模型，音频方面有Whisper、Wav2Vec，多模态还有CLIP、LLaVA。四大领域一锅端。等会儿让我想想……就是说我不管做语音识别、图像分类还是文本生成，都可以用同一个框架？对，而且不光是推理，训练也支持。推理训练两手抓。你说它是AI界的瑞士军刀都低估了，我觉得它更像AI界的宜家。宜家？对啊，什么模型都能从这儿搬回家自己组装。而且还有说明书，还有社区帮你答疑。这个比喻可以，我记住了。那从产品角度我想追一个问题——它为什么选Python？这个选择是不是也很关键？太关键了。在AI这个圈子里，不会Python约等于不会呼吸。选Python就是精准拿捏了整个社区的命脉。上手门槛极低，API设计又统一，不管你是学术界发paper的博士，还是工业界赶deadline的工程师，都能快速用起来。这才是它用户基数能滚这么大的根本原因。懂了懂了。所以它其实已经不只是一个框架了，更像是一个基础设施？你这个词用得特别准。它就是AI开发的基础设施。你看现在不管是大厂还是创业公司，做AI相关的事情几乎都绑定了Hugging Face的生态。我突然想到一句话——你不需要自己造轮子，但你需要一个足够大的轮子仓库。对！而且Hugging Face证明了一个更朴素的道理——让全世界的开发者都能站在巨人肩膀上，这件事本身就有巨大的价值。嗯，说到底还是降低门槛这件事。把最前沿的模型变成人人都能用的东西，这个价值确实是实打实的。所以我跟你说，如果你现在做任何跟AI模型相关的事情，不管是研究还是落地，Transformers基本是绕不开的。行，那今天就先聊到这儿。下次你给我讲讲怎么用Transformers三行代码跑个模型出来，我回去在组里秀一下。没问题，到时候你们实习生又要以为自己变强了。哈哈哈行了行了，下期见！

Hugging Face Transformers 全面解析：16万星标的AI开源框架到底强在哪

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报