李博!好久没录了,最近忙什么呢?
嗨别提了,最近在组里折腾模型迁移,天天跟Hugging Face打交道,人都麻了。
哎那正好,我最近也想跟你聊聊这个。Hugging Face的Transformers框架,GitHub上16万星标了你知道吧?
知道啊,160K stars,我前两天还看了一眼。说实话这个数字放在整个开源圈都是炸裂级别的。
16万颗星到底什么概念啊?我平时不太关注GitHub的这些数据。
这么说吧,GitHub上能过10万星的项目屈指可数。而且这16万颗星,每一颗都是程序员自己点的,不是买的流量,不是刷的数据。
你想想程序员多懒啊,能让他们主动点个星标,那是真觉得好用。比微博粉丝含金量高多了。
哈哈哈行吧,程序员用脚投票是吧。那它Fork数呢?我记得Fork数也挺夸张的。
3万3千多的Fork。这意味着什么?意味着大家不光在用,还在疯狂魔改它。开源社区的飞轮一旦转起来,就停不下来了。
等一下,我先替听众问个基础问题。Transformers这个框架,它到底是干嘛的?我知道它很火,但你能用人话讲讲吗?
好,人话版本来了。它就干了一件事——把全世界最聪明的人造出来的AI模型,用统一的接口包装成了乐高积木。
你想用BERT?三行代码。想用GPT?还是三行代码。想用LLaMA?你猜?
还是三行代码?
对!就是这么离谱。以前你想跑不同的模型,每个都要配一套环境,装一堆依赖,搞半天。现在Transformers说:都别装了,装我一个就够。
这个我有体感。我们组之前做一个AI产品的原型,光配环境就花了两天,后来换成Transformers,半小时就跑起来了。当时我还以为是实习生变强了。
哈哈哈不是实习生变强了,是工具变强了。你们产品经理就是这样,功劳都归人,不归工具。
得了吧!那我再问一个,它是不是只能搞文本?毕竟名字叫Transformers嘛,我印象里Transformer架构最早就是做NLP的。
诶这个问题问得好,但答案可能会让你吃惊。它现在是个通吃型框架,文本、视觉、音频、多模态,全都能搞。
真的假的?视觉和音频也行?
真的。视觉方面有ViT、DETR这些模型,音频方面有Whisper、Wav2Vec,多模态还有CLIP、LLaVA。四大领域一锅端。
等会儿让我想想……就是说我不管做语音识别、图像分类还是文本生成,都可以用同一个框架?
对,而且不光是推理,训练也支持。推理训练两手抓。你说它是AI界的瑞士军刀都低估了,我觉得它更像AI界的宜家。
宜家?
对啊,什么模型都能从这儿搬回家自己组装。而且还有说明书,还有社区帮你答疑。
这个比喻可以,我记住了。那从产品角度我想追一个问题——它为什么选Python?这个选择是不是也很关键?
太关键了。在AI这个圈子里,不会Python约等于不会呼吸。选Python就是精准拿捏了整个社区的命脉。
上手门槛极低,API设计又统一,不管你是学术界发paper的博士,还是工业界赶deadline的工程师,都能快速用起来。这才是它用户基数能滚这么大的根本原因。
懂了懂了。所以它其实已经不只是一个框架了,更像是一个基础设施?
你这个词用得特别准。它就是AI开发的基础设施。你看现在不管是大厂还是创业公司,做AI相关的事情几乎都绑定了Hugging Face的生态。
我突然想到一句话——你不需要自己造轮子,但你需要一个足够大的轮子仓库。
对!而且Hugging Face证明了一个更朴素的道理——让全世界的开发者都能站在巨人肩膀上,这件事本身就有巨大的价值。
嗯,说到底还是降低门槛这件事。把最前沿的模型变成人人都能用的东西,这个价值确实是实打实的。
所以我跟你说,如果你现在做任何跟AI模型相关的事情,不管是研究还是落地,Transformers基本是绕不开的。
行,那今天就先聊到这儿。下次你给我讲讲怎么用Transformers三行代码跑个模型出来,我回去在组里秀一下。
没问题,到时候你们实习生又要以为自己变强了。
哈哈哈行了行了,下期见!