黄仁勋&扎克伯格巅峰对谈:Llama才是AI的未来?(附对谈全文)
发布时间:2024-08-01 22:52 浏览量:54
一个是可能拥有最多英伟达H100芯片的男人,另一个是生产H100的男人,他们的一小时长谈,能带给我们什么启示?
7月30日,英伟达创始人兼CEO黄仁勋与Meta创始人兼CEO马克·扎克伯格,在美国丹佛举行的第50届SIGGRAPH图形大会上进行了一场60分钟的公开对话。
黄仁勋与扎克伯格
此前不久,Meta已经借助最新开源模型Llama 3.1重启上涨趋势,曾经在元宇宙上走过多年弯路的Meta,宣告回归AI第一梯队。
扎克伯格也一改曾经的“仿生”扮相,留长卷发,挂上金链,甚至和黄仁勋交换衣服拍了合照,无论是真心还是作秀,这个死板的科技直男,正在努力让自己潮起来。
图源:扎克伯格社交账号
在这长达一个小时的对谈中,从计算平台的迭代到开源精神,从AI的现状到可展望的未来,两人畅谈了整个AI时代的进程。
当然,聊未来的同时肯定要夹点私货,扎克伯格表示未来的Facebook和Instagram将成为一个统一的AI模型,为用户提供更加个性化和丰富的体验。他还表达了对开源大模型的信心,为近期发布的最强开源大模型Llama 3.1站台。
扎克伯格还在现场发布了AI Studio,允许用户构建具有自定义个性的虚拟角色和聊天机器人,他表示,Meta最终的愿景是让每个人都能创建个性化的AI Agent。
作为所有AI企业的最大“乙方”,黄仁勋则对自己的客户大加捧场,他肯定了Meta打造的AI框架Pytorch的行业地位,以及过去几年在计算机视觉、语言模型、实时翻译等方面的成果。
以下是二人60分钟访谈的精简全文:
黄仁勋:SIGGRAPH真正了不起的地方是,它是计算机图形学、图像处理、人工智能和机器人技术的综合展示。多年来,一些公司如迪士尼、皮克斯、Adobe、Epic Games,当然还有NVIDIA,在这里展示和揭露了许多令人惊叹的东西。今年,我们在人工智能与模拟的交叉领域引入了20篇论文。
黄仁勋出席SIGGRAPH
Meta,你们在AI方面做了令人惊叹的工作。我发现有趣的一点是,媒体写到Meta在过去几年如何涉足AI领域。FAIR做了很多工作——记住,我们都使用PyTorch。那源自Meta。
我想问你的第一个问题是,您如何看待Meta当前在生成式AI方面取得的进展?以及您如何应用它来增强您的运营或引入您正在提供的新功能?
扎克伯格:我们展示了一些为我们的VR和混合现实头显所做的早期手部追踪工作。我认为我们那时讨论过Meta在编解码数字人方面取得的进展。我们希望从消费者级头显中驱动那种逼真的数字化身,而我们正越来越接近这一目标。我们还完成了很多显示系统的工作。我们正在研发的未来原型,旨在使混合现实头显能够变得非常轻薄。我们在光学堆栈和显示系统方面已经相当先进,这是一个集成系统。
在我们成立Reality Labs之前就已经在这方面工作了一段时间。所有围绕生成式AI的内容——这是一场有趣的革命。我认为这将最终使我们所做的所有不同产品以有趣的方式变得不同。
排序机制一直很重要,因为即使你仅仅关注了朋友,如果某人做了非常重要的事情,比如你的表亲生了孩子之类的,如果我们把它埋在你的信息流某个角落,你肯定会很生气。
但如今,在过去几年里,用户的关注已经发展到更多是关于外面世界的各种公共内容了。推荐系统变得极其重要,因为现在不再是只有几百或一千条来自朋友们的潜在发布,而是有数百万条内容。借助生成式AI,我认为我们将很快进入这样一个领域:你今天在Instagram上看到的大部分内容都是根据你的兴趣和是否关注这些人,从外界匹配推荐给你的。
我认为在未来,很多这类内容也将通过这些AI工具来创作。其中一部分将是创作者使用这些工具创作的新内容。而另一部分,我想,最终会是为了你即时创作或从现有内容中整合合成的内容。这只是我们核心业务如何进化的一个例子。
黄仁勋:世界上构想过的最大的计算系统之一就是推荐系统。
扎克伯格:是的,我认为,推荐系统用到的也是Transformer架构。也是一种类似的情况,不断构建越来越通用的模型。
黄仁勋:将非结构化数据嵌入到特征中。
扎克伯格:其中一个重要方面是它推动了质量的提升。最近的一个例子是,我们有一个模型用于排名和推荐短视频,另一个模型用于排名和推荐更长的视频。然后需要一些产品工作来确保系统能够在线展示所有内容。但如果你能创建更通用的推荐模型,覆盖所有领域,效果只会越来越好。
黄仁勋:随着模型变得更大更通用,效果会越来越好。
扎克伯格:我梦想有一天,你可以想象整个Facebook或Instagram就像一个统一的AI模型,整合了所有不同类型的内容和系统,这些内容和系统实际上在不同的时间框架下有着不同的目标。因为其中一部分只是向你展示今天你想要看到的有趣内容。但另一部分则是帮助你长期构建你的社交网络,推荐你可能认识的人,或是你可能想要关注的账号。而这些多模态模型往往能提供更好的陪伴。
黄仁勋:现在,关于生成式AI真正酷的一点是,如今我用WhatsApp时,感觉就像在与WhatsApp合作。我坐在这里打字,它随着我的输入生成图像。
扎克伯格:一方面,我认为,生成式AI将是对我们长期使用的所有工作流程和产品的一次重大升级。但另一方面,现在它可以创造出许多全新的东西。就像你说的那样。它们非常通用,所以你不必仅仅局限于此。它能回答任何问题。
随着时间的推移,当我们从Llama 3类模型发展到Llama 4及以后,我认为,它将会感觉不像是一个聊天机器人。我觉得它会很快进化到,你给它一个意图,它会根据之前的谈话预判你的意图,我认为那将会非常强大。
Meta的Llama 3模型
黄仁勋:未来的人工智能也会做类似的事情。当你谈到你对Creator AI的愿景时,我感到非常兴奋。
扎克伯格:我们的愿景是,我不认为只会有一款人工智能模型,我们的愿景更多在于赋能每一位使用我们产品的用户,让他们能够为自己打造专属的智能体。
因此,我们正在逐步推出的,就是我们称之为AI工作室的项目,它旨在助力您快速启动并运营这一智能体系统。这基本上是一套工具,最终将使每位创作者都能构建一个自己的AI版本,作为某种智能体或助手,让他们的社区能够与之互动。
所以这就是我们大致上在AI工作室所要做的方向。但这些都是我们更大的观点的一部分,我们认为不应该只有一种大型AI供人们交互。
黄仁勋:我认为这非常酷,如果你是一位艺术家并且有自己的风格,你可以采用你的风格,你所有的作品集,你可以微调你的一个模型,现在这变成了一个AI模型,你可以来使用它并给出提示。
扎克伯格:是的,我认为在未来,每个企业都将拥有一个与客户交互的AI智能体。一般来说,当你搭建组织的时候,组织是分开的。因为它们各自优化于不同的事务。但我认为理想化的状态是它应该是一种统一的存在。
黄仁勋:我认为这种个人消费者方面的互动,尤其是他们的投诉,将会使你的公司变得更好。所有这些AI与客户的互动都会让AI捕捉到那些机构知识,而这些又都可以进入分析系统,这会提升后续人工智能。
扎克伯格:是的。我们仍处于相当早期的alpha阶段,但AI工作室让人们能够创建自己的UGC智能体和其他内容,我对这个挺兴奋的。
我认为理想的版本不仅仅是文本,这和我们随着时间在做的一些编解码虚拟形象的工作有些交集。你肯定希望能够和那个智能体进行像视频聊天一样的交互,我认为我们随着时间会达到那一步的。我不认为这些东西离我们太远,所以这是令人兴奋的。
黄仁勋:当Llama 2.1 发布时,它激活了每一家公司、每一个企业和每一个行业。突然之间,每家医疗公司都在开发AI,每家公司,无论大小,初创企业都在构建AI。它让每一位研究者都能重新投入到AI领域,因为他们有了一个起点去做些什么。而现在,3.1版本已经发布,你知道的,我们共同努力部署Llama 3.1,将其推向全球企业。这种兴奋之情简直难以言表。我认为它将推动各种应用的发展。
但请谈谈你的开源理念。这一理念源自何处?你开源了PyTorch,现在它已成为人工智能开发的框架。而现在,你们已经开源了Llama 3.1。围绕它建立了一个完整的生态系统。
扎克伯格:我认为部分原因,坦白说,是我们在其他一些科技公司之后才开始构建分布式计算基础设施和数据中心这类东西。而且,正因为如此,当我们构建这些东西时,它已经不是竞争优势了。所以我们想,那好吧,我们不如干脆将其开源。然后我们将从围绕它的生态系统中受益。所以我们有很多这样的项目。
我认为最大的一个例子可能是开放计算项目(Open Compute),我们公开了我们的服务器设计、网络设计,最终还包括数据中心设计,并发布了所有这些内容。通过使其成为某种行业标准,整个供应链基本上都围绕它进行了组织,这带来了为每个人节省资金的好处。因此,通过公开和开放这些设计,我们基本上通过这样做节省了数十亿美元。
黄仁勋:嗯,开放计算项目也使得NVIDIA HGX成为可能,我们为一个数据中心设计的东西突然间也能在其他数据中心工作。
扎克伯格:确实如此。太棒了。所以我们有了这次非常棒的经历。之后,我们还将其应用于我们的一系列基础设施工具,比如React、PyTorch等。因此,可以说到了Llama出现的时候,我们对做这件事有一种积极倾向。
特别是对于AI模型,我想我有几种看待这个问题的方式。首先,在过去20年里,在公司里构建东西中最困难的事情之一就是不得不应对这样一个事实:我们通过竞争对手的移动平台发布我们的应用。一方面,移动平台对整个行业产生了巨大的推动作用,这非常棒。另一方面,不得不通过竞争对手来交付你的产品是具有挑战性的,对吧?
而且,在我成长的时代,Facebook的第一个版本是在网络上,那是开放的。然后转向移动端,其好处是,现在每个人口袋里都有一台电脑。那真是太好了。但不利的一面是,我们在能做的事情上受到了更多限制。因此,当你审视这些计算时代的更迭,你会发现存在一个巨大的近因偏差,因为苹果基本上赢得了这场胜利并设定了规则。而且赢得了所有利润,基本上安卓在发展方面也在跟随苹果的脚步。所以我认为苹果在这一代中明显胜出。
我有点希望在下一波计算浪潮中,我们将重返一个开放生态系统胜出并再次成为主导的领域。总是会有封闭的和开放的两种选择。我知道两者都有其存在的理由。两者都有其好处。我并不是在这方面极端的人。我的意思是,我们也有闭源的产品。我们发布的并非所有内容都是开源的。
但我认为,对于整个行业所依赖的计算平台而言,尤其是软件如果开放,会有很大的价值。这确实塑造了我在这方面的哲学。无论是与Llama合作的AI项目,还是我们在AR和VR领域的工作,我们基本上是在为混合现实构建一个开放的操作系统,类似于Android或Windows,旨在与众多不同的硬件公司合作,制造各种类型的设备,我们基本上只是希望将生态系统恢复到那个开放的水平。我对下一代的发展相当乐观,开放的系统将会胜出。
对我们来说,我只想确保我们自己能够接入AI。在创建这家公司一段时间后,我未来10到15年的目标之一就是,我只是想确保我们能够构建基础技术,因为这将是我们构建社交体验的基础,因为之前我尝试构建的许多东西都受到了限制。
黄仁勋:有人致力于构建尽可能最好的AI,无论他们如何构建,并将其作为服务提供给世界,我认为这才是一个很棒的世界。然后,如果你想自己构建AI,你仍然可以自己构建AI,这都很棒。但在使用AI的能力这件事上,你知道,我更喜欢开盒即用。
你用Llama 3.1所做的事真的很棒,你有405B的版本,你有70B的版本,你有8B的版本,你可以用它来生成合成数据,用更大的模型来教小模型。虽然更大的模型会更通用,它也不那么脆弱,但你仍然可以构建一个更小的模型,适合于任何你希望的操作领域或运营成本。无论你希望的操作领域或运营成本是什么,你都可以构建一个更小的模型来适应。
你创建了一个守卫,我想是叫Llama Guard,Llama守卫用于护栏,非常棒。所以现在你构建模型的方法,它是以一种透明的方式构建的。你拥有一个世界级的安全团队,世界级的伦理团队,你可以以这样一种方式构建它,让每个人都知道它是正确构建的。我真的很喜欢这部分。
扎克伯格:是的,我先说完在我之前被岔开话题之前想说的话。你知道,我确实认为我们有这种一致性,我们构建开源AI是因为我们希望它存在,并且我们不希望被某些封闭的模型所隔离。而这不仅仅像是开发一款软件那么简单,AI需要一个生态系统的支撑。因此,几乎可以说,如果我们不将其开源,它甚至可能无法很好地运作。
我们这样做并非因为我们是什么无私的人,尽管我认为这对生态系统是有益的。我们这样做是因为我们认为,通过建立一个强大的生态系统,可以使我们正在构建的东西达到最佳状态,看看有多少人参与到了PyTorch生态系统的建设中。
黄仁勋:这需要大量的工程工作。我的意思是,仅视频处理方面,我们可能就有数百人专门致力于让PyTorch更优秀、更具扩展性,你知道的,性能更佳等等。
扎克伯格:是的,而且当某个技术成为行业标准的时候,其他人就会围绕它进行创新,对吧。因此,所有的硬件和系统最终都会被优化,以便非常好地运行这项技术,这将使所有人受益,同时它也能很好地兼容我们正在构建的系统。而这一点,我认为只是展示了这种方式最终会变得非常有效的一个例子。
黄仁勋:我认识到了一件重要的事情。我认为Llama确实非常重要。我们围绕它构建了一个名为AI Foundry的概念,以便帮助每个人构建AI。很多人,他们有构建AI的愿望。对他们来说,拥有AI非常重要,因为一旦他们将其融入数据飞轮,这就是他们公司机构知识被编码并嵌入AI的方式。但他们承担不起让那个AI转起来的成本。
因此开源允许他们这样做。但他们并不真正知道如何将这一切转化为AI。所以我们创建了这个名为AI Foundry的东西。我们提供工具,提供专业知识,Llama的技术,我们有能力帮助他们将这一切转化为AI服务。然后当我们完成这一切后,他们接手,他们拥有,其输出就是我们所说的NIMM。这个NIMM,这个神经微型NVIDIA推理微服务,他们只需下载,带走并在任何他们喜欢的地方运行,包括本地部署。我们拥有一个完整的合作伙伴生态系统,从能够运行NIMMs的OEM到像Accenture这样的GSIs,我们培训并与他们合作创建基于Llama的NIMMs和管道。现在我们正在帮助全球各地的企业实现这一目标。我的意思是,这确实是一件非常令人兴奋的事情。这一切实际上都是由Llama的开源引发的。
英伟达和Meta在AI领域有着长期而广泛的合作
扎克伯格:是的,我认为,帮助人们从大型模型中提炼出自己的模型的能力,将成为一个真正有价值的新事物。就像我们在产品方面讨论的那样,至少我不认为会有一个每个人都会去跟它交流的核心AI智能体。在同一水平上,我也不认为必然会有一个模型是每个人都会使用的。
黄仁勋:我们有一个芯片AI,芯片设计AI。我们有一个软件编码AI。我们的软件编码AI理解USD,因为我们用USD为Omniverse编写代码。我们有一个理解Verilog的软件AI,我们的Verilog。我们拥有能够理解我们的缺陷数据库的软件AI,并且知道如何帮助我们分类缺陷并将其发送给正确的工程师。
这些AI中的每一个都是基于Llama进行微调的。我们会对它们进行微调,并设置防护措施。你知道,如果我们有一个用于芯片设计的AI,我们并不希望询问它关于政治、宗教之类的问题。所以我们会对它进行防护限制。因此,我认为每家公司基本上都会为它们拥有的每一个功能,配备专门为此构建的AI。他们需要帮助来实现这一点。
扎克伯格:是的,我认为未来的一大问题是,人们将多大程度上使用更大、更复杂的模型,而不是仅仅针对他们的需求训练自己的模型。至少我可以肯定,未来会有各种各样、数量庞大的不同模型涌现。
黄仁勋:我们使用的是最大型的那些模型。而这样做的原因在于,我们的工程师时间极其宝贵。因此,我们现在正针对性能优化405B版本的Llama 3.1。如你所知,无论GPU多大,405B都无法完全适配。这就是为什么NVLink的性能如此关键。我们采用了这种技术,通过一个名为NVLink的非阻塞交换机,将每块GPU连接起来。
例如,在一个HGX中,就有两个这样的交换机。我们使得所有这些GPU能够协同工作,运行405B时性能极为出色。我们这样做的原因是,工程师的时间对我们来说极其宝贵。你知道,我们希望使用尽可能最佳的模型。即便这样做在成本上只节省了几分钱,谁又会在乎呢?因为我们希望确保向他们展示的是最优质的结果。
英伟达HGX超算平台
扎克伯格:是的,我的意思是,我认为405B的成本大约是GPT-4模型的一半。所以,从这个层面来说,它已经相当不错了。但我认为人们正在设备上使用或需要更小型的模型,他们会将其精简。因此,这就像是AI运行的一整套不同的服务。
黄仁勋:让我们假设一下,我们正在用于芯片设计的AI每小时可能只需10美元成本。你知道,如果你持续使用它,并且将那个AI共享给众多工程师,那每个工程师可能都有一个成本不高的AI陪伴着他们。这个AI的成本其实并不高。而我们支付给工程师的薪酬却很高。
因此,对我们来说,每小时几美元就能大幅提升那些尚未接入AI的人的能力。立刻行动,接入一个AI吧。我们想说的就是这些。
黄仁勋:那么,让我们谈谈下一波趋势。你们所做的工作中,我特别喜欢的一点是,计算机视觉,我们内部大量使用的一个模型是 Segment Everything。你知道,我们现在正在视频上训练AI模型,以便我们能更好地理解世界模型。我们的应用场景是机器人技术和工业数字化,将这些AI模型接入Omniverse,以便我们能更好地建模和表达物理世界。让机器人在这些Omniverse世界中更好地运作。因此你的应用,Ray-Ban Meta眼镜,你将AI引入虚拟世界的愿景真的很有趣。给我们讲讲吧。
扎克伯格:好的,嗯,这里面有很多值得探讨的内容。你所谈论的那个Segment Everything模型,我们实际上在SIGGRAPH上展示了它的下一个版本,Segment Everything 2。现在它已经能正常运行了,速度更快了。它现在也能处理视频了。
Meta的Segment Everything模型
用这个可以制作很多有趣的特效。而且因为它会被广泛开放,行业内还会有更多严肃的应用。科学家用这些东西来研究珊瑚礁、自然栖息地以及地形的演变等等。但我的意思是,它能够在视频中实现这一点,告诉它你想追踪的内容,你就能拥有B-roll镜头并能够与之互动。
黄仁勋:我举个例子,告诉你们我们使用它的场景。比如,你有一个仓库,里面装满了摄像头。仓库的AI正在监控着所有发生的事情。假设一堆箱子倒塌了,或者有人在地面上洒了水,或者即将发生任何意外,AI识别到这一情况,生成文字信息,发送给相关人员,救援就会在路上。这就是使用它的一个方式。不是记录所有事情,如果有事故发生,不是记录每一纳秒的视频,然后再回去检索那个时刻,它只记录重要的内容,因为它知道自己在看什么。因此,拥有一个视频理解模型,一个视频语言模型对于所有这些有趣的应用来说,确实非常强大。
扎克伯格:还有所有智能眼镜。我认为,当我们考虑下一代计算平台时,我们会将其分解为混合现实(XR)、头戴设备和智能眼镜。而智能眼镜,我认为人们更容易接受并佩戴它们,因为现在几乎每个戴眼镜的人最终都会升级为智能眼镜。这在全球有超过十亿人。所以这将是一个相当大的市场。
VR/MR头戴设备,我认为有些人觉得它们在游戏或其他用途上很有趣,有些人则还不这么认为。我的观点是,它们都将存在于这个世界。
我认为智能眼镜将类似于手机,是常驻型计算平台的下一个版本。而混合现实头显则更像你的工作站或游戏主机,当你坐下来进行更沉浸式的体验,并需要更多计算资源时。眼镜(大小)只是非常小的形式因素。因为算力将带来很多限制,就像你不能在手机上进行(和计算机)同样级别的计算一样。
黄仁勋:它恰好出现在所有这些生成式AI突破发生的时候。
扎克伯格:是的,所以我们基本上,对于智能眼镜,我们一直从两个不同的方向来解决这个问题。一方面,我们一直在构建我们认为的那种理想全息增强现实(AR)眼镜所需的技术,并且我们正在进行所有定制硅芯片的工作,所有定制显示堆栈的工作,就像为了实现这一目标所需做的所有事情。而且它们是眼镜,对吧?不是头戴式设备。不像VR/MR头显。它们看起来就像普通眼镜。但它们与你现在戴的眼镜相比,还有相当大的差距。我是说你的眼镜非常薄。
我们考虑的另一个角度是,先从外观好看的智能眼镜开始。通过与全球顶尖的眼镜制造商EssilorLuxottica合作,他们基本上涵盖了你所熟知的所有大牌,比如雷朋、奥克利、奥利弗·皮普尔斯,以及其他少数几个品牌。这些几乎都属于EssilorLuxottica。
Meta的VR头显
扎克伯格:我们的目标是让我们将外形限制在看起来非常棒的范围内。然后在这个框架内尽可能多地融入技术,尽管我们知道在技术上还无法达到我们理想中的完美整合,但最终,它们将会是外观出色的眼镜。到目前为止,我们配备了摄像头传感器,因此您可以拍照和录像,您实际上可以实时直播到Instagram,您可以在WhatsApp上进行视频通话并实时传输给对方,您知道,您所看到的画面。它配备了麦克风和扬声器,我是说,那个扬声器实际上非常出色。它就像,开放式耳道设计,因此许多人觉得它比耳塞更舒适。您可以听音乐,就像拥有一段私密的体验,这相当不错。人们很喜欢这一点,您可以在上面接听电话。
但我们发现,这些传感器组合正是与AI对话所需的。所以这可以说是个意外的发现。如果五年前你问我,我们会先实现全息AR还是AI?我可能会说,大概是全息AR吧。对吧,我的意思是,这看起来就像是所有虚拟现实和混合现实技术上的进步,以及构建新的显示技术栈。我们正朝着这个方向不断取得进展。然后,大型语言模型(LLMs)取得了突破,结果是我们现在拥有了高质量的人工智能,并且在全息增强现实(AR)出现之前,它的改进速度非常快。
所以这是一种我未曾预料到的转变。幸运的是,我们处于有利位置,因为我们一直在研究这些不同的产品,但我认为最终你会得到一系列不同价格、不同技术水平的潜在眼镜产品。所以,基于我们现在看到的Ray-Ban Meta的情况,价格在300美元左右的无显示屏AI眼镜将成为一个非常热门的产品,最终可能会有数千万甚至数亿人使用。届时,你将与高度互动的AI进行对话。
对谈结束后,扎克伯格拿出为黄仁勋买的礼物——一件毛领黑夹克。黄仁勋也将自己的夹克送给扎克伯格作为交换,复刻了两人之前互换外套的友好举动。
60分钟的对谈几乎完全是Meta的主场,总结了Meta在AI领域走过的历程和未来布局。作为乙方的黄仁勋更多扮演了“捧哏”的作用。但即使如此,身为目前唯一的生产力提供商,英伟达的一举一动自然会收获大量关注。
与英伟达的良好关系给了Meta底气,在OpenAI、微软和谷歌多方竞争的当下,重新杀回的Meta,给了僵持的战场更多的一些可能。