whatsapp删除账号还能发信息吗
巨头们不但拼模型能力,还拼爆款产品,同时继续投入数百亿美元拼算力建数据中心;而几家一年前还是明星项目的初创企业却因为资金烧光,直接被巨头吞并。
在学术界,技术领袖们对AI的未来依然争论不休、骂战不断:GPT5依然没有踪影,Scaling law甚至被认为已经遇阻“撞墙”。
然而2024年底,谷歌Gemini 2.0的发布,以及OpenAI一连12天发布更新,却让大家对2025年AI的进展又有了一些新的期待...
这期内容我们将回顾下生成式AI在硅谷的2024年有哪些drama,又有哪些实在的技术进展和路线年的AI会如何发展。
我们将结合与技术大佬的采访聊天,从巨头的AI布局路线、产品落地、陨落的明星公司和冉冉升起的新星们,以及业内对2025年AI展望这几条主线来展开,看看过去一年都发生了些什么。
OpenAI在2024年的drama并不少:2023年底的董事会风波之后,2024年OpenAI的高层依然极度不稳定,人才流动性很大。
联合创始人、首席科学家Ilya Sutskever在五月离职。之后他宣布创办自己的初创公司Safe Superintelligence,快速融资了10亿美元。
和Ilya一起离职的还有超级对齐团队的关键技术人物Jan Leike。之后在九月,CTO Mira Murati也宣布离职,有消息称她正在为她新的初创公司融资。
同时,联合创始人、前总裁Greg Brockman在休了三个月的长假之后回到了OpenAI。
OpenAI用了一年的时间来处理高层之间的人际冲突,如今终于暂时稳定了局面。坏消息是多数的创始成员都已经离开,好消息是这场宫斗终于结束。
Sam Altman有了稳定的权利,接下来或许可以更顺利地推进他想象中的AI发展方向,包括将OpenAI从非盈利组织变成赢利组织来更好融资,推出更多可以商业化的产品等。
2024年10月,Sam Altman为OpenAI完成了新一轮66亿美元的融资,公司估值来到1570亿美元。但OpenAI烧钱之狠也是有目共睹的:
《纽约时报》获得的融资文件显示,OpenAI2024年预计收入达到37亿美元,但预计亏损将达到50亿美元,而2026年亏损可能会高达140亿美元,这一估算还不包括给员工的股票激励兑现。
虽然OpenAI承诺投资人收入在成倍增长,预计在2029年达到1000亿美元,实现盈利,但按照这样的烧钱进度,OpenAI在2025年的两大趋势会是必然:第一是大规模融资;第二是更激进的商业化。而这其实和2024年OpenAI的路线年,OpenAI没能如预期发布GPT5,这让市场中不少人失望,但惊喜的是4o的多模态进展。此外,o1和最近o3的发布让人看到模型能力进化的另外一种路线。
事实证明,4o发布之后,特别是在免费版本中提供有限的4o功能和4o-mini之后,ChatGPT的订阅人数大幅上升,依然在2C领域上远超竞争对手。
o1这个内部代号为“Strawberry”的强大模型更新,让我们看到了在预训练上堆参数的“大力出奇迹”之外的、通过推理阶段的算法突破找到一条新的通往AGI的道路。
最近发布的o1整体模型,凭借在推理能力上的显著提升,展现出非常不错的结果,但在产品方面,我们仍需更多努力。
而o1尝试自己解决问题,比如在后台将问题分解为小步骤。这时你需要权衡的是延迟的问题,因为后台处理可能需要花费一分钟。所以我认为对于特定的应用场景来说,这种做法肯定是有效的,特别是如果你不介意延迟的话。
其它的更新比如说ChatGPT Search升级、与苹果Apple Intelligence的协作等等,看上去就非常不痛不痒,甚至感觉是在给12天的发布会凑数
o3在数个测试上的能力,无论是程序员编码竞赛(Codeforces)中超过99%的人类程序员,还是博士水平的科学问题(GPQA)已经超过一般人类博士生,还是最难的前沿数学测试,还是抽象推理能力基准考试ARC-AGI,o3比o1的提升可以说是惊人的,而这个版本的更新仅仅用了三个月的时间。
这让AI业界的不少人相信,OpenAI在o1和o3这个强化推理这个范式转变是有效的,这让担心AI大模型已经“撞墙”的人们稍微松了口气:至少AI模型的发展还在推进。
Tick-Tock的意思是左边是数据驱动,右边是规则驱动,两边会来回跳动。一会是用更好的数据集去训练它,但同时用更好的算法去推动它,所以就是在算法跟数据两边Tick-Tock(摇摆)。因为现在o1和o3更多的还是算法,但是之前包括 GPT 其实也是数据集的驱动。所以,在(数据和规则)这两边的摇摆的时候,应该会摇出下一个大的 breakthrough(突破)或者milestone(里程碑)whatsapp删除账号还能发信息吗。
在2024年年底,OpenAI给整个产业送上了一份圣诞惊喜。虽然o1和o3非常昂贵,o1 pro的订阅价格是每月200美元,而o3进行一次低算力计算的成本高达20美元,高算力就更不用说了,要在现阶段大规模商用几乎是不可能的。
2024年12月底,OpenAI进行12日发布会期间,谷歌进行了几个重磅发布。如果OpenAI没有压轴的o3,年底的风头几乎全都会被谷歌抢走。谷歌首先在12月12日发布了多模态大模型Gemini的第二代Gemini 2.0,谷歌CEO Sundar Pichai在发布公告中表示,如果说Gemini 1.0是用于组织和理解信息,那么Gemini 2.0则是让信息变得更有用
怎么理解Pichai说得第二代Gemini能让“信息变得更有用”呢?首先,Gemini2.0在多模态功能上更强大。
看得出来,Sundai Pichai非常重视Project Astra,认为它“展示了通用AI助手的曙光”,而谷歌Gemini大模型依靠长文本的能力,能让Project Astra记住长达10分钟的会话内容来提供个性化的服务。
虽然目前来看,这个项目还在比较早期的阶段,如果我们看看之前提到的OpenAI定义的五个AI层级,Agent能自主行动完成任务已经是第三个层级了。
很多application(应用)把自己叫agent之后没有在算法上面有真正的创新,也没有数据。如果就做agent,我个人觉得下一步还是要往数据的角度去走,agent也需要数据。我觉得下一步 2025 年,可能会在这几个层面。
同时,谷歌新发布的论文,描述了一种新的注意力技术“inifini-attention”(无限注意力),能使Tranformer大模型在有限算力情况下处理无限长度的输入。
而谷歌的Gemini模型将上下文窗口从最先进的20万扩展到了100万到1000万——这几乎是一个50倍到100倍的增长。对于大型语言模型来说,这个上下文窗口实际上是一项非常有用的技术:上下文窗口越大,你可以向模型提供的输入就越多。
有谷歌的Gemini底座大模型的多模态和长文本能力支撑,NotebookLM的AI播客功能可以将文档、视频或者音频总结生成一男一女对话的方式,让用户用“听内容”的方式获取信息,在播客podcast这种媒体形式无比流行的硅谷形成了病毒式传播的现象级别产品。
你可以理解他是个产品创新。NotebookLM是Google Labs出来的,但Google自己是有底座模型的。Notebook LM用的底座其实也不是Google Gemini,而是谷歌自己内部的一个定制化底座。所以,如果你不是那么懂底座,纯第三方的来用谷歌Gemini API,你未必能做得出来NotebookLM。
总的来说,谷歌Deepmind和Google Brain当中人才密度不会亚于OpenAI,技术也不会落后太多,但2024年谷歌依然是一个“追赶者”的姿态。
所以在多模态的AI第二轮大战中,OpenAI是进攻者,而谷歌依然是防御者,下一场硬仗无论是第二层的reasoning,还是第三层的autonomous AI agent,2025年都会非常精彩。
很多开发人员认为,Claude 3.5 Sonnet会非常适合需要深度理解和复杂推理的应用程序,而OpenAI的模型对于较简单的任务可能更具成本效益。
之前媒体的报道说,Anthropic在2024年的收入会超过10亿美元,比之前预测的要高很多,说明市场还是非常买账Anthropic的模型能力,特别是最近他们又挖了很多OpenAI的核心人员过去。
除了钱之外,马斯克还是第一个搞定大规模算力集群的:2024年,xAI位于美国田纳西州孟菲斯市的数据中心正式投入使用,历时122天建成创下纪录。
在大模型上发布上,Grok的速度其实是要比竞争对手慢一些的。在8月中旬,xAI发布了Grok-2和Grok-2mini两款AI模型的测试版,比此前发布的Grok-1.5有了非常大的进步。
相当一段时间以来,Grok的聊天机器人只向马斯克旗下的“X”用户提供,但在2025年很可能马斯克会全面开放Grok。
除了创始人扎克伯格最近的突变形象和婚姻八卦之外,脸书毫无疑问是2024年的科技大赢家之一:单从股价就能看出来,2024年涨了70%左右,Meta的员工们应该都很开心。
除了在大语言模型上的进展外,Meta也一直在探索除了“大语言模型”(LLM)之外的其它AI路径:2024年12月11日,Meta新发布了Large Concept Model(LCM),翻译过来是“大型概念模型”。
另外,由于Meta 2024年在智能眼镜上的尝试成功,以及旗下Facebook、 WhatsApp、 Instagram、Messenger、Threads等庞大的用户群体,还有AI和广告结合的前景,市场非常看好Meta如今在AI大战中的位置。
说到智能硬件,苹果在2024年发布了Apple Intelligence三件套,我们之前有详细聊过,但因为端侧模型和agent的发展可能还没有到能让硬件产业与AI结合得特别好的程度,苹果在AI进展并不大。
虽然目前AI生成的素材还没有那么精致,但无论是从广告标题和文案的多个版本,还是自动调整广告大小,还是利用文生图、文生视频和文生音乐更高效的制作广告,AI都有非常大的潜力。
同时,也有分析认为,Meta可能会在自家的开源模型Llama上进一步开发出企业级客户服务的业务,也将会是一块很大的蛋糕。
这个短语是拉丁短语“Aut Caesar Aut Nihil”的变形,意思是“要么是凯撒,要么什么都不是”;
对于很多需要用到AI的初创公司,要算力并不一定需要自己买卡,要用模型并不一定要自己训练。就像需要萝卜青菜也并不需要自己去务农种菜,可以去超市直接买,就看最终的成本账能否算得过来了。
首先是前面Jonathan提到的Perplexity:2024年年底,公司完成了新一轮5亿美元的融资,估值达到90亿美元。
这家公司成立于2022年,可以说重新定义了全球第一个对话式AI搜索引擎,月活跃用户已经达到1500万人次,日活跃用户200万人,连英伟达创始人黄仁勋也为它站台,称每天都会使用。
Perplexity的聪明之处在于,自己不训练模型,而是使用多种大型语言模型,包括GPT、Claude、LLAMA、Mixtral等,以及来自多个搜索引擎的排名信号和第三方数据提供商的数据。
他曾在一个小型的聚会上分享说,有很多项目找他投资,他答应的原因只是为了帮助朋友,毕竟他的名字在天使投资人的那一栏能帮很多项目更容易拿到投资。但为数不多的他真心想投资且看好的项目,就当属Physical Intelligence了。
Physical Intelligence表示,π0将使得机器人变得更容易编程和使用,使其能够更高效地执行多样任务。
我觉得π0更多是 training data driven(数据驱动)的路线更代表的是algorithm(算法)驱动的路线肯定也要在算法上继续做迭代,也可能在推理侧引入一些方法。当然难一点就是推理,因为具身智能的推理侧要在端侧发生,可能对算力的要求会更高一些。具身智能以及AI机器人模型还在非常早的阶段,因为数据和算法都是挑战,但相信在2025年会有新的进展。同时,斯坦福的机器人中心在2024年开业了,我也去参加了开业仪式,有机会我们去那里采访一下跟大家分享最新的项目和有意思的进展。
由于篇幅原因,还有很多科技巨头的进展、初创企业和新趋势我们没办法一一列举,包括AI视频生成的初创公司Pika和Luma,音乐生成初创公司Suno,最近很火的AI编程应用Cursor和Devin,李飞飞博士的World Labs、该有2025年初引起一片震撼的DeepSeek等,之后有机会我们详细做成单独选题来聊。
我一直都在期待更好的技术,不一定要GPT-5,也可能是Anthropic Cloud的4、5、6代,或者是xAI、Mistral。我认为,虽然现阶段的GPT-4可以做的事越来越多了,但是更大、更强的模型在某种意义上会让模型的使用变得更容易。所以,如果有了GPT-5或者Cloud 4、5,那么基于GPT-4的一些自我工程可能就不再必要了。
我认为这两条主线将会持续很长一段时间,希望有第三种并行努力的方向,那就是寻找不同的模型架构,因为现在的模型基本都是基于Transformer的,还有一些基于diffusion模型用于生成图像等中间工作。我希望能有其他非transformer、非diffusion的模型架构出现,让生成结果更有效、更高质量、同时降低成本。如果在这方面能有所突破,将再次对AI行业产生巨大的影响。
在硅谷的AI生态中,已经衍生出了多个派系:有更大的模型、大模型衍生出的垂直模型、不信仰Transformer而在探索其它通往AGI路径的研究者,同时也有应用、硬件、agent智能体、机器人、无人驾驶,还有“卖铲子”的英伟达、数据中心、电力上下游等等,这些生态在2024年得到了进一步的巩固与布局,而在2025年,我们会看到更多技术的进展。