电脑外国软件登入多个whatsapp账号
人工智能(AI)在过去十年取得了令人瞩目的成就,这很大程度上归功于神经网络规模的扩大和海量数据的训练。
然而,正如前OpenAI联合创始人Ilya Sutskever在NeurIPS 2024大会上所指出的,预训练时代即将结束,数据作为AI的“化石燃料”正日益枯竭。
AI训练数据很可能在四年后耗尽,这一严峻现实迫使我们不得不思考:当AI吞噬完世界上的知识后,它的未来之路在何方?
AI,特别是大型语言模型(LLMs)的训练,依赖于海量文本和代码数据。Epoch AI的研究员Pablo Villalobos预测,到2028年左右,用于训练AI模型的数据集的规模将与公共在线文本总量相当,这意味着AI训练数据很可能在四年后耗尽。
这种“数据饥渴”的现象并非空穴来风。自2020年以来,用于训练大语言模型的数据增长了100倍,每年翻倍,而互联网可用内容的增长速度却远低于此。这种供需失衡预示着AI发展即将面临“化石燃料”危机。
与此同时,内容提供商也开始加强数据保护,禁止AI公司抓取其数据用于训练。麻省理工学院AI研究员Shayne Longpre的研究显示,数据提供商对特定爬虫的封锁数量急剧增加,高质量网络内容的封锁比例显著上升。
此外,《纽约时报》等媒体对OpenAI和微软提起的侵权诉讼,也加剧了AI开发者获取数据的难度。
收集非公开数据:例如WhatsApp消息、YouTube视频的文字记录等。Meta就曾表示他们使用虚拟现实耳机Meta Quest收集的数据来训练AI。然而,这些非公开数据大多质量较低或重复,且总量有限,只能暂时缓解数据不足的困境。
利用专业数据集:例如天文学、基因组数据等。斯坦福大学AI研究员Fei-Fei Li认为,健康护理、环境、教育等领域蕴藏着丰富的未被开发的数据。然而,这些专业数据集是否适合训练通用大语言模型还有待验证。
合成数据:通过AI生成数据来训练AI电脑外国软件登入多个whatsapp账号。OpenAI每天生成的单词量已经与当前的AI训练数据集规模相当。合成数据在规则明确的领域,如国际象棋、数学、计算机编码等表现良好,在医疗等真实数据有限或敏感的领域也有应用前景。然而,合成数据也存在缺陷,例如递归循环可能加剧错误,降低模型学习质量,甚至导致“模型自噬障碍(Model Autophagy Disorder)”。
尽管上述策略可以在一定程度上缓解数据不足的问题,但从长远来看,AI的未来发展需要超越预训练,探索新的发展路径。
更小、更专业的模型:数据不足可能会迫使AI公司转向更小、更专业的细分模型,专注于特定领域的任务,而不是追求构建庞大的通用大语言模型。
自我反思与智能进化:卡内基梅隆大学的研究生Andy Zou认为,AI已经拥有了庞大的知识库,下一步的关键在于“静下心来思考”。这意味着AI需要发展出自我反思和推理的能力,从现有的知识中提炼出更深层次的理解,并进行自主学习和进化。
强化学习和人机协同:强化学习可以通过与环境的交互来提升AI的决策能力,而人机协同则可以将人类的专业知识和创造力与AI的计算能力结合起来,共同解决复杂问题。
AI数据枯竭是AI发展面临的严峻挑战,但也蕴藏着新的机遇。通过探索新的数据来源、发展新的学习方法,AI可以超越预训练,迈向智能进化的新阶段。对于投资者而言,关注AI领域的新趋势,才能抓住未来的投资机会。