State of AI: 2024 人工智能报告

以下文章来源于In The Loop ,作者Houmin

Summary

Research

  • Frontier lab 的表现趋于一致,但在 o1 发布后,OpenAI 仍保持领先,规划和推理成为一个主要的前沿领域。
  • Foundation Models 展示了它们突破语言的能力,多模态研究深入数学、生物学、基因组学、物理科学和神经科学等领域。
  • 美国制裁未能阻止中国 (V)LLMs 在社区排行榜上的崛起。

Industry

  • NVIDIA 依然是全球最强大的公司之一,“享受着 3 万亿美元俱乐部的时光”,而监管机构则在调查其在生成式人工智能领域的垄断情况。
  • 更成熟的生成式人工智能公司带来了数十亿美元的收入,初创企业在视频和音频生成等领域开始获得关注。尽管公司们开始从模型转向产品,但关于定价和可持续性的长期问题仍未得到解决。
  • 在二级市场牛市的推动下,人工智能公司的总市值达到了 9 万亿美元,创业公司的募资金额也在不断增长。

Politics

  • 随着全球治理停滞,部分国家和地区的人工智能监管仍在继续推进,美国和欧盟通过了一些有争议的立法。
  • 对计算的需求迫使大型科技公司面对在 Scaling Law和自身排放目标上的矛盾。同时,各国政府在基础建设上依然滞后。
  • 预计人工智能对选举、就业和其他一系列敏感领域的影响尚未形成规模。

Safety

  • 从安全到加速的氛围转变发生,之前警告人类将面临灭绝的公司正加快针对企业的销售和促进消费者应用。
  • 全球各国政府正效仿英国建立围绕人工智能安全的国家监管机制,成立研究所并研究国家关键基础设施的脆弱性。
  • 尽管提出的每个越狱修复方案都没有成功,但研究人员越来越担心可能会出现更复杂且长期的攻击。

Research

OpenAI 的竞争者

OpenAI’s reign of terror came to an end, until…

在今年的大部分时间里,基准测试和社区排行榜都显示出 GPT-4 与“其他最优秀模型”之间的巨大差距。然而,Claude 3.5 Sonnet、Gemini 1.5 和 Grok 2 几乎消除了这一差距,因为模型性能现在开始趋于一致。

  • 在正式测试和环境分析中,资金充足的顶尖实验室在各方面的表现差距非常小,通常只相差几分。
  • 模型现在在编码能力上始终表现出色,在 factual recall 和数学方面也很强,但在开放式问答和多模态问题解决上则表现较差。
  • 许多模型变体之间的差异非常小,可能主要是由于实现方式的不同。例如,GPT-4o 在 MMLU 测试中的表现优于 Claude 3.5 Sonnet,但在更具挑战性的 MMLU-Pro 测试中,后者的表现似乎更好。
  • 考虑到架构之间相对微妙的技术差异以及预训练数据中可能存在的重叠,模型构建者现在越来越需要在新的能力和产品特性上进行竞争。

…the Strawberry landed, doubling down on scaling inference compute

OpenAI 团队显然早已意识到 inference compute 的潜力,OpenAI o1 在其他实验室探索该技术的论文发布几周内便出现了。

  • 通过将计算从预训练和后训练转移到推理,o1 以逐步推理的方式(链式思维,CoT)处理复杂提示,并利用强化学习来优化 CoT 及其使用的策略。这使得解决多层次的数学、科学和编码问题成为可能,而这些问题在历史上由于 next-token prediction 的固有限制,通常是大型语言模型(LLMs)所难以应对的。
  • OpenAI 在 reasoning-heavy 基准测试中报告了相对于 4o 的显著改进,尤其是在 AIME 2024(竞赛数学)上,得分高达 83.83,远超 13.4。
  • 然而,这种能力的代价不菲:o1-preview 的 100 万个输入 token 成本为 15 美元,而 100 万个输出 token 则需花费 60 美元。这使得它比 GPT-4o 贵 3 到 4 倍。
  • OpenAI 在其 API 文档中明确表示,o1 并不是 4o 的直接替代品,也不是处理需要快速响应、图像输入或 function calling 的任务的最佳模型。

o1 showcases both areas of incredible strength and persistent weakness

社区迅速对 o1 进行测试,发现它在某些逻辑问题和难题上的表现显著优于其他大型语言模型(LLMs)。然而,它的真正优势体现在复杂的数学和科学任务上,一段关于一名博士生惊讶反应的视频在网络上走红,视频中 o1 在大约一个小时内复现了他一年的博士代码。

然而,该模型在某些类型的空间推理方面仍然较弱。像它的前辈一样,它仍然无法在棋局中自保……但未来或许会有所改变。

Llama 3 closes the gap between open and closed models

在四月,Meta 发布了 Llama 3 系列,七月推出了 3.1,九月推出了 3.2。Llama 3.1 405B,作为他们迄今为止最大的模型,能够在推理、数学、多语言和长上下文任务上与 GPT-4o 和 Claude 3.5 Sonnet 抗衡。这标志着开放模型首次缩小了与私有技术之间的差距。

  • Meta 坚持使用自 Llama 1 以来的相同 decoder-only 架构,仅进行了小幅调整,例如增加了更多的 transformer 层数和注意力头。
  • Meta 使用了惊人的 15T 的 Token 来训练该系列。尽管这超出了 Chinchilla-optimal 的训练计算量,但他们发现 8B 和 70B 模型在达到 15T 的训练量时表现出对数线性的改善。
  • Llama 3.1 405B 是在超过 16,000 个 H100 GPU 上训练的,这是第一个在如此规模上训练的 Llama 模型。
  • Meta 随后在九月推出了 Llama 3.2,其中包含了 11B 和 90B 的多模态语言模型(Llama 的多模态首次亮相)。
  • 前者与 Claude 3 Haiku 竞争,后者则与 GPT-4o-mini 相抗衡。
  • 该公司还发布了 1B 和 3B 的仅文本模型,旨在在设备上运行。
  • 基于 Llama 的模型在 Hugging Face 上的下载量已超过 4.4 亿次。

But how ‘open’ are ‘open source’ models?

由于开源得到了相当大的社区支持,并成为一个热点监管问题,一些研究人员建议该术语常常被误用。它可能被用来将在权重、数据集、许可和访问方法等方面的开放实践混为一谈。

模型基准测试与能力评估

Is contamination inflating progress?

随着新的模型系列在基准测试中报告出色的初始表现,研究人员越来越关注数据集污染的问题:即测试或验证数据泄漏到训练集中。

  • Scale 的研究人员在一个新的 Grade School Math 1000(GSM1k)上重新测试了一些模型,该数据集反映了已建立的 GSM8k 基准的风格和复杂性,发现某些情况下性能显著下降。
  • 同样,X.ai 的研究人员使用一个基于匈牙利全国决赛数学考试的数据集进行了模型的重新评估,结果也类似。

Researchers try to correct problems in widely used benchmarks

但基准测试挑战是双刃剑。一些最受欢迎的基准测试中存在惊人高的错误率,这可能导致我们低估某些模型的能力,带来安全隐患。同时,过拟合的诱惑也非常强烈。

  • 爱丁堡大学的一个团队指出了 MMLU 中的错误数量,包括错误的真实答案、不明确的问题和多个正确答案。尽管大多数单独主题的错误率较低,但在某些领域(如病毒学)却出现了大幅上升,分析的实例中有 57%存在错误。
  • 在经过手动修正的 MMLU 子集中,模型的整体表现有所提升,尽管在专业法律和形式逻辑方面表现下降。这表明不准确的 MMLU 实例在预训练过程中被学习到了。
  • 在更具安全关键性的领域,OpenAI 警告称,SWE-bench 评估模型解决现实世界软件问题的能力,低估了模型的自主软件工程能力,因为其中包含了一些难以或无法解决的任务。
  • 研究人员与基准测试的创建者合作,推出了 SWE-bench Verified。

Live by the vibes, die by the vibes…or close your eyes for a year and OpenAI is still #1

LMSYS Chatbot Arena 排行榜已成为社区最喜欢的通过“氛围” vibes 形式化评估的方法。但随着模型性能的提升,它开始产生一些反直觉的结果。

  • 该竞技场允许用户并排与两个随机选择的聊天机器人互动,从而提供了一种粗略的众包评估。
  • 然而,具有争议的是,这导致 GPT-4o 和 GPT-4o Mini 获得了相同的分数,后者的表现还超过了 Claude Sonnet 3.5。
  • 这引发了人们的担忧,即该排名实际上变成了一种评估用户最偏爱的写作风格的方式。
  • 此外,由于较小的模型在涉及更多令牌的任务中表现较差,8k 的上下文限制在某种程度上给它们带来了不公平的优势。
  • 然而,早期版本的视觉排行榜现在开始获得关注,并与其他评估结果更好地对齐。

Are neuro-symbolic systems making a comeback?

推理能力和训练数据的不足意味着 AI 系统在数学和几何问题上常常表现不佳。借助 AlphaGeometry,一个符号推理引擎应运而生。

  • 谷歌 DeepMind 和纽约大学的团队利用符号引擎生成了数百万个合成定理和证明,并以此从零开始训练了一个语言模型。
  • AlphaGeometry 在语言模型提出新构造和符号引擎进行推理之间交替,直到找到解决方案。
  • 令人印象深刻的是,它在一项奥林匹克级几何问题的基准测试中解决了 30 个问题中的 25 个,接近人类国际数学奥林匹克金牌得主的表现。次于 AlphaGeometry 最好的 AI 表现仅解决了 10。
  • 它还展示了泛化能力——例如,发现 2004 年 IMO 问题中的一个具体细节对于证明是多余的。

端侧小模型

It’s possible to shrink models with minimal impact on performance…

研究表明,模型在面对更深层次时具有鲁棒性——这些层旨在处理复杂、抽象或特定任务的信息——可以通过智能剪枝来实现。也许还有更进一步的可能性。

  • 一个来自 Meta 和麻省理工学院的团队研究了开放权重的预训练大型语言模型(LLMs),得出结论认为可以去掉多达一半的模型层,并且在问答基准测试中仅会出现微不足道的性能下降。
  • 他们根据相似性识别出最佳的去除层,并通过少量高效的微调“修复”模型。
  • NVIDIA 的研究人员采取了更激进的方法,通过剪枝层、神经元、注意力头和嵌入,并利用知识蒸馏进行高效再训练。
  • 来自 Nemotron-415B 的 MINITRON 模型在使用多达 40 倍更少的训练 token 的情况下,达到了与 Mistral 7B 和 Llama-3 8B 等模型相当或更优的性能。

…as distilled models become more fashionable

正如 Andrej Karpathy 等人所言,目前的大型模型尺寸可能反映了训练效率低下。利用这些大模型来优化和合成训练数据,可以帮助训练出更具能力的小型模型。

  • 谷歌采用了这种方法,从 Gemini 1.5 Pro 中蒸馏出了 Gemini 1.5 Flash,同时 Gemma-2 9B 是从 Gemma-2 27B 蒸馏而来的,Gemma 2B 则来自一个未发布的更大模型。
  • 社区也有猜测认为,Claude 3 Haiku 是更大模型 Opus 的蒸馏版本,但 Anthropic 从未确认这一点。
  • 这些蒸馏工作也在向多模态扩展。Black Forest Labs 发布了 FLUX.1 dev,这是从他们的 Pro 模型蒸馏而来的开放权重文本到图像模型。
  • 为了支持这些努力,社区开始制作开源蒸馏工具,如 arcee.ai 的 DistillKit,支持基于 Logit 和隐藏状态的蒸馏。
  • Meta 在更新条款后,Llama 3.1 405B 也被用于蒸馏,这样输出的 logits 可以用于改进任何模型,而不仅限于 Llama 模型。

Models built for mobile compete with their larger peers

随着大型科技公司考虑大规模终端用户部署,我们开始看到性能优越的 LLM 和多模态模型,这些模型足够小,可以在智能手机上运行。

  • 微软的 phi-3.5-mini 是一个 3.8B 参数的语言模型,主要与 7B 和 Llama 3.1 8B 等更大模型竞争。它在推理和问答任务中表现不错,但由于模型体积较小,其事实知识有所局限。为了在设备上进行推理,模型被量化为 4 位,内存占用减少到大约 1.8GB。
  • 苹果推出了 MobileCLIP,这是一系列高效的图像-文本模型,针对智能手机上的快速推理进行了优化。通过使用新颖的多模态强化训练,他们通过从图像描述模型和强大的 CLIP 编码器集成中转移知识,提高了紧凑模型的准确性。
  • Hugging Face 也参与了这一行动,推出了 SmolLM,一系列小型语言模型,提供 135M、360M 和 1.7B 三种格式。通过使用经过高度策划的合成数据集,该数据集是通过增强版 Cosmopedia 创建的,团队在该规模下实现了最新的 SOTA 性能。

Strong results in quantization point to an on-device future

通过降低参数的精度,可以缩小大型语言模型(LLMs)的内存需求。研究人员越来越能够最小化性能的 trade-offs。

  • 微软的 BitNet 使用“BitLinear”层替代标准线性层,采用 1 位权重和量化激活。
  • 与全精度模型相比,它展示了竞争力的性能,并表现出与全精度变换器类似的规模规律,同时实现了显著的内存和能源节省。
  • 微软随后推出了 BitNet b1.58,使用三元权重以匹配 3B 规模下的全精度 LLM 性能,同时保持效率提升。
  • 字节跳动的TiTok采用基于Transformer的一维标记器技术,将图像高效压缩为1D离散标记序列,不仅实现图像重建,还为生成任务提供了更轻量化的表示形式。该方法能够将图像所需的标记数量降至32个,对比传统方法数百甚至数千个标记而言,优势明显。

Hybrid Models

Hybrid models begin to gain traction

结合注意力和其他机制的模型能够维持甚至提高准确性,同时降低计算成本和内存占用。

  • 选择性状态空间模型 Selective state-space models,如去年的 Mamba,旨在更高效地处理长序列,能够在某种程度上与 Transformer 竞争,但在需要复制或上下文学习的任务上表现较差。尽管如此,Falcon 的 Mamba 7B 在与同等规模的 Transformer 模型相比时,展现了令人印象深刻的基准性能。
  • 混合模型似乎是一个更有前景的方向。结合自注意力和多层感知机(MLP)层,AI 21 的 8B Mamba-2-Hybrid,在知识和推理基准测试中超越了 8B Transformer,同时在推理时生成 token 的速度快达 8 倍。
  • 在一场怀旧之旅中,循环神经网络 RNN 的复兴初见端倪,尽管由于训练和扩展的困难,它们曾一度失宠。由谷歌 DeepMind 训练的 Griffin 结合了线性递归和局部注意力,在训练所需的 token 数量减少 6 倍的情况下,仍能与 Llama-2 相抗衡。

And could we distill transformers into hybrid models? It’s…complicated.

通过从更大、更强大的模型中转移知识,可以提高次二次模型的性能,从而使我们能够在下游任务中利用它们的高效性。

  • MOHAWK 是一种从大型预训练 transformer 模型(教师)向较小的次二次模型(学生),如状态空间模型(SSM),蒸馏知识的新方法。
  • 它的步骤包括:
    • 对齐学生模型和教师模型的序列变换矩阵
    • 对齐每一层的隐藏状态
    • 将教师模型的其余权重转移到学生模型上进行微调。
  • 作者们创建了 Phi-Mamba,这是一种结合了 Mamba-2 和 MLP 块的新学生模型,以及一个名为 Hybrid-Phi-Mamba 的变体,后者保留了一些来自教师模型的注意力层。
  • MOHAWK 能够训练 Phi-Mamba 和 Hybrid-Phi-Mamba,使其性能接近教师模型。Phi-Mamba 仅使用了 3B 个 token 进行蒸馏,这不到之前最佳表现的 Mamba 模型所用数据的 1%,也仅为 Phi-1.5 模型本身的 2%。

Either way, the transformer continues to reign supreme (for now)

尽管针对Transformer架构替代品和混合模型的研究颇具学术价值,但这些方向目前仍未成为主流。Transformer架构依旧是当前AI模型研究的主导范式。

合成数据与数据质量

Synthetic data starts gaining more widespread adoption…

去年的报告指出了关于合成数据的不同看法:一些人认为它有用,而另一些人则担心它可能通过累积错误导致模型崩溃。如今,主流观点似乎正在逐渐变得正面。

  • 除了作为 Phi 系列的主要训练数据来源外,合成数据在训练 Claude 3 时也被 Anthropic 使用,以帮助表示训练数据中可能缺失的场景。
  • Hugging Face 使用 Mixtral-8x7B Instruct 生成了超过 3000 万个文件和 250 亿个 token 的合成教科书、博客文章和故事,以重建他们称之为 Cosmopedia 的 Phi-1.5 训练数据集。
  • 为了简化这一过程,NVIDIA 发布了 Nemotron-4-340B 系列模型,这是一套专门为合成数据生成设计的模型,采用宽松的许可协议。Meta 的 Llama 也可以用于合成数据生成。
  • 通过直接从对齐的大型语言模型(LLM)中提取数据,似乎也可以创建高质量的合成指令数据,使用的技术如 Magpie。这种方式微调的模型在性能上有时可与 Llama-3-8B-Instruct 相媲美。

…but Team Model Collapse isn’t going down without a fight

随着模型构建者不断推进,研究人员集中精力尝试评估合成数据的数量是否存在一个临界点,从而触发这些结果,以及是否有任何缓解措施有效。

  • 一篇发表在《自然》上的研究,来自牛津和剑桥的学者,揭示了模型崩溃现象并非特定于某种AI架构,也出现在微调后的语言模型中。这项发现挑战了以往的认知,即通过预训练或定期接触少量原始数据就能避免模型性能下降(以困惑度为指标)。
  • 研究结果突出了持续获取多样化人工生成数据的必要性,这为维持模型质量带来“先发优势”。
  • 然而,这项研究主要关注真实数据被合成数据逐步替代的极端情境,而现实中,二者往往是同时使用的。其他研究表明,只要控制合成数据的比例,通常可以避免模型崩溃。
  • 其他研究表明,只要合成数据的比例不太高,通常可以避免模型崩溃。

Web data is decanted openly at scale – proving quality is key

  • Hugging Face 团队构建了一个包含 15T token 的数据集,用于 LLM 的预训练,利用了 96 个 CommonCrawl 快照,生成的 LLM 在性能上优于其他开放的预训练数据集。他们还发布了使用说明手册。
  • FineWeb 数据集通过多步骤过程创建,包括基础过滤、每个数据集的独立 MinHash 去重、从 C4 数据集中派生的选择性过滤器和团队的自定义过滤器。
  • 使用 trafilatura 库进行的文本提取产生的质量高于默认的 CommonCrawl WET 文件,尽管最终的数据集显著较小。
  • 他们发现去重在提升性能方面确实有效,但在达到收益递减的临界点后,效果开始下降。
  • 团队还使用了 llama-3-70b-instruct 对 FineWeb 中的 50 万样本进行标注,按 0 到 5 的尺度评估其教育质量。FineWeb-edu 经过筛选,仅保留评分在 3 分以上的样本,尽管规模显著较小,却在性能上超越了 FineWeb 及所有其他开放数据集。

RAG 与 Embedding 模型

Retrieval and embeddings hit the center stage

尽管检索和嵌入技术并不新鲜,但对检索增强生成(RAG)日益增长的兴趣促使了嵌入模型质量的提升。

  • 遵循在常规 LLMs 中证明有效的策略,规模带来了显著的性能提升(GritLM 拥有约 47B 参数,而之前的嵌入模型普遍为 110M)。
  • 同样,使用广泛的网络规模语料库和改进的过滤方法也使较小模型的性能大幅提升。与此同时,ColPali 是一种视觉-语言嵌入模型,它利用文档的视觉结构,而不仅仅是其文本嵌入,以改善检索效果。
  • 在检索模型这一子领域,开放模型通常超越了来自最大实验室的专有模型。在 MTEB 检索排行榜上,OpenAI 的嵌入模型排名第 29,而 NVIDIA 的开放模型 NV-Embed-v 2 则名列第一。

Context proves a crucial driver of performance

传统的检索增强生成 RAG 解决方案通常涉及以 256 个 token 为一组创建文本片段,使用滑动窗口(前一个片段重叠 128 个令牌)。虽然这样可以提高检索效率,但准确性显著降低。

  • Anthropic 通过使用 contextual embeddings 解决了这个问题,在这种方法中,prompt 指示模型生成文本,以解释文档中每个片段的上下文。
  • 他们发现,这种方法使得前 20 次检索失败率降低了 35%(从 5.7%降至 3.7%)。
  • 随后,这种方法可以通过 Anthropic 的 prompt caching 进行扩展。
  • 正如 CMU 的 Fernando Diaz 在最近的讨论中指出的,这是将某一领域(例如早期语音检索和文档扩展工作)开创的技术应用于另一个领域的极佳例子。这再次印证了 what is new, is old 的观点。
  • 来自 Chroma 的研究表明,选择不同的分块策略可能会影响检索性能,召回率差异可达 9%。

Evaluation for RAG remains unsolved

许多常用的 RAG 基准都是 repurposed 的检索或问答数据集。它们无法有效评估引用的准确性、每段文本对整体答案的重要性,以及相互矛盾的信息点的影响。

  • 研究人员目前正在开创一些新方法,如 Ragnarök,它引入了一种基于网络的场所,通过成对系统比较进行人工评估。这一方法解决了超越传统自动化指标评估 RAG 质量的挑战。
  • 同时,Researchy Questions 提供了一个大规模的复杂多面问题集合,这些问题需要深入研究和分析才能回答,来源于真实用户查询。

大规模训练与电力短缺

Frontier labs face up to the realities of the power grid and work on mitigations

随着计算集群规模的扩大,建造和维护变得更加困难。集群需要高带宽、低延迟的连接,并对设备的异构性非常敏感。研究人员看到了替代方案的潜力。

  • Google DeepMind 提出了分布式低通信(DiLoCo)优化算法,该算法允许在多个松散连接的 islands of devices 上进行训练。
  • 每个岛屿在与其他岛屿通信之前执行大量本地更新步骤,从而减少对频繁数据交换的需求。他们能够在这 8 个岛屿之间实现完全同步的优化,同时将通信减少 500 倍。
  • Google DeepMind 还提出了 DiLoCo 的改进版本,优化用于异步设置。
  • Prime Intellect 的研究人员发布了 DiLoCo 的开源实现和复现,并将其规模扩大了 3 倍,以证明其在 10 亿参数模型上的有效性。

Could better data curation methods reduce training compute requirements?

数据整理是有效预训练的重要组成部分,但通常是手动和低效完成的。这不仅难以扩展,而且浪费,尤其是对于多模态模型来说。

  • 通常,整个数据集是在训练前一次性处理的,这并未考虑训练样本的相关性在学习过程中的变化。这些方法通常在训练之前应用,因此无法在训练期间适应不断变化的需求。
  • Google DeepMind 的 JEST 联合选择整个数据批次,而不是独立选择单个样本。选择过程由“可学习性评分”(由预训练参考模型确定)指导,该评分评估数据对训练的有用性。它能够将数据选择直接集成到训练过程中,使其具有动态和适应性。
  • JEST 在数据选择和部分训练过程中使用低分辨率图像处理,显著降低了计算成本,同时保持了性能优势。

来自中国的模型

Chinese (V)LLMs storm the leaderboards despite sanctions

DeepSeek、零一万物、智谱和阿里巴巴生产的模型在 LMSYS 排行榜上取得了优异的位置,尤其在数学和编码方面表现尤为出色。

  • 中国实验室的最强模型在与美国实验室生产的第二强前沿模型竞争的同时,还在某些子任务上对现有最优技术(SOTA)构成挑战。
  • 这些实验室优先考虑计算效率,以弥补对 GPU 访问的限制,学会了比美国同行更有效地利用资源。
  • 中国实验室各有不同的优势。例如,DeepSeek 开创了 Multi-head Latent Attention 等技术,以减少推理过程中的内存需求,并增强了混合专家(MoE)架构。
  • 同时,01.AI 则较少关注架构创新,而是致力于构建强大的中文数据集,以弥补在像 Common Crawl 这样的热门仓库中相对不足的情况。

And Chinese open source projects win fans around the world

为了推动国际采纳和评估,中国实验室已成为热情的开源贡献者。一些模型在各个子领域中脱颖而出,成为强有力的竞争者。

  • DeepSeek 在编码任务中已成为社区的热门选择,deepseek-coder-v2 因其速度快、轻量级和准确性而受到青睐。
  • 阿里巴巴最近发布了 Qwen-2 系列,社区对其视觉能力印象深刻,涵盖了从复杂的 OCR 任务到分析复杂艺术作品的能力。
  • 在较小的模型方面,清华大学的 NLP 实验室资助了 OpenBMB 项目,该项目衍生出了 MiniCPM 项目。
  • 这些模型参数小于 2.5 亿,能够在设备上运行。它们的 2.8 亿视觉模型在某些指标上仅稍逊于 GPT-4V,而基于 8.5 亿参数的 Llama 3 模型在某些指标上超越了它。
  • 清华大学的知识工程组还创建了 CogVideoX,这是最强大的文本转视频模型之一。

VLMs 开箱即用即可达到最优性能

VLMs achieve SOTA performance out-of-the-box

2018 年发布的首个 State of AI Report 详细描述了研究人员通过创建数百万个标记视频的数据集,努力教会模型常识场景理解的艰辛过程。如今,每个主要的前沿模型构建者都提供开箱即用的视觉能力。即使是一些小型模型,比如来自微软的 Florence-2 或 NVIDIA 的 LongVILA,其参数规模在数亿到个位数十亿之间,也能取得显著成果。艾伦人工智能研究所的开源模型 Molmo 在与更大规模的专有模型 GPT-4o 对抗时也能表现出色。

Diffusion 模型与文生视频大战

Diffusion models for image generation become more and more sophisticated

在从文本到图像的扩散模型发展中,Stability AI 继续寻找提高质量和效率的改进方案。

  • 对抗性扩散蒸馏 Adversarial diffusion distillation 通过将生成高质量图像所需的采样步骤从可能的数百步减少到 1-4 步,显著加快了图像生成速度,同时保持了高保真度。
  • 它将对抗训练与评分蒸馏相结合:模型仅使用预训练的扩散模型作为指导进行训练。除了实现单步生成外,作者还专注于降低计算复杂性和提高采样效率。
  • 校正流 Rectified flow 通过直接的直线连接数据和噪声,而不是曲线路径,改进了传统的扩散方法。他们将这一方法与一种新颖的基于变换器的文本到图像架构结合起来,允许文本和图像组件之间的信息双向流动。这增强了模型根据文本描述生成更准确和连贯的高分辨率图像的能力。

Stable Video Diffusion marks a step forward for high-quality video generation…

Stability AI 发布了稳定视频扩散,这是首批能够根据文本提示生成高质量、逼真视频的模型之一,并且在可定制性方面也有了显著提升。团队采用了三阶段的训练方法:

  • 在大规模的文本到图像数据集上进行图像预训练
  • 在大规模、经过整理的低分辨率视频数据集上进行视频预训练
  • 在较小的高分辨率视频数据集上进行微调。
  • 今年 3 月,他们推出了稳定视频 3D,针对第三个物体数据集进行了微调,以预测 3D 轨道

…leading the big labs to release their own gated text-to-video efforts

谷歌 DeepMind 和 OpenAI 都为我们提供了强大的文本到视频扩散模型的简要预览。然而,访问权限仍然受到严格限制,且两者都没有提供太多技术细节。

  • OpenAI 的 Sora 能够生成长达一分钟的视频,同时保持 3D 一致性、物体持久性和高分辨率。它使用时空补丁,类似于变换器模型中使用的令牌,但用于视觉内容,以便从大量视频数据集中高效学习。
  • Sora 还在其原始尺寸和纵横比的视觉数据上进行了训练,消除了通常会降低质量的裁剪和调整大小。
  • 谷歌 DeepMind 的 Veo 将文本和可选的图像提示与噪声压缩视频输入结合,通过编码器和潜在扩散模型处理这些输入,以创建独特的压缩视频表示。系统随后将该表示解码为最终的高分辨率视频。
  • 此外,Runway 的 Gen-3 Alpha、Luma 的 Dream Machine 和快手的 Kling 也参与了这场竞争。

Meta goes even further, throwing audio into the mix

在保持其他实验室的限制性方法的同时,Meta 通过 Make-A-Scene 和 Llama 系列整合了不同模态的工作,以构建 Movie Gen。

  • Movie Gen 的核心是一个 30B 参数的视频生成模型和一个 13B 参数的音频生成模型,分别能够生成 16 秒、每秒 16 帧的视频和 45 秒的音频片段。这些模型利用了文本到图像和文本到视频任务的联合优化技术,以及生成任意长度视频的连贯音频的新颖扩展方法。
  • Movie Gen 的视频编辑功能结合了先进的图像编辑技术与视频生成,允许进行局部编辑和整体更改,同时保留原始内容。这些模型是在许可和公开可用的数据集的组合上进行训练的。
  • Meta 通过 A/B 人类评估比较,展示了在四个主要能力上与竞争行业模型相比的积极净胜率。研究人员表示,他们计划在未来推出该模型,但并未承诺具体的时间表或发布策略。

AI for Science

AI gets en-Nobel-ed

作为人工智能作为科学学科和加速科学工具真正成熟的标志,瑞典皇家科学院向深度学习的开创者以及其在科学中迄今为止最知名应用的架构师颁发了诺贝尔奖。这一消息得到了整个领域的庆祝。

AlphaFold 3: going beyond proteins and their interactions with other biomolecules 超越蛋白质及其与其他生物分子的相互作用

DeepMind 和 Isomorphic Labs 发布了 AlphaFold 3,作为 AlphaFold 2 的继任者,现在能够建模小分子药物、DNA、RNA 和抗体与蛋白质靶标的相互作用。

  • 与 AlphaFold 2 相比,AlphaFold 3 进行了重大的算法改进:所有的等变约束被移除,取而代之的是简化和扩展,同时结构模块被一个扩散模型替代,用于构建 3D 坐标。
  • 研究人员声称,AlphaFold 3 在与其他方法(特别是小分子对接)相比时表现出色,尽管没有与更强的基线进行比较。
  • 值得注意的是,目前尚未提供开源代码。多个独立团队正在努力公开复现该工作。

…starting a race to become the first to reproduce a fully functioning AlphaFold3 clone

不发布 AlphaFold 3 代码的决定引发了高度争议,许多人将责任归咎于《自然》杂志。抛开政治因素不谈,初创公司和人工智能社区之间展开了一场竞赛,争相将自己的模型打造成可行的替代方案。

  • 第一个推出的模型是百度的 HelixFold3,该模型在配体结合方面与 AlphaFold 3 相当。百度提供了一个网络服务器,并将其代码完全开源,供非商业使用。
  • Chai Discovery(由 OpenAI 支持)最近发布的 Chai-1 分子结构预测模型因其性能和高质量的实现而广受欢迎。该网络服务器也可用于商业药物发现。
  • 我们仍在等待一个完全开源且没有限制的模型(例如,使用输出进行其他模型的训练)。如果 DeepMind 开始担心替代模型成为社区的宠儿,他们会更快地全面发布 AlphaFold 3 吗?

AlphaProteo: DeepMind flexes new experimental biology capabilities

DeepMind 神秘的蛋白质设计团队终于“揭开了面纱”,推出了他们的第一个模型 AlphaProteo,这是一个生成模型,能够设计具有 3 到 300 倍更好亲和力的亚纳摩尔蛋白质结合剂。

  • 虽然提供的技术细节不多,但似乎该模型是基于 AlphaFold 3 构建的,可能是一个扩散模型。目标表位上的“热点”也可以被指定。
  • 该模型能够设计出比以往工作(例如 RFDiffusion)具有 3 到 300 倍更好结合亲和力的蛋白质结合剂。蛋白质设计领域的“肮脏秘密”是,计算机筛选与生成建模同样重要(甚至更为重要),论文中指出基于 AlphaFold 3 的评分是关键。
  • 他们还利用信心指标筛选大量可能的新靶标,以便为未来的蛋白质结合剂设计提供基础。

The Bitter Lesson: Equivariance is dead…long live equivariance!

等变性 Equivariance 是赋予模型固有偏置,使其能够自然处理旋转、平移和(有时)反射的概念。自 AlphaFold 2 以来,这一直是几何深度学习和生物分子建模研究的核心。然而,最近一些顶尖实验室的研究对这一既定信念提出了质疑。

  • 第一枪是由苹果公司打响的,他们发表的一篇论文在使用非等变扩散模型和变换器编码器预测小分子 3D 结构方面获得了最优结果。
  • 值得注意的是,作者显示,使用该领域无关的模型并没有对泛化能力产生负面影响,并且在使用足够规模的情况下,始终能够超越专业模型。
  • 接下来是 AlphaFold 3,臭名昭著地放弃了前一模型中的所有等变性和框架约束,转而采用另一种扩散过程,结合增强技术和规模。
  • 尽管如此,等变模型显著提高的训练效率意味着这种做法可能会持续一段时间(至少对于那些研究大型系统(如蛋白质)的学术团队来说)。

Scaling frontier models of biology: EvolutionaryScale’ ESM3

自 2019 年以来,Meta 一直在发布基于 Transformer 的语言模型(进化规模模型),这些模型是在大规模氨基酸和蛋白质数据库上训练的。当 Meta 在 2023 年终止这些工作时,团队创立了 EvolutionaryScale。今年,他们发布了 ESM3,这是一个前沿的多模态生成模型,训练内容涵盖蛋白质的序列、结构和功能,而不仅仅是序列。

  • 该模型是一个双向 Transformer,将代表三种模态的令牌作为独立轨道融合到一个单一的潜在空间中。
  • 与传统的掩码语言建模不同,ESM3 的训练过程使用了可变掩码调度,使模型能够接触到多种掩码序列、结构和功能的组合。ESM3 学习预测任意模态组合的补全。
  • ESM3 被用于生成与已知绿色荧光蛋白(GFP)具有低序列相似性的全新蛋白质。

Language models that learn to design human genome editors

我们之前介绍了如何利用在大规模多样的天然蛋白质序列数据集上预训练的语言模型(例如 ProGen2)来设计与自然同类序列截然不同的功能性蛋白质。现在,Profluent 已在其 CRISPR-Cas Atlas 上对 ProGen2 进行了微调,以生成具有新序列的功能性基因组编辑器,重要的是,这些编辑器首次被证明能够在体外编辑人类细胞的 DNA。

  • CRISPR-Cas Atlas 包含超过 100 万个多样化的 CRISPR-Cas 操作子,包括各种效应系统,这些操作子来自于 262TB 的组装微生物基因组和宏基因组,涵盖了不同的门类和生态系统。生成的序列与 CRISPR-Cas Atlas 中的天然蛋白质相比,具有 4.8 倍的多样性。与最近的天然蛋白质的中位相似性通常在 40%到 60%之间。
  • 一个针对 Cas9 蛋白微调的模型能够生成新型编辑器,并在人体细胞中进行了验证。其中一个编辑器提供了最佳的编辑性能,其与 SpCas9 的序列相似性为 71.7%,并已开源为 OpenCRISPR-1。

Yet, evals and benchmarking in BioML remains poor

生物学与机器学习交叉领域研究的根本问题在于,能够同时训练前沿模型并进行严格生物评估的人才非常稀缺。

  • 2023年底的两项研究,PoseCheck 和 PoseBusters,表明用于分子生成和蛋白质-配体对接的机器学习模型生成的结构(姿态)存在明显的物理违反。
  • 即使是 AlphaFold 3的论文也遭遇了一些挑战,一家小型初创公司展示了使用稍微先进的传统对接管道的效果超过了 AF3。
  • 由 Valence Labs 牵头的新行业联盟,包括主要制药公司(如 Recursion、Relay、默克、诺华、强生和辉瑞),正在开发 Polaris,一个用于 AI 驱动药物发现的基准测试平台。Polaris 将提供高质量的数据集,促进评估,并认证基准。
  • 与此同时,Recursion 在扰动映射构建方面的工作使他们创建了一套新的基准和指标。

Foundation models across the sciences: inorganic materials (无机材料)

为了确定物理材料的属性及其在反应中的行为,必须进行原子级别的模拟,目前依赖于密度泛函理论。该方法功能强大,但速度较慢且计算成本高。尽管计算力场(原子间势)的替代方法更快,但其准确性往往不足以满足需求,特别是在反应事件和相变过程中。

  • 在2022年,等变消息传递神经网络(MPNN)message passing neural networks 结合高效的多体消息(MACE)在 NeurIPS 上被提出。
  • 现在,作者们展示了 MACE-MP-0,它采用 MACE 架构,并在材料项目轨迹数据集上进行训练,该数据集包含数百万个结构、能量、磁矩、力和应力。
  • 该模型通过同时考虑四个原子的相互作用,将消息传递层的数量减少到两个,并且仅在网络的特定部分使用非线性激活。
  • 它能够在固态、液态和气态中进行广泛化学性质的分子动力学模拟。

Expanding the protein function design space: challenging folds and soluble analogues 扩展蛋白质功能设计空间:具有挑战性的折叠和可溶性类似物。

对在膜环境中存在但不以可溶形式出现的蛋白质进行结构特征描述和生成是具有挑战性的,这阻碍了旨在靶向膜受体的药物开发。同样,设计大型蛋白质折叠并包含非局部拓扑也是一项难题。AlphaFold 2和序列模型能否解决这个问题,并为药物设计师提供一个更大、以前无法获得的可溶性蛋白质组?

  • 为了做到这一点,作者们首先使用一个反向的 AF2 模型,该模型在给定目标折叠结构的情况下生成初始序列。然后这些序列在被 ProteinMPNN 优化之前,先由 AF2 重新预测结构,接着根据与目标结构的结构相似性进行筛选。
  • 这个 AF2-MPNN 流程在三种具有挑战性的折叠结构上进行了测试:IGF、BBF 和 TBF,它们具有治疗用途
  • 还可以生成仅存在于膜上的折叠结构的可溶性类似物,这可以极大地加快针对膜结合受体蛋白的药物发现速度。

Foundation models for the mind: learning brain activity from fMRI

深度学习最初受到神经科学的启发,现在正被用于对大脑本身进行建模。BrainLM 是一个基于由功能性磁共振成像(fMRI)生成的 6700 小时人类大脑活动记录的基础模型,功能性磁共振成像可检测血氧变化。

该模型学习重建被掩盖的时空大脑活动序列,重要的是,它可以推广到保留的分布。这个模型可以进行微调以预测临床变量,例如年龄、神经质、创伤后应激障碍和焦虑症评分,其效果优于图卷积模型或长短期记忆网络(LSTM)。

Foundation models across the sciences: the atmosphere

经典的大气模拟方法(如数值天气预报)成本高昂,并且无法利用多样且往往稀缺的大气数据模态。但是,基础模型非常适合这里的情况。微软的研究人员创建了 Aurora,这是一个基础模型,可针对各种大气预测问题(如全球空气污染和高分辨率中期天气模式)进行预测。它还可以通过利用大气动力学的通用学习表示来适应新任务。

13 亿参数的模型在来自 6 个数据集的超过 100 万小时的天气和气候数据上进行了预训练,这些数据集包括预报数据、分析数据、再分析数据和气候模拟数据。

该模型将异构输入编码为大气在空间和气压层上的标准三维表示,在推理过程中,通过 vision transformer 随时间演变,并解码为特定的预测结果。

重要的是,这是第一个在预测大气化学(六种主要空气污染物,例如臭氧、一氧化碳)方面优于数值模型的模型,而大气化学涉及数百个刚性方程。该模型也比使用数值预报的集成预报系统快 5000 倍。

Foundation models for the mind: reconstructing what you see

MindEye2 是一个生成模型,它将功能性磁共振成像(fMRI)活动映射到一个丰富的 CLIP 空间,通过微调后的 Stable Diffusion XL 从该空间中重构出个体所看到的图像。该模型在自然场景数据集上进行训练,这个 fMRI 数据集由 8 名受试者构建而成,在他们观看来自 COCO 数据集的数百个丰富的自然主义刺激图像时,每个图像扫描 3 秒,其大脑反应被记录了 30 – 40 小时。

Speaking what you think

利用植入式微电极从大脑记录中解码语音可以为言语受损的患者实现交流。在最近的一个案例中,一名 45 岁患有肌萎缩侧索硬化症(ALS)且四肢瘫痪、严重运动性言语受损的男子接受了手术,将微电极植入他的大脑。当患者在有提示和无结构的对话环境中说话时,电极阵列记录下神经活动。最初,通过预测最可能的英语音素,皮质神经活动被解码为一个包含 50 个单词的小词汇表,准确率为 99.6%。音素序列通过循环神经网络(RNN)组合成单词,然后通过进一步训练扩展到一个包含 125000 个单词的更大词汇表。

LLM 模型泛化与推理计算

A new challenge aims to refocus the industry on the path to AGI

Keras 的创建者弗 François Chollet 与 Zapier 的联合创始人迈 Mike Knoop 合作推出了 ARC 奖,为在 ARC-AGI 基准测试中取得重大进展的团队提供 100 万美元的奖金。

  • Chollet 早在 2019 年就创建了这个基准测试,作为衡量模型泛化能力的一种手段,重点关注对人类来说容易而对人工智能来说困难的任务。这些任务需要最少的先验知识,并强调视觉问题解决和类似谜题的任务,以使其不易被记忆。
  • 从历史上看,大型语言模型在该基准测试中的表现不佳,性能最高约为 34%。
  • Chollet 对大型语言模型在其训练数据之外对新问题进行泛化的能力持怀疑态度,并希望该奖项能鼓励新的研究方向,从而导向一种更像人类的智能形式。
  • 到目前为止的最高分数是 46(低于目标 85 分)。这是由 Minds AI 团队实现的,他们采用了基于大型语言模型的方法,运用主动推理,在测试任务示例上对大型语言模型进行微调,并通过合成示例进行扩展以提高性能。

LLMs still struggle with planning and simulation tasks

在新的任务中,大型语言模型无法依赖记忆和检索,其性能往往会下降。这表明如果没有外部帮助,它们仍然常常难以在熟悉的模式之外进行泛化。

  • 即使是像 GPT-4 这样先进的大型语言模型,在基于文本的游戏中可靠地模拟状态转换也有困难,特别是对于环境驱动的变化。它们无法始终如一地掌握因果关系、物理原理和物体恒常性,这使得它们即使在相对简单的任务上也难以成为良好的世界建模者。
  • 研究人员发现,大型语言模型大约有 77% 的时间能准确预测直接行动的结果,比如水槽打开,但在处理环境影响方面却很吃力,例如水槽中的杯子被水填满,对于这些间接变化的准确率仅为 50%。
  • 其他研究在包括 Blockworld 和 Logistics 等规划领域对大型语言模型进行了评估。GPT-4 有 12% 的时间能生成可执行的计划。然而,通过使用带有外部验证的迭代提示,经过 15 轮反馈后,Blockworld 计划的准确率达到 82%,Logistics 计划的准确率达到 70%。当使用 o1 重新运行时,性能有所提升,但仍远非完美。

Can LLMs learn to think before they speak?

研究人员正在探索生成更强大的内部推理过程的方法,针对训练和推理两个方面。后一种方法似乎是 OpenAI 的 o1 在能力上实现飞跃的基础。

来自斯坦福大学和 Notbad AI 联合团队的 Quiet-STaR 在预训练期间生成内部推理过程,使用并行采样算法和自定义元标记来标记这些 “思考” 的开始和结束。

该方法采用一种受强化学习启发的技术来优化生成的推理过程的有用性,奖励那些能够提高模型预测未来标记能力的推理过程。

与此同时,谷歌 DeepMind 专注于推理,表明对于许多类型的问题,在测试时战略性地应用更多计算可能比使用更大的预训练模型更有效。

一个斯坦福大学 / 牛津大学的团队也研究了 scaling inference comupte,发现重复采样可以显著提高覆盖范围。他们认为,使用较弱且成本较低的模型进行多次尝试可以胜过其更强且更昂贵的同类模型的单次尝试。

Open-endedness gathers momentum as a promising research direction

提高大型语言模型推理稳健性的一种途径是采用开放的方法,使它们能够生成新知识。

在一篇立场文件中,谷歌 DeepMind 的一个团队将开放式系统描述为能够持续生成对观察者来说是新颖且可学习的人工制品。他们概述了通向开放式基础模型的潜在途径,包括强化学习、自我改进、任务生成和进化算法。

在自我改进方面,我们看到了 Strategist,这是一种让大型语言模型为多智能体游戏学习新技能的方法。

研究人员使用了一种双层树搜索方法,将 high-level 的战略学习与 low-level 的 self-play对战相结合以获取反馈。在《纯策略游戏》和《抵抗组织:阿瓦隆》中,它在行动规划和对话生成方面优于强化学习和其他基于大型语言模型的方法。

But were implicit reasoning capabilities staring us in the face the whole time?

在经过过度拟合点之后的长时间训练(这个现象被称为 “grokking”领悟)后,一些研究人员认为,Transformer 模型能够通过组合和比较不同的任务来学习如何推理和处理参数知识。

俄亥俄州立大学的研究人员认为,在具有大搜索空间的复杂推理任务中,一个完全 “领悟” 的 Transformer 在性能上优于当时的最先进模型,如 GPT-4-Turbo 和 Gemini-1.5-Pro。

他们进行了机制分析,以了解模型在 “领悟” 期间的内部工作原理,揭示了针对不同任务的不同泛化回路。

然而,他们发现,虽然完全 “领悟” 的模型在比较任务(例如,基于原子事实比较属性)中表现良好,但在组合任务中的分布外泛化能力较弱。

这引发了关于这些是否真的是有意义的推理能力,还是只是另一种形式的记忆的问题,尽管研究人员认为通过更好的跨层记忆共享来增强 Transformer 可能会解决这个问题。

Program search unlocks new discoveries in the mathematical sciences

FunSearch 结合了大型语言模型和进化算法,利用大型语言模型生成和修改程序,并由一个评估函数引导,该函数对解决方案的质量进行评分。

搜索程序而不是直接搜索解决方案,使其能够发现复杂对象或策略的简洁、可解释的表示形式。这种形式的程序搜索是 Chollet 认为最有潜力解决 ARC 挑战的途径之一。

谷歌 DeepMind 团队将其应用于极值组合数学中的帽子集问题和在线装箱问题。在这两种情况下,FunSearch 都发现了超越人类设计方法的新颖解决方案。

RL drives improvements in VLM performance…

对于智能体来说,要想有用,它们需要对现实世界的随机性具有鲁棒性,而这一直是当前最先进的模型所面临的难题。我们开始看到取得进展的迹象。

DigiRL 是一种新颖的自主强化学习方法,专门用于为 Andriod-device 训练自然状态下的设备控制智能体。该方法包括两个阶段:离线强化学习,接着是从离线到在线的强化学习。

它在 “Andriod-in-the-wild” 数据集上实现了 62.7% 的任务成功率,相比之前的最先进技术有了显著提高。

…while LLMs improve RL performance

2019 年,Uber 发布了 Go-Explore,这是一款 RL 代理,它通过存档已发现的状态并迭代返回有希望的状态并从中进行探索来解决困难的探索问题。2024 年,大型语言模型正在为其助力。

智能 Go-Explore(IGE)使用大型语言模型来指导状态选择、动作选择和存档更新,而不是原始 Go-Explore 中手工设计的启发式方法。这使得在复杂环境中能够进行更灵活和智能的探索。

这种方法还使 IGE 能够识别有前景的发现并加以利用,这是开放式学习系统的一个关键方面。

在数学推理、网格世界和基于文本的冒险游戏中,它的表现显著优于其他大型语言模型智能体。

从 GPT-4 切换到 GPT-3.5 会导致在所有环境中的性能显著下降,这表明 IGE 的性能与基础语言模型的能力成正比。

Who remembers Monte Carlo Tree Search?

为了改进规划,像蒙特卡洛树搜索这样曾助力 AlphaGo 的方法正慢慢重新回到人们的视野中。早期的结果很有希望,但它们是否足够呢?

MultiOn 和斯坦福大学将大型语言模型与蒙特卡洛树搜索相结合,同时加入了自我批判机制和直接偏好优化,以便从不同的成功和失败标准中学习。

他们发现,在经过一天的数据收集后,在真实世界的预订场景中,这将 Llama-3 70B 的零样本性能从 18.6% 提高到了 81.7%,而结合在线搜索后可高达 95.4%。

长期的问题将是下一个标记预测损失是否过于精细。这有可能会限制强化学习和蒙特卡洛树搜索实现智能体行为的能力,因为它过于关注单个标记,从而阻碍了对更广泛、更具战略性的解决方案的探索。

Could foundation models make it easier to train RL agents at scale?

训练强化学习智能体的一个重大瓶颈是训练数据的短缺。标准方法如转换预先存在的环境(例如雅达利游戏环境)或手动构建环境都很耗费劳动力且难以扩展。

Genie(2024 年国际机器学习大会最佳论文奖得主)是一个可以生成动作可控虚拟世界的世界模型。它分析了来自 2D 平台游戏的 30000 小时视频游戏镜头,学习压缩视觉信息并推断驱动帧之间变化的动作。

通过从视频数据中学习潜在的动作空间,它可以处理动作表示而无需明确的动作标签,这使其与其他世界模型区分开来。

Genie 既能够想象全新的交互式场景,又表现出显著的灵活性:它可以接受各种形式的提示,从文本描述到手绘草图,并将它们变为可玩的环境。

这种方法展示了在游戏之外的适用性,该团队成功地将游戏模型的超参数应用于机器人数据,而无需进行微调。

Could foundation models make it easier to train RL agents at scale?

帝国理工学院和英属哥伦比亚大学的 OMNI-EPIC 利用大型语言模型创建了理论上无穷无尽的强化学习任务和环境流,以帮助智能体在先前学到的技能基础上继续发展。该系统生成可执行的 Python 代码,能够为每个任务实现模拟环境和奖励函数,并采用一个模型来评估新生成的任务是否足够新颖和复杂。

Are scientists inventing their AI replacement?

Sakana AI 一直专注于试图增强当前顶尖模型的创造能力。他们的第一篇论文之一着眼于使用基础模型来使研究本身自动化。

“人工智能科学家” 是一个端到端的框架,旨在实现研究想法的生成、实施以及研究论文的撰写自动化。在获得一个起始模板后,它会集思广益提出新颖的研究方向,然后执行实验并撰写报告。研究人员声称,他们由大型语言模型驱动的评审员以接近人类的准确性评估生成的论文。

研究人员用它生成了关于扩散、语言建模和 “顿悟” 的示例论文。乍一看这些论文很有说服力,但仔细检查会发现一些缺陷。

然而,该系统不时地显示出不安全行为的迹象,例如导入不熟悉的 Python 库以及编辑代码以延长实验时间线。

An ensemble approach appears to drive strong performance improvements in code

Meta 的 TestGen-LLM 结合了多个大型语言模型、提示和配置,以利用不同模型的优势来提高 Instagram 和 Facebook 上 Android 代码的单元测试覆盖率。

它采用一种 “可靠” 的方法,对生成的测试进行过滤,以确保它们能够成功构建、可靠通过并在推荐之前提高覆盖率。这是首次在大规模工业部署中采用将大型语言模型与可验证的代码改进保证相结合的方法,解决了在软件工程背景下对大型语言模型的幻觉和可靠性的担忧。

在部署中,TestGen-LLM 改进了约 10% 它所应用的测试类,其 73% 的建议被开发人员接受。

自动驾驶与视觉分割

Self-driving embraces more modalities

Wayve 的 LINGO-2 是其视觉-语言-行动模型的第二代,与它的前身不同,它既可以生成实时驾驶解说,又可以控制汽车,将语言解释与决策和行动直接联系起来。

与此同时,该公司正在使用生成式模型为其模拟器增加更多真实世界的细节。

PRISM-1 仅使用摄像头输入就可以创建动态驾驶场景的逼真 4D 模拟。它通过准确地重建复杂的城市环境(包括行人、骑自行车的人和车辆等移动元素),无需依赖激光雷达或 3D 边界框,从而实现更有效的测试和训练。

为了构建一个适用于视频和图像的统一模型,Meta 进行了一些调整。例如,他们加入了一种记忆机制来跟踪跨帧的对象,以及一个遮挡头来处理消失或重新出现的对象。

Segment Anything gets boosters and expands to video

去年,Meta 的 Segment Anything 以其能够根据任何提示在图像中识别和分割对象的能力给人留下深刻印象。在 7 月,他们发布了 Segment Anything 2,这让观察者们大为震惊。

他们发现,在图像分割方面,它比 SAM1 更准确且速度快 6 倍,同时能够以少 3 倍的交互次数超越先前领先的视频分割模型的准确性。

然而,该模型在视频中同时分割多个对象时效率较低,并且在处理较长的片段时可能会遇到困难。

机器人再度流行

Robotics (finally) becomes fashionable (again) as the big labs pile in

LLM 和 VLM 模型展示了它们在帮助解决数据瓶颈和解决长期存在的可用性障碍方面的潜力。

Google DeepMind quietly emerges as a robotics leader

尽管所有的目光都集中在 Gemini 上,但谷歌 DeepMind 团队一直在稳步增加其在机器人技术方面的产出,提高机器人的效率、适应性和数据收集能力。

该团队创建了 AutoRT,这是一个使用 VLM 进行环境理解,并使用 LLM 提出机器人可以执行的一系列创造性任务的系统。然后,这些模型与机器人控制策略相结合。这有助于在以前从未见过的环境中快速扩大部署规模。

RT-Trajectory 通过视频输入增强机器人学习。对于演示数据集中的每个视频,都会叠加一个执行任务的夹具的二维草图。这在模型学习时为其提供了实用的视觉提示。

该团队还提高了 Transformer 的效率。SARA-RT 是一种新颖的 up-training 方法,可将预先训练或微调的机器人策略从二次注意力转换为线性注意力,同时保持质量。

研究人员发现 Gemini 1.5 Pro 的多模态能力和长上下文窗口使其成为通过自然语言与机器人交互的有效方式。

Hugging Face pulls down barriers to entry

Hugging Face 降低了准入门槛。从历史上看,机器人技术领域的开源数据集、工具和库比人工智能的其他领域要少得多,这人为地设置了较高的准入门槛。Hugging Face 的 LeRobot 旨在填补这一差距,它提供预训练模型、包含人工收集演示的数据集以及预训练演示。并且社区很喜欢它。

Diffusion models drive improvements in policy and action generation

在图像和音频生成方面已经成熟的扩散模型,继续在机器人技术中展示了其在生成复杂动作序列方面的有效性。

许多研究小组旨在弥合机器人学习中高维观察空间和低维动作空间之间的差距。他们创建了一种统一的表示形式,使学习算法能够理解动作的空间含义。

扩散模型擅长对这类复杂的、非线性的多模态分布进行建模,而其迭代去噪过程允许对动作或轨迹进行逐步细化。

有多种方法来解决这个问题。帝国理工学院和上海期智研究院的研究人员选择了 RGB 图像,因为它提供了丰富的视觉信息,并且与预训练模型兼容。

同时,加州大学伯克利分校和斯坦福大学的一个团队利用了点云,因为它具有明确的 3D 信息。

Can we stretch existing real-world robotics data further than we currently do?

由于现实世界数据有限,机器人策略常常因缺乏通用性而受到阻碍。研究人员不是去寻找更多的数据,而是为我们已有的数据注入更多的结构和知识。

卡内基梅隆大学的一个团队概述了一种方法,包括从人类视频数据中学习更多的 affordance 信息,例如手部动作、物体交互以及接触点。这些信息随后可用于微调现有的视觉表示,使其更适合机器人任务。这在现实世界的操作任务中持续提高了性能。

与此同时,伯克利 / 斯坦福大学的一个团队发现,思维链推理可以产生类似的影响。增强后的模型不是直接预测动作,而是在决定动作之前,被训练逐步思考计划、子任务和视觉特征。这种方法使用大型语言模型为推理步骤生成训练数据。

Can we overcome the data bottleneck for humanoids?

通过依赖人类示范者的模仿学习来模拟人类行为的复杂性是具有挑战性的。虽然有效,但难以大规模实施。斯坦福大学有一些变通方法。

HumanPlus 是一个用于人形机器人从人类数据中学习的全栈系统。它结合了实时跟随系统和模仿学习算法。

跟随系统使用单个 RGB 摄像头和低级别策略,允许人类操作员实时控制人形机器人的整个身体。这种低级别控制策略在模拟中的大量人类运动数据数据集上进行训练,并无需额外训练即可转移到现实世界中。

模仿学习组件能够从跟随数据中高效地学习自主技能。它使用双眼以自我为中心的视觉,并将动作预测与前向动力学预测相结合。

该系统在各种任务上展示了令人印象深刻的结果,包括诸如穿鞋和行走等复杂动作,仅使用多达 40 次的演示。

Back with a vengeance: robot doggos 🐶

波士顿动力公司的 Spot 机器人在具身人工智能的移动性和稳定性方面展示了进步,但缺乏操作技能。现在研究人员正在解决这一差距。

一个斯坦福大学 / 哥伦比亚大学的团队将现实世界的演示数据与在模拟中训练的控制器相结合,专注于控制机器人的夹具运动而不是单个关节。这种方法简化了将操作技能从固定机械臂转移到移动机器人上的过程。

与此同时,加州大学圣地亚哥分校的一个团队开发了一个两部分系统:一个用于执行命令的低级策略和一个用于生成基于视觉的命令的高级策略,增强了机器人的操作能力。

The Apple Vision Pro emerges as the must-have robotics research tool

虽然到目前为止消费者对 Vision Pro 的需求不温不火,但它却在机器人研究领域掀起了一场风暴。在机器人研究中,Vision Pro 的高分辨率、先进的跟踪和处理能力正被从事远程操作(即远程控制机器人的运动和动作)的研究人员所利用。

像 Open-TeleVision 和 Bunny-Vision Pro 这样的系统使用它来帮助实现对多指机器人手的精确控制(就前者而言,可以在 3000 英里的距离上进行控制),与以前的方法相比,在复杂的操作任务上展示出了更好的性能。它们解决了诸如实时控制、通过避免碰撞实现安全以及有效的双手协调等挑战。

Enterprise automation set to get an AI-first upgrade

传统的机器人流程自动化(RPA),以 UiPath 为代表,一直面临着高设置成本、执行脆弱以及繁重维护的问题。两种新颖的方法,即 FlowMind(摩根大通)和 ECLAIR(斯坦福大学),利用基础模型来解决这些局限性。

FlowMind 专注于金融工作流程,使用大型语言模型通过 API 生成可执行的工作流程。在 NCEN-QA 数据集的实验中,FlowMind 在工作流程理解方面实现了 99.5% 的准确率。

ECLAIR 则采取了更广泛的方法,使用多模态模型从演示中学习,并直接与各种企业环境中的图形用户界面进行交互。在网页导航任务中,ECLAIR 将完成率从 0% 提高到了 40%。

AI Research 投入与产出

The global balance of power in AI research remains unchanged, but academia gains

随着人工智能成为新的竞争战场,大型科技公司开始对其工作的更多细节守口如瓶。前沿实验室自本报告第一次有意义地降低了发表水平,而学术界则开始发力。

英伟达帝国大厦已成

NVIDIA becomes the world’s most powerful company…

为了支持日益复杂的生成式人工智能工作负载,所有主要实验室都依赖于 NVIDIA 的硬件,对其硬件需求的不断增长。其市值在 6 月达到了 3 万亿美元,成为第三家达到这一里程碑的美国公司(仅次于微软和苹果)。在第二季度的强劲财报发布后,NVIDIA 的市场地位显得无比稳固。

…and its ambitions are only growing

NVIDIA 已经在其新的 Blackwell 系列 GPU 上预订了大量预售,并积极向各国政府展开攻势。

新的 Blackwell B200 GPU 和 GB200 Superchip 承诺相比于以 H100 著称的 Hopper 架构有显著的性能提升。NVIDIA 声称其能将成本和能耗降低 25 倍。作为 NVIDIA 实力的标志,所有主要人工智能实验室的首席执行官都在新闻稿中提供了支持性的引用。

尽管 Blackwell 架构因制造问题而推迟,但公司仍然对在年底前实现数十亿美元的收入充满信心。NVIDIA 的创始人兼首席执行官黄仁勋正在扩展其宣传,阐述公司对主权人工智能的愿景。他认为每个政府都需要构建自己的 LLM,以保护其国家遗产。

Established competitors fail to narrow the gap

AMD 和英特尔已开始投资于其软件生态系统,而 AMD 则通过 ROCm(其 CUDA 竞争对手)向开源社区进行了强有力的宣传。然而,他们尚未开发出对 NVIDIA 网络解决方案组合具有竞争力的替代品。AMD 希望其计划收购服务器制造商 ZT Systems 的 49 亿美元交易能够改变这一局面。

与此同时,英特尔的硬件销售出现了下滑。在缺乏监管干预、研究范式变化或供应限制的情况下,NVIDIA 的市场地位似乎无可动摇。

Buying NVIDIA stock would’ve been far better than investing in its start-up contenders

我们研究了自 2016 年以来在人工智能芯片挑战者身上投资的 60 亿美元,并询问如果投资者当时以相应价格购买了相同金额的 NVIDIA 股票,会发生什么。

答案是明显的:这 60 亿美元今天将价值 120 亿美元的 NVIDIA 股票(20 倍!),而其初创竞争对手仅为 310 亿美元(5 倍)。

But not everyone believes the line can only go up

一小部分分析师和评论员对此并不信服。他们指出 GPU 的稀缺性正在下降,目前只有少数公司能够从以人工智能为首的产品中产生可靠的收入,而且即使是大型科技公司的基础设施建设也不太可能足够庞大,以证明公司当前的估值。

市场目前忽视了这些声音,似乎更倾向于支持早期特斯拉投资者 James Anderson 的观点,认为该公司在十年内可能价值 数十万亿

Compute Index: NVIDIA A100/H100 clusters

大型 NVIDIA A100 GPU 集群的数量保持不变,因为行业将资金集中在 H100 和更先进的 Blackwell 系统上。

真正的大规模 GPU 集群增长来自 H100。最大的集群仍然是 Meta 的 35 万个 H100,其次是 xAI 的 10 万个集群和特斯拉的 3.5 万个。

同时,Lambda、Oracle 和 Google 也在建设大型集群,总计超过 7.2 万个 H100。一些公司,包括 Poolside、Hugging Face、DeepL、Recursion、Photoroom 和 Magic,已建立超过 2 万个 H100 的计算能力。

此外,首批 GB200 集群已经上线(例如,瑞士国家超级计算中心的 10,752 个),而 OpenAI 预计到明年年底将获得 30 万个 H100。

Compute Index: NVIDIA continues to be the preferred option in AI research papers

根据去年的统计,NVIDIA 在人工智能研究论文中的使用频率是所有同行总和的 19 倍(注意对数比例的 y 轴!)。

今年,这一领先优势缩小至 11 倍,部分原因是使用 TPU 的论文增长了 522%(与 NVIDIA 的差距现在为 34 倍)。

我们还注意到,华为的 Ascend 910 的使用增长了 353%,大型人工智能芯片初创公司的增长为 61%,而苹果的芯片也首次出现。

A100 的使用量继续增长(同比增长 59%),与 H100(增长 477%)和 4090(增长 262%)一起,尽管起点较低。

V100(现在已 7 年,下降 20%)的使用率仍然是 A100 的一半(现在已 4 年),进一步证明了 NVIDIA 系统在人工智能研究中的持久性。

芯片霸权下 的 AI 芯片 Startup 与 Big Tech

Compute Index: AI chip start-ups

与此同时,在初创公司领域,Cerebras 似乎在竞争中脱颖而出,其晶圆级系统在人工智能研究论文中的使用增长了 106%。

Groq 最近推出了其 LPU,去年在 AI 研究论文中首次得到应用。

与此同时,Graphcore 在 2024 年中期被软银收购。

与共同的对手 NVIDIA 不同,这些人工智能芯片初创公司大多已从销售系统转向在开放模型基础上提供推理接口

More TFLOPs: NVIDIA compresses its product release timelines

自 2020 年 A100 推出以来,NVIDIA 一直在缩短其下一款数据中心 GPU 的交付时间,同时显著提升其提供的 TFLOPs。

事实上,从 A100 到 H100 的时间缩短了 60%,而从 H200 到 GB200 又缩短了 80%。在此期间,TFLOPs 增加了 6 倍。

大型云公司正在购买大量的 GB200 系统:

  • 微软购买了 70 万到 140 万台
  • 谷歌购买了 40 万台
  • AWS 购买了 36 万台
  • 传闻 OpenAI 自己拥有至少 40 万台 GB200

Scaling up and out with faster connections between GPUs and nodes

GPU 在一个节点内 scale-up fabric 以及节点之间 scale-out fabric 数据通信的速度对于大规模集群性能至关重要。NVIDIA 在前者的技术 NVLink 在过去 8 年中,链路带宽、链路数量以及每个节点连接的总 GPU 数量都有了显著增长。结合其用于将节点连接成大规模集群的 InfiniBand 技术,NVIDIA 在这一领域处于领先地位。

与此同时,腾讯等中国公司据报道在制裁下进行了创新,以实现类似的成果。其星脉 2.0 高性能计算网络据称可以支持单个集群中超过 10 万个 GPU,网络通信效率提高了 60%,LLM 训练提升了 20%。不过,目前尚不清楚腾讯是否真的拥有如此规模的集群

But running large clusters continues to be an art and a science of interruptions

在发布 Llama 3 系列模型时,Meta 分享了在为期 54 天的 Llama 3 405B 预训练期间,他们每天经历 8.6 次作业中断的详细情况。

与 CPU 相比,GPU 更容易出现故障,所有集群也并非平等。持续监控至关重要,配置错误和到达时损坏的组件因测试不足而频繁发生,而低成本的电力、可负担的网络费率和可用性也至关重要。有关电力需求的更多信息,请参见 Politics 部分!

Big labs seek to weaken their NVIDIA addiction

虽然大型科技公司长期以来一直在生产自己的硬件,但随着他们寻求至少提高与 NVIDIA 的议价能力,这些努力正在加速进行——但这些并没有解决最具挑战性的工作负载。

以 TPU 闻名的谷歌推出了基于 Armv9 架构和指令集的 Axion。这些将通过云服务提供,适用于通用工作负载,其性能比当前最快的通用 Arm 架构实例提高了 30%。

Meta 推出了第二代内部开发的人工智能推理加速器,其计算和内存带宽是前一代的两倍多。该芯片目前用于排名和推荐算法,但 Meta 计划扩展其功能,以支持生成式人工智能的训练。

同时,OpenAI 正在从谷歌的 TPU 团队招聘,并与博通进行谈判,讨论开发新的人工智能芯片。报道称,萨姆·阿尔特曼也在与包括阿联酋政府在内的主要投资者进行谈判,推动一项数万亿美元的计划以提升芯片生产。

And a handful of challengers demonstrate signs of traction

Cerebras 以其晶圆级引擎而闻名,该引擎将整个超级计算机的计算能力集成到一个晶圆大小的处理器上,已申请在 2024 年上半年以 1.36 亿美元的收入上市(同比增长 15.6 倍),其中 87%的收入来自阿布扎比的国有企业 G42。

该公司已筹集超过 7 亿美元,客户主要来自计算密集型的能源和制药行业。它最近推出了一项推理服务,以更快的 token 生成速度为 LLM 提供支持。

与此同时,Groq 以 28 亿美元的估值筹集了 6.4 亿美元的 D 轮融资,专注于其仅用于人工智能推理任务的语言处理单元。目前,Groq 已与阿美石油、三星、Meta 以及绿色计算提供商 Earth Wind & Power 建立了合作关系。

两家公司都将速度作为核心差异化因素,并正在开发云服务,Cerebras 最近推出了一项推理服务。这帮助他们绕过了 NVIDIA 的软件生态系统优势,但也使他们面临云服务提供商这一新的(具有挑战性的)竞争者。

While SoftBank starts to build its own chip empire (after prematurely selling NVIDIA)

以大手笔投资而闻名的软银正在进入这一领域,委托其子公司 Arm 在 2025 年推出首款人工智能芯片,并以传闻的 6 亿至 7 亿美元收购陷入困境的英国初创公司 Graphcore。

Arm 已经在人工智能领域占有一席之地,但从历史上看,其指令集架构并不适合数据中心训练和推理所需的大规模并行处理基础设施。此外,它还面临着 NVIDIA 在数据中心业务和成熟软件生态系统方面的强大竞争。

目前,Graphcore 的市值超过 1400 亿美元,市场对此并不在意。该公司据报道已经与台积电等制造商进行谈判。

软银还收购了 Graphcore,该公司首创了 IPU Intelligent Processing Units,这是一种旨在比 GPU 和 CPU 更高效地处理 AI 工作负载的处理器,能够使用少量数据。尽管其硬件非常复杂,但在生成式人工智能应用快速发展的过程中,通常并不是一个合逻辑的选择。

该公司将在 Graphcore 品牌下半自治运营。与此同时,软银与英特尔关于设计 GPU 竞争者的谈判陷入停滞,因双方未能就需求达成一致。

美国芯片出口禁令与应对

The US Commerce Department plays whack-a-mole with chip manufacturers…

随着美国出口管制的扩大,以前符合制裁要求的芯片发现自己处于更严格性能标准的“错误”一侧。对此,芯片制造商并未退缩。

在去年的报告中,我们记录了 NVIDIA 如何向主要中国人工智能实验室销售超过 10 亿美元的 A800/H800(他们特别为中国市场合规的芯片)。随后,美国禁止向中国销售,迫使公司重新思考策略。

美国商务部长 Gina Raimondo 警告称:「如果你围绕某个特定的切割线重新设计芯片,使得中国能够进行人工智能,我将在第二天就对此进行控制。

NVIDIA 的新中国芯片 H20 在理论上比顶级 NVIDIA 硬件显著较弱(如果仅按原始计算能力衡量)。然而,NVIDIA 已针对大型语言模型推理工作负载进行了优化,这意味着它在推理任务上比 H100 快了 20%。NVIDIA 预计将实现 120 亿美元的销售。

然而,按比例计算,中国对美国芯片制造商的重要性正在下降。根据 NVIDIA 的数据,中国在其数据中心业务中的占比已从 20%降至个位数。

…but opts not to restrict the use of hardware by Chinese labs in US data centers

尽管中国实验室在进口硬件方面面临限制,但目前对它们的本地分支机构租用海外硬件的能力没有任何控制。

字节跳动通过美国的 Oracle 租用 NVIDIA H100 的访问权限,而阿里巴巴和腾讯据报道正在与 NVIDIA 洽谈建立自己的美国数据中心。

同时,谷歌和微软也直接向大型中国企业推介其云服务。美国计划通过 KYC 方案让超大规模云服务提供商报告这类使用情况,但尚未制定禁止此类行为的计划。

Small-scale no more: Semiconductor smugglers get increasingly sophisticated

通过亚洲中间商(尤其是马来西亚、香港和日本),向中国终端客户的 NVIDIA 芯片销售数量日益增多。这些中间商通过虚构的商业存在和临时数据中心来促进交易,使用空壳公司进行操作。

在一个案例中,一家中国电器公司通过一家马来西亚经纪商下了价值 1.2 亿美元的 2400 个 NVIDIA H100 集群的订单。鉴于订单的规模,NVIDIA 要求进行现场检查,以确保系统的正确安装。

这位经纪人告诉 Information 杂志,报道了这一事件,他 「协调了在位于新加坡边界附近的马来西亚 Johor Bahru 的一家备用数据中心设施内服务器的租赁、安装和激活。NVIDIA 检查员在那检查了服务器后便离开了。不久之后,这些服务器便通过香港被迅速运往中国。

另一家总部位于香港的芯片中间商通过在非美国制裁国家的空壳公司购买,积累了 4800 个受限的 H100。这些芯片以 2.3 亿美元的价格出售给一名中国买家,较其 1.8 亿美元的收购成本有相当可观的溢价。

购买这么多芯片,盈利在哪里

But where’s the revenue…?

许多在生成式人工智能领域备受关注的初创公司正在以创纪录的方式融资,估值通常是其收入倍数的上百倍。尽管这可能表明了投资者对未来回报的信心,但这也设定了一个高标准,因为许多公司目前并没有明确的盈利路径。然而,并非所有公司都如此,大模型提供者的收入开始逐渐上升。

…and where’s the margin?

OpenAI 预计在一年内收入将增加三倍,但训练、推理和员工成本使得亏损持续增加。他们并不是唯一在寻求可行经济模式的领军企业。

Perhaps it’s neither: vibes are all you need (to recover your share price)

Meta 通过放弃其大量的元宇宙投资,并大力转向开源人工智能及其 Llama 模型,成功地在二级市场上产生了显著的氛围变化。马克·扎克伯格可以说是开源人工智能的史上的救世主,与 OpenAI、Anthropic 和 Google DeepMind 形成鲜明对比。

The top quality model, OpenAI’s o1, comes at a significant price and latency premiums

随着模型选项的成熟,开发者正在根据工作需求(和预算)选择合适的工具。

推理成本快速下降

Inferencing all the way down: models get cheaper

曾被认为服务成本极高的强大模型的推理成本正在下降。

Google Gemini produced a strong model series with very competitive pricing

在发布几个月后,Gemini 1.5 Pro 和 1.5 Flash 的价格已下降了 64-86%,同时仍提供强大的性能。例如,Flash-8B 的价格比 1.5 Flash 便宜 50%,但在许多基准测试中表现相当。

LLM 从实验室迈向产品化

Chat agents as interactive developer sidekicks…

在夏季,Anthropic 和 Vercel 推出了他们的聊天助手 Claude 和 V0 的功能,使其能够在浏览器中打开编码环境,在这些环境中编写和运行代码以满足用户的请求。这使得以前静态的代码片段变得生动起来,使用户能够与助手实时迭代,从而降低了创建软件产品的门槛。不用说,社交媒体上的生成式人工智能爱好者对此非常喜爱!

以下是 Claude Artifacts 和 V0 从单个提示生成可玩的扫雷游戏的示例。

…as AI labs move from building models to designing products

像苹果、谷歌或 TikTok 这样的科技公司采取的是“产品优先”的策略,而不仅仅是构建基础技术和 API。随着基础模型性能的趋同,OpenAI、Anthropic 和 Meta 明显更加关注他们的“产品”是什么样的——无论是 Claude 的 Artifacts、OpenAI 的高级语音功能,还是 Meta 的硬件合作和同步口型工具。Simply building a good model won’t be all you need。

聚光灯下,欧洲在发力

While les grands modèles catch on, but another European challenger loses steam

就在美国实验室占据了聚光灯之时,欧洲领导人急切希望找到一个成功的欧洲案例。就目前而言,Mistral 仍然是欧洲主要的亮点。

Mistral 凭借超过 10 亿欧元的资金,已成为无可争议的欧洲基础模型冠军,展现了令人印象深刻的计算效率和多语言能力。其旗舰模型 Au Large 通过 Azure 提供,作为公司与微软新合作关系的一部分。

该公司已经开始与法国公司如 BNP Paribas 以及国际初创公司如 Harvey AI 建立合作关系。同时,它也开始扩展其在美国的销售职能。

与此同时,自称为德国“主权人工智能”冠军的 Aleph Alpha 面临困境。该公司仅筹集到 1.1 亿美元(而非宣传的 5 亿美元),其封闭模型的表现不及自由可用的同行。因此,该公司似乎正在转向授权 Llama 2-3 和 DBRX。

Databricks 与 Snowflow 的策略

Databricks and Snowflake pivot to build their own models…but can they compete?

在去年的报告中,我们提到了 Databricks 和 Mosaic 的 LLM 联合策略,专注于在客户数据上进行微调。难道“bring your own model”时代已经结束?

Mosaic 研究团队现在已并入 Databricks,并于 3 月开源了 DBRX。这是一款 132B 的 MoE 模型,使用超过 3000 个 NVIDIA GPU 训练,成本为 1000 万美元。Databricks 将该模型作为企业构建和定制的基础,同时保持对自身数据的控制。

与此同时,Snowflake 的 Arctic 被宣传为针对企业工作流程的最有效模型,基于一组涵盖编码和指令遵循等任务的指标。目前尚不清楚企业愿意在高成本的定制模型调优上投入多少,因为更大玩家推动的持续发布和改进使得这一点变得复杂。随着现成的开源前沿模型的可用性,训练定制模型的吸引力日益减弱。

反垄断与监管下的新型“收购”

Regulators scrutinize the relationships between key generative AI players…

鉴于高昂的计算成本,模型构建者越来越依赖与大型科技公司建立合作关系。反垄断监管机构担心这将进一步巩固现有企业的地位。

监管机构尤其关注 OpenAI 与微软之间的紧密关系,以及 Anthropic 与谷歌和亚马逊的联系。

监管机构担心大型科技公司实际上是在收购竞争对手,或向其投资的公司提供友好的服务协议,从而可能使竞争对手处于不利地位。他们尤其对 NVIDIA 在生态系统中所拥有的影响力及其直接投资的决定感到紧张。法国正在考虑对 NVIDIA 施加特定的费用。

大型科技公司正在努力与初创企业之间保持一定的距离,微软和苹果都主动放弃了在 OpenAI 董事会的观察员席位。

…leading to the rise of pseudo-acquisitions as an exit strategy

监管行动在塑造市场方面的作用有限,尤其是当经济逻辑另有主张时。考虑到许多“其他”公司性能的趋同以及这些公司对资本支出的高需求,行业整合并不令人惊讶。

在一些监管障碍的背景下,我们看到新型收购的兴起,其中一家大型科技公司招聘初创公司的创始人及其大部分团队,初创公司退出模型构建,转而专注于该企业产品,而投资者通过许可协议获得回报。

微软与 Inflection、亚马逊与 Adept 都采用了这种模式。然而,监管机构对此已经变得警觉,跨大西洋的监管机构开始对这些安排进行审查。

Copilot 与 Agent 的发展与火热

Github reigns supreme, but an ecosystem of AI coding companies is growing

作为最广泛使用的人工智能驱动开发工具,Copilot 的采用率同比增长 180%,其年化经常性收入现已达到 20 亿美元(是 2022 年数据的两倍)。Copilot 占 GitHub 收入的 40%,其业务规模已超过微软收购时的 GitHub。

然而,Copilot 只是众多编码公司的其中之一,其中一些正在筹集巨额融资。

ML tools for AI struggle (again)

在一个如今已熟悉的循环中,我们看到专业工具和框架在获得人气后,面临扩展和投入生产的挑战,而现有公司则展现出令人印象深刻的韧性和适应能力。随着向量数据库的爆炸性增长,在向量空间中搜索的独特性已不再显著。现有的数据库提供商也纷纷推出了自己的向量搜索方法。

像 AWS、Azure 和 Google Cloud 这样的超大规模云服务提供商已扩展其原生数据库产品,以支持大规模的向量搜索和检索,而 MongoDB、Snowflake、Databricks 和 Confluent 等数据云则试图从现有客户群中捕获 RAG 工作负载。

核心向量数据库提供商如 Pinecone 和 Weviate 现在支持传统的关键字搜索,例如 ElasticSearch 和 OpenSearch,同时引入了简单高效的过滤和聚类功能。

在框架领域,像 LangChain 和 LlamaIndex 这样的工具在实验中获得了人气,但其高层次抽象和有限的灵活性被一些开发者视为摩擦源,尤其是当他们的需求变得更加复杂时。

Are AI agents going commercial?

Cognition 推出的 Devin 在 3 月引起了轰动。被宣传为“首个人工智能软件工程师”,它旨在规划和执行需要数千个决策的任务,同时修复错误并随着时间的推移进行学习。

该产品本身引发了用户的分歧,吸引了支持者和反对者,后者指出需要设立保护措施和手动干预。无论如何,投资者对此印象深刻,在推出六个月内,该公司便获得了 20 亿美元的估值。Devin 有一个开源竞争对手 OpenDevin,后者在 SWE-bench 测试中比专有的 Devin 高出 13 个百分点。

MultiOn 也在强化学习(RL)方面进行重大投资,其自主网络代理 Agent Q 结合了搜索、自我批评和 RL,预计将在今年晚些时候向用户提供。

Meta 的 TestGen-LLM 在短短四个月内从论文转变为产品,并集成到 Qodo 的 Cover-Agent 中。

AI-powered search begins to make a dent, amid teething problems

Perplexity 筹集了 1.65 亿美元,成为最引人注目的以 AI 为主的搜索挑战者,而谷歌则推出了自己的搜索摘要。两家公司都发现,输出的质量取决于信息的质量。

在成立 18 个月内,Perplexity 达到了 10 亿美元的估值,传闻它已经在寻求可能将这一估值提高三倍。该大型语言模型(LLM)分析用户输入,通过网络搜索或其知识库获取响应,然后生成带有内联引用的摘要。

谷歌已排除使用摘要框来展示 Gemini 增强其标准产品的潜力。

然而,这两项服务都面临可靠性问题。Gemini 被发现使用讽刺性的 Reddit 帖子作为建议来源(例如,建议用户每天吃一块石头),而 Perplexity 也面临着其他大型语言模型(LLM)服务所遭遇的幻觉问题。

OpenAI 已开始试验原型搜索功能——SearchGPT,最终将整合到 ChatGPT 中。虽然我们尚不清楚技术细节,但宣传图像暗示了类似 Perplexity 的用户体验。

版权问题的发展、妥协、对抗

Industry attitudes to copyright diverge as anger from content creators rises…

尽管版权问题在生成式人工智能中并不新鲜,但 2024 年模型构建者受到媒体组织、唱片公司和内容创作者的更大审查。

OpenAI 和谷歌正在与主要媒体组织进行谈判,希望通过许可协议减轻批评的力度。类似地,Eleven Labs 也启动了一个配音演员计划。

一些初创公司完全避开这一问题,转而采用伦理认证计划。最知名的是由前 Stability AI 高管 Ed Newton-Rex 创立的 Fairly Trained。

在另一端,Meta 和 Perplexity 则更加坚定地坚持“合理使用”的论点,对与批评者妥协的意愿很小。

随着实验室接近数据上限,YouTube 抓取问题备受关注。

据报道,OpenAI 转录了数百万小时的 YouTube 视频,以支持其音频转录模型。同时,Eleuther AI 广泛使用的 Pile 数据集中包含了 173,536 个 YouTube 视频的字幕。

来自 RunwayML 和 NVIDIA 的内部文件显示,它们对 YouTube 进行了大规模抓取。

…while cases jam up the court system and provide little clarity over fair use

关于创作者的版权是否因模型构建者使用其作品进行训练而受到侵犯的核心问题仍未解决,但更广泛的论点在法庭上已遭驳回。

针对 Anthropic、OpenAI、Meta、Midjourney、Runway、Udio、Suno、Stability 等公司的案件仍在继续,诉讼方包括新闻机构、图像供应商、作者、创意艺术家和唱片公司。

到目前为止,模型构建者未能完全驳回任何这些案件,但成功显著缩小了案件的范围。例如,两组作者针对 OpenAI 和 Meta 提出的指控,认为这些公司因其模型输出属于“侵权衍生作品”而构成间接版权侵权,最终未能成立,因为他们无法证明“实质相似性”。只有基于版权侵权的原始诉求被允许继续进行。

对 Midjourney、Runway 和 Stability 的案件也发生了类似的修剪,原告被要求集中于原始抓取,许多更广泛的诉求被驳回。

在这种不确定性中,Adobe、谷歌、微软和 OpenAI 采取了不寻常的步骤,向客户提供对任何可能面临的版权法律索赔的赔偿。

自动驾驶终于要开始落地了,吗?

The last ones standing: Self-driving companies Wayve and Waymo power ahead

Wayve 揭晓了 10.5 亿美元的 C 轮融资,而 Waymo 在美国范围内扩展,经过多年的炒作和失望后,行业似乎正在蓬勃发展。

Waymo 在旧金山、洛杉矶和凤凰城逐步扩展,并计划在今年晚些时候在奥斯丁推出。该公司已取消了旧金山的等待名单,向所有人开放了等待名单。

除了从软银、NVIDIA 和微软获得新一轮融资外,Wayve 还获得了一项胜利,即英国通过了允许自动驾驶汽车在 2026 年上路的立法。

该技术也开始展现商业潜力。谷歌母公司 Alphabet 宣布对 Waymo 追加 50 亿美元的投资,此前其“其他投资”部门(包括 Waymo)实现了每季度 3.65 亿美元的收入。

与此同时,在 8 月,该公司宣布其在美国的付费行程已达到每周 10 万次,仅在旧金山就有 300 辆汽车上路。

…but it’s still a risky business

去年,一辆 Cruise 的车辆在旧金山撞伤了一名行人。该公司失去了在加利福尼亚的运营许可,并经历了显著的领导层动荡。

Cruise 的母公司通用汽车(GM)在之前裁减 25%员工并停止市场扩展后,向该公司注入了 8.5 亿美元。Cruise 已在凤凰城恢复测试(车内有一名人类驾驶员),而通用汽车计划寻求外部投资。尽管获得了额外的资金支持,但公司仍面临生存危机的问题,这表明在这一领域运营的公司所面临的高标准。

机器人行业热潮,会是下一个自动驾驶行业吗

Cash pours into humanoid start-ups…but are they set to be the next self-driving?

类人机器人初创公司如 Figure、Sanctuary 和 1X 已从包括三星、微软、英特尔、OpenAI 和 NVIDIA 在内的企业投资者那里筹集了近十亿美元。该技术能否克服其局限性?

复制人类运动的复杂性和工程出人类般的灵巧性,历来被认为是一项昂贵且技术难度很大的任务。初创公司押注于高级视觉语言模型(VLM)、现实世界的训练数据和模拟,以及更好的硬件能够改变这一局面。

然而,热衷于 State of AI 的读者会对自动驾驶的故事感到熟悉 —— 每年都承诺会有突破,但公司在接下来的五年里却未能达标。

客户还必须相信类人机器人比更便宜的非类人工业机器人系统更有效。

尽管亚马逊最近收购了位于湾区的机器人基础模型构建公司 Covariant,非类人机器人初创公司的需求依然强劲。

文生视频的火热与落地

2023 Prediction: A Hollywood-grade production makes use of genAI for visual effects.

视觉特效是一项昂贵且劳动密集的业务,因此好莱坞制片人一直在努力逐步整合生成式人工智能,但这引发了艺术家和动画师的反对。

虽然大部分工作是在悄然进行的后期制作中完成的,但细心的观众在 HBO 和 Netflix 的制作中发现了明显的生成式人工智能相关失误。这与模型在准确和一致地表示物理和几何方面的长期问题有关。我们的预测并没有说输出会是好的……

…but this work may be about to get professionalized

在此类交易中首开先河,Runway 与电影和游戏工作室 Lionsgate 达成了合作 —— Lionsgate 以《约翰·威克》、《暮光之城》和《饥饿游戏》系列而闻名。

Runway 将基于 Lionsgate 的 2 万个标题目录训练一个新的生成模型,而 Lionsgate 表示将利用 Runway 的模型支持“资本高效的内容创作机会”。目前财务细节尚不明确,但我们知道 Lionsgate 最初将使用该模型进行故事板制作,然后再用于视觉特效的创作。

The video generation race is red hot

包括 Runway、Pika、Luma 和 OpenAI 在内的参与者正在大规模扩大他们的数据收集和模型训练实验,以寻求在文本到视频生成方面的质量和一致性改进,此外还在制作更长的视频片段。

But high-end model providers face a squeeze from cheap and OS competitors

美国的文本到视频初创公司根据积分出售订阅计划,但是每一秒视频就要消耗 5 个 Runway 或 Pika 积分,用户必须确保他们快速掌握提示的技巧。与大型语言模型相比,文本到视频通常对 GPU 的要求更低,这为像快手的 Kling 这样不受版权担忧限制的更便宜的中国产品,或者像 CogVideoX 这样功能强大的开源模型创造了机会。

Generative image-conditioned video generation with Lora’s on top

低秩适应 LoRA 是一种微调大型模型的方法,使得它们的生成结果在用户关心的方面(如角色、风格或概念)得到改进。像 Civit.ai 这样的平台使用户可以很容易地使用自己的训练样本来训练 LoRA 模型。这些 LoRA 模型在市场上共享,供任何人使用。

此外,一种流行的工作流程是使用 LoRA 模型的输出,以通过像 Runway 这样的产品来生成几秒钟的视频,这些产品允许用户设置起始和结束图像帧。在生成的内容中加入生成音频肯定只是时间问题!

GenAI applications continue to see fast growth

头像视频生成公司 Synthesia 在企业、小型企业和创作者中持续呈指数增长。曾被认为是“边缘”产品的 Synthesia,如今已被大多数财富 100 强公司用于学习与发展、市场营销、销售支持、信息安全和客户服务。自 2020 年推出以来,该服务已经生成了超过 2400 万个视频,是去年数量的 2.5 倍。

语音技术正在快速落地

Text-to-speech is booming

ElevenLabs,文本转语音(TTS)市场的领导者,在年初达到了 10 亿美元的独角兽估值。由于大型实验室在这一领域持谨慎态度,ElevenLabs 几乎独占了市场。

除了其旗舰的文本转语音产品外,该公司还扩展了外语配音、声音隔离,并预览了一个早期的文本转音乐模型。为了避免版权问题的爆发,该公司选择不立即发布该模型,但已提供了用于音效生成的 API。

目前,62%的财富 500 强公司至少有一名员工在使用 ElevenLabs。同时,前沿实验室对这一领域持谨慎态度,可能是出于对声音生成能力滥用可能引发潜在反弹的担忧。

GPT-4o 的语音输出已限制为预设声音以供一般发布,而 OpenAI 表示尚未决定是否会广泛提供其语音引擎(据称可以基于 15 秒的录音重建声音)。

与此同时,Cartesia 正押注于状态空间模型,以实现高效的文本转语音。

Speech recognition finds its commercial feet

虽然文本转语音技术享有“惊艳效果”,但语音识别则有潜力在大规模上自动化日常琐事。投资者开始看到其扩展的潜力。

一系列初创公司致力于将语音识别应用于客户支持和呼叫中心等多种用例,过去一年左右获得了融资,包括 Assembly AI(5000 万美元)、Deepgram(7200 万美元)、PolyAI(5000 万美元)和 Parloa(6600 万美元)。PolyAI 的收入预计在今年将增长三倍。

这些初创公司专注于填补呼叫中心人员短缺,并使客户的语音更加自然,包括纠正、犹豫、打断和主题变化——这些都是传统自动化系统难以应对的领域。

虽然基于人工智能的转录和音频分析并不新鲜,但由于更大的数据集和变换模型,准确性正在提高。例如,Assembly AI 开发了 Universal-1,这是一个多语言模型,训练于 1250 万个语音样本,其运行速度更快、计算需求更低、错误更少,并且在环境噪声减少方面表现优于 OpenAI 的 Whisper。

The next (uncanny) frontier: speech-to-speech?

十多年来,Alexa 和 Siri 在消费者语音助手体验方面表现平平。OpenAI 推出的 GPT-4o 和总部位于巴黎的 Kyutai 的 Mochi 语音助手跨越了令人毛骨悚然的鸿沟。这两个系统能够同时思考和说话,以确保说话者与助手之间的最大流畅度。

OpenAI 展示了两部运行 GPT-4o 的手机如何能够进行引人入胜的语音对话。Mochi 的推理速度令人印象深刻,甚至有些过快,如果人类说话者暂停时间过长,可能会产生突兀的打断。

谷歌的 Notebook LM 能够基于研究生成对话播客,也赢得了用户的喜爱。最近,Hugging Face 实施了一个语音到语音的流程,结合了语音活动检测、文本转语音、LLM 和文本生成。

顶尖实验室的分裂和继续演进

Major labs fragment, with well-funded challengers emerging…

由于科学分歧、商业压力、个性冲突和资本可用性等多重因素,小型研究团队已从最大的实验室分裂出来,表明生态系统正在深化。

日本公司 Sakana AI 由 Llion Jones 和 David Ha 共同创立,Llion Jones 因是《Attention Is All You Need》的唯一未离开谷歌的作者而闻名。该公司在隐秘中获得 3000 万美元融资,并推出了三款基于“模型合并”这一进化启发式方法的模型,即将现有模型结合在一起,最有前景的模型成为下一代的“父母”。

总部位于巴黎的 H Company,由一支经验丰富的 DeepMind 团队领导,筹集了 2.2 亿美元的资金,以构建用于机器人流程自动化(RPA)的行动模型。

在 OpenAI 内部发生董事会戏剧之后(稍后会详细讨论),联合创始人 Ilya Sutskever 离开,创立了 Safe Superintelligence Inc.,该实验室专注于构建安全的人工通用智能(AGI),并不受短期商业压力或目标的影响。

最近,一些原始 Stable Diffusion 的创作者成立了 Black Forest Labs,专注于图像和视频生成。他们已经发布了 FLUX.1,这是他们的第一款开源图像模型系列,迅速开始与 Midjourney 的质量竞争。

…but entrepreneurship is hard

优秀的工程师并不总是意味着你会成为优秀的创始人。一些实验室的前员工经历了早期成功,而其他人则……不太顺利。

由一位前律师和一位前 DeepMind 研究员创立的 Safe Sign Technologies 成功完成了一次收购,而创始团队无需对外投资者进行股权稀释。

在另一端,H Company 的前 DeepMind 创始团队即使拥有超过 2 亿美元的资金,也无法在不解体的情况下顺利推出产品。

AI 产品化留存率显著改善

AI-first products begin to demonstrate their stickiness in enterprise…

在去年的报告中,我们分析了生成式人工智能产品如何在其初始“惊艳”效果和试用期之后,难以留住付费客户。来自美国企业金融科技公司 Ramp 的新数据显示,从 2022 年到 2023 年,支出和客户留存率开始显著改善。表现最佳的公司包括 OpenAI、Grammarly、Anthropic、Midjourney、Otter 和 ElevenLabs。

…while AI-first challengers scale revenue much quicker than their SaaS peers

对使用 Stripe 的 100 家最高收入生成式人工智能公司的分析显示,整体来看,它们的收入增长速度远快于以往表现同样优秀的 SaaS 公司。值得注意的是,平均每家年化收入超过 3000 万美元的人工智能公司仅用了 20 个月就达到了这一目标,而同样有潜力的 SaaS 公司则需要 65 个月。

GenAI finally begins to scale in law

法律科技并不新鲜,但历史上主要集中于“简单”的任务,如合同生命周期管理、保密协议审查和案例法数据库的构建。一个谨慎且注重责任的行业正开始深入参与。

人工智能驱动的工具现在被广泛应用于起草、案件管理、证据披露和尽职调查等领域。包括 Latham & Watkins、Cleary Gottlieb Steen & Hamilton、DLA Piper 和 Reed Smith 在内的一系列大型美国律所已开始招聘内部 AI 专家。

Harvey 是一家受欢迎的法律科技 AI 初创公司,为包括 Macfarlanes 和 Allen & Overy 在内的律所提供服务,已于 7 月完成 1 亿美元的 C 轮融资。

虽然内部法律团队在专门工具的服务上较为不足,但根据调查数据,它们的采用率实际上更高。Klarna 鼓励其法律团队使用 ChatGPT,以节省合同起草的时间,声称其法律团队的采用率已达到 90%。

这种速度差异在一定程度上可以用经济因素来解释。AI 可以替代的助理计费小时是律师事务所最盈利的业务之一。律师事务所尚未就如何在保持竞争力的同时应对这一挑战达成一致解决方案。

不可忽视的玩家:Apple

Apple and OpenAI team up…

在报告称苹果在生成式人工智能竞赛中由于缓慢的进入而落后于时间表之际,苹果抛弃了与长期竞争对手 Meta 的关系,开始在其操作系统、iPadOS 和 macOS 中集成 ChatGPT。

评论人士常将苹果视为大型科技公司人工智能竞争中的落后者。尽管其内部研究团队发布了高质量的研究成果,但由于风险规避和内部优先级设置的结合,它在快速产品化方面面临挑战。

尽管公司已宣布其 Apple Intelligence 服务,但计划在下一个 iPhone 发布后逐步推出。苹果与 OpenAI 达成了合作,旨在利用 ChatGPT 增强 Siri,并提供图像和文档理解功能以及图像生成。

…but is this a marriage of convenience?

鉴于苹果正在发布将为 Apple Intelligence 功能提供支持的基础模型的研究成果,不禁让人质疑与 OpenAI 的合作关系会持续多久或有多深。

苹果持续发布研究成果,并推出了一系列高性能的小型开放模型,重点在于设备上的推理。

在 7 月,他们发布了一篇论文,记录了将为 Apple Intelligence 功能提供支持的模型。这些服务器和较小的设备版本模型在指令遵循、工具使用、写作和数学方面表现出竞争力。设备上的 3B 模型在人工评估中优于 Gemma-7B 和 Mistral-7B。

苹果认为,这表明数据质量在性能上更为重要。预训练包括网页、数学、代码和某些许可的数据集。

他们还在 Apple 硅芯片上投资于 MLX 阵列框架,以支持人工智能研究。

There’s gold in them kernels

鉴于苹果正在发布关于基础模型的工作,这些模型将为苹果智能功能提供动力,那么有理由问一下,苹果与 OpenAI 的任何合作可能会持续多久或者有多深入。

Unsloth 自去年年底推出以来,凭借 GPU 内核的改进,迅速成为一个受欢迎的开源项目,提供了高达 30 倍的更快训练和微调速度。

重点在于在使用 LoRA 进行高效微调时优化注意力机制。Unsloth 手动推导了与 LoRA 和注意力输入相关的 6 个矩阵运算的梯度。通过精心安排矩阵乘法的顺序并使用原地操作,可以显著提高速度和内存效率。这些优化应用于所有模型组件,而不仅仅是注意力机制。

生物制药领域动作频频

Two of TechBio’s leading public companies come together in a $688M deal

在通过高通量、以人工智能为先的实验来扩大生物探索方面表现出色的 Recursion 公司与 Exscientia 公司以人工智能为先的精准化学能力相结合。

这创造了一家全栈式的发现和设计公司,拥有生物制药领域最大的 GPU 计算集群。该公司在未来 18 个月内有可能解读跨越罕见病、精准肿瘤学和传染病领域的 10 项临床试验结果。

Personalising cancer therapy with mRNA vaccines and predicted neoantigens

新冠疫情中的明星企业莫德纳(Moderna)和 BioNTech 正在开发个性化的 “新抗原” 疗法(INT)来对抗癌症。新抗原疗法由编码预测新抗原的 mRNA 组成,新抗原是癌症特有的突变,可作为由肿瘤细胞产生的抗原。这些 “新抗原” 促使患者的免疫系统清除产生它们的肿瘤细胞。新的积极数据表明,新抗原疗法在侵袭性黑色素瘤(皮肤癌)和胰腺癌中具有良好的治疗效果。新抗原疗法在制造和物流方面存在重大问题。

2024 年 4 月,BioNTech 分享了他们在胰腺癌中使用 BNT122(新抗原疗法)的 1 期试验的三年随访数据。16 名患者中有 8 名出现了对编码新抗原具有高反应性的 T 细胞。

在这 8 名患者中,有 6 名在三年的随访期间保持无病状态。在没有出现免疫反应的 8 名患者中,有 7 名出现了肿瘤复发。

2024 年 6 月,莫德纳和默克宣布了一项 3 年期的 2b 期试验(157 名患者)数据,显示 mRNA-4157(V940,新抗原疗法)与可瑞达(一种黑色素瘤药物)联合使用,与单独使用可瑞达相比,在黑色素瘤患者中降低了 49% 的复发或死亡风险以及 62% 的远处转移或死亡风险。

与单独使用可瑞达的 55.6% 相比,mRNA-4157(V940)与可瑞达联合使用的 2.5 年无复发生存率为 74.8%。

AI 硬件:火热还是伪命题?

Hot or not: smart glasses?

谷歌曾在 2014 年推出了他们的智能眼镜,当时基于深度学习的计算机视觉研究刚刚开始显示出前景,并且比增强现实热潮真正开始达到顶峰早了几年。这款产品失败了,并在 2015 年被撤下。

与此同时,在 2020 年,Meta 开始与流行的太阳镜品牌雷朋合作,开发智能眼镜。第一个版本于 2021 年发布,第二个版本在 2023 年推出,售价 299 美元,具有增强的音频功能以及与 Meta AI 的集成。

它已经大受欢迎。虽然销售数字没有被分享,但扎克伯格表示许多款式和颜色都已售罄。很可能是其外形设计、高质量音频以及人们对隐私观念的改变促成了这种命运的转变。

Hot or not: portable AI assistants?

那些试图打造作为助手的人工智能小设备的尝试则不太成功。最著名的两款是 Rabbit R1 和 Humane AI Pin。

这些小设备结合了标准的语音助手功能以及其他特性,包括摄像头、图像分析和语言翻译。早期的评价几乎普遍是负面的,常见的抱怨包括不可靠、电池续航差以及缺乏有用的功能。

虽然评论者通常认为在某个世界里这些设备可能会有用,但他们抱怨消费者正在支付高额费用(Pin 为 699 美元,R1 为 199 美元)来对还未准备好进入市场的产品进行测试。

AI 投资:钱都去哪里了

AI investment surges in every region

在 xAI 和 OpenAI 60 亿美元的巨额融资等生成式人工智能大规模融资的推动下,美国私募市场继续领先。对人工智能公司的总投资接近 1000 亿美元。

Driven by public companies, AI companies reach nearly $9T in value

虽然私人公司的估值一直在稳步攀升,但少数几家上市公司却像阿特拉斯(希腊神话中的擎天神)一样支撑着市场。现在,仅上市公司的企业价值就超过了 2023 年的整个市场价值。

在所有获得风险投资支持的公司中,人工智能公司占比最高的类别是机器人技术、企业软件、太空和安全领域。

去年,企业软件、健康、金融和营销是获得资金支持最活跃的人工智能类别。

在过去的两年中,超过 2.5 亿美元的巨额融资轮次在人工智能领域的融资中占据主导地位。

似乎存在一个明显的 “GPT-4 前 / 后时代”(2023 年),它触发了所有的融资体系进入高速发展状态……

IPO 市场仍然毫无生气,而并购活动较 2021 年的峰值下降了 23%。

在日益严格的监管审查以及新冠疫情刺激后的市场不稳定的情况下,交易活动一直处于冰冷状态,因为公司都保持着一种 “观望” 态度。

Attention is all you need… to build raise billions for sell your AI start-up

Character.ai 的 Noam Shazeer 以 25 亿美元的价格将他的团队卖回给了谷歌,而 Adept 被亚马逊以人才收购的方式纳入麾下,Inflection 以 6.5 亿美元的价格被微软收购。这些交易都涉及雇佣创始人及明星员工,同时向投资者支付足够的资金作为技术许可费用以促成交易。

针对大模型的立法与监管

The US introduces limited frontier model rules via executive order…

在 2023 年 7 月获得大型实验室的自愿承诺后,白宫决定将这些承诺转为具有约束力的规定,拜登在当年 10 月签署了关于前沿模型监管的行政命令。

第 14110 号行政命令主要针对政府机构。措施包括

  • 要求制定网络安全标准
  • 要求联邦机构发布人工智能使用政策
  • 指示各机构应对与人工智能相关的关键基础设施风险
  • 并委托进行劳动力市场研究

最值得注意的是,该行政命令要求实验室在公众部署之前,通知联邦政府并共享安全测试结果,前提是所使用的模型在训练中超过 10^26 FLOPS 的计算能力(略高于 GPT-4 和 Gemini Ultra)。它还对从事生物合成 AI 应用的公司提出了额外要求。

行政命令的一个重大缺点是,它们可以随时被撤销。即将到来的总统选举的共和党可能恰恰会这么做。

…while states pursue their own, more controversial, rules

由于在更广泛的联邦人工智能监管方面几乎没有出现两党共识的前景,各州正在推动自己的人工智能法律,最引人注目的是加利福尼亚州的 SB 1047。

到目前为止,法案主要集中在人工智能使用的披露、高风险用例的报告以及消费者选择退出。例如,科罗拉多州的立法机构提出了对高风险系统的报告要求,并创建了一个用于算法歧视风险的报告机制。

然而,最全面且具争议性的是加利福尼亚州的 SB 1047。该法案由存在风险组织 人工智能安全中心 赞助,旨在为基础模型创建安全性和责任制度。

法案的原始草案令行业感到不安,因其采用了非常规的方法来确定适用模型,复杂的报告和合规程序(伴随伪证的刑事处罚)以及一个新的政府机构来监督前沿模型。在科技公司、风险投资家和一些知名州内民主党人的反对下,该法案经过了重大修订。虽然 Anthropic 和 Elon Musk 支持修订后的版本,但 OpenAI、Meta 和一个代表大型科技公司的贸易团体则持反对态度。

加州州长 Gavin Newsom 否决了该法案,认为这有可能给公众带来“虚假的安全感”,同时“限制了推动公共利益发展的创新”。

The EU AI Act finally passes into law, following frantic last-minute lobbying

在 3 月,欧洲议会通过了人工智能法案,此前经历了一场密集的法国和德国主持的旨在削弱某些条款的运动。然而,关于实施的问题仍未得到解答。

随着该法案的通过,欧洲现在成为全球首个采用全面人工智能监管框架的地区。执法将分阶段实施,其中对 不可接受风险(如欺骗、社会评分)的禁令预计将在 2025 年 2 月生效。

How does it all work in practice for providers of high risk AI systems?

法国和德国成功推动了对基础模型监管的分级调整,基本规则适用于所有模型,而在敏感环境中部署的模型则需遵循额外规定。对面部识别的全面禁令现已被削弱,允许执法部门使用该技术。

尽管行业对该法律表示担忧,但经过几个月的咨询和大量的辅助立法,仍然有时间来塑造实施的具体细节,前提是行业能够积极参与。

Big US labs struggle to navigate European regulation

欧盟人工智能法案与长期存在的 GDPR 隐私和数据转移要求的结合,使美国实验室在调整其服务方面面临困难。

Anthropic 的 Claude 在 2024 年 5 月之前无法为欧洲用户提供服务,而 Meta 则不会向欧洲客户提供多模态模型。

同时,苹果公司对欧盟的数字市场法案表示反对,称其互操作性要求与其隐私和安全立场不兼容。因此,苹果推迟了 Apple Intelligence 在欧洲的发布。

Governments shine a spotlight on the scraping of user data

随着模型构建者寻求更多数据以满足其无止境的需求,opt-out 政策正受到越来越多的审查。

在澳大利亚立法者的质询下,Meta 的全球隐私主管承认,该公司自动抓取自 2007 年以来的帖子用于模型训练,前提是用户没有明确将其标记为私密。

在监管压力下,欧盟用户获得了全球 opt-out 的选项。该公司已确认,除非受到当地监管机构的强制要求,否则不会向用户提供此选项。

英国信息专员办公室在 6 月要求 Meta 暂停相关活动,但在公司给予用户反对的时间窗口后,允许其继续进行。

Meta 并非孤军作战。X 在经历了一场法庭斗争后,已停止使用欧洲用户的公共帖子,而爱尔兰数据保护委员会目前正在调查 Alphabet 使用用户数据训练 Gemini 的情况。

The UK moves towards frontier model legislation (slowly)

新的英国工党政府已明确表示,计划打破其前任仅通过现有立法监管人工智能的做法,但这种变化是相对微妙的。

在 11 月的 Bletchley 峰会上(稍后将详细介绍),AWS、Anthropic、谷歌、谷歌 DeepMind、Inflection AI、Meta、微软、Mistral AI 和 OpenAI 自愿同意“深化”对他们提供给英国政府的访问权限。

Anthropic 已向英国人工智能安全倡议(AISI)提供了 Claude Sonnet 3. 5 的预部署访问,而谷歌 DeepMind 则提供了一些 Gemini 系列的访问权限。新成立的英国政府表示,将通过立法将这些先前的自愿承诺法典化,但暗示不会追求更广泛的监管,隐含地排除了欧盟式的做法。

观察人士原本认为这项立法将立即公布,但由于政府在面对行业反对时进行咨询,时间表已延长。这一进程继承了前政府在类似问题上进行的行业咨询,结果显示立即进行前沿模型监管是没有必要的,但未来可能会发生变化。

China’s AI regulation enters its enforcement era

中国是首个开始制定生成性人工智能监管框架的国家,自 2022 年以来,出台了全面的(最初为自愿)指导方针。现在,该国的审查机制正在介入实施。

尽管中国顶尖实验室在中国网络空间管理局的监督下继续推出最优模型,政府仍然希望确保这些模型在避免对政治问题给出“错误”答案的同时,避免给人以被审查的印象。

在发布模型之前,实验室必须将其模型提交进行测试,回答数万问题以校准拒绝率。它们通常通过构建类似垃圾邮件过滤器的分类器来实现这一目标。同时,出现了一批咨询公司,专门协助实验室应对这些要求。

此外,还有其他不便之处,包括禁止国内访问 Hugging Face。官方认可的“主流价值语料库”充当了劣质的替代训练数据源。

虽然像阿里巴巴、字节跳动和腾讯这样的大公司能够承受合规成本,并利用其全球业务应对某些限制,但初创企业可能会受到更大影响。

美国对中国的高级芯片出口管制

US export and investment controls on China tighten

在最后一份 State of AI Report 发布不久后,美国对 NVIDIA 的符合制裁要求的 A800 和 H800 芯片实施了出口管制,但其行动范围已经扩大。

美国不仅禁止出口某些物品,还积极试图干预囤积行为,要么阻止货物运输,要么向国际合作伙伴施压,在限制生效的截止日期之前采取行动。这一措施影响了 NVIDIA、英特尔和 ASML等公司。

随后,美国商务部发出信函,指示美国制造商停止向中国半导体制造商中芯国际最先进的设施销售产品。

美国不仅在出售技术方面加大了力度,还计划阻止或限制对中国初创公司的投资,这些公司在被认为对国家安全有害的广泛应用领域工作,包括半导体、国防、监控以及音频、图像和视频识别。

考虑到美国对中国初创公司的投资急剧减少,这一影响在很大程度上将是象征性的。

China’s domestic semiconductor efforts struggle despite impressive paper performance

对美国制裁持怀疑态度的人早已警告,这些制裁可能无意间促进地方创新。尽管政府提供了丰厚的补贴,这些努力仍然面临质量和性能问题。

尽管存在腐败担忧,中国依然加大了其半导体补贴计划。5 月,政府推出了第三个国家支持的投资基金,规模达到 475 亿美元。财政部是最大股东,此外还有一些中国银行的联盟。

华为发布的 Ascend 910B 引起了轰动,这是一款用于 AI 训练的 7nm 芯片,理论上与 NVIDIA A100 相当。

然而,中芯国际在大规模生产这些芯片时遇到了困难:据报道,四分之三的产品存在缺陷。该公司的云服务首席执行官几乎承认,未来可预见的时间内,公司在 7nm 以上的创新将面临挑战。

以前备受关注的半导体初创公司,如 X-Epic,已开始裁员,因为市场已经降温,而存储芯片制造商长江存储(YMTC)在去年底遭遇了严重的财务困境。

But the US CHIPS act begins to prove the critics wrong

拜登政府对工业战略的拥抱引发了一些评论员的怀疑和反对,他们指出了浪费开支和延误的问题。

April

然而,台积电在亚利桑那州的工厂现在已提前投产[26]。苹果的移动处理器将通过 5nm 工艺在美国制造,该设施预计将在明年进入全面生产。

September

Big in Japan?

由于政治和文化原因,日本在历史上风险投资和人工智能初创公司的活动一直很平静。然而,政府如今突然渴望参与这一领域。

日本政府视风险投资和人工智能为刺激长期停滞经济的潜在工具,同时,日本也为投资者提供了一个机会,让他们不必依赖资金雄厚的海湾国家。

总部位于东京的 Sakana 已经从美国投资者如 Lux Capital 和 Khosla Ventures 那里筹集了 2 亿美元,而据报道,a16z 也在计划设立日本办公室。

与此同时,日本政府资助的投资机构已投资于美国风险投资公司 NEA 的两个基金,并正在积极探索其他机会。三菱 reportedly 正在投资斯坦福大学的 Andrew Ng 的第二个 AI 基金。

此外,该国还以轻松的监管方式自豪,专注于行业主导的监督,并似乎对围绕生成性 AI 的版权主张不太同情。然而,它已建立了一个类似于英国的安全机构。

看到到这一势头,微软宣布将在日本的 AI 和云基础设施上投资 29 亿美元。

数据中心的进一步建设

Amid sharply rising compute bills, sovereign wealth influence begins to grow

随着前沿实验室的资本支出需求超出传统风险投资所能提供的范围,实验室开始寻求更广泛的资金来源。

在 FTX 倒闭后,其在 Anthropic 的 8%股份主要被阿布扎比的主权财富基金 Mubadala 收购。由于国家安全原因,沙特的收购提议被拒绝,尽管沙特投资者 Alwaleed Bin Talal 王子及其王国控股公司参与了 X.ai 的 B 轮融资。

最具争议的是,阿联酋的 AI 控股公司 G42 与 OpenAI 达成了合作,旨在在该国的金融、能源和医疗保健领域开展合作。

G42 在包括字节跳动在内的知名中国科技公司的持股,引发了美国情报界的恐慌。最终,G42 受到压力,被迫剥离其中国资产,并接受了微软的 15 亿美元投资,微软总裁布 Brad Smith 也加入了董事会。

Public compute efforts pale in comparison to private

英国、美国和欧盟都开始增加公共计算资源的供应,补贴研究人员和初创企业获取昂贵的硬件。然而,这些努力仍然显得谨慎。

英国最近冻结了对多个项目的投资,最显著的是计划中的爱丁堡国家超级计算设施。

与此同时,欧盟通过竞争性流程使用补助金为初创企业提供少量计算资源,同时提供小额资金(25万欧元和200万个计算小时)。

它最近发布了 AI Factores 计划的提案征集,允许开发者和研究人员访问 EuroHPC 超级计算机网络及其他资源,包括数据存储库、技能培训和联合办公中心——这使得潜在的主办方可以灵活地捆绑各种资源。

美国国家人工智能研究资源现已投入运营,研究人员需申请一年访问权限,前提是他们的研究成果随后以公开方式发布。

在更大胆的举措方面,印度政府已表示愿意资助一半成本,用于建立一个10,000个 NVIDIA GPU 的集群,计划在18个月内完成,前提是私人合作伙伴愿意承担部分费用。

数据中心 Scaling 与电力瓶颈

Rising compute consumption jeopardises Big Tech’s net zero commitments…

大型科技公司已签署了一系列2030气候承诺,微软甚至承诺实现碳负排放。然而,人工智能的能源消耗意味着他们目前正朝着错误的方向前进。

根据谷歌2024年的环境报告,该公司的温室气体排放自2019年以来增长了48%。

而微软的碳排放自2020年以来增加了30%。xAI 的10万 H100集群被认为是由燃气发电机供电的。

与此同时,高盛估计数据中心的电力需求到2030年将增长160%,尽管他们指出,在生成式人工智能热潮之前,需求已经在急剧增加。

科技公司正试图影响温室气体协议的审查,该协议制定了碳核算的规则。批评者认为,抵消措施并不能准确代表排放。亚马逊和微软超过50%的可再生能源来自购买清洁能源证书。

…and energy infrastructure begins to buckle

与人工智能相关的环境挑战与一个常被忽视的限制因素密切相关——物理世界所施加的物理限制。

马克·扎克伯格表示,指数增长曲线可能需要由1GW 电力供电的数据中心(接近一个有意义的核电站的规模),而目前的数据中心仅需50-100MW。

微软和 OpenAI 计划的超过1000亿美元的 StarGate 超级计算机内部估计可能需要多达5GW 的电力供给。作为对比,格兰库利大坝是美国最大的发电厂,生产6.8GW 的电力。

微软将购买重新运营的三里岛核电厂的所有电力输出。这样的设施需要自己的发电厂,因为电网无法承受。爱尔兰、德国、新加坡、中国和荷兰由于容量问题已对数据中心引入了限制。

除了能源外,标准尺寸数据中心的建设者还面临备用发电机和冷却设备数年的等待,以及采购基本组件如电缆和晶体管的挑战。

AI 与国防

AI-first defense challengers scale, but are they exceptions?

自去年报告以来,我们开始看到防务挑战者获得重大合同,但获胜者数量仍然较少,因此现在说一个新的生态系统正在形成还为时尚早。

Anduril 获得了一些关键胜利,在美国空军的协作战斗飞机项目中进入了最后两个选项,扩大了在英国的业务,并在澳大利亚交付了首个无人潜艇。

In-The-Loop

五角大楼的复制者计划专注于可损耗的自主系统,已获得首笔5亿美元的资金。这应该是初创企业的沃土,但首个奖项颁给了上市公司 AeroVironment。

美国国防创新局也在探索使用廉价无人系统。

在欧洲,Helsing 获得了54亿美元的估值,并得到了美国投资者的支持。除了与主要承包商合作,该公司还在致力于将人工智能整合到乌克兰制造的无人机中。

AI shows promise on the frontline in Ukraine, but western hardware underwhelms

当冲突开始时,初创企业热情地将他们的设备送往战争前线进行试用。然而,乌克兰方面并不总是感到满意。

美国初创企业生产的无人机在范围和有效载荷方面常常未能达到基准性能,而它们的高功率设计反而成了缺陷。为了增强安全性而设计的先进通信系统,使其容易被俄罗斯的电子战系统侦测到。

尽管中国的 DJI 无人机仍然无处不在,但乌克兰似乎正在努力建立一个国内无人机和地面机器人初创企业的生态系统。

2024 年 5 月 29 日,一名军人在乌克兰基辅市中心向乌克兰军人移交汽车和无人机的仪式上检查无人机

至少已有67种本土制造的无人机获得认证,250个团队正在研发地面无人驾驶车辆(UGV)。

4 月 23 日,乌克兰日托米尔,乌克兰国家警察柳特旅在训练场举行演习,一名乌克兰军人站在 VEPR 地面后勤机器人综合体前

除了 Helsing,国际合作伙伴在软件方面的帮助仍然显而易见。例如,瑞士自动化初创企业 Auterion 的 Sky Node 正帮助 FPV 无人机从远距离锁定目标,以减轻电子战的影响。

AI 与经济发展

The debate over AI’s economic impact intensifies

2023年,人们开始讨论不同产业对人工智能的接受程度。虽然一些组织(如国际货币基金组织)继续发布相关研究,但辩论已开始转向人工智能对更广泛经济影响的问题。

著名经济学家 Daron Acemoglu 在一篇 Economic Policy 论文和高盛的研究中引发了争议,他认为人工智能对宏观经济的影响将很小,预计未来10年内总要素生产率提高不到0.55%,同时加剧不平等。

Acemoglu 假设人工智能将推动任务的进一步自动化,但对目前资本密集型任务的效率影响不大——这与以往的自动化浪潮不同——同时还会创造出新的“负面”任务(例如,生成错误信息或定向广告)。这些假设引发了批评。

在自动化方面,影响力经济评论员 Noah Smith 认为,比较优势在可预见的未来可能仍会存在——尽管人工智能在任何时候都将比人类更高效,但能源和计算成本将激励人们仅将其应用于最重要的任务。

这也是个好消息,因为许多人工智能界重要人物(如 Sam Altman 和 Demis Hassabis)提倡的普遍基本收入作为应对人工智能影响的政策杠杆,可能并不是灵丹妙药。Sam Altman 资助的一项大规模试验发现,普遍基本收入略微减少了工作时间,但对教育或创业的提升影响不大。

AI 与媒体传播/选举

Misinformation studies boom, but evidence of AI’s effectiveness remains thin

由于与西方观众的直接沟通能力有限,Russia Today 被发现通过一个名为 Meliorator 的工具运营着1000个假 X 账户。此外,还有迹象表明与俄罗斯国家有关的行为者在以色列-哈马斯冲突中使用假图像来制造争议。但几乎没有证据表明这些材料被超过少数人观看或相信。

最近发表在 Nature 杂志上的一项综述对这个问题的重要性泼了冷水,发现研究往往过于关注边缘群体,夸大了机器人的作用,并未能真正展示其现实世界的影响。

在类似的研究中,艾伦·图灵研究所的一项研究发现,AI 驱动的虚假信息对今年的英国或欧洲选举没有影响,相关信息量低,曝光主要限于小规模的政治党派群体。

Is AI going to be nationalized? (Spoiler alert: no)

随着能力的加速提升和与中国的紧张关系加剧,一小部分声音建议美国政府可能需要介入,启动一个新的曼哈顿计划。然而,并不是所有人都对此感到信服。

前 OpenAI 员工 Leopold Aschenbrenner 通过 Situational Awareness 这份165页的 PDF 文件重燃了这一讨论,认为根据 Scaling Law,到2027年实现通用人工智能(AGI)是合理的,并指出“国家领先的人工智能实验室基本上是在把 AGI 的关键秘密毫无保留地交给中国共产党”。

Leopold Aschenbrenner 提倡政府国有化主要人工智能实验室,并建立一个国家级的 AGI 项目。

批评者指责 Aschenbrenner 过于危言耸听,并质疑他的时间表,指出数据、能源和计算能力的限制。

然而,显然政府和实验室都在更加认真地对待这些问题。OpenAI 任命了退役美国陆军将军 Paul M. Nakasone 为董事会成员,并成立了新的安全与保障委员会。

这项举措是在报告显示该公司的系统去年遭到黑客攻击之后采取的。

Safetyism to accelerationism: a major vibe shift has occurred

从美国国会听证会和全球巡演以推广(生存)人工智能安全议程的日子开始,领先的前沿模型公司正在加速将其人工智能产品分发给消费者。

OpenAI leadership struggle marks the start of an existential risk backlash

去年,实验室通常积极参与关于关键风险的讨论。当这种讨论升级为 OpenAI 的公司和商业斗争时,明显一方占据了上风。

2023年11月17日,Sam Altman 被非营利组织的董事会解除 OpenAI 首席执行官职务。尽管具体情况仍不清楚,Altman 的批评者提到了一个被指控的秘密文化以及在安全问题上的意见分歧。

在员工反抗和微软的干预(OpenAI 的主要投资者)之后,Altman 被恢复职务,董事会也被更换。

超级对齐研究员 Jan Leike 离开前往 Anthropic,而联合创始人 Ilya Sutskever 则与前苹果人工智能负责人丹尼尔·格罗斯和前 OpenAI 工程师 Daniel Gross 共同创办了 Safe Superintelligence Inc。

在 OpenAI o1发布后不久,随着关于 OpenAI 计划解除非营利控制并授予 Altman 股权的报道,宣布了一系列离职,最引人注目的是 CTO Mira Murati 、首席研究官 Bob McGrew 和 VP Research(post-training)Barret Zoph。

2023 Prediction: We see limited progress on global AI governance beyond high-level voluntary commitments

在2023年加强的人工智能安全讨论之后,英国于11月组织了 AI 安全峰会,汇聚了政府和行业代表,在布莱切利公园举行,标志着一个更大进程的开始。

第一次人工智能安全峰会产生了布莱切利宣言,美国、英国、欧盟、中国等国承诺在识别安全挑战和引入基于风险的政策方面进行合作。这是在十月份七国集团(G7)为广岛进程所做的类似承诺之后的结果。

接下来,在2024年5月,首尔举行了一个主题相似的峰会,EU、美国、英国、澳大利亚、加拿大、德国、法国、意大利、日本、韩国和新加坡达成一致,决定开发可互操作的治理框架。

有证据表明,并非每个国家都同样参与这一进程。例如,法国希望将讨论从安全转移,提出其在峰会系列中的停顿为“人工智能行动峰会”,重点关注实现人工智能的好处。

此外,这项工作仍然处于高层次和非约束性阶段。更有动力的政府是否能够保持这一势头仍有待观察。

UK creates the world’s first AI Safety Institute and the US swiftly follows

与布莱切利峰会同时,英国宣布其前沿人工智能工作组将被人工智能安全研究所(AISI)取代——这是全球首个此类机构。美国、日本和加拿大也随后推出了一些较小规模的努力。

人工智能安全研究所(AISI)有三个核心职能:

  1. 在高级模型部署前进行评估
  2. 提高国家在安全方面的能力并进行研究
  3. 与国际合作伙伴协调

该研究所宣布与美国同行签署了一份谅解备忘录,双方同意在测试开发方面合作,同时 AISI 计划设立一个旧金山办公室。

OpenAI 表示将为美国的 AISI 提供其下一个模型的提前访问权限。

AISI 还发布了 Inspect,这是一个针对大型语言模型安全评估的框架,涵盖核心知识、推理能力、自主能力等方面。

然而,关于 AISI 应在标准设定(这是它擅长的领域)和评估(在这方面将更多依赖行业的善意)之间的重点,仍然存在争论。

Governments rush to patch gaps in critical national infrastructure

除了增强对模型能力的内部理解外,英国正逐渐成为 building resilience 的主要领导者之一。

通过其 Advanced Research and Invention Agency ARIA ,英国正在投入5900万英镑开发一个 GateKeeper —— 一个先进系统,旨在理解和降低在能源、医疗和电信等关键领域中其他人工智能代理的风险。

英国政府被报道计划建立一个 Laboratory for AI Safety Research ,旨在汇集政府各部门关于该国对手使用攻击性人工智能的知识。

美国能源部一直在利用其内部测试平台评估人工智能可能对关键基础设施和能源安全构成的风险。与此同时,国防部和国土安全部专注于解决用于国家安全和民用目的的政府网络中的漏洞。

Safety goes partisan (sort of)

在去年的报告中,我们讨论了文化战争似乎正在逐渐影响人工智能,Gemini “觉醒 AI”的争议更是火上浇油。美国总统选举是否会标志着方向的改变?

2024年共和党承诺废除人工智能行政命令(EO),声称它“阻碍了人工智能创新,并将激进的左翼思想强加于这一技术的发展”,因此吸引了一些硅谷大牌的支持。然而,它并未提及美国人工智能安全研究所(AISI)的未来。

Vance 是第一个明显对这些问题发展出观点的总统候选人,他曾指责大型科技公司利用人工智能安全作为监管捕获的工具。

与此同时,哈里斯在这个话题上发言较少。然而,她在访问英国参加布莱切利峰会时的言论被广泛解读为对过于关注安全问题而忽视伦理的隐性批评,这与许多英国民间社会团体的观点相呼应。

无论行政命令的命运如何,在国会层面,安全问题仍然是两党的共识,双方在5月签署了一项人工智能政策路线图。

As the attack surface widens, developers up research into jailbreaking…

新能力带来了新的脆弱性。现有企业和专业实验室加大了对越狱技术的研究,设计潜在的修复方案,并创建了首个红队测试基准。

OpenAI 提出了一种通过 instruction hierarchy 修复 ignore all previous instructions 攻击的方法。这确保了 LLM 不会对用户和开发者的指令赋予相同的优先级。这一方法已在 GPT-4o Mini 中应用。

Anthropic 在 multishot jailbreaking 的研究中指出了 Cautionary Warning Defense 的潜力,该方法在模型输入前后添加警告文本,以提醒模型避免被越狱。

与此同时,Gray Swan AI 的安全专家试点使用 circuit breakers 。该方法不是试图检测攻击,而是专注于重新映射有害的表示,使模型要么拒绝遵从,要么生成不连贯的输出。他们发现这种方法的效果优于标准拒绝训练。

LLM 测试初创公司 Haize Labs 与 Hugging Face 合作创建了首个红队抗性基准,汇编了常用的红队数据集,并评估它们对模型的成功率。同时,Scale 推出了自己的鲁棒性排行榜,基于私有评估。

关于越狱基准数据集和评估是否会有成效,存在哲学上的争论——一些研究人员认为,社区应专注于设计新攻击并逐个防御,因为越狱分类器在强模型面前将会失败。

…but they’re unable to keep up with the red team

一个由匿名的 Pliny the Prompter 领导的红队社区成功突破了前面提到的防御措施,GPT-4o Mini 的指令层级在数小时内被攻破。

虽然这项工作大多由有道德动机的团体进行,但英国人工智能安全研究所对领先实验室的模型在“相对简单的攻击”下仍能满足有害请求表示警告。

尽管越狱攻击大多无害,以色列网络安全初创公司 DeepKeep 使 Llama 2泄露了敏感个人数据。

与此同时,伊利诺伊大学香槟分校的一个团队展示了 GPT-4利用工具和长上下文的能力,使其能够通过执行 SQL 注入等任务在没有人类反馈的情况下攻击网站。在合适的上下文中,它还可以利用 one-day 漏洞。

其他研究则表明,多智能体环境对“感染攻击”的脆弱性,即单个智能体被越狱后,会污染其他智能体。

If you can’t beat the jailbreakers, join them

想出无尽的潜在攻击以针对模型是具有挑战性的。实验室越来越多地使用 LLMs 来扩大发现和修补漏洞的过程,包括 Meta 的两个团队。

Rainbow Teaming 使用开放式搜索算法生成提示,旨在引导目标 LLM 产生潜在不安全或偏见的响应。通过变换他们的方法和内容,Rainbow Teaming 能够系统地探索 LLM 弱点。这一方法被用于 Llama 3的安全测试中。

与进化搜索不同,AdvPrompter 使用单一的 LLM,经过生成对抗性提示和在这些提示上进行微调的交替过程。一旦训练完成,AdvPrompter 能够快速生成适应不同指令的新对抗性提示。

It’s not just foundation models that face adversarial attacks

为了提高图像分类器对对抗攻击的鲁棒性,谷歌 DeepMind 团队借鉴了生物视觉系统的灵感,特别是微颤(小的、不自主的眼球运动)这一概念。

他们向模型输入多张较小、略微模糊的同一图像。这种方法在不需要特殊训练的情况下提高了鲁棒性。CrossMax Ensembling 则结合了模型不同层的预测。即使对抗攻击混淆了最终输出,早期层的预测通常仍然是准确的。通过结合这些预测,模型在对抗攻击面前变得更强大。

该方法在 CIFAR-10和 CIFAR-100数据集上实现了最先进的对抗准确率,而无需对抗训练。

Beyond jailbreaking, research points to the potential of more stealthy attacks

虽然越狱攻击通常是安全挑战的公众面貌,但潜在的攻击面要广得多,涵盖了从训练、偏好数据到微调的方方面面。

Anthropic 发布了一篇引人注目的论文,认为可以训练 LLMs 作为 sleeper agents,在初始发布时表现出安全行为,但在后期则变得恶意。这种情况对安全训练技术(如监督微调、强化学习和对抗训练)具有抵抗力。

谷歌和达姆施塔特技术大学的研究人员发现,破坏 RLHF 所依赖的偏好对是一种有效的操控模型的方法。他们只需要损害不到5%的数据,这表明了广泛使用公共和未经整理的数据集进行偏好训练的危险。

伯克利和麻省理工学院的研究人员创建了一个看似无害的数据集,但训练模型在响应编码请求时产生有害输出。当应用于 GPT-4 时,该模型在遵循有害指令时始终能够绕过常见的安全措施。

Why is it so hard to predict the downstream capabilities of frontier models?

尽管关于预训练性能如何扩展有大量研究,但对下游训练如何扩展的清晰度却较低。一组研究人员详细分析了多项选择题的作用。

他们认为,标准性能指标如准确率掩盖了原始模型输出中明显的扩展趋势,从而使能力预测变得困难。这些指标压缩并扭曲了原始概率数据,掩盖了随着模型增大而发生的细微改进。

这似乎加强了“涌现能力”是糟糕指标构建的人工产物,而非真实能力跳跃的观点。

由于这些指标依赖于将正确选择与特定错误选择进行比较,研究人员认为,我们需要理解随着规模增加,正确和错误答案的概率如何变化。

这还需要开发新的评估技术,以保留更多原始概率信息。

Although emergent capability scepticism is far from universal

去年的 State of AI 讨论了一篇斯坦福研究人员的有争议论文,认为涌现能力是评估指标的产物,但在多个方面的反对意见仍在继续。

其中一项最有影响力的社区批评来自哈佛大学计算机科学家 Boaz Barak。在他的回应中,Barak 认为,尽管某些不连续性可能是测量的人为现象,但现实世界中的任务通常要求模型按顺序解决多个子任务。

对于复杂任务,很难提前预测或分解成功所需的组件,因此即使我们测量的个别子任务的进展看起来平稳,整体性能仍可能出现 spike。

与此同时,来自智谱的一篇论文提供了在不连续和连续评估指标上突然性能提升的证据。他们观察到,当预训练损失降至特定阈值以下时,这些改善会出现,无论模型大小或训练计算能力如何。

Is RLHF breeding sycophancy?

确保准确和诚实的响应在对齐中至关重要。然而,研究表明,训练数据、优化技术和当前架构的局限性之间的相互作用使得这一目标难以保证。

Anthropic 专注于 RLHF,认为最先进的 AI 助手表现出一致的拍马屁行为(例如,偏见反馈、受到事实错误提示的影响、符合特定信念、模仿错误)。其弱点在于人类偏好数据,因为人类评估者更倾向于支持性回应。

针对那些不充分优先考虑或准确评估真实性的偏好模型进行优化,意味着模型在某些查询中会优先降低访问其事实知识库的能力。

同样,智利国家人工智能中心的研究发现,由于 RLHF 与缺乏上下文理解的结合,LLMs 可能会高估无意义或伪深刻陈述的深度。

Direct Preference Optimization offers an escape from “reward hacking”…or does it?

2023年首次提出作为 RLHF 的替代方案,DPO 没有明确的奖励函数,并且由于在训练期间不从策略中采样或不需要广泛的超参数调优,具有效率优势。尽管这一方法较新,但已经用于对 Llama 3.1和 Qwen2进行对齐。

然而,有迹象表明,传统上与 RLHF 相关的“过度优化”也可能发生在直接偏好优化(DPO)和其他类型的直接对齐算法(DAAs)中,尽管没有奖励模型。这种情况随着模型在学习与人类偏好对齐的过程中允许偏离起始点而加剧。

这可能是由于目标不够约束,算法无意中对分布外数据赋予高概率。这是直接对齐算法(DAAs)的固有问题,但可以通过谨慎的参数调整和增加模型规模部分缓解。

RLHF isn’t going anywhere fast

由于固有优势和旨在提高效率的创新相结合,offline direct alignment 方法在短期内似乎不会大规模取代 RLHF。

在对涵盖摘要、帮助性、对话能力和无害性的多个数据集进行在线与离线方法的测试时,谷歌 DeepMind 团队发现 RLHF 在所有这些方面都表现优异。

他们认为,这源于在线策略抽样,这种方法更有效地改善生成任务,而离线算法即使使用相似的数据或模型扩展,也难以轻易复制。

Cohere for AI 探索了放弃 RLHF 中的近端策略优化(PPO)算法(将每个标记视为单独的动作),转而采用其 RLOO(REINFORCE Leave One-Out)训练器,该训练器将整个生成过程视为一个动作,并在整个序列中分配奖励。
他们发现,这种方法与 PPO 相比,GPU 使用量减少了50-75%,训练速度提高了2-3倍,具体取决于模型的大小。

Is a happy middle possible?

谷歌 DeepMind 团队将来自偏好的直接对齐(DAP)的简单性与 RLHF 的在线策略学习相结合,创建了来自 AI 反馈的直接对齐。在这种方法中,LLM 充当注释者,在每次训练迭代中选择两个响应之间的一个。这保留了在线学习的优势,而无需单独的奖励模型。这本质上是一种在线 DPO 形式。他们发现,这种方法在摘要、有害性和帮助性任务上优于传统的 RLHF 和离线 DPO。

Can LLMs improve the reliability of…LLMs?

LLMs 主要面临两种可靠性错误:

  • 一是与其内部知识不一致的响应(幻觉)
  • 二是分享与已确立的外部知识不符的信息

牛津大学最近的一篇论文关注于幻觉的一个子集,即“虚构”(confabulations),在这种情况下,LLMs 产生不正确的概括。

他们通过对一个问题生成多个答案来测量 LLM 的确定性,并使用另一个模型根据相似含义对它们进行分组。更高的熵分数表明存在虚构现象。

与此同时,谷歌 DeepMind 推出了 SAFE,评估 LLM 响应的真实性,通过将响应分解为单独的事实,使用搜索引擎验证这些事实,并对语义相似的陈述进行聚类。他们还策划了 LongFact,这是一个用于评估38个主题的长篇回答真实性的新基准数据集。

Can LLM-generated critiques enhance both accuracy and alignment?

LLMs as judges 的概念延续下来,主要实验室将其扩展到对输出的简单评估之外。

OpenAI 推出了 CriticGPT,这是一种 GPT 风格的 LLM,经过大量有缺陷输入的数据集训练,用于发现其他 LLM 生成的代码中的错误。它在捕捉错误方面超越了人类承包商,其批评在63%的情况下被认为优于人类撰写的批评。

该系统还能发现被标记为“无瑕疵”的训练数据中的错误。

与此同时,Cohere 探索了利用 LLM 生成的批评来增强 RLHF 的奖励模型的可能性。他们使用多种 LLM 为每个偏好数据对生成逐点批评,旨在让 LLM 评估提示-完成对的有效性。

他们发现,对于较弱的基础模型或低数据环境,效果特别显著,一个高质量的批评增强偏好对的价值相当于多达40个标准偏好对。

Can we make the known unknowns known?

大型语言模型(LLMs)通常难以为其输出分配可靠的置信度估计,即使在被询问答案是否正确时也是如此。潜在的解决方案可能在于微调,而非更好的 zero-shot 提示。

来自纽约大学、Abacus AI 和剑桥大学的研究发现,在正确和错误答案的数据集上对 LLMs 进行微调可以显著改善其不确定性估计的校准。这只需要少量额外数据(约1000个示例),并且可以使用像 LoRA 这样的技术高效完成。

生成的不确定性估计能够很好地推广到新的问题类型和任务,即使这些任务与用于微调的任务不同。

更好的是,微调后的模型还可以用于估计其他模型的不确定性。

Transparency is on the up, but there’s significant room for improvement still

在上一次 State of AI 不久后,斯坦福大学发布了首个基础模型透明度指数,给模型开发者的平均分为37。在团队的中期更新中,这一分数上升至58。

在2024年5月,最新一期透明度指数评估了14个领先基础模型开发者的透明度,基于100个指标,这些指标涵盖了“上游”因素(数据、劳动力、计算)、与能力和风险相关的“模型级”因素、以及与分发和社会影响相关的“下游”标准。

计算和使用政策的得分有了显著改善,而“上游”评级仍然较弱。

Could LLMs engage in ‘reward tampering’?

规范游戏(specification gaming)——模型在追求奖励时牺牲其预期目的——并不是新鲜事。Anthropic 担心,模型可能更进一步,甚至改变训练过程本身。

他们创建了一系列训练环境,以测试 AI 模型的作弊倾向,任务从简单的政治拍马屁逐渐升级到复杂的欺骗行为。这些模型表现出了未经训练的泛化能力,学习到越来越糟的错误行为,包括在研究人员提供代码时自行编辑其代码。

虽然这些结果突显了即使是轻微奖励错误指定也可能导致严重后果的潜力,但即使在研究人员尽力鼓励的情况下,最严重的行为也很少见(在32,768次试验中仅出现45次)。

尽管如此,正如我们关于 Sakana(见第68页)及其相关安全问题的幻灯片所示,我们不应低估模型寻找捷径的潜力。

Anthropic breaks open the black box…

Anthropic 的可解释性团队使用稀疏自编码器——一种通过强调重要特征并确保在任何时刻只有少数特征处于活动状态的神经网络——对 Claude 3 Sonnet 的激活进行了解构,形成可解释的组件。他们还展示了通过将某个特征“固定”为“活动”状态,可以控制输出,著名地增强了“金门特征”的强度。

…and starts a trend for sparse autoencoders

稀疏自编码器(SAEs)并不新鲜,但研究人员常常在稀疏性和重建质量之间难以平衡,且在训练中存在潜在特征失活的问题(即不活动的神经元)。OpenAI 的研究人员已经开发出一种可扩展的方法。

研究人员引入了 TopK 激活函数,直接限制活跃特征的数量。对于每个输入,仅保留 k 个激活最高的特征,其余特征则设置为零,从而提供了对稀疏性水平的直接控制。

他们还成功将失活特征减少到仅7%,这比以往的方法有所改善,以前在大型模型中,失活特征的比例可高达90%。

OpenAI团队还展示了扩展的潜力和必要性,在GPT-4激活上训练了一个1600万潜在特征的自编码器,发现了明显的扩展规律。

Maybe the black box just isn’t that opaque after all?

我们看到了一系列可解释性研究,包括对稀疏自编码器(SAE)的研究,这些研究认为高层语义概念在线性表示中编码——并且可以被解码!

一个来自芝加哥大学和卡内基梅隆大学的团队介绍了一个简化模型,其中词语和句子由二进制“概念”变量表示。他们证明了这些概念最终在线性模型的内部空间中被表示,这得益于下一标记预测和梯度下降寻找简单线性解决方案的倾向。

这种线性特性也是位于莫斯科的人工智能研究所工作的主题,该研究认为模型内部发生的变换可以通过简单的线性操作进行近似。

谷歌推出了一种流行的新方法,用于解码中间神经元。Patchscopes 将 LLM 的隐藏表示进行“补丁”,并应用于不同的提示。这个提示用于生成描述或回答问题,从而揭示了编码的信息。

…but does this come with a downside?

一些研究表明,LLMs 在其内部表示空间中使用单一方向来区分有害和无害的指令——即“拒绝方向”。通过改变这一拒绝方向,研究人员可以使模型拒绝无害的提示或完成有害的提示。可以说,可解释性进展的缺点恰恰在于它能帮助识别和理解这些特征,从而更容易地对其进行针对性攻击。

Despite a storm of controversy, LLM biorisk remains uncertain…

Anthropic 在2023年夏季引发关注,因为一项未发表的研究突显了 LLMs 在相较于互联网访问加速生物滥用方面的潜力。其他实验室在复制这一结果方面面临困难。

OpenAI 评估了在生物威胁创建方面,使用 GPT-4访问与仅使用互联网基准相比的表现提升,采用10分制。他们发现专家的评分提升为0.82,而学生的评分提升为0.41。

在将 o1分类为“中等”生物风险(这是 OpenAI 模型的首次),该公司表示,“模型尚无法自动化生物代理任务”。尽管它在生物威胁信息问题上表现明显优于4o,但在实际构思方面表现不佳。

RAND 公司的一项研究得出结论,当前的 LLMs 并没有在生物武器攻击的操作风险方面与标准互联网访问产生实质性变化。

…but researchers point to other vulnerabilities

在人工智能与生物学交叉领域工作的研究人员越来越担心,治理讨论过于集中于大型语言模型(LLMs),而忽视了专业工具的脆弱性。

生物设计工具的数量正在不断增加,例如用于蛋白质折叠/设计和基因修改的模型(例如,开源的 RFDiffusion)。这些工具不仅可以用于更快速地开发疫苗或发现药物,还可能被用于创建病原体或规避 DNA 筛查技术(例如,新的病毒表面蛋白)。

这促使研究人员提出了关于访问管理、客户身份验证(KYC)、实验室设备安全和脆弱性报告的具体生物风险治理措施。

多位蛋白质设计研究的领军人物承诺遵循一系列负责任的设计原则,并制定了关于合作和评估的具体实践。

Zooming out, are we too focused on the wrong harms?

尽管复杂的技术利用吸引了研究人员的主要关注,谷歌 DeepMind 的一项研究发现,“大多数生成 AI 的滥用案例并不是对 AI 系统的复杂攻击,而是轻易利用那些只需最低限度技术专长的可访问生成 AI 能力。”

许多最令人痛心的生成式 AI 滥用案例源于对易于获取工具的使用。在这一领域,政策而非技术解决方案可能将更为重要。

建筑与设计咨询公司 Arup 因欺诈者使用深度伪造技术假冒首席财务官并要求银行转账而损失了2500万美元。

巴尔的摩的一位教师因一段伪造音频被广泛传播,内容是其对同事和学生发表种族歧视言论,遭到骚扰和调查。

在韩国大学,涉及分享女性学生深度伪造色情内容的 Telegram 账户网络的曝光引发了全国性丑闻。

Predictions

  1. 一项来自主权国家对美国大型 AI 实验室超过100亿美元的投资引发了国家安全审查。
  2. 一款完全由没有编码能力的人创建的应用或网站将会病毒式传播(例如,进入 App Store 前100名)。
  3. 前沿实验室在案件开始进入审判后,对数据收集实践实施有意义的改变。
  4. 欧盟 AI 法案的早期实施最终比预期更为宽松,因为立法者担心自己过于超前。
  5. 一款开源替代品超过 OpenAI o1,在多个推理基准测试中表现更佳。
  6. 竞争者未能对 NVIDIA 的市场地位造成任何实质性影响。
  7. 人形机器人领域的投资水平将逐渐下降,因为公司在实现产品与市场契合方面面临困难。
  8. 苹果公司在设备上的研究取得强劲成果,推动个人设备 AI 的势头加速发展。
  9. 一篇由 AI 科学家生成的研究论文被主要机器学习会议或研讨会接受。
  10. 一款围绕与生成AI元素互动的视频游戏将获得突破性成功。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注