斯坦福大学李飞飞团队《2024 年人工智能指数报告》(摘要)

第 1 章:研发

  1. 产业界继续引领人工智能研究的前沿领域。2023 年,产业界共推出了 51 个著名的机器学习模型,远超学术界推出的 15 个模型。此外,产业界与学术界还合作开发出了 21 个著名的模型,创下历史新高。
  2. 基础模型,尤其是开源类的基础模型数量显著增加。2023 年,共有 149 个基础模型发布,数量是 2022 年的两倍多。在这些新发布的模型中,有 65.7% 是开源模型,这一比例较 2022 年的 44.4% 和 2021 年的 33.3% 有显著提升。
  3. 前沿模型的训练成本越来越昂贵根据 AI Index 的估算,目前最先进的人工智能模型的训练成本已经创下了历史新高。具体来说,OpenAI 的 GPT-4 模型在训练过程中,估计消耗了价值 7,800 万美元的计算资源。而谷歌的 Gemini 模型的训练成本更是高达 1.91 亿美元。
  4. 在顶级人工智能模型方面,美国领先于中国、欧盟和英国,是主要来源。2023 年,美国机构共推出了 61 个知名的人工智能模型,这一数字不仅显著超过了欧盟的 21 个,也远远领先于中国的 15 个。
  5. 人工智能专利数量激增。从 2021 年至 2022 年,全球人工智能专利授权数量增长了 62.7%。自 2010 年以来,人工智能专利授权数量增长了 31 倍多。
  6. 中国在全球人工智能专利产出方面占据主导地位。2022 年,中国在全球人工智能专利产出方面占比 61.1%,大幅领先于美国的 20.9%。自 2010 年以来,美国人工智能专利的份额从 54.1% 开始 一直在持续下降。
  7. 开源人工智能研究呈现爆炸性增长。自 2011 年以来,GitHub 上与人工智能相关的项目数量持续增长,从 2011 年的 845 个增加至 2023 年的 180 万个。特别是在 2023 年,GitHub 上人工智能项目的总数同比增加了 59.3%。同年,GitHub 上人工智能相关项目的总星标数也显著增加,从 2022 年的 400 万增至 1,220 万。
  8. 人工智能出版物的数量持续增长。2010 年至 2022 年,人工智能出版物的总数增长了近三倍,从 2010 年的约 88,000 篇增至 2022 年的 240,000 多篇。而在去年,人工智能出版物的增长率有所放缓,仅为 1.1%。

第 2 章:技术表现

  1. 人工智能在某些任务上已超越人类,但在其他任务上仍有进步空间。人工智能在图像分类、视觉推理和英文理解等多个标准测试中已经超越了人类的水平。然而,在更高级的数学竞赛、视觉常识推理和规划等更为复杂的任务上,人工智能仍然未能赶超人类。
  2. 多模态人工智能的兴起。传统的人工智能系统功能相对有限,例如语言模型在文本理解上表现出色,但在图像处理方面则不尽人意,反之亦然。不过,最近的技术突破推动了多模态模型的发展,例如谷歌的 Gemini 和 OpenAI 的 GPT-4。这些新型模型展现出了更高的灵活性,它们不仅能够处理图像和文本,某些情况下还能处理音频。
  3. 更难的基准开始出现。当前的人工智能模型在诸如 ImageNet、SQuAD 和 SuperGLUE 等现有基准测试中的表现已经接近极限,这激发了研究者向更具挑战性的基准测试发起冲击。在 2023 年,涌现出了多个难度更高的新基准测试,包括用于编程语言处理的 SWE-bench、图像生成领域的 HEIM、通用推理测试 MMMU、道德推理的 MoCa、基于代理行为的 AgentBench,以及针对幻觉识别的 HaluEval。
  4. 更先进的人工智能意味着更好的数据。新型人工智能模型,例如 SegmentAnything 和 Skoltech,正在被应用于图像分割和三维重建等任务,以生成高质量的专业数据。数据是推动人工智能技术发展的核心要素。在处理那些更为复杂的任务时,通过人工智能生成更多数据,不仅可以提升现有的能力,还能为未来算法的优化和提升打下坚实的基础。
  5. 人工智能评测开始兴起。随着生成模型技术的进步,它们已经能够创造出高质量的文本和图像等内容。因此,传统的基准测试方法正在逐步演变,开始更多地融入人类评价体系,例如 Chatbot Arena Leaderboard(聊天机器人排行榜),而非仅仅依赖于像 ImageNet 或 SQuAD 这样计算机自动化评分为主的排名系统。在这个过程中,公众对人工智能的态度正逐渐成为一个越来越重要的参考指标,用以评估人工智能的发展进程。
  6. LLM 的应用推动了机器人的灵活性。语言模型与机器人技术的结合催生了更为灵活的机器人系统,例如 PaLM-E 和 RT-2。这些系统不仅提升了机器人的性能,还能够主动提出问题,这标志着机器人行业在实现更高效、更贴近真实世界交互的机器人方面迈出了重要的一步。

第 3 章:可靠性

  1. 针对 LLM 的可靠性和标准化评估严重缺失。AI Index 的最新研究指出,目前人工智能报告在标准化方面存在明显不足。领先的人工智能开发者,如 OpenAI、谷歌的 Gemini 和 Anthropic,主要依据各自不同的负责任人工智能标准来测试他们的模型。这种各自为政的做法使得评估系统相对于顶尖人工智能模型的风险和局限性变得更加困难和复杂。
  2. 政治深度伪造易于生成且难以检测识别。最新研究揭示,目前人工智能领域的深度伪造技术在准确性上存在很大差异,而且这种政治性的深度伪造已经对全球多地的选举造成了影响。同时,像 CounterCloud 这样的新兴项目也表明,利用人工智能制造和散布虚假信息已经变得异常容易。
  3. 研究人员在 LLM 中发现了更复杂的安全漏洞。过去,对人工智能模型的红队测试大多集中于检验那些对人类直觉而言有意义的对抗性输入。然而在今年,研究人员发现了一些不那么显眼的策略,这些策略能够诱使 LLM 展现出有害的行为,比如指示模型无限制地重复随机单词。
  4. 人工智能所带来的风险正成为全球企业日益关注的问题一项全球性的调研发现,企业在人工智能领域最为关切的问题主要包括隐私保护、数据安全和系统的可靠性。调研结果表明,企业已经开始采取行动来降低这些风险。然而,放眼全球,大多数公司至今只解决了其中一小部分的风险问题。
  5. LLM 可输出受版权保护的资料。多名研究人员已经证明,流行的 LLM 的生成内容可能包含受版权保护的材料,如《纽约时报》的文章摘录或电影中的场景。这些输出内容是否构成版权侵犯,正在成为法律领域一个亟待解决的核心问题。
  6. 人工智能开发者在透明度方面得分较低,这对研究产生了影响。最新发布的基础模型透明度指数揭示了一个现象:人工智能开发者在透明度方面存在不足,特别是在公开训练数据和方法上。这种不够开放的做法,阻碍了对人工智能系统鲁棒性和安全性的深入理解和研究。
  7. 分析极端的人工智能风险存在一定难度。在过去一年中,人工智能领域的学者和从业者围绕算法歧视等即时模型风险与潜在的长期生存威胁进行了激烈的讨论。如何从科学的角度区分出哪些论断能够为政策制定提供依据,已经成为了一项挑战。特别是当现有的短期风险具有明显的实际影响,而潜在的长期风险则更多地属于理论层面,这进一步增加了问题的复杂性。
  8. 人工智能相关事件数量持续增长。根据追踪人工智能滥用事件的人工智能事件数据库的记录,2023 年共报告了 123 起相关事件,与 2022 年相比增长了 32.3%。自 2013 年以来,记录在案的人工智能事件数量增长了 20 多倍。一个突出的例子是,利用人工智能技术制作的泰勒·斯威夫特的深度伪造视频在网络上被广泛传播。
  9. ChatGPT 存在政治偏见问题研究人员发现,ChatGPT 在政治立场上明显倾向于美国民主党和英国工党。这一发现引起了人们对该工具可能对用户政治观点产生影响的担忧,特别是在全球范围内的大选年。

第 4 章:经济

  1. 生成式人工智能领域的投资金额急剧增长。尽管去年人工智能领域的投资整体呈现下降趋势,但对生成式人工智能的投资却逆势大幅增长,与 2022 年相比增长了近八倍,总额达到了 252 亿美元。在生成式人工智能这一领域,主要的参与者如 OpenAI、Anthropic、Hugging Face 和 Inflection 等公司都宣布完成了一轮金额可观的融资。
  2. 美国在人工智能投资方面处于领先地位,并将继续保持领先。2023 年,美国在人工智能领域的投资总额高达 672 亿美元,这一数字是中国的近 8.7 倍,后者在该领域排名第二。与此同时,自 2022 年以来,中国和欧盟(包括英国)在人工智能领域的投资额分别下降了 44.2% 和 14.1%,而美国在同一时期内的投资却显著增长了 22.1%。
  3. 美国和全球人工智能相关职位的比例有所下降。在美国,与人工智能相关的职位占所有发布职位的 2.0%,但到了 2023 年,这一比例下降到了 1.6%。人工智能职位发布的减少主要归因于顶尖人工智能公司放出的职位数量减少,以及这些公司中技术职位所占的比重有所降低。
  4. 人工智能在降本和增收方面发挥了作用。麦肯锡最近的一项调查结果显示,有 42% 的受访企业通过采用人工智能(包括生成式人工智能)成功降低了成本,而 59% 的受访企业表示其收入有所增加。与前一年相比,报告成本减少的受访企业比例上升了 10%,这反映出人工智能正在显著提升企业的运营效率。
  5. 全球人工智能投资总额再次下降,但新获投资的人工智能公司数量增加。尽管全球人工智能领域的投资总额连续第二年出现下降,但相较于 2021 年到 2022 年间的大幅下降,当前的降幅有所收窄。与此同时,获得新投资的人工智能公司数量显著增加,达到了 1,812 家,与上一年相比增长了 40.6%。
  6. 人工智能组织采用率上升。根据麦肯锡在 2023 年发布的一份报告,目前已有 55% 的组织至少在一个业务部门或职能上采用了人工智能技术,包括生成式人工智能。这一比例高于 2022 年的 50%,更是 2017 年 20% 的两倍以上。
  7. 中国在工业机器人领域占据主导地位。自 2013 年超越日本成为全球工业机器人的主要安装国后,中国与其他国家在这一领域的差距不断扩大。2013 年时,中国的工业机器人安装量占全球总量的 20.8%,而到了 2022 年,这一比例已经显著增长至 52.4%。
  8. 机器人安装的种类呈现多样化趋势。在 2017 年,协作机器人在所有新安装的工业机器人中仅占 2.8% 的份额,但到了 2022 年,这一比例已经攀升至 9.9%。同样,在 2022 年,除了医疗机器人之外,服务机器人的安装量在所有应用类别中都有所增加。这一趋势不仅反映了机器人安装量的全面增长,也显示出人们越来越倾向于将机器人应用于与人类互动更密切的岗位。
  9. 研究表明,人工智能提升了工人的生产力并带来了更高质量的工作成果。2023 年开展的多项研究对人工智能对劳动力的影响进行了评估,结果显示人工智能不仅使工人能够更迅速地完成工作,还提升了工作质量。此外,这些研究还指出,人工智能有潜力缩小低技能与高技能工人之间的技能差距。然而,也有一些研究提出了警告,它们认为如果缺乏适当的监管,使用人工智能可能会对效率产生负面影响。
  10. 财富 500 强公司在讨论中更多地提及人工智能,尤其是生成式人工智能。在 2023 年,财富 500 强中有 394 家公司的财报电话会议中提到了人工智能,这占到了所有财富 500 强公司的近 80%,与 2022 年的 266 次相比有了显著增加。自 2018 年以来,财富 500 强企业在财报电话会议中提及人工智能的次数几乎翻了一倍。其中,生成式人工智能是最常被讨论的主题,占到了所有电话会议提及人工智能次数的 19.7%。

第 5 章:科学与医学

  1. 人工智能推动了科学的进一步发展。2022 年,人工智能已经开始在推动科学发现的进程中发挥重要作用。进入 2023 年,一系列具有重大意义的科学应用相继推出,包括提升算法排序效率的 AlphaDev,以及加速材料发现过程的 GNoME。
  2. 工智能显著推动了在医学领域的进步。在 2023 年,医疗领域迎来了若干重要的系统创新,其中包括用于加强流行病预测的 EVEscape 系统,以及协助进行人工智能驱动的突变分类的 AlphaMissence。这些进展表明,人工智能正日益被广泛应用于推动医学领域的进步。
  3. 医疗人工智能展现出高水平的专业知识。近年来,人工智能系统在 MedQA 基准测试中取得了显著的提升,该测试是衡量人工智能临床知识水平的重要标准。2023 年,杰出的模型 GPT-4 Medprompt 的准确度达到了 90.2%,相较于 2022 年的最高得分提高了 22.6 个百分点。自从 2019 年引入 MedQA 基准测试以来,人工智能在此基准上的表现已经实现了近三倍的增长。
  4. FDA 批准了更多的人工智能医疗设备。在 2022 年,美国食品药品监督管理局(FDA)批准了 139 种与人工智能相关的医疗设备,这一数字比 2021 年增长了 12.1%。自 2012 年以来,FDA 批准的人工智能医疗设备数量增长了超过 45 倍。这表明人工智能在医疗领域的实际应用正变得越来越广泛。

第 6 章:教育

  1. 美国和加拿大计算机科学与技术领域的本科专业毕业生数量持续攀升,而硕士毕业生人数则保持稳定,博士学位获得者的人数则呈现小幅增长。尽管过去十多年美国和加拿大计算机科学本科学位毕业生数量持续增长,但选择计算机科学研究生教育的学生数量已趋于平缓。自 2018 年以来,计算机科学硕士和博士学位毕业生数量略有下降。
  2. 博士学位的人工智能人才继续加速向产业界迁移。2011 年,新晋人工智能博士在产业界(40.9%)和学术界(41.6%)就业的比例大致相当。然而,到 2022 年,与进入学术界的博士(20.0%)相比,毕业后进入产业界的比例(70.7%)要大得多。仅在过去一年,进入产业界的人工智能博士所占比例就上升了 5.3 个百分点,这表明从学术界到产业界的人才流失正在加剧。
  3. 从产业界向学术界过渡的学术人才较少。2019 年,美国和加拿大 13% 的新人工智能教师来自产业界。到了 2021 年,这一比例下降到了 11%,2022 年进一步下降到 7%。这一趋势表明,高级人工智能人才从产业界向学术界的迁移正在逐渐减少。
  4. 美国和加拿大计算机科学教育的国际化程度降低。与 2021 年相比,2022 年毕业的国际计算机科学本科、硕士和博士学位的学生比例有所下降,硕士生中国际学生的减少尤为明显。
  5. 越来越多的美国高中生选修计算机科学与技术课程,但课程获取的不平等问题依然存在。2022 年,共举办了 201,000 次 AP 计算机科学考试。自 2007 年以来,参加这些考试的学生人数增加了 10 倍多。然而,最新的证据表明,规模较大的高中和郊区的高中学生更有可能接触到计算机科学课程。
  6. 与人工智能相关的学位课程在国际上的需求不断增长。自2017年以来,英语授课的、与人工智能相关的高等教育学位课程数量已经增加了三倍,且在过去五年中呈现稳步年度增长。世界各地的大学正在开设越来越多的人工智能学位课程。
  7. 英国和德国在欧洲信息学、计算机科学、计算机工程和信息技术毕业生的培养方面处于领先地位。按人均计算,芬兰在培养本科和博士毕业生方面遥遥领先,而爱尔兰则在培养硕士毕业生方面遥遥领先。

第 7 章:政策与法规

  1. 美国的人工智能法规数量急剧增加。过去一年及五年期间,人工智能相关的法规数量均有显著上升。2023 年,人工智能相关的法规数量达到 25 项,相较于 2016 年的 1 项有了显著增加。仅去年一年,人工智能相关的法规总数就增长了 56.3%。
  2. 美国和欧盟在人工智能政策领域取得了划时代的进展。2023 年,大西洋两岸的政策制定者提出了推进人工智能监管的实质性建议。欧盟就《人工智能法案》的条款达成协议,这是 2024 年颁布的一项具有里程碑意义的立法。与此同时,美国总统拜登签署了一项关于人工智能的行政命令,这是美国当年最引人注目的人工智能政策举措。
  3. 人工智能成为美国政策制定者关注的焦点。2023 年,在联邦层面,与人工智能相关的立法提案数量显著增加,共提出 181 项法案,比 2022 年提出的 88 项法案增加了一倍多。
  4. 全球的政策制定者都在谈论人工智能。全球立法程序中提及人工智能的次数几乎翻了一番,从 2022 年的 1,247 次上升至 2023 年的 2,175 次。2023 年,共有 49 个国家在立法程序中讨论了人工智能,且每个大洲至少有一个国家讨论了人工智能,这凸显了人工智能政策讨论的全球性影响。
  5. 越来越多的美国监管机构开始关注人工智能。2023 年,美国发布人工智能法规的监管机构数量从 2022 年的 17 个增加到 21 个,这表明有越来越多的美国监管机构对人工智能监管的关注度越来越高。2023 年首次颁布人工智能相关法规的新监管机构包括交通部、能源部和职业安全与健康管理局。

第 8 章:多元化

  1. 美国和加拿大的计算机科学本科生、硕士生和博士生在种族上越来越多样化。尽管白人学生在这三个学位级别中仍然是最主要的种族群体,但亚裔、西班牙裔和非洲裔等其他种族的毕业生比例正在逐渐增加。例如,自 2011 年以来,亚裔计算机科学本科学位获得者的比例增长了 19.8 个百分点,西班牙裔计算机科学本科学位获得者的比例增长了 5.2 个百分点。
  2. 在欧洲,信息学、计算机科学、工程技术以及信息技术等专业的毕业生中,不同性别间的差距依然显著,贯穿于本科、硕士以及博士各个教育层次。在参与调查的每个欧洲国家中,无论是本科、硕士还是博士学位课程,信息学、计算机科学、工程学和信息技术专业领域的男性毕业生数量均超过女性。尽管过去十年间多数国家的性别差异已有所减少,但这一变化过程相对缓慢。
  3. 美国 K-12 阶段的计算机科学教育在性别和种族代表性上变得更加多元化。自 2007 年以来,参加 AP 计算机科学考试的女生比例已从 16.8% 增长至 2022 年的 30.5%。与此同时,亚裔、西班牙裔/拉丁裔以及非洲裔美国学生参与 AP 计算机科学考试的人数也呈现逐年上升的趋势。

第 9 章:舆论

  1. 全球公众对人工智能潜在影响的认识加深,并伴随着日益增长的忧虑感。Ipsos 的一项调查显示,与去年相比,认为人工智能将在接下来三至五年内显著改变他们生活的人从 60% 增至 66%。同时,对人工智能产品和服务感到不安的人数比例上升了 13 个百分点,达到 52%。根据美国皮尤研究中心的数据,52% 的美国人表示对人工智能的担忧多于兴奋,相较于 2022 年的 38% 有所上升。
  2. 西方国家的人工智能情绪持续低迷,但正在缓慢改善。2022 年,包括德国、荷兰、澳大利亚、比利时、加拿大和美国在内的几个西方发达国家是对人工智能产品和服务的态度上最为保守。此后,这些国家中承认人工智能有益的受访者比例均有所上升,其中荷兰的转变最为显著。
  3. 公众对人工智能的经济影响持悲观态度。根据 Ipsos 的一项调查显示,只有 37% 的受访者认为人工智能会改善他们的工作。只有 34% 的人预计人工智能将促进经济发展,32% 的人认为人工智能将改善就业市场。
  4. 在不同人群之间,对于人工智能前景的乐观预期存在显著差异。在对人工智能改善生活能力的看法上,存在人口统计上的显著差异,年轻人通常持更乐观的态度。举例来说,59% 的 Z 世代受访者预期人工智能将提升其娱乐选择,相比之下,婴儿潮一代中这么认为的只有 40%。此外,较高收入和教育水平的个人对于人工智能在娱乐、健康和经济方面的积极作用也持更加肯定的态度。
  5. ChatGPT 在人们中间认知度高,并且得到了广泛的应用。多伦多大学的一项国际调查显示,63% 的受访者对 ChatGPT 有所了解,其中约一半的人至少每周使用一次 ChatGPT。

*以上文章翻译自《Artificial Intelligence Index Report 2024》,如需原文,请与我们联系。

WF Research 是以第一性原理为基础的专业顾问服务机构,欢迎关注和留言!

微信号:Alexqjl

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注