AI会变成控制世界的神?还是驱动一切的电?
2024-7-13 22:4:38 Author: mp.weixin.qq.com(查看原文) 阅读量:2 收藏

自2022年11月ChatGPT发布以来,AI经历了几十年来最大的一场热潮。一年半以后,越来越多的迹象表明这场狂欢似乎已经越过了期望之峰,即将滑向失望之谷。

比起AI的短期发展路径,人们对其终局的争论更加激烈。一派认为碳基生命只是硅基生命的启动器,AI发展到最终的AGI(人工通用智能),甚至ASI(人工超智能),就是造神。另一派认为,正如几年前说“数据是新石油”一样,AI是新电!它会在各个领域增强人类社会的能力,成为人类历史上最强大的工具,但依旧是工具,和百万年前打制的石器并无本质不同。

AI 发展的技术里程
讨论概念很容易走上形而上的路,但AI的基础仍然是技术。接下来,我们从技术角度探讨这个问题。AI的历史和计算机的历史一样长:

1. 起步阶段(1950s-1960s)

  • 初期发展:人工智能领域的研究始于1950年代,标志性事件是Alan Turing提出的“图灵测试”和1956年达特茅斯会议(Dartmouth Conference)。这期间,研究者们希望通过符号处理来实现智能。

  • 早期成就:此阶段的主要成就包括初步的自动推理、求解数学问题和象棋程序。


2. 第一场AI寒冬(1970s)

  • 背景:20世纪70年代初期,人工智能遇到了技术和资金上的双重困难。由于早期AI系统在处理复杂问题上表现不佳,加上对计算资源的需求高昂,导致研究进展缓慢。

  • 结果:许多项目被取消,资金投入锐减,这段时期被称为“AI寒冬”。


3. 符号主义和专家系统(1980s)

  • 专家系统:20世纪80年代,人工智能研究的重点转向专家系统,这些系统在特定领域显示出了优越的性能。

  • 商业应用:一些成功的商业应用(如医疗诊断系统)增加了对AI的投资和兴趣。


4. 第二场AI寒冬(1980s末-1990s初)

  • 背景:尽管专家系统在某些领域取得了成功,但其开发和维护成本高昂,适应新领域的能力有限。市场和学术界对AI的过高期望未能实现,再次导致投资减少和研究热情下降。

  • 结果:AI研究再次进入低谷,这段时期被称为第二场“AI寒冬”。


5. 机器学习和神经网络复兴(1990s-2000s)

  • 神经网络复兴:20世纪90年代,随着计算能力的提升和新的算法(如反向传播算法)的发展,神经网络研究重新受到关注。

  • 数据驱动的AI:大数据和计算能力的提升推动了机器学习和数据驱动方法的发展,AI开始在图像识别、语音识别等领域取得实际应用成果。


6. 深度学习的兴起(2010s-至今)

  • 深度学习:2010年代,深度学习模型(如卷积神经网络和循环神经网络)在处理图像、语音和自然语言任务上取得了巨大成功。

  • 广泛应用:AI技术被广泛应用于自动驾驶、医疗诊断、金融分析等领域。以AlphaGo击败世界围棋冠军李世石为标志性事件,AI在复杂任务中的能力被广泛认可。


从符号AI到深度学习
AI的发展历史几乎与计算机一样悠久。在思考设计计算机的架构时,先贤们就期待有一天计算机能和人类一样聪明。前几十年,AI的路线基本是符号处理和专家系统,尽管在某些领域取得了一些进展,例如IBM的Deep Blue在1997年击败了国际象棋世界冠军卡斯帕罗夫,十几年后其Watson超级计算机在2011年击败了《Jeopardy!》的两位冠军。但整体而言进展始终不及预期,直到机器学习领域出现重大进展。
机器学习的理论提出很早,但随着计算能力的提升和新算法的出现,21世纪尤其是深度学习的兴起,使其成为AI技术的主流。

老派 AI(GOFAI)

计算机代码是决定性的,代码逻辑写好后,程序运行1万次,每次都会给出同样的结果,计算机非常擅长推理,“男人都有喉结”,因为“关羽是男人”,所以“关羽有喉结”。当用这种Symbol-manipulation符号操作的方式来实现AI时,由于边界情况corner case太多,用再多的if-else也难以穷举,最终进入死胡同。

机器学习

机器学习是一门开发算法和统计模型的科学,计算机系统利用这些算法和统计模型来执行任务,无需明确指令,而是依靠模式识别和推理。计算机系统通过处理大量历史数据并识别数据模式,从而能够根据给定的输入数据集更准确地预测结果。
机器学习背后的核心思想是任何输入和输出数据组合之间存在数学关系。机器学习模型事先并不知道这种关系,但如果给定足够的数据集,它可以推测。这意味着每个机器学习算法都是围绕可修改的数学函数构建的。基本原理可以这样理解:我们通过提供以下输入/输出组合来“训练”算法 - (2,10)、(5,19) 和 (9,31)。该算法计算输入和输出之间的关系为:o = 3 * i + 4。然后我们给它输入7,并让它预测输出。它可以自动确定输出为25。
虽然这是基本理解,但机器学习的原则是,只要计算机系统拥有足够的数据和处理能力,所有复杂的数据点都可以在数学上联系起来。因此,输出的准确性与输入数据的数量直接相关。
如果系统的输出是可预测的,则称其为确定性的。大多数软件应用程序对用户的操作做出可预测的响应,因此可以说:“如果用户这样做,他就会得到那个。”但是,机器学习算法通过观察和经验进行学习,因此本质上是概率性的。因此,现在可以说:“如果用户这样做,则发生这种情况的概率为X%。”

深度学习

深度学习是机器学习的一个子集,是其复杂演化。深度学习算法使用与人类相似的逻辑结构来分析数据。深度学习使用称为人工神经网络的智能系统来分层处理信息。数据从输入层流经多个“深层”隐藏神经网络层,然后到达输出层。额外的隐藏层支持比标准机器学习模型更强大的学习能力。深度学习层是人工神经网络(ANN)节点,其运作方式与人脑神经元类似。节点可以是硬件和软件的组合。深度学习算法中的每一层都由ANN节点组成。每个节点或人工神经元都连接到另一个节点,并具有关联的值号和阈值号。节点在激活时将其值号作为输入发送到下一层节点。仅当其输出高于指定阈值时才会激活。否则,不会传递任何数据。

对比GOFAI,机器学习从推理变成了归纳,寻找输入和输出间的关系,然后再泛化以处理新问题。
上一个AI热潮有两个明星领域——人脸识别和推荐算法,都是深度学习的产物。
过去十年间,深度学习理论和实践持续进步,最终推动了ChatGPT的诞生:
  • 无监督学习(Unsupervised Learning):训练数据不再需要人工打标,大大减少了数据准备工作。
  • Transformer 架构:2017年出现,通过并行处理大大降低了神经网络的训练难度。
  • 人类反馈强化学习(Reinforcement Learning from Human Feedback):保持输出与预期一致,这点对LLM的应用成熟至关重要。
上述技术在2018年组合到一起,开启了本轮AI热潮的扩展法则(Scaling Law),从2018年1.1亿参数的GPT,到2021年1750亿参数的GPT-3,再到1.8万亿参数的GPT-4。

大语言模型的局限性

大模型就像个压缩算法,参数的不断增加,可以让大模型存储更多的知识,能回答更宽泛的问题。但和其他机器学习算法一样,它仍然是在通过归纳的方式寻找输入和输出间的逻辑关系,也就是说,它不是在回答正确的答案,而是在回答最像正确答案的答案,这就是其幻觉(hallucination)产生的原因。

对LLM的使用有几个层次:
  1. 最简单的是直接使用基础模型,例如直接在www.chatgpt.com网页上和GPT-4对话,或者直接调用Llama的API。
  2. 指令工程(Prompt Engineer):类似ChatGPT提供的GPTs功能,通过指令条件,让LLM扮演某个角色,或向其提供上下文,提高其在特定场景下的表现能力。
  3. 检索增强生成(Retrieval Augmented Generation):总有模型训练时未采用的数据,特别是组织内部或者个人数据。数据的缺失是模型回答幻觉的重要原因,使用RAG可以将私有信息存入向量数据库,根据问题查询相关信息,将搜索结果一并加入prompt提交给模型作为输入,可以大大提高模型对特定问题的准确度。
  4. 微调模型(Fine-Tuning):RAG可以给模型新知识,但有些场景需要的不只是新知识,而是新能力,例如编写代码、总结文章、撰写邮件等。这时就可以用Low-Rank Adaptation(LoRA)等方法对基础模型进行微调,提高其在特定场景的能力。

综上所述,至少大语言模型(LLM)不会成为神。即使扩展法则(Scaling Law)依旧有效,LLM未来可能拥有更多参数和知识,在更多领域表现优于人类,但也不会发展成AGI。相反,与传统的指令性代码不同,深度学习和神经网络提供了一种全新的计算方式,在某些领域能够提供传统计算机无法实现的价值,例如特斯拉FSD V12版本相较于之前版本的显著进步。

在最新的这波AI 热潮中,几家科技巨头冲在了前列。

Nvidia 市值飙升:AI 热潮中的赢家

最近,Nvidia 的市值飙升至 3.3 万亿美元,成为全球市值最高的公司。五月下旬,其市值还只有 2.6 万亿美元,市值的暴涨反映了其业务的快速增长。根据2025财年第一季度财报(4 月结束),Nvidia 的季度收入达到了 204 亿美元,其中数据中心业务(即 AI 业务)比上季度增长了 23%,同比增长了 427%。公司毛利率高达 78%,净利率达到了惊人的 57%。6 月 23 日其市盈率(PE,2025年预估)为 48.9 倍。

在历史上,很少有基础硬件厂商的利润率能超过 50%,尤其是在 Nvidia 的营收规模接近 1000 亿美元的情况下。市场的激增吸引了大量投资者,AMD 的 Ryzen 和 Intel 的 Gaudi 正在奋力追赶,主要客户 Alphabet 和微软也在自研 TPU 和 Maia 来阻挡其势头。虽然 AI 仍在热潮高峰期,并且 AI 发展的瓶颈仍受制于算力,但以 IT 行业的过往历史来看,一个技术栈的利润很难长期由底层硬件厂商攫取。

巨头的 AI 战略:微软、谷歌和 AWS 的不同路径

近两个月,从微软的 Build 2024 大会,到 Google 的 I/O 2024 大会,再到最近的苹果 WWDC 2024 大会,几家巨头都发布了各自的 AI 战略。

公有云三巨头 AWS、Azure 和 GCP 借着 AI 的东风,从客户优化成本导致的收入下滑中恢复了过来。然而,在 AI 战略上,三家走出了不同的道路:

  • 微软的 AI 技术栈:底层芯片使用 Nvidia,云服务为自家的 Azure,模型依赖合作伙伴 OpenAI,LLM 平台是 Azure MaaS,应用有自家的 Copilot,同时依赖于第三方应用厂商。

  • AWS 的 AI 技术栈:芯片也是 Nvidia,云服务为自家的 AWS,模型依赖第三方,LLM 平台是 Bedrock,应用依赖于第三方。
  • Google 的 AI 技术栈:芯片为自家 TPUs,云服务为自家的 GCP,模型是自家的 Gemini,LLM 平台是 Vertex AI,应用是自己的全家桶。
可以看出,Google 走的是标准的垂直集成路线,整个 AI 技术栈都是自家的,好处是容易控制最终质量。如果未来 LLM 没有商品化,性能和效果长期达不到期望,强集成的技术路线能提供最优的质量。
AWS 则延续了公有云的业务模型,走坚定的 IaaS 和 PaaS 托管路线,不生产内容,赚的就是托管钱。
微软的AI战略最为复杂,这源于其多元化的业务模式。一方面,微软拥有 Azure 的公有云业务,另一方面还包括 Microsoft 365 的 SaaS 业务和 PC 业务。因此,在云端,微软可以被视为 AWS 和 Google 的结合体,不仅通过 Azure 与 Azure MaaS 提供 IaaS 和 AI API 服务,还通过 Copilot AI 功能赋能所有的 SaaS 业务。

Meta 和 AI 开源:社交网络的广告巨头

另外还有 AI 开源领域的最大贡献者 Meta,其核心业务是基于社交网络的广告业务。通过开源 Llama,将与其互补的底层 LLM 算法商品化,最有利于其商业目的,类似于早期 Wintel 联盟致力于将 PC 层商品化。

在 AI 被视为科技大厂生死线的情况下,微软、Google 和 AWS 能选择不同的 AI 战略是非常值得尊敬的。反观国内大厂,都是一个套路……

微软的 Copilot+PC 战略:重振 PC 市场

在 Build 2024 大会前,微软发布了 Copilot+PC 战略,试图一举扭转近几年 PC 不温不火的状态。先是发布了性能标准:40TOPS 以上的 NPU、内存 16GB 以上和 256GB 以上的 SSD。然后携手 Intel、AMD 和高通三套芯片方案,一举发布了几十款 AIPC。在随后的台北 Computex 2024 展会上,几乎成了 AIPC 的新品发布会合集。

在 Copilot+PC 发布会上,微软主要发布了 Recall、Copilot 画图和实时翻译三项 AI 功能,并且提供了 Copilot+Runtime 技术栈,来协助开发者在 PC 上开发 AI 应用,以期继续强化 Windows 的平台地位。

微软计划用在 AIPC 上的模型 Phi-3 的起步版 Phi-3-mini是 38亿参数,Phi-3-small 和 Phi-3-medium 分别是70 亿 和 140 亿参数。

作为 AIPC 旗舰功能的 Recall,虽然预览即拉跨,被锤爆了安全问题,截图和数据库都是明文存放也没有额外的访问控制 https://github.com/xaitax/TotalRecall
Windows Recall将数据存储在本地一个未加密的 SQLite 数据库中,屏幕截图也是简单的存放在本地一个文件夹中,你可以在这儿找到它们:
C:\Users\$USER\AppData\Local\CoreAIPlatform.00\UKP\{GUID}
图片都存储在下面这个子文件夹中
.\ImageStore\
下面是 SQLite 数据库 ukg.db 。

但从战略上看,AIPC 无疑是一着妙棋。与传统软件不同,LLM 每一次推理的边际成本并非趋近于零。通过云端处理,无论是对软件厂商的成本,还是对三大公有云厂商的资本开支,都是巨大的压力。充分利用终端算力,将成本转嫁给最终用户,是一招高明之举。微软对 AIPC 设置标准算力要求,也是为了商品化 AI 边缘算力平台,使软件厂商更容易利用终端算力。

苹果的 Apple Intelligence:用户体验为先

在苹果 WWDC 2024 大会上,苹果如期发布了自己的 AI 战略,非常苹果范的又给起了个不一样的名字 Apple Intelligence。

与聊天形式的 ChatGPT 相反,Apple Intelligence 没有原始的 prompt 输入和结果输出,所有功能都被隐藏在原来的 UI 之下,严格限定了使用场景。体现了苹果用户体验第一的理念,在 LLM 的进展尚不能另人满意的情况下,通过限定场景来提高质量稳定性。

在架构上,终端设备上有两个 LLM,一个处理语言,一个处理图片。文字模型有 30 亿个参数,经过优化,在 iPhone 15 Pro 上 time-to-first-token 时延可以做到 0.6 毫秒,每秒钟能生成 30 个 tokens。本地算力不够时使用云端的 Private Cloud Compute,云端使用与设备上一致的 Apple silicon 硬件,既保证隐私,又提高能源效率。

AI的未来发展充满了不确定性,但其在增强人类能力方面的潜力无疑是巨大的。正如乔布斯曾比喻计算机是人脑的自行车,而如今,AI 将成为人脑的自动驾驶汽车。

文章来源: https://mp.weixin.qq.com/s?__biz=MzUzOTI4NDQ3NA==&mid=2247484617&idx=1&sn=512c7fab80065d9e269b44a2c7ef7498&chksm=facb825ccdbc0b4a1bb96e573502a5d11b71e5b901bd4ba4171857fcdf8377302d5f70a08024&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh