GPTs、中间层、Chatbot 虚拟社交、AI Agent,大模型应用最新方向解析
距离上次写大模型应用的文章已经过去了大半年:
这期间 AI 如火如荼,虽然我个人感知大模型应用生态并没有太多变化,但还是想记录下近期在大模型应用现象上的观察和浅显见解。
这篇文章会从 GPTs、大模型中间层(Dify、Coze)、大火的虚拟社交(Character.AI 等)聊到 AI Agent、大模型的多模态能力、产品推荐,涵盖了 23 年下半年至今大模型应用领域的最新进展。
全文 8500 字,enjoy~
2023 年 11 月的 OpenAI 开发者大会上,OpenAI 推出了 GPTs,其本质是鼓励用户对 ChatGPT 进行 Prompt、数据深度定制并分享给社区中的其他用户使用(有些 Notion 社区创作者分享、售卖模板的意思),也减轻其他用户定制成本。此外,GPTs 配置过程十分简单,用户无需拥有代码能力,只需要定义好需求场景、定义好 Prompt 就可以完成初步定制。而想要 GPTs 更好用,则可以上传一些知识库数据,调用其他产品的 API。总体来说开发成本远低于 APP 和网页。
分享一个详细的 GPTs 配置教程:GPTs从入门、进阶、实践到防护的万字教程
开放以来,GPTs 的创建和使用一直受到 GPT Plus 账户限制,近期开放的 GPT Store 和市场上的排行网站没有太大区别。
结合了 GPTs 收录网站的信息,目前的 GPTs 大概有如下几类。在这些方面,某些 GPTs 确实被定制成了好用的小工具。
不过,下面才是我想表达的核心观点:
上述网站收录了 8 万多个 GPTs,很多需求小众、场景低频的,用户使用可能只是一时图个新鲜,缺乏持续使用动力。而真正有需求的场景(如数据分析、语言学习、图像生成、PDF 阅读等)则同质化严重(大家很容易想到一块去)、竞争激烈。
此外,大多数 GPTs 解决的诉求离大众消费场景较远、天花板低,难以形成规模效应。
GPTs 解决的问题和市面上已经在做的各类应用中 AI 助理形态有一定重合,而 GPTs 给用户的心理预期则更像是 ChatGPT 中即用即走的「小程序」。若面向大众消费端,创作者需要将能力进一层封装,产品形态上无法和 App Store 中已经积累了更多用户的应用、更易触达用户的应用去竞争。
打个比方,同样是周报生成器,用户是更愿意使用钉钉、飞书中集成的虚拟助手还是去 GPTs Store 中找到 GPTs 进行使用呢?而应用集成 GPTs 能力只是时间问题。
很难想象有多少会持续优化知识库提供优质服务。
不知道这个问题官方何时会出来解决。
除非拥有垂直领域的专业知识库和独家数据,否则 Bot 的制作并没有门槛。真要说体验上会有多大差异,普通大众感知不会特别强烈,也就是说大部分用户不会追求产品一定要模型达到 GPT-4 的能力。这就延伸出下面要说的中间层了。
目前国内比较明星的产品有两个:Dify 于 23 年 5 月推出,字节 12 月上线了类似的产品 Coze。这类产品能够接入多个大模型能力,并通过可视化编排,基于任何 LLM 部署自己版本的 Assistants API 和 GPT。这些产品提供的定制能力是远远强于 ChatGPT 的 GPTs 的,目前还有可免费白嫖的 GPT-4 推荐使用。
降低集成难度。
中间层提供了简单的 API 接口,开发者可以通过这些接口轻松地将大模型能力集成到自己的产品中,不需要自己训练搭建大模型,也不需要处理与大模型交互的复杂度。
Coze 还支持发布到多个平台作为 Bot 能力使用,这在开发者看来是非常有吸引力的一项功能
接入多个大模型,隔离大模型更新风险。
中间层可以对下游客户屏蔽大模型版本更新带来的影响,确保产品稳定性。
提供更多辅助功能。
中间层还可以提供日志、监控、数据标注等辅助功能,为开发者提供更多价值。
在 Coze 中可以看到公开的 Bots 及 Bots 的详细设置:
参考 Bilibili Assistant,我想尝试定制一个能为我总结 AI 领域最新趋势的 Bot。构建前可以先阅读 Coze 产品文档,比如官方给出了 Prompt 的写法建议:
首先,填写创建 Bot 的简单信息,头像可以使用 Coze 内置的 AI 能力生成:
Coze 中有许多已经内置好的 Plugins,我在此选择 Google 和 X 两个 Plugins:
按照官方建议撰写 Prompt,并且在右侧对话框进行测试,我的 Prompt 经过了大概 4-5 版的迭代:
迭代记录:
设置开场白、定时任务的功能:
经过我的测试,用 Coze 简单定制的 Bot 回复效果已经比 Perplexity 的效果好,特别是在调用 Google 搜索的结果上给了我很大的惊喜:
测试一:询问 24 年的 AI 产品更新
测试二:询问 MJV6 版本更新的具体内容
测试三:检索 X 推文
在 X 内容的总结上,回复时好时坏,只能达到 5 成可用状态。出现了一些啼笑皆非的状况,比如分不清 Adobe AI 和人工智能 AI,同样的问题过几天问返回的结果也一模一样等。我猜测这些问题是由于 Coze 中没法接入我的 X API Key 导致的,Prompt 的方式也让我无法更准确的定义接口调用方式。
定制这个 Bot 的初衷是当作 X 趋势生成器使用的,结果无心插柳柳成荫,做成了可以白嫖无限 GPT-4 额度的且比 Perplexity 更好用的 AI 搜索引擎,我已经在频繁使用了。
总的来说,Coze 的能力很复杂也很强大,但在深度定制 Bot 的能力上缺乏详细的指引,字节官方的文档虽然详细但对于多任务处理、Prompt 调试等没有给出更多建议,Plugin 部分的文档非技术人员看着还挺头晕的。帮助用户定制真正好用 Bot,大模型和中间层都还有挺长的路要走。
Chatbot 聊天机器人的赛道卷了多年,这一次在 LLM 的加持下再次爆发,Character.AI 为代表的虚拟陪伴 Chatbot 产品成为了热门赛道之一。许多团队在 GPT 出现之前就已经在筹备相关模型和产品了:Character.AI、Replika、国内团队 Minimax 的 Talkie、星野,都是头部选手,目前众多大厂也已经下场推出竞争产品。
该方向本质上也是「GPTs」,但是在立绘、对话沉浸感上都经过更多打磨。
观察头部产品,大部分用户的诉求围绕在下图这几个方向。
但当我翻看了小红书、贴吧,又蹲了几个国内内测产品的群后,基本上用户主动晒的内容都和荷尔蒙诉求有关。
目前虚拟陪伴产品的活跃和留存都很惊艳,但付费能力大多处于有待挖掘的状态。结合各方公布的数据,基本上目前粗略估计的情况是:头部产品日活在 100 万+,C.AI 做到了500 万+;次留基本可以做到 50% 以上,7 留在 30% 上下,是非常可观的。
但目前在商业化方面,Chatbot 类产品没有做得特别好。星野、Talkie 模仿了乙女游戏的抽卡付费,但其付费数据的不理想可能是内容过薄导致的。和 Dating 产品相比,Chatbot 产品刚需付费的场景少了很多,更多深度玩法还有待探索。
Replika 做重虚拟角色定制过程,强调角色唯一性。
而 Cai、Talike、星野、筑梦岛等一众产品则是提供众多 Bot 供用户选择,并支持 UGC 创建Bot并分发。
Aura 进入后虽然只有单个角色,但支持开启多个剧本的角色扮演,并且剧本由 AI 生成(降低了重复性)可以体验和较长文本的对话。唯一遗憾的是剧本中的人设、名称上都没有做到统一,让用户产生割裂感,在整体体验上不如乙女游戏中的剧情解锁丰富。
长期来看,模型能力是 Chatbot 类产品的核心,但图片、语音等多模态内容的丰富可以在一定程度上弥补模型能力的不足。
形象
产品表现层上,除了 Replika 使用了 3D 捏人,其他产品还处在快速大批量AI图片生产的阶段。(不过就过去一年元宇宙的观察,注重 3D 不一定是一个好方向,迭代速度慢、开发成本高,用户手捏的效率不必切换一个 Bo t低,另外国外的 3D 人物画风总让我觉得怪怪的😂)毕竟是竞争激烈的 2C 赛道,用户非常「看脸」。
值得一提的是,爱塔的部分 Bot 率先使用了动图,让用户在刷 feeds 时的场景沉浸感更强。在 Pika、SVD 产品控制能力加强的趋势下,未来 Chatbot 立绘的动态化应该很快会被广泛采用。
语音
从表格中可以看到,最新推出的产品基本都配备了 TTS 能力,从数据和体验上看,语音能力能强化有助于用户留存。爱塔、星野在列表停留在某个人物时就会播放开场白,完全不需要看详细的人设就可以对人物有一定带入,美中不足的是对话时无法自动播放语音,否则体验还会更上一层楼。
以下纯属个人浅薄观点记录,不一定严谨准确,欢迎后台留言拍砖交流。
在保证模型记忆力的情况下,我认为情感陪伴类用户会在长期的筛选中选择 1-3 个心仪的 Agent 进行长期高频的沟通对话,同时会存在阶段性的替换需求(新鲜感过去了换个更好的聊)。但目前这类产品擦的倾向实在太高,未来国内监管的力度带来的影响不可知。
市场情况
总的来说,因为国内监管(对 NSFW 内容的限制)、国内外 2C 用户付费能力的差异(与其他互联网产品不同的是,大模型是有成本的,且短期内不会迅速降下来),大部分从业者应该都不太看好该方向在国内的发展。
海外 App Store 中这样的虚拟 18+ 产品已经一大把了,而国内毕竟拥有巨大的人口基数,且国内市场乙女向有《恋与制作人》《光与夜之恋》《橙光》等成功案例,加上情感陪伴底层诉求,Chatbot 的国内市场还是存在的。
此外,C.AI 形态的产品崛起让一部分用户涌向成本更低的 AI 虚拟人,极有可能会抢走一部分 IM、Dating APP 的活跃和时长(至于抢走多少可能还要看该赛道产品的未来发展)但倘若 IM、Dating 产品做这件事,又像是搬起石头砸了自己的脚,降低了平台上真实用户的连接机会,也会对已有的产品调性社区文化产生反噬,这里我持长期观望状态。
不过也许未来有天当 AI 内容不再稀缺,用户反而想要回归和真人的社交关系也并非不可能。
产品规模
单纯从国内市场而言,我认为这部分产品吃的是小众垂直强诉求的用户市场,用户量天花板不会特别高(具公开资料显示,Soul、探探巅峰期日活均在大百万级别、恋与日活 18 年 200 万,独立 Chatbot 产品应该不会超过这个上限了),因此其不会是大公司眼里 Top 级别的好生意。
为什么我们会看到大厂全都往这个方向挤?
我猜想还是看中了 CharacterAI 为首的产品拥有可观的留存与时长。今天的 2C 互联网早已变成注意力的生意,除了抖音以外的头部产品无不面临数据下跌带来的焦虑感,而 Chatbot 可能就是一剂短期止痛药。另外一个原因就是竞争对手都在做,无论如何都要入局做主动性防御。不过大公司基本都看重已有用户盘,因此比起做独立 APP,内嵌在已有产品中是更合适的形态。不过说不好未来会不会面临和 OS 系统厂商争抢市场的局面(这些年 OS 厂商在语音助手上的功夫也不是白下的,以及 OS 发布会也需要新的AI故事),因此如果真的想做这个方向的产品,更早出发较好。
前面提到过,对于已经拥有一定用户量级的产品来说,可以将 Chatbot 能力融合到具体场景,用户的使用会比较顺滑自然。像钉钉这类办公产品接入虚拟助手对话能力、GPTs 去为打工人提效是很有必要的。对于抖音这样的平台,Bot 定制能力适合开放给中小商家、视频直播达人等。比如培训机构、商家可以在 Coze 平台上定制虚拟客服,通过上传知识库让模型了解自家产品概况,在短视频、直播评论区、群聊场景辅助创作者进行问答、评论区互动、私域引流等,提升用户下单转换,能进一步增强抖音电商和群聊的能力。
之前也 YY 过,头部 KOL 适合用自己的 IP 做 ChatbotIP 定制,比如用户可以对李佳琦的 Bot 咨询护肤技巧、购买建议。至于陪伴类虚拟社交方向,估计乙女游戏已经看到了陪伴类虚拟社交产品的兴起,作为防御应该会在游戏中加入对话能力,进一步保证留存和用户时长。
在 PC 端,Raycast、Arc 均提供了快速向 ChatGPT 提问的能力。
同样的,在移动端如果能做到用户在不用点击加载应用就快速唤起大模型进行对话会更好,当然这个方向我目前想到的解法都更适合 OS 厂商去做。
拿 iOS 现有的交互简单发散几个可能的方案:
方案一激进派:用户可以将桌面某一屏设置成智能助理,并可以直接对话。锁屏页面解锁,智能助理已经将新信息归纳总结,也可以进入和智能助理对话的桌面查看并快捷处理信息。
方案二保守派:桌面下滑搜索改成和智能助理对话的功能,需要了解什么直接询问智能助理即可。相比于方案一没有那么激进,更适合智能助理能力有突破但还没那么接近 AGI 时的方案。
当然,这些都是理想情况的 YY 罢了,想要调动自身生态外的应用回传数据,实现难度可想而知。另外,如果过于强调效率,移动设备繁荣的应用生态失去了用户时长、广告收益,带来的种种的问题对 OS 厂商来说也是非常难解的。
准确的来说,AIAgent 指的是一种智能代理系统,它接近人类的大脑,可形成记忆、达成行动规划、自动交互、主动预测。
目前 AI Agent 的概念在市场上并没有达成共识,存在被广泛滥用的现象(很多 Chatbot 应用给 Bot 冠以「智能体」的名称,准确地说也是对 Agent 的误用)
个性化:随着用户的使用越来越了解用户习惯和想法,从而作出喜好预测。
可自主完成任务:
多 Agent 协作:
博主 @林亦LYi 的《AI 炒股?我开了一家员工全是 AI 的公司,自动帮我炒股》就在某种程度上实现了多 Agent 协作的能力
目前,AI Agent 应用大多集中在2B场景,面向个人消费者的产品少之又少。一方面是高度智能化的 Agent 能力需要打磨,概念落地还有较长一段距离;一方面是 AI 和娱乐消费诉求的结合还几乎没有,其主要带来的是生产方式变革和效率变革。个人消费者方向,目前只看到「私人助理」场景。
Dot 是目前看到的最接近理想 AI Agent 形态的 C 端私人助理。手机厂商、智能音箱炒了那么多年私人助手的概念,终于有像样的产品出现。在公开的案例中,Dot 支持用户发送文本和图像、音频信息并理解内容,它能够为用户制定计划、进行文件管理、推荐咖啡店,帮助用户访问互联网中的最新工具和服务,Dot 希望成为用户个体意识的延伸。其设计师是前 Apple 设计师 Jason Yuan。
虽然 Dot 看起来和 ChatGPT 一样也是将不同任务的对话进行分类,但在信息展示和动画设计上,Dot 的确更加亮眼。目前该产品需要排队较久的 waitlist,官方也较少更新动态。
23 年下半年,GPT、Gemini Pro 在发力多模态识别、多模态输出上发力,不管是移动版 ChatGPT 的语音功能、Dall·E3 的使用体验还是 Gemini Pro 的宣传片都相当亮眼。此外语义理解能力极大增强未来会逐步影响到应用层,相信未来只要通过 Prompt 控制生成的视频、音乐效果都会逐步得到改善。
此前模型的训练数据通常是由人类描写的图像文本和图像训练而成,而人类描写的文本内容倾向于简单描述,容易忽略图像背景中的大量细节:
于是 OpenAI 建立了一个图像标题生成器,通过建立拥有详尽图像文本描述的数据集进行模型训练来强化模型对图像的理解能力,下图中可以看出,训练的数据包含了从互联网上抓取的选定图像标题、SSC(合成的简短标题)、DSC(合成的长标题),长标题中不仅描述了图像的主题,还描述了它的周围环境,背景,图像中的文字,风格,颜色等。而这样的数据将大量用于 Dall·E3 的图像生成模型训练。
相信大家或多或少看过 Dall·E3 的使用案例,其在图片生成时对语义和上下文理解达到了令人吃惊的程度。在这里分享好友瑶酱使用 Dall·E3、MJV5.2、SD 对《小鸭子》童话故事进行的测试,可以看出相同提示词的情况下,Dall·E3 到底有多强:
据 Sam Altman 透露,GPT-5 将在推理能力、可靠性等方面远超 GPT-4,X 上部分用户透露的图片可以看出 GPT-5 将在多模态方面会增加视频、3D、GF capabilities 的支持1。
Google 前段时间公布了 Gemini AI 模型,虽然官方承认宣传片存在后期剪辑,视频中的效果还是着实惊艳到了大家。从 Google 披露的视频情况看,模型从对话到图像、视频理解、生成能力都有非常全面的提升,能够像人一样猜出地步藏着纸团的杯子是哪一个,和人类进行简单的游戏模拟,还能根据看到的两团毛线团生成针织品成品图。
甚至,可以根据视频内容写出代码:
目前,Google 披露 Gemini 将提供三种版本,Ultra、Pro 和 Nano,分别适应复杂任务、广泛场景和不同设备。
Ultra 版本是功能最强大的模型,能够在各种复杂任务中提供最先进的性能,包括推理和多模态任务(应该就是上述视频中展示的版本);Pro 版本在成本和延迟方面进行了性能优化,提供了广泛的任务上的显著性能;Nano 版本是最高效的模型,设计用于在设备上运行。训练了两个版本的 Nano,分别具有 1.8B(Nano-1)和 3.25B(Nano-2)参数,针对低内存和高内存设备。通过从更大的 Gemini 模型中蒸馏来训练,并且是 4 位量化以便于部署。
目前 Pro 版本开放了 API 供开发者集成。
目前市场上的大模型产品比较普遍的形态是插件和网页,这里选取这段时间我个人在使用同时在市场表现比较出众的几款产品分享。
该产品主打在所有网页双语翻译、PDF 文档对照阅读。因此前我用 OpenAITranslate 和浏览器自带的翻译能力比较多,沉浸式翻译作为一个备选工具在使用。不过最近新发现的一个能力非常打动我,可以一键开启网页中 YouTube 视频的双语字幕,因为 YouTube 自带的字幕翻译能力点击路径实在是太长了(得先开启字幕 -> 再在设置中找到字幕翻译 -> 滚动到最下方选择中文),这个功能会是今后我在 YouTube 视频观看场景的刚需(如果能接入 X 的视频就更好了)。
KimiAI 是由月之暗面科技有限公司开发的一款产品,其最大的特点在于超长文本(支持最多 20 万字的输入和输出)的处理和基于文件、链接内容对话的能力。用户可以上传 TXT、PDF、Word 文档、PPT 幻灯片、Excel 电子表格等格式的文件,KimiAI 能够阅读并理解相关内容,为用户提供基于文件内容的回复。该团队从超长文本处理的角度,精准切入其他大模型产品都不具备的特征和使用场景。目前我最主要的使用场景是阅读 AI 论文,偶尔会拿来提取信息量比较大的播客信息(不过这个场景被下方的通义听悟给替代了):
该工具集成了非常多的功能,包括聊天对话、PDF 翻译问答、YouTube 摘要、文生图等能力。很像是 ChatGPT、沉浸式翻译、Kimi 等多个产品能力集成到一起的工具箱。
甚至还集成了一些办公场景的实用工具:
值得一提的是,备忘功能(Memo)支持记录用户看过(总结过)的文章、视频,支持剪藏图片,作为个人知识库进行沉淀,这部分的内容也可以在聊天模块进行进行提问。
因功能全面,浏览器插件的形态使用方便,Monica 受到很多用户喜欢,Chrome 插件商店数据显示该插件一共有 100 万安装量。但由于我是在不太喜欢浏览器侧边常驻悬浮窗,在试用后就没再继续使用 Monica 了。
在对比了多个播客转文字的产品(飞书妙计、BiliGPT、memoAI)后,阿里出品的通义听悟无疑是体验最好的一个。其首页就突出了转录播客的功能,注册赠送 10 小时免费转录。
支持播客链接直接转录,准确率非常高。
此外,还能够在转录后自动生成问答回顾(很刚需,其实都免去了打开 Kimi 总结提问的那一步了)。选中文本,音频内容会自动定位到对应位置,基本上满足了我对播客内容转文字的所有诉求。
这是一款心情笔记 APP,是目前大模型应用中能够较精准面向 2C 需求的产品。在已有笔记产品基础之上,心光最大的特色在于记录笔记之余提供了一系列 AI 能力。比如会通过 AI 为用户的心情笔记进行主题聚类。
首次使用心光时,用户会自定义心光中一个非常重要的水晶球 AI 的角色(伴侣、朋友等)。在记录日记的同时用户可以通过个性化的水晶球AI抽取塔罗牌、求夸夸,获得AI的反馈,不过实际体验感觉部分回复还有些机械和模版化。
另外,每周来信是个我非常喜欢的功能,在持续的记录后,能有一个异步的总结反馈让用户感觉非常惊喜,也能激励用户持续使用下去。
心光搭载了部分本地化 AI 模型,为打消用户对隐私问题的疑虑,采取了数据上传 iCloud 的方式进行信息存储。目前该产品在仅有两人全职的情况下发布,功能完成度非常高,但 APP 在表现层 UI 层级上处理的没有那么好,加上功能较多,有时会找不到功能、看起来装饰性的图标其实是可点击的按钮等等,使用时会一点点心理负担。
虽说大模型诞生后没有带来新的需求场景,而是在原有场景中做改造,还是诞生了许多好用的产品,为内容生产、消费节约大量时间。24年,模型能力的进步应该会更快的渗透到具体应用中去,期待接下来的更多大模型能力的释放。
相关推荐
GPTs:
AI Agent:AI Agent 的千亿美金问题:如何重构 10 亿知识工作职业,掀起软件生产革命?
Chatbot 虚拟社交:
博主 @马丁的面包房 关于大模型应用赛道的多篇硬核文章,是目前看过最深度且全面的思考。
关联阅读
AI 视频系列:
语言大模型系列:搞懂语言大模型(番外):40+ 应用案例精选
商业创业:看完 Open AI 创始人的斯坦福创业课,我学到了什么?
产品趋势:
> 关注 少数派小红书,感受精彩数字生活 🍃
> 实用、好用的 正版软件,少数派为你呈现🚀