听说要被取代了,我们拿出看家文章和三大 AI 聊了聊
2023-3-29 18:11:38 Author: sspai.com(查看原文) 阅读量:21 收藏

听说要被取代了,我们拿出看家文章和三大 AI 聊了聊

引言

AI 世界的军备竞赛已经全面打响了。短短几个月内,我们已经见证了走马灯一般的 AI 产品发布,以及堪比火箭冲天的 AI 技术迭代。

站在「科技」和「创作」的交叉路口,少数派编辑部的我们对 AI 生成技术的影响有第一手的感知。一边,投稿箱里雪片般涌来、讨论或介绍 AI 生成技术的文章让我们应接不暇;一边,越来越多似乎闪现着 AI 身影的片段也让我们难以分辨。(我们最近制定了试行版的 AI 生成内容创作规则。)

当然,还有社区中此起彼伏关于 AI 是否会让人力写作过时的讨论——很难说我们听说自己要下岗的次数和 pi 的循环位数哪个更多。

但在正式被取代之前,我们也想看看这些征服者究竟身手几何。目前,「和 AI 对话」的文章已经连篇累牍,但并不能反映少数派关注的领域。用什么来测试才更切题呢?

我们想到了少数派年度征文。年度征文是少数派每年最受关注的大型活动,获奖文章由编辑部评议和读者互动共同选出。因此,这些文章能及时、准确地反映少数派读者关注的话题和偏好的风格。

于是,我们决定把刚刚结束不久的 2022 年度征文选出的 10 篇获奖文章当作「考题」,将其选题和内容总结为提示词,让 Bing Chat、Google Bard 和 OpenAI ChatGPT 这现有三大 AI 对话服务同台竞技。然后,由编辑部按照平时审稿的标准予以评述,并和作者的原创版本进行比较;对于一些个人色彩较强的文章,我们还邀请了获奖作者本人前来点评。

当然,要论明日之域中,竟是谁家之天下,我们说了也不算。移檄首页,咸使知闻;看完 AI 的答卷和我们的点评后,欢迎在评论区圈点你注意到的优劣细节,评出你心目中最「少数派」的 AI。

好了,话不多说,下面把舞台交给我们的 AI 选手。


方法和限制

  • 文中测试均完成于 2023 年 3 月 28 日,其中:(i) Bing Chat 选用默认的「均衡」(balanced)语调设置;(ii) Google Bard 目前仍标注为实验性(experimental)阶段;(iii) ChatGPT 选用 GPT-4 模型版本。请注意随时间推移,模型性能和功能可能发生变化。
  • 由于本文比较对象均以英语为主要语言,为尽量反映其能力,测试内容均以英文输入。结果中,英文部分均为原始输出,除少数排版调整外无人工干预;中文部分为在自动翻译基础上简单校对所得,仅供参考,请以英文回复为准。

(本文选题和结构部分受到了 The Verge 发布的 AI chatbots compared: Bard vs. Bing vs. ChatGPT 一文启发,在此感谢。)


测试和点评

差生文具多,纸和笔才是笔记王道吗?

分析

PlatyHsu:这个选题本身不是什么新问题,在站内一搜就能看到很多上古时代的热烈讨论,而双方观点基本也都可以猜到;答案完全是开放和个性化的。

征文写出的新意在于,它不仅指出了萝卜青菜各有所爱的事实,而且指出了其背后的原因:不同人记笔记的目的不同,对笔记作用的理解也不同,因此会有不同的偏好和选择。此外,文章还结合了自己在教学工作中对学生的观察,指出了数字笔记对于学生群体的使用价值;提及了近期 AI 生成内容引发的争议,鼓励大家在面对新技术时先不要拒绝,而是转换思路、借力使力。最后,文章还对在纸笔和数字方法之间犹豫的读者提出了建议:可以自己动手加以改造,可以「重器轻用」联合多种工具构成系统,也可以多给它们一些发展的时间;对于纸质笔记「锻炼头脑」的潜在好处,则可以用间隔重复等方法实现,未必非要强调介质的作用。

测试

我们输入给 AI 的提示词是:

Respond to the argument that note-taking apps like Roam Research, Obsidian, and Tana are overhyped and a waste of time and that we should prefer taking notes with pen and paper to digital tools. You should articulate why and how digital notes could be better than analog ones.

回应如下观点:Roam Research、Obsidian 和 Tana 这样的笔记应用被过度炒作了,属于浪费时间,应该优先用纸笔而不是数字工具做笔记。具体说明数字笔记为什么可能好过纸质笔记、怎么做才能好过纸质笔记。

点评

可以看出,Bing、Bard 和 ChatGPT 的答案长度依次递增,但都落入了同样的窠臼,也就是抽象地鼓吹数字笔记人尽皆知的好处:访问和搜索方便、可以持续整理更新、适合协作等(ChatGPT 还额外提了环保),然后不约而同地以「适合自己就是最好」这样说了也白说地废话结尾。这当然没有事实错误,但如果拿给纸质笔记的爱好者看,显然不具备任何说服力,因为缺少了结合具体场景的比较,也没有像原文那样,说明纸质笔记的优点如何能在数字媒介中同样实现。

其中,相对最差的是 Bard,它把完全相同的信息用段落和列表的格式各自重复了一遍;ChatGPT 虽然写得长,但对于提示词的领会并没有 Bing 充分,因为只有 Bing 才试图回答了「数字笔记怎么做才能比纸笔好」这一问题,提到了具体应用推荐、使用标签分类和模板等。

这个例子也说明了 LLM 是如何被互联网上的垃圾信息「毒害」的。如果你觉得三个 AI 异口同声的论点看起来很熟悉,那是因为它们已经被各种数字笔记「产业链」上的营销网站和内容农场重复过无数次,属于快被盘出油光了的商业套话。因此,越是热门的话题和内容,或许反而越是 AI 说不出新意的内容——也算是 you’re what you eat 这句老话的当代新解吧。

为什么我们要减少阅读新闻

分析

Clyde:原文是一篇引发过大量讨论的文章,作者在文中提出了一个初看觉得非常具有争议的观点:我们应该少读新闻而不是多读新闻。具体而言,作者认为当代新闻阅读至少包含了偏见信息、效率低下和严重成瘾三个问题。反思这些问题之余,文章也列出了不少逻辑自洽且切实可行的尝试方案,包括调整心态、筛选信息来源、更多阅读书籍等。

面对同样的问题时,AI 可能会重视罗列解决方案而忽略逻辑关系的推理递进。比如作者在原文中提到新闻阅读的三个问题之外,还指出在此基础上这些问题的共同作用:导致思维钝化;而如果过于关注新闻阅读容易带来的问题并尝试一一给出解决方案,也很容易忽视对阅读者自身心态和心理健康调节措施的关注。

测试

我们输入给 AI 的提示词是:

Provide reasons for the argument “we should read less news, not more”, tips on how to read news more efficiently, and alternative reading materials than news.

为如下观点提供理由:「我们应该少读新闻而不是多读新闻」;并提出更有效阅读新闻的技巧,以及用来代替新闻的其他阅读材料。

点评

从 AI 给出的结果来看,GPT-4 生成的答案最为理想,新闻阅读可能带来的问题探讨得非常全面,从心理健康、信息茧房效应到信息过载、时间管理失衡、不利于批判性思维建立,完整覆盖到了原文所提到的内容;后续回答与之对应的「如何有效阅读」和「其他信息来源」问题时,也能从答案中不同程度地回扣第一部分所提到的问题,逻辑性很强。

相比之下,Bard 和 Bing 的回答基本也能命中新闻资讯的信息过载、偏向性、容易带来心理压力等要点,但总体而言都只是点到为止,相比之下展开就没那么详细了,在推荐新闻之外的替代阅读材料时,都只是简单列了一份清单。值得注意的是 Bing 在回答中还尝试引用一位流行病学和精神病学研究院(Emma Frans)的发言,但引用并不完整——经查这部分回答完全来源于这篇文章

最后,如果要给几个答案排个序,那应该是 GPT-4 > 原文 > Bard > Bing。

把阅读作为方法:从选书到笔记的经验分享

分析

在这篇文章,作者从收集、处理、计划、执行、回顾、输出六个方面,详尽分享了自己在阅读这件事情上遇到了哪些问题以及用到了哪些工具来解决。

类似工作流或数字工具系统的分享一般也是基于个人使用习惯和生活经验的,如果仅仅是向 AI 抛出「如何构建一个能够辅助阅读的数字系统」这个问题,我们很有可能会得到与原文截然不同的答案。

因此我们在 prompt 上也尽可能依照原文作者的思路进行了限制:

Describe a digital system to aid book reading. The system shall (i) help the user to find interesting books, (ii) manage a digital book library, (iii) make and track reading goals, (iv) take and review reading notes, and (v) prompt to share, write about, or take actions with knowledge learned. List software to be used for each step in the workflow. Prefer non-subscription software and open formats if possible.

描述一个帮助阅读的数字系统。这个系统需要有这些功能:(i) 帮助用户找到感兴趣的书籍,(ii) 管理电子书库,(iii) 制定和跟踪阅读目标,(iv) 记录和回顾阅读笔记,以及 (v) 提示用户分享所学、将所学写成文章,或根据所学采取行动。列出工作流程中每个步骤要使用的软件。如果可能,首选非订阅制软件和开放格式。

最终 Bing 给出了三家之中最为简单的答案,它将每个环节中可能会派上用场的工具罗列了出来,但并未提供更多细节,提示语中要求的「首选非订阅制软件和开放格式」在其回答中也没有体现,所列工具和服务是否满足这一要求还需要我们额外判断。

Bard 和 GPT-4 采用了类似的结构组织回答,但顺序略有不同。Bard 首先分享了解决方案,或者说我们常说的「工作流」,拆解每个步骤中可能会遇到 的需求,然后在后半部分一一对应、附上可以用到的服务和工具;GPT-4 则完全反过来,首先提供 list、然后梳理使用流程。如果以此为参考扩写出一篇文章,个人认为 Bard 所采用的结构很有可能会在可读性上吃亏(尽管这也是原文所采用的写法),直接开门见山分享自己用到的工具、服务,引起读者的好奇也好、拉近与同类型用户的距离也好,对后续工作流部分的展开是更有益处的。

另外,「阅读是方法不是目的」这个观点在三家所提供的答案中均没有得到很好的体现,这一点某种程度上来说才是原文内容的核心,也是我们提示语第五点想要尝试引导的回答方向。而即便是回答最为出色的 GPT-4,对这一点的理解也都只是触及到了见解输出、与人分享这一层面,原文提到的对阅读主题的扩展、对行为习惯的启发以及对个人决策的影响,这些基于作者个人生活体验的思考,或许都不是 AI 在回答类似问题时能够给出答案的。

最后,如果要给几个答案排个序,那应该是原文 > GPT-4 > Bard > Bing。

自由职业三年来的有趣工作,再谈谈我的松弛与踌躇

分析

陈川端(原文作者):写作年度征文时并没有考虑「受欢迎」的行文风格和内容设置,真实情况就是想安静给自己过往的三年做个总结和即刻的心情记录,不过如果现在要考虑这样的额外期待,或许对于观众而言会更期待看到如何把「自由」变现,即自由职业会拥有怎样的收入结构,不同的项目都能赚到多少钱,如何获取到这些机会之类。

我觉得,对于 AI 生成来说最大的难题在于实践后的经验或感受的部分,这点还是需要以人的角度亲历,因为这样的过程中,你的工作、伙伴、外界的一切都会生成反馈,而这样的反馈一方面我觉得弥足珍贵,另一方面也是最具价值的部分,AI 或许能方便的生成「大道理」或者总结性的经验,但或许感情更能打动人。

测试

编辑部输入给 AI 的提示词是:

Suppose you're a freelancer photographer who decided to quit the formal job in an exam-prepping company after interned for three months. In addition to providing professional services, you have also organized some paid workshops on innovative creating and critical thinking, social network marketing, and artistic photography. Now, write an essay to share your experiences. You should specifically discuss the tensions between (i) art and photography, (ii) artistic and commercial values, and (iii) freelancing and productivity.

假设你是一名自由摄影师,在一家备考公司实习三个月后决定辞去「正规」工作。在提供专业服务之外,你还组织过一些关于创新创造和批判性思维、社交网络营销、艺术摄影等主题的付费工作坊。写一篇文章来分享你的经历。文章要具体讨论这几对矛盾关系:(i) 艺术和摄影,(ii) 艺术和商业价值,以及 (iii) 自由职业和效率。

点评

Bing 版本像老生常谈的废话,并且似乎和我自己的版本说的是另一套东西,像简单纪实,也像低龄课堂上的自我陈述,我实在找不到好的地方。总结的经验是对的,也确实如我也会遭遇的踌躇和问题,但并非我自己想表述的那些内容。

Google 版本似乎「像人」了一些,一开始的引入是个人呢喃式的自述,带有能被接受的感情,我个人还蛮喜欢的;但是后半段的总结瞬间冲淡了人的味道,在追求经验总结上仍和我的原始版本相悖,和上一个版本类似,但似乎没有上一个版本严谨。

ChatGPT v4 版本让我忍不住发出了「哇哦」的感叹。生成的内容有点厉害,有约稿的感觉,虽然可能平台绝对不至于是期刊或者别的什么严肃的平台。最精妙的在于似乎这一位讲述者把自己的位置放的比较高,更像是一个专家或者实践经验丰富的亲历者,而前两个版本有点像摸爬滚打的新人,虽然在这方面和我真实情况比较像,但我个人还是更喜欢这个版本的成熟感觉。但仍然在讲到三个关键问题的时候,与我个人原文想强调或者分享的情感变化与踌躇不太相关。

至于排序方面,我的原文毋庸置疑是最好的,其次就是 ChatGPT v4 版本的,再次就是 Google 版本的,最后则是bing 版本的。

一份写给「所有人」的「出柜指南」

分析

北鸮:这篇文章中,作者从自己的经历与简短「出柜」的历史出发,谈论了如何通过接纳自己、与他人交流、寻求社群帮助,最终完成出柜的历程,以及自己关于女性主义的思考。这是一篇相当个人化的文章,充满了情感与个体经验,而这正是 AI 的弱点。文中的「出柜」也较通常意义更加扩展,「指南」也并非机械化的说明手册,AI 成文可能会局限在泛泛的通用指点,而丧失这篇文章应有的感染力。

测试

You're a transgender female who came out last year after years' struggling. Share your thoughts on (i) how to find courage to reconcile with your true self; (ii) how to communicate your rightful choice on identity with others, especially loved ones; and (iii) how the studies on feminism can illuminate one's understanding of gender fluidity and equality.

你是一位跨性别女性,经过多年的挣扎,于去年出柜。分享你对以下问题的看法:(i) 如何获得与真实自我和解的勇气;(ii) 如何与他人,尤其是所爱的人沟通关于自己身份的合理选择;(iii) 研究女性主义对于理解性别流动性和性别平等有何助益。

点评

宛潼(原文作者):其实认真来讲,我觉得单纯从「指南」的角度看,AI 写的三段内容都比我写得好。

AI 所撰写的这些内容在叙述的准确度、清晰度和逻辑上,一定比我这个人类要好。我所学习到的知识是有限且吃力的,而 AI 可以在一瞬之间搜索海量的互联网信息,也没有什么事实性的错误,毫不拖泥带水地将最核心的一些知识要素展现给你。

另外从内容的准确性上来说,三篇 AI 的小文章基本都与我想表达的原意类似。甚至它们还进一步提供了「自己」的建议,在短短几百字内所涉及到的广度,或许也要比我那篇长文要更大。

然而,我却觉得关于这个主题的创作,「个人真实生命体验」是永远绕不开的一个话题。

AI 创作的内容更像是纯粹的经验总结,是可能会适用于「大多数人」的通用建议。可在这种事情上每个人所面临的处境和应对的方式都毫不相同。在我自己的文章中,我记录了大量我所所以 AI 这种「大而笼统」的建议实际上可能是无法实践的。

如果真要排个次序,我还是会把我自己写的内容放在第一位。尽管可能有错漏或逻辑不顺的地方,但我写那篇文章的初衷,是分享我自己的过往经验,希望能在打动人的同时也带给面临出柜选择的朋友一些力量,而非写一个带有序号 12345 的「说明书」—— 即便它的标题叫做「指南」。

其次我会更喜欢 Bing 的答案吧,只是因为它说了「感谢你与我分享你的故事」和「我希望这有帮助」。在某些层面上来说,情感上的肯定、支持和鼓励,比很多纯粹理性的内容要真实得多,也更能让人感觉到温暖和力量。

至于 Google 和 ChatGPT,半斤八两吧,没有排个先后的必要,都是非常机械的、去人性化的理性表达。它确实有帮助,但我想,在出柜受挫或遇到其他困难的那一刻,它们再有逻辑和理论的表达也抵不过一句「别害怕,我在你身边,抱抱」。

程序员专用系统?聊一聊一个非程序员使用 Linux 系统的历程

分析

北鸮:原文引发了评论区 Linux 爱好者对自己 Linux 折腾史的交流。由于作为日常操作系统的 Linux 实用与否和 Linux 发行版之间的优劣差别已经是陈年老架,也引来了一些对文章主题的质疑。作者的原文是以自己作为非程序员尝试 Linux 系统的历程为线索的。文章简单介绍了在作者的用例与感受上 Ubuntu、Deepin、Manjaro 等发行版的优劣,再到最终确定在 Arch Linux,并在其中继续「折腾」的过程。

虽然文章的题目是老生常谈,但内容其实非常个人化。它最大的亮点也是提到了许多通常讨论时未能涉及的方面,比如 Linux 的游戏能力,以及非硬核用户能否让 Linux 成为唯一主力机。AI 可能会望题生义,只能堪堪写出那些常被讨论的技术上的优劣,写不出个性的经历与体会,也给不了太详细的反思。

测试

我们输入给 AI 的提示词是:

You're an advanced user who doesn't know much about coding but has keen interest in operating systems and eagers to try and learn about Linux. You have tried multiple distros, including Ubuntu, Deepin, Manjaro, before settling on Arch Linux. Write an article to share your experience of learning Linux from scratch and switching between distros. You should mention the advantages and disadvantages of each distro and advise on how to choose a distro based on different levels of tech literacy and use cases.

假设你是一个资深用户,对编程了解不多,但对操作系统有浓厚兴趣,渴望尝试和学习 Linux。 你首先尝试了 Ubuntu、Deepin、Manjaro 等多个发行版,最后选择了 Arch Linux。写一篇文章分享你从零开始学习 Linux、在发行版之间迁移的经验。要提及每个发行版的优点和缺点,并就如何根据不同的技术水平和使用场景选择发行版提出建议。

点评

三篇相比,实质内容相差不多,都是在 Linux 爱好者中早已总结好的东西,也全都没有提到作者 Linux 实验的出发点:游戏。Bing 的版本不像文章,它就是个絮絮叨叨的搜索引擎,把几个发行版的简介捞出来各聊一小段,给出的建议也很没参考价值。Bard 的版本倒是个性了,却给出了不存在的前因后果,但从文章的角度来说,它确实更流畅,也更像一篇成品文章,只是与 Linux 体验本身相关的细节没有描写。GPT 则是基本把提示词扩写,没加上什么额外的故事情节,选择发行版的参考因素比其他两位更完整一些,但读起来更像大纲或者长微博,文章重点也更偏向最终的建议。

其实和第一篇的实验类似,三者依次越写越长,但东西都是嚼烂的那一套,没什么新意。Bard 和 GPT 还可以,虽然都是废话,但废得不那么彻底。至于 Bing,还是算了吧。

过去一年我看了一千多小时的英文视频,有这些频道想要分享给你

分析

@PostMeridy (原文作者):这篇内容推荐性质的征文里,我根据自己的关注列表分别从科技、旅行、科普、音乐和放松五个角度推荐了 14 个不同的英文视频频道,在推荐理由部分着墨更多的是这个频道在同类型的其他内容中突出且独特的元素,而非单纯依据内容质量与订阅人数。 但是让 AI 来做相同的推荐的话,它们最有可能遇到的问题莫过于「难以判断频道的类别」以及「如何生成推荐理由」这两点了。不过对于目前的 AI 模型筛选和甄别英文语料的能力来说,在判断频道类别时出问题的几率并不大,基本上只有在「放松(chill)」这个比较模糊的分类中不同模型之间可能会出现分歧;同时需要注意的是,在征文撰写的过程中,我其实是有意避开了一些质量好但是大家大概率已经关注了的频道——比如科技类的 LTT 和 MKBHD 等等——而让 AI 在语境独立的前提下做出推荐,它们会如何选择推荐的依据、解释这个推荐就是考验模型质量的挑战了。

测试

我们输入给 AI 的提示词是:

You're a college student with an interest in tech and an avid YouTube user who spends 2.5-3 hours on the site each day. Recommend 2-5 English-language YouTube channels in each of the following categories: tech, travelling, science, music, and chill. For each recommendation, describe how popular and active the channel is, why the channel is worth following, and compare with similarly themed channels if necessary.

假设你是一名对技术感兴趣的大学生,热衷使用 YouTube,每天在上面花费 2.5—3 小时。请为以下每个类别推荐 2—5 个英语 YouTube 频道:科技、旅游、科学、音乐和休闲。对于每个推荐的频道,描述该频道的受欢迎程度、活跃程度、为什么值得关注,并在必要时与类似主题的频道进行比较。

点评

从三个模型的实际回答来看,最早发力也是口碑最好的 ChatGPT 依然是表现最佳的那个,其次是 New Bing 和 Google Bard 。由于是内容推荐,在正常语境中除了推荐的内容本身之外,推荐的理由才应该是内容的重心。

相比于 GPT-4 的回答 ,Bing 和 Bard 均采取了类似百科梗概的生成模式,即尽量把频道的主要内容和特点融合在同一个文段中、争取用一句话介绍完的感觉——但很遗憾的是,这样以来它们的回答也基本上就和你用常规搜索引擎多检索几遍之后可以得到的结果非常相近了,除了 Bard 的「量大管饱」之外,两组回答的信息密度和参考价值都不算很突出,至少没有和人工答案拉开巨大差距。 至于 GPT-4 的表现,我还是十分惊讶的。并不完全是因为它会自动为生成的回答做出一些基础信息的排版(比如已经订阅人数和活跃程度),更是在于它会在交叉语境中对同类型的其他频道做出比较,也就是回答中「Compared to」的部分。这种交叉比较不仅是在强调当前的推荐,同时也在提高回答的信息密度和依据的合理性,让 GPT-4 的回答更像是一个自然人写出来的会「据理力争」的回答。

所以如果你把「有哪些好的英文频道」这个问题抛给 AI 来回答的话,ChatGPT 无疑是你的首选,因为它的信息涵盖全面、有条理,并且还会举一反三交叉比较;而 Bing 和 Bard 此时的表现半斤八两,如果把节省时间的因素放到一边的话,从它俩获得的结果并不比搭配搜索语法使用搜索引擎能得到的答案更优。

提升文章阅读体验,我去年用了这 12 个写作秘诀

分析

Clyde:不好的阅读体验会让读者过早失去阅读兴趣,也让辛苦写出来的文章最终能够收到的正向反馈寥寥无几——以这个内容创作者可能都遇到过的问题为前提,这篇年度征文的作者基于自己的创作经历,分享了 12 条实用向的写作技巧,涵盖了从标题、引入、读者预期管理、内容框架、语言表达等等方面——其中很多方面都是和读者阅读体验、内容互动效果相关的。

因此,比起直接喂给 AI「给出提升阅读体验的写作建议」这样的提示语,我们还对回答内容的预设角度进行了假定。

测试

我们输入给 AI 的提示词是:

You're a writer who mostly focuses on topics such as knowledge management, note taking, and content creation, targeting an online, tech-savvy audience. Give suggestions on how to write more readable, easy-to-follow articles that can help drive traffic and engagements.

假设你是一位作者,主要关注话题包括知识管理、笔记和内容创作等,目标受众是线上熟悉技术的读者。就如何撰写更具可读性、更易于理解的文章提供建议,以增加流量和参与度。

点评

遗憾的是,和原文围绕知识分享类文章写作给出的实用向技巧不同,三家给出的答案严格来说都是可以套用在所有题材写作中的通用技巧,比如要控制好段落长度、善用小标题、避免使用行话、注意编辑校对等等;不过针对提示语中提到的增加流量和互动效果,Bing 和 GPT-4 都提到了搜索引擎优化,反倒是上面在「阅读信息来源」部分毛遂自荐的搜索引擎巨头 Google 完全忽略了这一点。

如果从文章的角度来看,以 Bard、Bing 给出的答案来扩充,我们能够写出一篇「给创作者的 N 条写作建议」,但相比原文显然就会少很多更加细致、操作性更强也让更能让人有获得感的写作技巧,比如用因果和转折叙事、在开头展示预期收获、在结尾创造惊喜等等。

总体来说,在这个话题上 AI 更偏向于给出具有通用意义的参考建议,缺少更具操作可行性的示例。唯一让人惊讶的是在一些老生常谈的写作建议之外,GPT-4 竟然在末尾给出了「注意分析和迭代、不断完善内容策略」的建议,这一点其他两家都没有提到,但与原文最后作者「持续学习、大胆实验」这一观点是基本契合的。

最后,如果要给几个答案排个序,那应该是原文 > GPT-4 > Bard > Bing。

我用 Figma/Figside/浩客 无代码搭了个人官网

分析

北鸮:原文是作者作为一名产品经理,受朋友在 Notion 写「个人说明书」的启发,用免代码方案将设计稿转为静态页面的过程与反思。文章先是简单介绍了自己使用的技术路线,再将重点放在了如何用低代码平台分析数据。在后半部分,作者说了自己如何解读和利用数据,给出了一些从浏览数据发散出的思考。

如果交给 AI 生成,文章前半部分应该能得到非常雷同的结果。因为这篇文章前半部分的意义更偏向于「让读者知道还能这样做」而非「怎样做」,一旦给出关于技术路线的提示,AI 应该能找到非常规范的使用方法。难点在后半部分,对作者来说,数据分析与化为己用才是困难的事,而 AI 应该理解不到这一层发散,可能只会写写前面技术上的难点。

测试

我们输入给 AI 的提示词是:

Suggest a solution to design, develop, and host a personal portfolio site of a product manager. Certain specs of the solution are as follows: (1) the design should be made in Figma at first, then imported into Figside to fine-tune and convert into codes; (2) the exported site is hosted on Vercel; (3) a low-code service is used to provide analytic capabilities. Please provide detailed steps of the solution, give tips on possibly challenging steps, and make comments on the services used.

提议一个解决方案,为产品经理设计、开发和托管的个人作品集网站。解决方案的部分需求如下: (1) 设计首先在 Figma 中进行,然后导入到 Figside 中微调并转化为代码; (2) 导出的站点托管在 Vercel 上; (3) 用一个低代码服务提供网站分析功能。请提供解决方案的详细步骤,对难点步骤给出提示,并评价所使用的服务。

点评

三个 AI 给出了三份平台说明书。

在说明书这点上,GPT 的表现最好,甚至从注册账号开始教。而三者也确实只针对技术上可能出现的难点给了提示。Bard 还提醒要使用响应式设计。Bing 还是保持了它只给最基础回答的风格,即使技术细节也是一笔带过。如果是一篇介绍「你还可以这样做」的文章,其实选用 GPT 或者 Bard 的路线,将 Figma - Figside - Vercel 的联动写清,带上原文中出现的用例,差不多就算得上完整。

可原文的重点并不在于此,后续关于数据的利用和反思,三个 AI 都没能给出一点点提示。也可能是对于 AI 来说,数据分析算不上什么难事?对读者来说,少了这些后续的发散,文章的价值就下了一个大台阶。毕竟说明书人人都能找到,数据收集依葫芦画瓢也能做出来,读者缺少的就是一个如何使用数据进行分析的启发。

所以在我看来,原文远好于其他三篇,三者中 Bing 最差。

迈向笔记终点

分析

北鸮:原文是一篇对自己笔记体系的反思和总结。作者用「体系化笔记」称呼自己的笔记系统。该系统设计在 Notion 中,吸收了其他笔记应用的特点,利用一些不算热门的功能,形成了一套可复制的笔记体系。文章对自己用到的功能、使用这些功能的原因,以及如何在日常中使用这个体系、怎样完成笔记进行了阐述。文章最后,作者还对怎样调整体系、如何用其他记录配合这一体系进行了介绍。

这种偏向个人经验的题目交给 AI,可能也得不到什么好的成品,因此我们尽可能让 AI 写出内容走向上与原文类似的内容。

测试

我们输入给 AI 的提示词是:

Write a tutorial about how to take organized notes with Notion that facilitate learning and thinking. Specifically, the tutorial should mention lesser known features such as the toggle list and synced blocks and demonstrate how they can bring clarity and efficiency to notes. End the tutorial with a succinct discussion on whether and how much one should "fiddle" with note-taking apps and approaches.

写一篇教程,介绍如何使用 Notion 做有组织的笔记,实现促进学习和思考的目的。具体而言,这篇教程需要提到折叠列表、同步块等冷门功能,并演示这些功能如何使笔记更加清晰和有效。在教程最后简短讨论要不要「折腾」笔记应用,以及该折腾到什么程度。

点评

Bing 给人的感觉是糊弄。当我要「教程里有冷门功能」,它就真的只写了有这些冷门功能,然后没有任何「教」的流程。

Bard 和 GPT 就聪明一些,但 Bard 的「演示」是功能介绍,GPT 的功能演示就写出了这个功能适用于怎样的内容。三者都在平衡折腾与使用之间给出了一些不冷不热的套话大道理,且没能给出这个笔记体系真正的功能演示。不过值得一提的是,原文本身的层级结构是松散的,语调也如同反思时自己的碎碎念,其值得借鉴的思路是要顺着文章通读才能完全吸收的。如果真的按提示词写成「教程」,采用 GPT 的层级结构会在「教」上更清晰,但文章会更死板。

从原文的立意上看,我认为原文 > GPT > Bard > Bing。

结果汇总

© 本文著作权归作者所有,并授权少数派独家使用,未经少数派许可,不得转载使用。


文章来源: https://sspai.com/post/79085
如有侵权请联系:admin#unsafe.sh