最近Anthropic的Claude大火,发布了一个通过AI操作电脑桌面的能力。我很开心的终于有人做这个了。那我就披露一个在18个月前(看了下视频的时间是2023年5月10日)我们给投资人看的一个技术demo吧。时至今日已经将近一年半时间了,AI的发展真是日新月异啊。
熟悉我们的朋友应该知道,我们的第一代产品魁星是一个Chatbot,我给它的定位是Copilot。实际上当时我们还研发了第二个产品,我称之为Autopilot,就是视频里演示的这个。
做这个Autopilot的原因出于几个:
首先,我不想去卷基础大模型,同时我意识到在基础大模型之上应该还有个东西,来解决大模型精度不足的问题。现在业界的发展不管是GPT-o1还是Claude,基本上都印证了我的想法。实现让AI自动控制工作流、编排各种工具,是这一层的工作。最近ComfyUI这些工具出来,都是在往这个方向发展。
其次,通过AI和RPA(自动化流程机器人)结合,能够盘活PC时代留下的几百万个单机软件,这是笔巨大的财富。实现对于工具的自动编排,就能进一步放大AI的价值。出于这个考虑,我们在kOS架构里还留了一个“Tools Library”,未来要做工具的自动学习(ATL,Automatic Tools Learning),很多人没问过我这个是什么(注意右下角),其实根源在这里。
最后,视频里的demo是通过调用了软件的一些API,已经通过控制键盘鼠标的特定坐标来实现的,这依然是一个专家系统。当时思考了一个更通用的实现方式:通过截屏,来实现对屏幕图像的模式识别,从而结构化一个图形软件的界面功能,让AI理解每个button的作用。这件事情恰恰就是今天Claude在做的。当然这件事情需要很多钱。
18个月前,我的这些想法太超前,很多人不理解,现在时过境迁,终于可以披露18个月前的一些技术思考,可以回头说说了。祝贺Athropic,希望他们在AGI的道路上继续前进。而我们KMind也已经找到了自己的方向,有自己的战略,将坚定的执行下去。
BTW:“快找找”的App已经在各大应用市场上架,大家可以下载了。出于我们运营策略的考虑,我们接下来不会再做任何产品的PR了。谢谢所有关心、信任我们的人。我们继续努力!