GLM-PC :一次关于 PC「无人驾驶」的探索除了手机和浏览器,智谱还带来了基于 PC 的自主 Agent——GLM-PC。这是智谱在「无人驾驶」PC 领域的技术探索,基于其多模态模型 CogAgent 开发。GLM-PC 目前已经开始第一阶段的内测,提供多项核心功能,包括帮助用户预定和参与会议,并自动发送会议总结;支持文档处理,如下载、发送、理解和总结文档;在指定平台(如微信公众号、知乎、小红书等)进行关键词搜索并完成总结;具备远程和定时操作功能,支持远程发指令并执行电脑任务,或在设定时间自动完成任务;此外,GLM-PC 还引入「隐形屏幕」模式,能够在用户工作时自主完成任务,释放屏幕使用空间。「无人驾驶」电脑|视频来源:智谱GLM-PC 的设计理念是模拟人类的电脑使用方式——眼睛观察屏幕、脑海中进行规划,再通过手部操作执行指令。凭借这一设计,GLM-PC 能够完成复杂的 PC 任务,甚至可以自主学习和执行所有为人类设计的应用,表现出跨平台的强大能力。这是一种系统级、跨平台的能力,不依赖于 HTML、API,具备更高的能力上限。不过,智能体在执行复杂业务流程时,通常需要调动大量数据和应用程序,但由于许多网站和 APP 的 API 缺乏统一标准,这就会让企业在集成智能体时面临一些挑战。对于这一点,智谱 AutoGLM 技术负责人刘潇指出,AutoGLM 通过图形化用户交互界面来解决这一问题,而非依赖传统的API调用。与传统 API 集成容易因应用更新而导致失效不同,AutoGLM 模拟人类的操作方式,只要应用界面保持用户可理解并且易于使用,智能体就能够在该界面上顺利执行任务,从而规避了 API 标准化不足带来的问题。由于 PC 任务的复杂性,目前 GLM-PC 还需要用户输入精准指令,距离全面替代人工办公还有一定差距。但随着技术的不断进步,GLM-PC 的能力将进一步增强,未来有望为用户提供更为高效、直观的 PC 操作体验。