AI iPhone 前奏？苹果多模态大模型曝光，生成式 AI 赛道再起战火

AI iPhone 前奏？苹果多模态大模型曝光，生成式 AI 赛道再起战火 | Hunt Good 周报
2023-12-25 21:1:39 Author: 爱范儿(查看原文) 阅读量:24 收藏

欢迎收看最新一期的 Hunt Good 周报！

在本期内容你会看到：

4 条新鲜资讯
4 个有用工具
3 个鲜明观点
1 个有趣案例

Hunt for News｜先进头条

🤖 Altman 再回应 AGI 话题，OpenAI 新估值超千亿美元

近日，OpenAI 「掌门人」Sam Altman 在社交平台 X 上提出了一个耐人寻味的问题：「你期望 OpenAI 在 2024 年开发/改进什么？」

两个小时后，Altman 总结了网友常见的请求，看看符不符合你的心声 👇

AGI（请耐心等待）

GPT-5

更好的语音模式

提高速率限制

升级的 GPTs

更强大的推理能力

控制觉醒程度/行为的程度

视频支持

个性化定制

优化的浏览体验

「使用 OpenAI 登录」功能

开源

值得注意的是，Sam Altman 再次回应了关于 AGI 的话题，他表示：「哇，前两分钟对于 AGI 的请求比预期的要多得多；很抱歉让你失望，但我认为我们在2024年内无法实现这一目标......」

另外，据彭博社报道，OpenAI 正计划进行新一轮融资，估值预计将超过 1000 亿美元，如若成功，这意味着 OpenAI 将成为仅次于字节跳动和 SpaceX 的全球第三大初创公司。

匿名知情人士透露，参与本轮融资的投资者已经开始初步讨论，但具体的融资条款、估值和时间安排等细节尚未最终确定，可能仍会发生变化。对于此类消息，OpenAI 官方则拒绝置评。

🔗 https://twitter.com/sama/status/1738639394800906381

📱 AI iPhone 前奏？苹果正积极探索生成式 AI 领域

上周，一向静默的苹果在生成式 AI 赛道上动作频频，不光发表两篇变革性论文，还积极洽谈新闻主要出版商，以取得内容许可协助开发 AI 系统。

第一篇论文的重点是如何从一段短视频中高效生成「数字分身」，真实感和速度均超越了现有方法。

论文地址入口：https://arxiv.org/pdf/2311.17910.pdf?utm\_source=www.therundown.ai&utm\_medium=referral&utm\_campaign=apple-develops-mobile-ai-breakthrough

第二篇论文则详细介绍了一种可以解决「在手机内存上运行大模型」的方法，这为在有限的移动设备内存条件下实现高效运行大型模型提供了新的思路和技术路径。

论文地址入口：https://arxiv.org/pdf/2312.11514.pdf?utm\_source=www.therundown.ai&utm\_medium=referral&utm\_campaign=apple-develops-mobile-ai-breakthrough

值得注意的是，据 @xiaohuggg 博主分享，两周前，苹果发布了一个名为 Ferrett 的多模态大模型，该模型既能精准地识别图像并描述其内容，还能辨别和定位图像中的各种元素。

Ferret 有 7B 和 13B 两个版本。此外，为了增强模型的能力，苹果专门收集了一个名为 GRIT 数据集。该数据集包含了 1.1M 个样本，涵盖丰富的层次空间知识。

论文地址入口：https://arxiv.org/abs/2310.07704

这一系列举措也表明苹果正在全力以赴地投入到生成式 AI 领域，积极探索未来在 iPhone 等移动设备上整合先进的 AI 技术。当然，也希望不久后我们手上的 Siri 能够变得更加「聪明」。

🎮 哪个是你今年玩得最久的游戏?

近日，据游戏数据统计网站 HowLongToBeat 发布的「年终总结」榜单数据， PC 在玩家选择游戏平台上位居榜首，而任天堂 Switch 掌机则排名第二。

榜单数据显示，索尼的游戏主机包揽了第三到第五名，分别是 PlayStation 4、PlayStation 5 和 PlayStation 3。微软的 Xbox One、Xbox Series X / S 分别位居第五和第六名。

值得注意的是，2000 年发布的索尼 PlayStation 2 超过了2005 年发布的微软 Xbox 360，排名第八。

另外，该网站还发布了其他类别的「年度总结」榜单，比如「游玩时长最多的游戏」，一起来看看你有玩过这些游戏吗?

游玩时长最多游戏
- 《塞尔达传说：王国之泪》
- 《博德之门 3》
- 《八方旅人 2》
- 《星空》
- 《火焰之纹章：结合》
- 《最终幻想 16》
- 《霍格沃茨之遗》
- 《暗黑破坏神 4》
- 《匹诺曹的谎言》
- 《卧龙：苍天陨落》

🔗 https://howlongtobeat.com/forum/thread/2921/1

👏 国家大模型标准测试通过名单公布，腾讯、阿里、百度、360 入选

12 月 22 日，全国首个官方「大模型标准符合性测试」结果公布，腾讯混元大模型、百度文心大模型、阿里通义千问、360 智脑大模型成为首批通过评测的四款国产大模型。

据阿里云公众号介绍，「大模型标准符合性评测」由中国电子技术标准化研究院发起，旨在建立中国大模型标准符合性名录，引领人工智能产业健康有序发展。

该评测对外征集了学术界、产业界几十家头部单位意见，覆盖评估语言大模型通用性、智能性的 38 项具体评测维度，是基于官方大模型测试基准的权威评测。

🔗 https://mp.weixin.qq.com/s/rqUgy24tGlipUU1T8oP9Cg

Hunt for Tools｜先进工具

🥰 Midjourney 大更新，图像生成更加真实

筹备了九个月，近日 Midjourney 官方在 Discord 服务器上宣布正式推出 Midjourney V6 的 alpha 版本，可以在 /settings下拉菜单中选择 V6 或在提示符后键入--v6 启用该版本。

Midjourney 约 20 个月的图像进化史

据官方介绍，新版本可以生成比以往更加真实的图像，对文本提示有了更直观的理解，具备轻微的文本绘制能力，分辨率也提高了两倍等。

网友也分享了由新版本生成的更多图像 👇

向左滑动查看更多内容

此外，官方表示，新版本的速度、图像质量、连贯性、提示跟随性和文本准确性将在接下来的几周内陆续得到改善。

🔗 https://twitter.com/AiBreakfast/status/1738259185085583427

👀 Google 发布全新多模态大语言模型 VideoPoet

Google 新发布的 VideoPoet，是基于多模态大语言模型的技术，这款 LLM 应用可以执行多种视频生成任务，例如文本生成视频、图像生成视频、视频风格化以及修补和扩展功能，甚至视频到音频的转化 VideoPoet 都能胜任。

根据博主@歸藏的 AI 工具箱介绍，VideoPoet 不同于扩散方法的其他模型，它可以将多个视频生成功能集中到单个 LLM （大语言模型）中，并且利用 LLM 训练基础设施来提高生成效率。

因此，扩散模型支持的功能 VideoPoet 几乎都可以完成，其中比较亮眼的功能为：能够从视频内容中获取信息自动生成环境音频；通过深度和光线信息将视频转换为其他风格；用视频的最后一秒来预测下一秒的内容，以此生成一条长视频等。

VideoPoet 通过类似的方法可以连续生成视频内容，并且能在数次重复生成中，与现有视频保持连贯性。Google 也放出了 VideoPoet 的相关论文，更多细节欢迎查看 👇

论文地址入口：https://arxiv.org/abs/2312.14125

🎵 微软 Copilot 增添即时生成 AI 音乐功能

近日，微软宣布与 AI 音乐创作平台 Suno 达成合作，并将其功能引入 Copilot，允许用户通过文本生成多种类型的音乐。

Copilot 用户只需打开微软 Edge 浏览器、访问 Copilot.Microsoft.com、登录自己的帐户并启用 Suno 插件，或者单击「用 Suno 制作音乐」的 logo，就能开始创作。

我们也用 AI 翻唱周杰伦圣诞星，让我们来看看微软能有天王的几成功力？

https://www.therundown.ai/p/bill-gates-2024-ai-predictions

Hunt for insights｜先知

💡 比尔·盖茨年度展望：2024，时代的转折点

比尔·盖茨近日发表了 2024 的年度展望，表示未来之路将在 2024 年迎来转折点。

在比尔·盖茨看来，2023 年是个极为特别的年份，这不仅是他成为祖父的一年，也是他首次在工作及其他正式场合应用人工智能的一年。

比尔·盖茨说道：「这是一个令人兴奋和困惑的时代，如果你还没有想好如何充分利用人工智能，那你并不孤单。」

这一年，他也深刻思考了人工智能如何塑造我们的未来，尤其是在医疗、教育和心理健康等领域的应用，以及它如何有助于减少全球不平等现象。

「在如何让人工智能更加公平方面，我们可以从全球健康领域学到很多东西。最主要的经验是，产品必须针对使用人群量身定制。」

😍 图灵奖得主：聊天机器人让创造力更加平民化

近日，图灵奖得主 Yann LeCun 接受了《连线》杂志的采访。当被问及「不看好」机器学习的原因时， Yann LeCun 表示，机器学习本身是一项很好的技术，但不能仅仅通过扩大现有的方法规模来实现人类水平的人工智能。

此外，在他看来，人工智能将给世界带来很多好处，但有些人正在利用对这项技术的恐惧，让我们面临远离它的风险。

在提到聊天机器人是否会取代人类工作的话题时，Yann LeCun 称，聊天机器人在某种程度上使创造力更加平民化，他们能够生成非常流畅、风格很好的文本，但它们很无聊，而且创造的内容有可能是完全错误的。

🔗 https://www.wired.com/story/artificial-intelligence-meta-yann-lecun-interview/

🧬 微软 CEO 纳德拉：AI 设计确保人类主导

在最近与 NPR（全国公共广播电台）的 Steve Inskeep （主持人）的采访中，微软 CEO Satya Nadella 分享了他对人工智能未来以及设计理念的看法。

Nadella 表示，2023 年将被视作我们开始使用人工智能的重要一年，它已经成为我们生活的一部分。

在 Nadella 看来，微软做出的一个重大设计决策，是将人工智能看作是副驾驶员，而不是自动驾驶。设计的理念是确保人类保持掌控，人的主动性和判断力仍然是核心，然后我们围绕这个核心构建产品。

🔗 https://www.kosu.org/technology/2023-12-22/microsoft-ceo-satya-nadella-discusses-the-promise-and-potential-perils-of-ai

Hunt for Fun｜先行

在之前的文章中，我们曾分享过 DALL·E 3 不少生图的小诀窍。今天，我们继续来介绍如何让 DALL·E 3 生成具有「糖人画」风格的图片。

让我们首先欣赏一些网友的杰作 👇

向左滑动查看更多内容

提示词非常简单：A top view of a photorealistic [COLOR（颜色）] liquid spill on a flat surface, the puddle forming the exact shape of [PROMPT（想要生成的事物）], with light reflecting through it to enhance its translucent and glossy appearance

快去尝试吧！

🔗 https://twitter.com/umesh\_ai/status/1738505691206410707

彩蛋时间

感受一下 Midjourney V6 的《黑悟空》式画风。

向左滑动查看更多内容

作者：@op7418

工具：Midjourney

提示词：[scenery],[season], [weather], [mood]::3, Chinese style, mist, natural lighting, Epic, realistic, octane render, beautifully detailed, light diffusion, cinematic shading, cinematic elements

链接：https://twitter.com/op7418/status/1738144842658795780

文章来源: http://mp.weixin.qq.com/s?__biz=MjgzMTAwODI0MA==&mid=2652317864&idx=2&sn=a4dac3ec67881f1c8da37fa6e1f994e7&chksm=9a5d1e1bb607aa7b0029b0607bc48715acd39b3061a3715fa906126dd758b02eb27f32526a66&scene=0&xtrack=1#rd
如有侵权请联系:admin#unsafe.sh