自研大模型与开源大模型的应用思考

自研大模型与开源大模型的应用思考
2024-8-15 20:8:52 Author: mp.weixin.qq.com(查看原文) 阅读量:4 收藏

这篇文章准确来说，应该叫沐神创业文章的读后感。

去年这个时间点，自研大模型如火如荼，业内戏称为百模大战。

自研大模型无疑是头部玩家的活儿。毕竟，需要算力，数据外加人才。

国外有openai，claude，谷歌跟meta都在自研大模型。

大企业自研大模型的战争

我跟小伙伴们内部讨论时，觉得国内这方面有机会的，很可能只有四巨头——百度，阿里，腾讯，字节。可能有小的创业公司出来，但应该不多。因为这个行业对资金的需求太大了。

这几家公司里，字节是必须要参与这场防守赛，因为AGI甚至可能颠覆字节现有的内容壁垒。本质上字节是一个供给与需求的双端网络。内容供给方的繁荣吸引了更多的使用者（内容需求方），使用者的增多进一步吸引了更多的内容供给方。当该网络形成后，挑战者必须解决内容供给问题。AGI带来了一种新型的内容供给可能。

对大模型的底座提供者而言，它的商业模式要成立必须解决几个问题：

大模型能力相对于ChatGPT怎么样（能力优势）
大模型本身的训练成本怎么样（成本）
API定价如何（收入）

以上三个问题，在今年的大模型价格战中已经展现出来了。

除了这三个基础财务问题外，还有个涉及效果验证的问题，你的客户触达渠道是啥？作为一种新技术，你能让足够多的客户来尝鲜使用么？

这里当初OpenAI为了证明大模型的能力，首先是开发了ChatGPT这样的应用来完成客户触达的，让大家知道大模型能用这么大的作用。然后它通过和微软云的合作，成为office背后的模型。之后建立了自己的应用市场。

国内的大模型玩家，其实也采用了跟OpenAI类似的路径。一方面自己下场，打造C端应用，充分展示大模型的能力，探索大模型的边界。像字节开发了豆包，阿里云开发了全民舞王这样的应用。另一方面，云厂商已经手握众多大客户，可以天然合作，支撑行业头部客户做典型应用。

毫无疑问，对云厂商而言，支持大模型是非常自然的。大模型服务可以拉动GPU的售卖，推动客户云预算的增长。对客户而言，通用大模型也降低了自己使用ai技术的成本，毕竟以前要使用ai，需要招聘一个单独的炼丹师，同时要为这个炼丹师提供数据，从头训练，还会面临结果的不确定性。

谈了这么多，我们其实一直在谈的是大公司的竞争策略。（OpenAI作为该行业事实上的标准，我们也归到大公司里面去了）

那对中小公司而言，它的竞争策略是啥呢？在此之前，聚光灯下我们已经看到了诸如来自月之暗面的kimi（着重解决长文本问题），来自智谱的ChatGLM（实质意义上的自研），来自百川智能的Baichuan2（开源大模型）。

沐神这篇文章让我们看到，一个不在聚光灯下的中小企业，在自研大模型这个赛道的另外一种可能性。

中小企业自研大模型之路

创业初期

沐神选择了自研大模型这个赛道。

第一件事就是买卡用卡。

沐神买了千张卡，“螃蟹吃到怀疑人生，遇到了各种匪夷所思的bug。例如GPU供电不足导致不稳定，后来靠超微工程师修改bios代码打上补丁；例如光纤的切开角度不对，导致通讯不稳定；例如Nvidia的推荐网络布局不是最优，我们重新做一个方案，后来Nvidia自己也采用了这个方案。至今我都不理解，我们就买了不到一千张卡，算小买家吧。但我们遇到的这些问题，难道大买家没遇到吗，为啥需要我们的debug？”

作为一个前码农，我第一次知道，原来光纤切开角度不对也是会影响程序运行的。

从这个角度来看，Nvidia确实是有护城河的。毕竟还有哪家公司能解决这么多稀奇古怪的问题呢？

最有意思的是，沐神他们选择了自建卡集群，而不是租卡。因为算下来，发现云服务太贵。

GPT4出现

对每个自研底座大模型的公司而言，GPT4出现都是个标志性事件。

之前的GPT是开源的，大家可以跟随。GPT3.5给大家的感觉是，这个模型，我要是有算力和数据，我也可以。而GPT4出来之后（没开源），大家的感觉是打不过。

沐神刚创业的第一个半年就遇到了GPT4的横空出世。

这个时候，沐神做了一个非常重要的决策。

“针对具体的需求去训练模型。一开始市面上没有好的开源模型，我们就从头训练，后来很多很好的模型出来了，降低了我们成本。然后针对业务场景设计评估方法，标数据，去看模型哪些地方不行，针对性提升。”

这里很有意思。

沐神决策是否要自研大模型的的原因是，市面上没有好的开源模型。所以，才会从头训练。然后要针对具体的需求。根据需求去训练模型（这个时候，你已经不能叫这个模型通用底座大模型了）。

打败GPT4

“23年年底时，惊喜发现我们的Photon（Boson的一种）系列模型在客户应用上的效果都打赢GPT4了。定制模型的好处是推理成本是调用API的1/10。虽然今天API已经便宜很多，但我们自己技术也同样在进步，仍然是1/10成本。另外，QPS，延时等都更好控制。这个阶段的认知是对于具体应用，我们是可以打赢市面最好模型的”。

打败GPT4的原因，是来自于

针对用户需求的专业领域训练
成本比GPT4更低

其实这里就是我们内部一直在思考的问题。

一个大模型应用成功的标志是什么？

首先，这个大模型应用要能完整的解决用户真实的问题。基于这个评判标准就能筛掉很多伪应用了。毕竟很多大模型应用连用户需求都没搞清楚

其次，你要能pk掉new bing和GPT4。因为你如果pk不掉这俩，别人没有任何使用你的理由。

“第四阶段是创业的第二个半年。虽然客户拿到了合同里要的模型，但还不是他们理想中的东西，因为GPT4还远不够。年初时发现针对单一应用训练，模型很难再次飞跃。回过头想，如果AGI是达到普通人类水平，客户要的是专业人士的水平。”

沐神创业的第四阶段，就是要解决大模型的专业能力问题。如果你只是达到GPT4，你比他便宜，算是一个优势。但，你能不能解决用户专业领域的需求呢？

你不能只是达到，在专业领域你要的是PK掉GPT4。

沐神是怎么实现这个目标的呢？

“年初我们设计了Higgs（上帝粒子，Boson的一种）系列模型。主打通用能力紧跟最好的模型，但在某个能力上突出。我们挑选的能力是角色扮演：扮演虚拟角色、扮演老师、扮演销售、扮演分析师等等。……

Higgs-V2是基于Llama3 base，然后做了完整的post-training。我们无法像Meta那样花大钱标注数据，所以V2比Llama3 Instruct好，原因应该还是主要来自算法的创新。”

沐神没有从头造轮子，而是以Llama3为底座，进行post traing。

我一直认为，Llama3的出现是除了GPT4出现的另外一个标志性事件。

这意味着，大家有一个非常不错的开源的底座模型。很多创新可以在这样的底座上涌现。

而不用重复造轮子。降低了大模型投入的门槛。

一些想法

前段时间，纳指回调，当红炸子鸡NVDA也调整了不少。大模型的财务增益并未在六巨头的财报中有任何体现。

大模型逐渐冷了下来。

不过，我对未来还是有一些信心。

大模型是有用的，而且一定会改变一些事情。

可能没那么快。但，必然会到来。而且不会特别远。

参见：

https://mp.weixin.qq.com/s/azL1mt-JluCVPtR6DbXITw 《沐神创业一年，人间三年》

文章来源: https://mp.weixin.qq.com/s?__biz=MzI1MjQwMTAyOQ==&mid=2247483866&idx=1&sn=e27587a573d4cb1f24a11580291f5c08&chksm=e9e50530de928c26d7ed49a8a03589d8fdf294233fcdc34048d75dea61864a4ff5c5bfaeea80&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh