自研大模型与开源大模型的应用思考
2024-8-15 20:8:52 Author: mp.weixin.qq.com(查看原文) 阅读量:4 收藏

这篇文章准确来说,应该叫沐神创业文章的读后感。

去年这个时间点,自研大模型如火如荼,业内戏称为百模大战。

自研大模型无疑是头部玩家的活儿。毕竟,需要算力,数据外加人才。

国外有openai,claude,谷歌跟meta都在自研大模型。

大企业自研大模型的战争

我跟小伙伴们内部讨论时,觉得国内这方面有机会的,很可能只有四巨头——百度,阿里,腾讯,字节。可能有小的创业公司出来,但应该不多。因为这个行业对资金的需求太大了。

这几家公司里,字节是必须要参与这场防守赛,因为AGI甚至可能颠覆字节现有的内容壁垒。本质上字节是一个供给与需求的双端网络。内容供给方的繁荣吸引了更多的使用者(内容需求方),使用者的增多进一步吸引了更多的内容供给方。当该网络形成后,挑战者必须解决内容供给问题。AGI带来了一种新型的内容供给可能。

对大模型的底座提供者而言,它的商业模式要成立必须解决几个问题:

  • 大模型能力相对于ChatGPT怎么样(能力优势)

  • 大模型本身的训练成本怎么样(成本)

  • API定价如何(收入)

以上三个问题,在今年的大模型价格战中已经展现出来了。

除了这三个基础财务问题外,还有个涉及效果验证的问题,你的客户触达渠道是啥?作为一种新技术,你能让足够多的客户来尝鲜使用么

这里当初OpenAI为了证明大模型的能力,首先是开发了ChatGPT这样的应用来完成客户触达的,让大家知道大模型能用这么大的作用。然后它通过和微软云的合作,成为office背后的模型。之后建立了自己的应用市场。

国内的大模型玩家,其实也采用了跟OpenAI类似的路径。一方面自己下场,打造C端应用,充分展示大模型的能力,探索大模型的边界。像字节开发了豆包,阿里云开发了全民舞王这样的应用。另一方面,云厂商已经手握众多大客户,可以天然合作,支撑行业头部客户做典型应用

毫无疑问,对云厂商而言,支持大模型是非常自然的。大模型服务可以拉动GPU的售卖,推动客户云预算的增长。对客户而言,通用大模型也降低了自己使用ai技术的成本,毕竟以前要使用ai,需要招聘一个单独的炼丹师,同时要为这个炼丹师提供数据,从头训练,还会面临结果的不确定性。

谈了这么多,我们其实一直在谈的是大公司的竞争策略。(OpenAI作为该行业事实上的标准,我们也归到大公司里面去了)

那对中小公司而言,它的竞争策略是啥呢?在此之前,聚光灯下我们已经看到了诸如来自月之暗面 的kimi(着重解决长文本问题),来自智谱的ChatGLM(实质意义上的自研),来自百川智能的Baichuan2(开源大模型)。

沐神这篇文章让我们看到,一个不在聚光灯下的中小企业,在自研大模型这个赛道的另外一种可能性。

中小企业自研大模型之路

创业初期

沐神选择了自研大模型这个赛道。

第一件事就是买卡用卡。

沐神买了千张卡,“螃蟹吃到怀疑人生,遇到了各种匪夷所思的bug。例如GPU供电不足导致不稳定,后来靠超微工程师修改bios代码打上补丁;例如光纤的切开角度不对,导致通讯不稳定;例如Nvidia的推荐网络布局不是最优,我们重新做一个方案,后来Nvidia自己也采用了这个方案。至今我都不理解,我们就买了不到一千张卡,算小买家吧。但我们遇到的这些问题,难道大买家没遇到吗,为啥需要我们的debug?”

作为一个前码农,我第一次知道,原来光纤切开角度不对也是会影响程序运行的。

从这个角度来看,Nvidia确实是有护城河的。毕竟还有哪家公司能解决这么多稀奇古怪的问题呢?

最有意思的是,沐神他们选择了自建卡集群,而不是租卡。因为算下来,发现云服务太贵。

GPT4出现

对每个自研底座大模型的公司而言,GPT4出现都是个标志性事件

之前的GPT是开源的,大家可以跟随。GPT3.5给大家的感觉是,这个模型,我要是有算力和数据,我也可以。而GPT4出来之后(没开源),大家的感觉是打不过。

沐神刚创业的第一个半年就遇到了GPT4的横空出世。

这个时候,沐神做了一个非常重要的决策。

“针对具体的需求去训练模型。一开始市面上没有好的开源模型,我们就从头训练,后来很多很好的模型出来了,降低了我们成本。然后针对业务场景设计评估方法,标数据,去看模型哪些地方不行,针对性提升。”

这里很有意思。

沐神决策是否要自研大模型的的原因是,市面上没有好的开源模型。所以,才会从头训练。然后要针对具体的需求。根据需求去训练模型(这个时候,你已经不能叫这个模型通用底座大模型了)。

打败GPT4

“23年年底时,惊喜发现我们的Photon(Boson的一种)系列模型在客户应用上的效果都打赢GPT4了。定制模型的好处是推理成本是调用API的1/10。虽然今天API已经便宜很多,但我们自己技术也同样在进步,仍然是1/10成本。另外,QPS,延时等都更好控制。这个阶段的认知是对于具体应用,我们是可以打赢市面最好模型的”。

打败GPT4的原因,是来自于

  • 针对用户需求的专业领域训练

  • 成本比GPT4更低

其实这里就是我们内部一直在思考的问题。

一个大模型应用成功的标志是什么?

首先,这个大模型应用要能完整的解决用户真实的问题。基于这个评判标准就能筛掉很多伪应用了。毕竟很多大模型应用连用户需求都没搞清楚

其次,你要能pk掉new bing和GPT4。因为你如果pk不掉这俩,别人没有任何使用你的理由。

“第四阶段是创业的第二个半年。虽然客户拿到了合同里要的模型,但还不是他们理想中的东西,因为GPT4还远不够。年初时发现针对单一应用训练,模型很难再次飞跃。回过头想,如果AGI是达到普通人类水平,客户要的是专业人士的水平。”

沐神创业的第四阶段,就是要解决大模型的专业能力问题。如果你只是达到GPT4,你比他便宜,算是一个优势。但,你能不能解决用户专业领域的需求呢?

你不能只是达到,在专业领域你要的是PK掉GPT4

沐神是怎么实现这个目标的呢?

“年初我们设计了Higgs(上帝粒子,Boson的一种)系列模型。主打通用能力紧跟最好的模型,但在某个能力上突出。我们挑选的能力是角色扮演:扮演虚拟角色、扮演老师、扮演销售、扮演分析师等等。……

Higgs-V2是基于Llama3 base,然后做了完整的post-training。我们无法像Meta那样花大钱标注数据,所以V2比Llama3 Instruct好,原因应该还是主要来自算法的创新。”

沐神没有从头造轮子,而是以Llama3为底座,进行post traing。

我一直认为,Llama3的出现是除了GPT4出现的另外一个标志性事件

这意味着,大家有一个非常不错的开源的底座模型。很多创新可以在这样的底座上涌现。

而不用重复造轮子。降低了大模型投入的门槛。

一些想法

前段时间,纳指回调,当红炸子鸡NVDA也调整了不少。大模型的财务增益并未在六巨头的财报中有任何体现。

大模型逐渐冷了下来。

不过,我对未来还是有一些信心。

大模型是有用的,而且一定会改变一些事情。

可能没那么快。但,必然会到来。而且不会特别远

参见:

https://mp.weixin.qq.com/s/azL1mt-JluCVPtR6DbXITw沐神创业一年,人间三年


文章来源: https://mp.weixin.qq.com/s?__biz=MzI1MjQwMTAyOQ==&mid=2247483866&idx=1&sn=e27587a573d4cb1f24a11580291f5c08&chksm=e9e50530de928c26d7ed49a8a03589d8fdf294233fcdc34048d75dea61864a4ff5c5bfaeea80&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh