加入收藏 | 设为首页 | 会员中心 | 我要投稿 宁德站长网 (https://www.0593zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

大模型 GPT-4 预估长这样

发布时间:2022-04-26 13:15:10 所属栏目:动态 来源:互联网
导读:不久前,谷歌发布基于他们最新一代人工智能架构 Pathways 研发的 5400 亿参数大模型 PaLM,具备标记因果关系、上下文理解、推理、代码生成等等多项功能,其中常识推理能力更是较以往的语言模型有较大提升。 但同时,大家也一如既往地注意到 PaLM 的计算成
         不久前,谷歌发布基于他们最新一代人工智能架构 Pathways 研发的 5400 亿参数大模型 ——PaLM,具备标记因果关系、上下文理解、推理、代码生成等等多项功能,其中常识推理能力更是较以往的语言模型有较大提升。
 
         但同时,大家也一如既往地注意到 PaLM 的计算成本:用了 6144 块 TPU。如果租显卡训练,最高花费可能达到 1700 万美元(人民币超过 1 个亿,“一个小目标”)。
 
         显然,这很烧钱,不符合“经济可用”的原则。难怪业内人士常常吐槽:苦大模型久矣。
 
         Alberto Romero 也猜测,或许 GPT-4 的规模会比 GPT-3 略大,但“大”不会像 GPT-3 一样成为 GPT-4 的“卖点”。相反,OpenAI 更致力于如何让规模较小的模型发挥更大的性能。
 
         预测  GPT-4 不会太大
         首先,Alberto 判断,GPT-4 不会是最大的语言模型。Altman 也称它不会比 GPT-3 大很多。与前几代的神经网络相比,GPT-4 肯定会很大,但大小不会是它的显著特征。GPT-4 可能介于 GPT-3 和 Gopher (175B-280B) 之间。
 
接着,Alberto 给出了他预测的理由:
 
去年由英伟达和微软开发的 Megatron-Turing NLG 有 530B 参数,一直是最大的密集神经网络 —— 其大小已是 GPT-3 的 3 倍 —— 直到最近出现了谷歌的 PaLM,其大小为 540B。但值得注意的是,MT-NLG 之后的一些较小的模型达到了更高的性能水平。
 
也就是说,更大 ≠ 更好。小型模型的存在有两个意义。
 
其一是,企业已经意识到,要改善性能,扩大模型的规模不是唯一的方法,也不是最好的方法。2020 年,OpenAI 的 Jared Kaplan 和同事得出结论,当增加的计算预算主要分配到增加参数的数量上时,性能的提高是最显著的,并且遵循幂律关系。谷歌、英伟达、微软、OpenAI、DeepMind 和其他开发语言模型的公司从表面上看接受了这一指导原则。

(编辑:宁德站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!