大模型 GPT-4 预估长这样

发布时间：2022-04-26 13:15:10 所属栏目：动态来源：互联网

导读：不久前，谷歌发布基于他们最新一代人工智能架构 Pathways 研发的 5400 亿参数大模型 PaLM，具备标记因果关系、上下文理解、推理、代码生成等等多项功能，其中常识推理能力更是较以往的语言模型有较大提升。但同时，大家也一如既往地注意到 PaLM 的计算成

不久前，谷歌发布基于他们最新一代人工智能架构 Pathways 研发的 5400 亿参数大模型 ——PaLM，具备标记因果关系、上下文理解、推理、代码生成等等多项功能，其中常识推理能力更是较以往的语言模型有较大提升。

但同时，大家也一如既往地注意到 PaLM 的计算成本：用了 6144 块 TPU。如果租显卡训练，最高花费可能达到 1700 万美元（人民币超过 1 个亿，“一个小目标”）。

显然，这很烧钱，不符合“经济可用”的原则。难怪业内人士常常吐槽：苦大模型久矣。

Alberto Romero 也猜测，或许 GPT-4 的规模会比 GPT-3 略大，但“大”不会像 GPT-3 一样成为 GPT-4 的“卖点”。相反，OpenAI 更致力于如何让规模较小的模型发挥更大的性能。

预测 GPT-4 不会太大
首先，Alberto 判断，GPT-4 不会是最大的语言模型。Altman 也称它不会比 GPT-3 大很多。与前几代的神经网络相比，GPT-4 肯定会很大，但大小不会是它的显著特征。GPT-4 可能介于 GPT-3 和 Gopher (175B-280B) 之间。

接着，Alberto 给出了他预测的理由：

去年由英伟达和微软开发的 Megatron-Turing NLG 有 530B 参数，一直是最大的密集神经网络 —— 其大小已是 GPT-3 的 3 倍 —— 直到最近出现了谷歌的 PaLM，其大小为 540B。但值得注意的是，MT-NLG 之后的一些较小的模型达到了更高的性能水平。

也就是说，更大 ≠ 更好。小型模型的存在有两个意义。

其一是，企业已经意识到，要改善性能，扩大模型的规模不是唯一的方法，也不是最好的方法。2020 年，OpenAI 的 Jared Kaplan 和同事得出结论，当增加的计算预算主要分配到增加参数的数量上时，性能的提高是最显著的，并且遵循幂律关系。谷歌、英伟达、微软、OpenAI、DeepMind 和其他开发语言模型的公司从表面上看接受了这一指导原则。

（编辑：宁德站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

AMD 新款16核锐龙 700	警惕接连吹低温空调易
华为 MateView SE 显示	比亚迪海鸥谍照泄露定