OpenAI旗下的GPT-4模型架构等关键信息遭泄露-零沫AI工具导航

据爱范儿援引SemiAnalysis报道，今天，OpenAI旗下的GPT-4大量模型架构、训练成本、数据集等大量信息被泄露。爆料人称，GPT-4架构的封闭性是因为他们构建的东西是可复制的，Google、Meta、Anthropic、Inflection、Character、腾讯、字节跳动、百度等在短期内都将拥有与GPT-4一样强大的模型。

据透露，在模型架构方面，GPT-4的规模是GPT-3的10倍以上，作者认为GPT-4在120层中包含了1.8万亿参数，而GPT-3只有大约1750亿个参数。

OpenAI通过使用混合专家（MoE）模型来保持成本合理。具体而言，GPT-4拥有16个专家模型，每个专家的MLP参数约为1110亿。其中，有两个专家模型被用于前向传播。此外，大约550亿个参数用于注意力机制的共享。每次的前向传播推理（生成一个token）仅利用了约2800亿个参数和560TFLOP的计算。

在数据集构成方面，GPT-4的训练花费了13万亿的token数据集。这个数据集因为没有高质量的token，还包含了许多个epoch。

在并行策略方面，OpenAI采用了8路张量并行，因为NVLink最高只支持这么多。但除此之外，爆料作者听说OpenAI采用15路并行管线。

在训练成本方面，OpenAI训练GPT-4的FLOPS约为2.15e25，在大约25000个A100上训练了90到100天，利用率在32%到36%之间。

原文链接：

https://www.semianalysis.com/p/gpt-4-architecture-infrastructure

如何关闭AI搜索智能问答的提示功能？

8026 沫友在看

文生视频是什么？如何利用关键词生成这种视频？

2886 沫友在看

AI写作会被知网查重吗？解析知网对AI写作的查重规则

2232 沫友在看

uBrand Logo生成器：免费logo设计一键智能生成

1352 沫友在看

OpenAI旗下的GPT-4模型架构等关键信息遭泄露

最近更新

文章目录

OpenAI旗下的GPT-4模型架构等关键信息遭泄露

关联网址

关联标签

相关文章

搜索

近期热门

如何关闭AI搜索智能问答的提示功能？

8026 沫友在看

文生视频是什么？如何利用关键词生成这种视频？

2886 沫友在看

AI写作会被知网查重吗？解析知网对AI写作的查重规则

2232 沫友在看

uBrand Logo生成器：免费logo设计一键智能生成

1352 沫友在看

OpenAI旗下的GPT-4模型架构等关键信息遭泄露

最近更新

文章目录

OpenAI旗下的GPT-4模型架构等关键信息遭泄露

关联网址

关联标签

相关文章