外媒 Semianalysis 近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型(Mixture of Experts)等具体的参数和信息。
▲ 图源 Semianalysis
外媒表示,GPT-4 在 120 层中总共包含了 1.8 万亿参数,而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本,OpenAI 采用混合专家模型来进行构建。
注:混合专家模型(Mixture of Experts)是一种神经网络,该系统根据数据进行分离训练多个模型,在各模型输出后,系统将这些模型整合输出为一个单独的任务。
▲ 图源 Semianalysis
据悉,GPT-4 使用了 16 个混合专家模型 (mixture of experts),每个有 1110 亿个参数,每次前向传递路由经过两个专家模型。
此外,它有 550 亿个共享注意力参数,使用了包含 13 万亿 tokens 的数据集训练,tokens 不是唯一的,根据迭代次数计算为更多的 tokens。
GPT-4 预训练阶段的上下文长度为 8k,32k 版本是对 8k 微调的结果,训练成本相当高,外媒表示,8x H100 也无法以每秒 33.33 个 Token 的速度提供所需的密集参数模型,因此训练该模型需要导致极高的推理成本,以 H100 物理机每小时 1 美元计算,那么一次的训练成本就高达 6300 万美元(约 4.51 亿元人民币)。
对此,OpenAI 选择使用云端的 A100 GPU 训练模型,将最终训练成本降至 2150 万美元(约 1.54 亿元人民币)左右,用稍微更长的时间,降低了训练成本。
关键词:
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
投诉邮箱:Email:133 46734 45@qq.comYahoo Finance周四报道,高通首席执行官Cristiano Amon在2024年拉斯维加斯消费电子展(CES)表示,整合生成式人工智能功能的智能手机可能在
一加今日宣布与瑞声科技共同成立一加 & AAC 仿生触感实验室,联手打造更好的产品体验,共同推进安卓阵营的马达仿生振...
据欢乐长安(广东东莞长安镇)官方发布,OPPO 长安研发中心项目目前 7 栋塔楼已全部封顶,有 5 栋塔楼的外立面玻璃幕...
苹果公司近年发展人工智能(AI)相对落后,但据外媒引述消息报道,苹果再次与OpenAI展开谈判,讨论如何将OpenAI的功能整合到...
Oppo周四表示,已成立 Oppo AI 中心,该中心将带来新的人工智能 ( AI ) 能力,并通过研发举措专注于更多以用户为中心的 AI 产品和
针对苹果将于今年秋季正式推出的Apple Intelligence服务,许多创意人士认为苹果在此服务的信息透明度不高,甚至可能担心...
位于首尔江南区的韩国第 5 家苹果 Apple Store 于今年 3 月开业,三星为了遏制苹果在本土市场的扩展,计划于今年 6 月在江南
2023年是关于人工智能、大型语言模型 (LLM)、机器学习的一年,以及谷歌、Microsoft、Meta 等巨头发布自己的生成式 AI 系统。然而,在这
在 LinkedIn 的一篇感性文章中,微软广告业务的全球负责人罗伯・威尔克(Rob Wilk)宣布他将在任职八年后离开公司。威尔...
在业界被认为是世界头号黑客的凯文・米特尼克(Kevin David Mitnick)确认于 2023 年 7 月 16 日去世,享年 59 岁。 图
据外媒 businessoutreach 报道,塔塔集团计划在英国建立电动汽车电池工厂,投资 40 亿英镑(备注:当前约 372 亿元人民币),计划
印度新德里的 Apple Saket 将于本周四(4 月 20 日)上午十点开业,苹果现在向我们介绍了这家新店的一系列设施和实景图。
华为于 2019 年发布了自己的手机平台,现在计划在全球范围内扩展其本土HarmonyOS智能手机平台。最近,该公司的 Mate 60 Pro 智能手机
1 月 31 日消息,据联想官方消息,2023 款小新 Pro 笔记本将在 2 月发布。该系列笔记本搭载 13代酷睿 H 系列处理器,可实现
科科科技 (KKCompany Technologies)获得微软邀请加入独角兽战略伙伴计划,同时其串流影音服务BlendVision One也将于微软Azure Ma
igor& 39;sLAB 提前曝光了即将发布的 PCI SIG 的 CEM 5 1 规范(作为 ATX 3 1 的基础)以及 PCIe Base 6 草案,其中包括很
三星显示(Samsung Display)位于韩国牙山市的新总部预估 2024 年下半年竣工。三星为庆祝地球日,宣布建设新总部过程中,34% 的水泥
亚马逊公司旗下的游戏直播平台 Twitch 将迎来重要人事变更,该公司的首席执行官 Emmett Shear 将辞职,此前他在 Twitch 工作了
美国科技媒体《The Verge》报道,人工智能公司OpenAI首席执行官奥特曼(Sam Altman)17日遭突袭式解职,不到一天时间,董事会传出商
据报道,苹果正在开发代号为Baltra的内部 AI 服务器芯片。根据 The Information 的报道,该芯片是与 Broadcom 合作设计的。预计