图文
过去几年,大模型的“膨胀速度”堪称“失控”:从BERT的3.4亿参数到GPT-3的1750亿,再到如今超万亿参数的模型,每两年参数规模增长约240倍。
内存参数 内存碎片 显存
Engineering前沿 2025-06-30
从“内存爆仓”到“精准控存”,这些技术不仅让训练万亿参数模型成为可能,更让大模型研发从“巨头专属”走向“更多人可及”。
内存参数 内存碎片