24小时故障咨询电话 点击右边热线，在线解答故障 拨打：400-9999-9999

广东一件代发厂家直销

有问题请联系

更新时间： 2025-04-26 02:43:21

广东一件代发厂家直销《今日汇总》

广东一件代发厂家直销2025已更新（2025已更新）

广东一件代发厂家直销《今日汇总》2025已更新(今日/推荐)

广东一件代发厂家直销

7天24小时人工电话为您服务、广东一件代发厂家直销服务团队在调度中心的统筹调配下，泊寓智能锁线下专业全国及各地区售后人员服务团队等专属服务，整个报修流程规范有序，后期同步跟踪查询公开透明。

所有售后团队均经过专业培训、持证上岗，所用产品配件均为原厂直供，

广东一件代发厂家直销

泊广东一件代发厂家直销全国服务区域：

广东一件代发厂家直销受理中心

上海市（浦东新区、徐汇区、黄浦区、杨浦区、虹口区、闵行区、长宁区、普陀区、宝山区、静安区、闸北区、卢湾区、松江区、嘉定区、南汇区、金山区、青浦区、奉贤区）

北京市（东城区、西城区、崇文区、宣武区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区）

成都市（锦江区，青羊区，金牛区，武侯区，成华区，龙泉驿区，青白江区，新都区，温江区，双流区，郫都区，金堂县，大邑县，蒲江县，新津县，都江堰市，彭州市，邛崃市，崇州市）

长沙市（芙蓉区，天心区，岳麓区，开福区，雨花区，望城区，长沙县，宁乡市，浏阳市）

北京、上海、天津、重庆、南京、武汉、长沙、合肥、成都、南宁、杭州、广州、郑州、太原、济南、海口、哈尔滨、昆明、西安、福州、南宁、长春、沈阳、兰州、贵阳、湖州、南昌、深圳、东莞、珠海、常州、宁波、温州、绍兴、南通、苏州、张家港、徐州、宿迁、盐城、淮安、淮南、南通、泰州、昆山、扬州、无锡、北海、镇江、铜陵、滁州、芜湖、青岛、绵阳、咸阳、银川、嘉兴、佛山、宜昌、襄阳、株洲、柳州、安庆、黄石、怀化、岳阳、咸宁、石家庄、桂林、连云港、廊坊、大连、大庆、呼和浩特、乌鲁木齐、鞍山、齐齐哈尔、荆州、烟台、洛阳、柳州、

DeepSeek火出圈，英伟达完了吗？

　　DeepSeek v3因为是后发，完全可以避开前人走的坑，用更高效方式避坑，也就是“站在巨人的肩膀上”。真实逻辑应该是：榨干同等算力去攫取10倍收益。就比如o1的训练成本远超GPT-4，而o3的训练成本大概率远超o1。从前沿探索角度看，训练所需算力只会越来越多。应用生态越繁荣，只会让训练投入的支付能力更强；而算力通缩，只会让同等投入买到更多训练Flops。

　　首先训练同一代模型所需算力每隔N个月就是指数级降低，这里面有算法进步、算力本身通缩、数据蒸馏等等因素，这也是为什么说“模型后发更省力”。援引下星球内一则评论：“就好像看过几遍答案，水平很一般的学生也能在1小时内把高考数学卷整出满分”。 DeepSeek v3因为是后发，完全可以避开前人走的坑，用更高效方式避坑，也就是“站在巨人的肩膀上”。因此幻方在GPT4o发布7个月后，用1/10算力实现几乎同等水平，是合理的，甚至可以作为未来对同代模型训练成本下降速度的预测。但这里面依然有几个概念上的误解。

　　首先是“训练”范围上的混淆。幻方的论文明确说明了：“上述成本仅包括DeepSeek-V3 的正式训练，不包括与架构、算法、数据相关的前期研究、消融实验的成本。” 也就是星球内一位算法工程师说的“有点断章取义，幻方在训这个模型之前，用了他们自己的r1模型（对标openai o1）来生成数据，这个部分的反复尝试要不要算在成本里呢？单就在训练上做降本增效这件事，这不代表需求会下降，只代表大厂可以用性价比更高的方式去做模型极限能力的探索。应用端只要有增长的逻辑，推理的需求依然是值得期待的。”

　　随着Ilya说的“公开互联网数据穷尽”，未来合成数据是突破数据天花板的重要来源，且天花板理论上足够高。相当于过去的预训练范式从卷参数、卷数据总量，到了卷数据质量，卷新的Scaling因子（RL、测试时间计算等），而算力只不过换了个地方，继续被其他训练环节榨干。

　　从目前各大实验室的实际情况看也是，OpenAI、Anthropic至今仍处于缺卡状态，相信幻方也是。看训练算力是否下降，不应该只看某代模型某次训练这种切面，而应该从“总量”以及“自上而下”去看，这些实验室的训练算力总需求是下降了吗？反而一直在上升。预训练的经济效益下降，那就把卡挪给RL post train，发现模型实现同等提升所需卡减少了，那就减少投入了吗？不会，真实逻辑应该是：榨干同等算力去攫取10倍收益。就比如o1的训练成本远超GPT-4，而o3的训练成本大概率远超o1。从前沿探索角度看，训练所需算力只会越来越多。应用生态越繁荣，只会让训练投入的支付能力更强；而算力通缩，只会让同等投入买到更多训练Flops。

　　就好比幻方这次发布的模型，依然是LLM路线下，将MoE压榨到了极致。但相信幻方自己的推理模型r1（对标o1）也在探索r2/r3，这显然需要更多算力。而r2/r3训完，又被用来消耗大量算力为deepseek v4合成数据。发现没，pre-train scaling、RL scaling、test-time compute scaling三条线甚至还有正反馈。因此，只会在可获得最大资源的前提下，用最高效的算法/工程手段，压榨出最大的模型能力提升。而不会因为效率提升而减少投入，个人认为这是个伪逻辑。

　　对于推理，不必多说了，一定是上升。引用下星球内洪博的评论：DeepSeek-V3的出现（可能还包括轻量版V3-Lite），将支持私有部署和自主微调，为下游应用提供远大于闭源模型时代的发展空间。未来一两年，大概率将见证更丰富的推理芯片产品、更繁荣的LLM应用生态。

　　文章来源：信息平权，原文标题：《训练算力真的下降了吗？》