DeepSeek训练大模型到底怎么做到这么省钱的
DeepSeek在成本控制上的水平已经成了行业传说级别的存在: V3训练成本:约$550万 R1 GPU使用费:约$29.4万 同期美国公司训类似规模模型的预算是**$1亿到$10亿**。差了至少一个数量级。 省钱秘诀1. FP8混合精...
AI前沿资讯与深度分析
DeepSeek在成本控制上的水平已经成了行业传说级别的存在: V3训练成本:约$550万 R1 GPU使用费:约$29.4万 同期美国公司训类似规模模型的预算是**$1亿到$10亿**。差了至少一个数量级。 省钱秘诀1. FP8混合精...
去年8月DeepSeek放出了V3.1,这是他们第一个混合模型——把V3(通用)和R1(推理)的能力合进了同一个模型里。 架构设计 总参数:671B,每token激活37B 每层256个专家,激活8个 两种模式一键切换: Think mod...
今年1月,DeepSeek把R1推理模型直接开源了,社区的反应很直接:没想到开源这边已经卷到这个程度了。 先看硬指标: AIME数学竞赛:77.5分 MATH-500:96.2分 Codeforces编程:94百分位 MMLU:0.849...
今年2月5号OpenAI发了GPT-5.3-Codex,编程能力确实往上蹦了一大截——但随之而来的是一个不太好看的标签:OpenAI内部安全评估框架给出的第一个”高”网络安全风险等级。 到底有多危险?OpenAI自己说得很委婉:”没有确凿证...
去年3月底,Google放出了Gemini 2.5 Pro,官方说法是”迄今最智能的模型”。 这种说法每家都会喊,但这次Gemini 2.5 Pro的跑分确实有点东西: 数学和科学推理 AIME 2024:92.0% AIME 2025:8...
去年12月DeepSeek发布了V3,这个模型最让同行坐不住的地方不是性能——而是成本。 先看架构V3的设计核心是Mixture of Experts: 总参数量:671B 每个token实际激活:37B 每层256个专家,每次选8个 ...
Anthropic今年初公布了Constitutional Classifiers的研究成果,核心思路很直白:用AI生成的合成数据来训练安全分类器,防止AI模型被越狱。 工作原理系统架构是双层的——输入分类器和输出分类器同时工作,实时监控模...
2月5号Anthropic发了Opus 4.6,最核心的升级叫Adaptive Thinking(自适应思考)。 以前 vs 现在以前用extended thinking,得手动设预算——让模型想10秒还是30秒,全靠开发者拍脑袋定。现在O...
Prompt注入是AI应用里一个老大难问题——攻击者通过在输入中嵌入恶意指令,诱使模型执行非预期的操作。Opus 4.5在这方面做了一些有趣的改进。 问题背景想象一个场景:你做了一个基于Claude的客服机器人。正常用户问产品问题,但有人故...
Opus 4.5是Anthropic在2025年底发布的一个重要版本,也是他们第一个混合推理模型——一个模型里同时集成了快速响应和深度思考两种模式。 性能水平SWE-bench Verified上拿到80.9%,截至发布时排名全球第一。在编...