发布时间:2025-02-07 18:14:43 点击量:
HASH GAME - Online Skill Game GET 300
1)降低训练成本:DeepSeek使用较宽的MOE架构,且提出共享专家机制,每次训练只激活需要的专家(按需调用),而非激活全部专家,从而大大降低训练成本。此外,使用fp8低精度训练、双管道训练、多Token预测等方法进一步降低训练成本。2)降低推理成本:DeepSeek提出多头潜在注意力 (MLA),在不牺牲模型质量的前提下,大幅减少KV 缓存的大小。此外,低精度存储和通信、推理阶段动态专家选择等方法进一步降低推理成本。3)提高模型效果:不同于传统的SFT,DeepSeek使用强化学习做post-training,大幅提升模型推理能力。此外,DeepSeek针对中了大量风格对齐,大幅提升模型可用性。
蒸汽机效率提升并没有导致煤炭少用,DeepSeek虽然触发模型大幅降本,但长期看将打开AI应用产业上升通道,算力需求不降反增,因算力需求具备多样性:1)模型向更高智能维度跃迁,训练需要更多算力。2)AI应用的推理需要广泛算力,更多人会去训练和推理自己的模型。3)转向对等异构计算的新主流计算形态需要更多GPU。4)目前模型仅仅停留在对话,未来从对话到任务、到多模态还需要更多算力加持。根据AI产品榜,DeepSeek应用(APP,非网页)成为增速最快的AI产品,上线万,反映出模型能力提升对于用户的巨大吸引力,带来潜在的巨大推理算力需求。
DeepSeek 没有使用 CUDA 的 API,而是直接使用 PTX,从而对计算过程进行更细粒度的控制。PTX仍然是英伟达GPU架构中的技术,是CUDA编程模型中的中间表示,用于连接CUDA高级语言代码和GPU底层硬件指令。编写PTX代码的做法,首先非常复杂且难以维护,对技术人员要求极高,其次移植性较差,较难移植到不同型号的GPU。DeepSeek基于PTX进行优化代表他们有优化其他GPU的能力,但既不意味着完全脱离了CUDA生态,也不意味着其他团队有能力直接使用PTX,因此英伟达的CUDA护城河仍在。
其模型规模从1.5B到671B不等,其中Deepseek-V3作为最新版本,拥有6710亿参数,每次推理仅激活370亿参数。这种设计不仅遵循了Scaling Law,即参数量越大模型性能越强,还通过混合专家架构等技术优化了计算效率。本地部署对PC硬件提出了较高要求,尤其是对于大模型版本,需要强大的GPU支持和足够的内存与存储空间。随着用户对更大模型的需求增加,PC硬件的升级将成为必然趋势,以确保模型能够高效运行并发挥其最佳性能。
许多企业已经意识到,与自研基座大模型相比,开源且具有广泛共识的模型更容易构建生态系统。Meta开源的Llama 2模型在GitHub社区吸引了超过4.2万名贡献者,修复漏洞的速度比闭源模型快3倍。此外,开源模型的硬件适配成本更低,例如阿里云的通义千问开源版本支持多种国产芯片,开发者贡献的优化使得推理速度提升了40%。Deepseek蒸馏后表现出色的小模型使本地部署知识库从企业端扩展到个人用户,通过AnythingLLM和Ollama高效且灵活的构建私有化的AI知识管理系统,不仅保护数据隐私而且可以根据特定需求进行定制优化。构建个人本地知识库的意义主要体现在数据隐私保护、资源优化、成本控制和个性化需求满足等方面,使端侧AI真正成为用户的人工智能助手。
端侧产品的侧重点决定了其发展方向和市场竞争力。如果产品侧重于本地计算,SOC的算力将成为主要的增量需求,以满足复杂的计算任务;如果侧重于传输,则SOC功耗和连接能力的升级将更为关键。随着蒸馏模型能力的提升,未来端侧SoC将更加注重模型的本地部署和推理能力。Scaling Law的存在表明,无论是端侧还是云端,都需要不断提升性能以适应模型规模的扩大和应用需求的增加。端云协同升级将成为未来技术发展的必然趋势。端侧产品需要在有限的硬件资源下实现高效的计算和传输,云端则需要提供更强大的计算能力和存储支持,以满足大规模模型的训练和推理需求。
1)开源让更多企业可以互相学习,站在“巨人的肩膀上”,不断推高能力边界,DeepSeek、Qwen、Llama等模型均具备媲美闭源模型的能力,DeepSeek即是开源的受益者也是领先的推动者;2)DeepSeek在算力资源有限的情况下,进行了大量工程创新,通过无辅助损失的策略、多token预测提升模型能力,通过首次引入FP8低精度训练、较宽的MoE架构、双管道训练、跨节点all to all的通信Kernel、优化内存占用等方式提升训练效率,通过MLA(多头注意力)机制来提升推理效率;3)post-training(后训练)依然处于拓展曲线初期,收益较大,而竞争者差距较小。此前的范式借助预训练的scaling law提升性能,但这一方向成本和难度正在逐步增加。而新的范式专注于通过合成数据生成、在现有模型基础上进行post-training的强化学习,从而提升推理能力。当前仍处于新范式下的scaling law早期阶段,可以快速获得巨大收益。
2025年1月,拜登政府下,BIS发布了历史上第一个AI出口管制规则,对世界不同国家进行分类管理,此外,还出台规则,封锁16nm以下的先进制程,将中国、新加坡的多个实体列入实体清单,意图打压别国AI产业发展。特朗普宣布“星际之门”计划,预计在未来四年内投资5000亿美元,用于建设支持AI发展的基础设施。而DeepSeek取得的成果,也反映出中美在AI产业的差距缩小,引发地缘政治角度的热议,DeepSeek目前也面临OpenAI和微软的调查和部分国家的限制使用。
根据Deepseek官网,Deepseek R1 API服务定价为0.14美元/百万输入tokens(缓存命中),2.19美元/百万输出tokens。其在逻辑、数学及中文任务中表现出色,性能优于GPT-4o、O1-mini等模型。优异性价比驱动用户数量快速增长,上线万,增速达Chatgpt 13倍,并且霸榜苹果应用商店140+国家/地区免费应用第一名。未来用户数量有望加速提高,带动DeepSeek服务器算力需求增长。
DeepSeek V3:(1)首创无辅助损失负载均衡策略,避免专家负载失衡。(2)通过采用多token并行预测与FP8混合精度训练,提高训练信号密度,提升模型推理能力,同时降低训练所需算力。(3)在训练框架中采用DualPipe 算法,减少流水线空泡,通过计算-通信重叠隐藏大部分通信延迟。DeepSeek R1:通过引入冷启动数据微调DeepSeek-V3-Base模型以及多阶段训练优化,其推理任务水平达到OpenAI-o1-1217。并且基于其高质量训练样本蒸馏所得的DeepSeek-R1-Distill-Qwen-7B,推理性能超越QwQ-32B-Preview。DeepSeek R1蒸馏所得的高推理性能小模型将加速端侧AI落地,驱动AI手机、AI PC、AI眼镜等硬件出货量上行。
海内外迅速破圈,海外多个服务商和应用已经接入。DeepSeek-R1性能堪比OpenAI o1,而调用API的成本最低仅为后者的1.8%,且模型使用标准化、宽松的 MIT License,完全开源,不限制商用,产品协议明确可“模型蒸馏”,体现了极高的开放性。自从R1模型推出后,DeepSeek网页端访问量飙升16倍,且其中来自非中国大陆地区,海外的服务商和应用也积极接入,包括微软、亚马逊、英伟达、AI代码工具Cursor和AI搜索引擎Perplexity,R1能力得到了充分认可。