查看: 3215| 回复: 8
收起左侧

请问,在哪可以看到DeepSeek的开源代码呢?

PureRemote22 | 显示全部楼层
本楼:   👍  1
25%
75%
3   👎
全局:   107
74%
26%
37

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看附件。没有帐号?注册账号

x

DeepSeek说自己开源,但它的repo里没有真正的东西呀,除了一个README?从别的英文渠道,好像他们能看到DeepSeek的代码。请问,他们到底开源了源代码吗?哪儿可以下载呢?


谢谢。

上一篇:(资源分享/交流)relational learning and reasoning 或neurosymbolic ai
下一篇:谁有db migration 的经验求分享
cress2002 2025-2-11 18:00:56 来自APP | 显示全部楼层
本楼:   👍  11
100%
0%
0   👎
全局:   11
100%
0%
0
📖 已公开部分:
  • 模型架构实现
  • 核心 Transformer 架构代码
  • 混合注意力机制(ROPE + No-PE Attention)实现
  • Flash Attention 2.0 优化
  • MoE (Mixture of Experts) 基础框架
  • 推理接口和模型加载代码
  • 预训练模型
  • 模型权重文件(Weights)
  • Tokenizer 实现
  • 基础配置参数(Base Configuration)
  • 基础接口
  • HuggingFace Pipeline 集成
  • 模型推理 API
  • 基础评估脚本
🔒 未公开部分:
  • 训练超参数(Hyperparameters)
  • Learning rate schedules(学习率调度策略)
  • Batch size scaling policies(批次大小调整策略)
  • Gradient accumulation steps(梯度累积步数)
  • MoE routing parameters(专家路由参数)
  • Attention mixture ratios(注意力混合比例)
  • 训练流程(Training Pipeline)
  • Data sampling strategies(数据采样策略)
  • Expert balancing techniques(专家平衡技术)
  • Dynamic routing protocols(动态路由协议)
  • Convergence optimization methods(收敛优化方法)
  • 数据处理(Data Processing)
  • Data filtering criteria(数据筛选标准)
  • Quality assessment metrics(质量评估指标)
  • Preprocessing pipelines(预处理流程)
  • Augmentation techniques(增强技术)
  • 优化策略(Optimization Strategies)
  • Expert specialization methods(专家特化方法)
  • Attention head pruning criteria(注意力头裁剪标准)
  • Model distillation techniques(模型蒸馏技术)
  • Quantization optimization details(量化优化细节)
  • 训练基础设施(Training Infrastructure)
  • Distributed training setup(分布式训练设置)
  • Resource allocation strategies(资源分配策略)
  • Pipeline parallelism details(流水线并行细节)
  • Checkpointing mechanisms(检查点机制)

评分

参与人数 1大米 +2 收起 理由
puritycontrol + 2 楼主/层主请继续!

查看全部评分

回复

使用道具 举报

yuezrhb 2025-2-11 07:17:41 | 显示全部楼层
本楼:   👍  4
100%
0%
0   👎
全局:   56
92%
8%
5
回复

使用道具 举报

ericLaw 2025-2-11 04:33:08 来自APP | 显示全部楼层
本楼:   👍  2
100%
0%
0   👎
全局:   2998
97%
3%
104
AI模型开源开的是权重模型
回复

使用道具 举报

248180238 2025-2-11 04:34:38 来自APP | 显示全部楼层
本楼:   👍  1
100%
0%
0   👎
全局:   3340
97%
3%
121
v3不是有code吗 R1不是也告诉你了train based on v3让你refer to v3 然后model在hugging face不是也可以下载 你还开源什么。。。困惑了
回复

使用道具 举报

六折叠 2025-2-11 06:01:40 来自APP | 显示全部楼层
本楼:   👍  0
0%
100%
1   👎
全局:   610
72%
28%
234
假开源  
回复

使用道具 举报

 楼主| PureRemote22 2025-2-11 07:08:50 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   107
74%
26%
37
248180238 发表于 2025-2-10 15:34
v3不是有code吗 R1不是也告诉你了train based on v3让你refer to v3 然后model在hugging face不是也可以下 ...

是的。我也看到了它这样说,参考V3。但V3应该只是LLM这块,和推理这块应该有很大不同才对?(我还没有深入看V3的code,主要是怕浪费太多时间)。

我想了解的是它的架构和常规的transformer架构那块有什么不同?不仅仅是只听它说的那几个优点,想从code那看看它是怎么实现的。有的渠道说是开源,有的消息又说R1这一块是闭源。如果只是权重model开源,这和别家share model on HuggingFace又有什么区别呢?

外国网站也有很多文章博客在分析,我觉得从他们的分析中,应该至少看到了更深层次的文档,如果不是code的话。
回复

使用道具 举报

feifei963 2025-2-12 00:43:58 | 显示全部楼层
本楼:   👍  1
100%
0%
0   👎
全局:   623
94%
6%
39
模型开源不是所有代码都开源的,最多权重和调参API
回复

使用道具 举报

Pizi-G 2025-2-13 01:26:22 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   12501
98%
2%
275
LLM 模型又不是代码... 开源最重点不就是给你 model weights ... 你想要什么的代码? 除了 train 和 调用 的代码 (除非你想自己从头 train 一个, 否则给你这个你没有data 也没啥用), 核心的东西都在模型 weights 里, 压根没有 programming language 的形式存在啊.
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

Advertisement
>
快速回复 返回顶部 返回列表