DS都对应什么岗
Data Science领域岗位命名的混乱由来已久。虽然网络上介绍岗位区别的post已经难以胜数,但在2023年这个时间点,为了本贴的讨论clarity,我们或许有必要从这个话题讲起:. 1point3acres.com
我给ds学生找工的岗位分为大致以下6类:
1. data analyst (Almost no ML)
2. product data scientist(Almost no ML, more statistics, more experiment design)
3. data scientist (experiment and decent ML, rarely DL). Waral dи,
4. applied scientist/applied researcher/research scientist (ML, mostly DL, more modeling). 1point3acres.com
5. machine learning engineer / sde ml (ML, mostly DL, more coding)
6. sde、swe (No ML/DL, or ML infra only)
(此外还有一个常见岗位data engineer,但此岗更偏向于data pipeline和 infra的工作,拿出来单独分类较好)
虽然上述的分类无法完美定义市场上的所有data类工作,各公司也不可能按此定义来给岗位命名;但根据其工作内容可以相对容易地进行mapping:比如Meta的dsa实际上更偏da,而core data science可以理解为research scientist。
这6类title,基本可以涵盖DS专业90%以上的工作出路。对coding能力的要求按1-6递增,而在工资水平方面1-4递增;4,5,6对同等学历的candidate给出的工资差别其实不大,as/rs的上限一般略高一点。 1. Data Analyst:工作大多以分析数据为导向,绝对的核心技能是sql,同时会使用一些python和数据可视化工具,几乎不会有使用ML的机会。会有很多试验指标分析,看板搭建,和来自不同业务方对于业务数据分析的需求。. ---- 2. Product DS: 该类岗位往往存在于数据建设较完善的tech中大厂,虽然他们日常工作不太需要用到ML,但也绝非仅限于写写SQL,画画dashboard,跑跑A\B testing。工作内容可能会包括metric definition , measurement and tracking。这类岗位,往往涉及复杂实验的设计和因果推断。工作复杂度高于DA,往往不使用ML,但又需要较强的统计背景和业务知识。即便是A\B Testing, 也有很多复杂的问题需要研究:怎么设计这个实验,实验中有哪些问题需要规避(ab testing 中坑很多比如dilution effect, network effect都是最基本的) 3. Data Scientist:对da和ds最简单粗暴的区分在于ds一般会使用ML;ds和as/rs/mle的区别则在:ds往往不会长期own一个model去持续改进,而很多时候后者会持续在一个业务模型上进行优化。在对岗位定义尚不明确的年代,ds下能做统计分析,上能做机器学习,俨然吊打各路。但随着DL的快速发展和业界需求的变化,ds的生存空间正在被快速挤占——而这也正是我会在后续文章中展开介绍的。 4. As/Rs:这类岗位既要会ML, DL模型开发和优化,又要懂得一些模型的部署和线上指标。一般负责产品某个功能核心算法模型,目前多数都是DL为主,当红支柱包括CV, NLP, 和推荐。工作内容往往会包括对模型结构的优化,因此需要读paper来跟上业界和学界的发展,对PhD有很强的偏好。 5. MLE/SDE ML: 这类title和as/rs其实差别不大。在A公司as或许更像mle,而B公司mle或许research做的比RS更好。但我的区分是MLE相对做更少的modeling,而更多的注重在ml pipeline的开发和部署。小厂往往没有精力去做业界领先的开发,往往只需要mle title来做业务;大厂RS来提升模型,其余的开发和部署留给MLE。 6. SDE: 这个title非常好理解,基本就是开发。有些厂会把做ML infra的岗位称作MLE, 但实际上这类岗位几乎不需要ML,DL的经验,所以不如归类到SDE来避免混淆。. check 1point3acres for more.