传说中的谷歌招聘委员会成员之一,从幕后走出来,教你学系统设计!


一亩三分地论坛

 找回密码
 获取更多干活,快来注册
Babeltime游戏工作室招工程师、美术和策划
Tubi TV招安卓、前端和机器学习工程师
把贵司招聘信息放这里
查看: 837|回复: 21
收起左侧

[DataScience] 简单粗暴的谈DS刷题的ROI问题

[复制链接] |试试Instant~ |关注本帖
小K 发表于 6 天前 | 显示全部楼层 |阅读模式

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干活,快来注册

x
仅仅针对tech公司DS职位. 1point 3acres 璁哄潧
基础:
你必须已经会写点代码,比如
java学会61b就是很好的起点. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
python需要上过各种网校入门项目
需要懂:
- 基本算法(coursera 老版本stanford prof tim那个课的前半部就够),
- 基本数据结构(programing interview exposed甚至cracking the PM interview里面都有过一下这些基础),
- 常规语言的基本语法(java/python就很好并且也足够了)
如果你只用过R/SAS/Matlab/SQL,就别刷题了,先补基础再说。. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
这部分从0开始需要1-2个月吧
有人说我会用pandas和sk-learn,甚至还会用ipynb, 行不行?如果你除了这俩其他都没用过,那很难,不要试图投机取巧,安心学个基础课去吧

需要用scala刷题吗?绝壁不
需要用js刷题吗?您。。。。?
需要用SQL刷题吗?SQL肯定需要会的。。。难度太低不值一提了。。。

为什么DS要刷题?. From 1point 3acres bbs
如果你基本做analytics,那
游客,本帖隐藏的内容需要积分高于 100 才可浏览,您当前积分为 0。 查看如何攒积分

. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴如果纯粹做AB test/experimentation,
游客,本帖隐藏的内容需要积分高于 100 才可浏览,您当前积分为 0。 查看如何攒积分

如果你希望建模(predictive modeling),
游客,本帖隐藏的内容需要积分高于 100 才可浏览,您当前积分为 0。 查看如何攒积分

如果希望做机器学习,深度学习,没有代码能力的基本上没戏。个例当然存在,包括
游客,本帖隐藏的内容需要积分高于 100 才可浏览,您当前积分为 0。 查看如何攒积分
. visit 1point3acres.com for more.

所以需要多严重的代码能力吧!!

需要hard的地方,目前(Sept 2017) 来看,不多
熟练easy/medium可以秒很多大家都想去的地方了
熟练是指:
游客,本帖隐藏的内容需要积分高于 100 才可浏览,您当前积分为 0。 查看如何攒积分

有的公司要求白板过,有的要求上机过,基本上跟码农要求略微类似,可能会稍微要求低,但是低多少看RP

需要刷全部leetcode吗?
不需要,typical 题目弄熟练就好。. 鍥磋鎴戜滑@1point 3 acres
Easy
游客,本帖隐藏的内容需要积分高于 100 才可浏览,您当前积分为 0。 查看如何攒积分

Medium
游客,本帖隐藏的内容需要积分高于 100 才可浏览,您当前积分为 0。 查看如何攒积分

那Hard到底看不看?挑一些看看就好了,不需要硬性要求。marginal gain估计这时候已经不高,还不如多看ML
-google 1point3acres
但是可惜的就是刷这种题目忘记的比较快,平常工作里面用处有限,下次找工作还需要再来。刷leetcode感觉只有20%的时间不是被浪费的。. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴

==========================
其他的刷题?

是否需要懂系统设计?
目前好像没有遇到过,不过也可能我见过的考题都是偏scientist这边,并没有见到很多偏ML eng/ML infra那边的
不太清楚刷这些的ROI如何

ML如何刷?
这个问题问的很好。。。。
如果你是analytics,那不需要刷 (e.g. FB product analytics, Linkedin product analytics, airbnb analytics)

如果是主要做实验的(which is quite rare, e.g. Airbnb, Netflix exp, some group in MS),也不需要刷。
如果是希望建模、做ML的,那需要刷。(FB
游客,本帖隐藏的内容需要积分高于 200 才可浏览,您当前积分为 0。 查看如何攒积分
) 这些厂子需要刷。
总体来说,挺难刷的,ML的范围非常宽广,不容易总结,死记硬背也不容易弄清楚,稍微一变化,很容易被问死。
. Waral 鍗氬鏈夋洿澶氭枃绔,目前不同公司家考题难度相差迥异。有知名公司题目靠intro ML级别秒过的,也有类似规模公司问的肃然起敬的。
当然考题容易的公司就会做的ML也就差,各人权衡是追求学新技术还是追求rest and vest进去的。

有兴趣的同学不妨讨论下各个大厂和小厂目前ML的水平和面试难度。

如果希望好好深挖,这部分花的时间不会比刷leetcode少。
不过刷好了回报也会很大,平时工作会用得到,下次跳槽也用得到,再刷起来会比较容易。刷ML你95%的时间不会被浪费。.鐣欏璁哄潧-涓浜-涓夊垎鍦

AB test 如何刷?. more info on 1point3acres.com
暂时没看到什么书或者视频cover到深度的
有些比较难的都是特殊大厂或者特殊行业面对的问题,也的确没有广为接受的解法
基本原则当然来自统计当中的causal inference,具体应用上有一些坑。个人有些总结,以后可能会整理整理发出来 but TBD
Again这部分不太好刷,不过刷好了回报也会很大,平时工作会用得到,下次跳槽也用得到,再刷起来会比较容易。刷AB你99%的时间不会被浪费。
. 鍥磋鎴戜滑@1point 3 acres
. from: 1point3acres.com/bbs
Analytics 如何刷?
如果工作中就用的,那不需要刷。裸面聊聊天就秒过,不用刷,顶多扫一眼面经。
如果从来没学过的,那很难。必须多看面经,读cracking the PM interview,我在地里也整理过一些内容。99%的时间不会被浪费。. From 1point 3acres bbs

Behavior题要不要刷?
要刷。。。。. visit 1point3acres.com for more.
虽然很傻叉,但是要刷。

此外还有什么?
一定要刷如何negotiate salary的帖子
ROI奇高无比

评分

5

查看全部评分

 楼主| 小K 发表于 4 天前 | 显示全部楼层
哦,补充一点
概率题要不要刷?
要的,地理看面经就大差不差,系统的话,可以看wikipedia
.鏈枃鍘熷垱鑷1point3acres璁哄潧
我已经很多年不看课本了,如果有同学知道可以用来复习准备面试的课本,那球推荐球分享
====================

AB 的想起来了,有些内容可以看
游客,本帖隐藏的内容需要积分高于 100 才可浏览,您当前积分为 0。 查看如何攒积分
绝对是高大上的好东西了,不过,不确定这些内容对于新人有多accessible
inside out的看觉得讲的很深刻,但是不知道outside in的来看是什么感觉 . Waral 鍗氬鏈夋洿澶氭枃绔,
另外其他大厂遇到的特殊问题,这里的论文涉及略嫌不足
外面的博客又良莠不齐,很多也不一定就对
暂时也没有什么好推荐的

回复 支持 1 反对 0

使用道具 举报

咲_Fearless 发表于 6 天前 | 显示全部楼层
感谢版主分享!之前准备刷题的时候就很困惑,因为DS出路比较广,BA/DS/DE在准备上面差的非常多,一直在努力寻找一个头绪。有了总结看上去清晰了很多!
回复 支持 反对

使用道具 举报

fresneldough 发表于 5 天前 | 显示全部楼层
谢K神总结!关于A/B testing,Udacity上有个免费课是请两位谷歌的工程师讲解的,我作为一个零基础的理科生,看了觉得讲得好。不知道K神去看过没,感觉那门课讲得深度怎么样。

评分

1

查看全部评分

回复 支持 反对

使用道具 举报

lzyacht 发表于 5 天前 | 显示全部楼层
`Thank you for your help.
回复 支持 反对

使用道具 举报

chztony 发表于 4 天前 | 显示全部楼层
跪求A/B Testing细节总结! 其实原理啥的看Udacity上那个课有,但是讲到实操的一些坑和细节,真的只有有经验的人才能答了,要是现在这份工作没用到,下一份工作想转入擅长Testing和实验设计的组就感觉很难
回复 支持 反对

使用道具 举报

ksla 发表于 4 天前 | 显示全部楼层
一看的就是老江湖了,感谢!
回复 支持 反对

使用道具 举报

 楼主| 小K 发表于 4 天前 | 显示全部楼层
刷的优先级的考虑:

如果没在analytics的全职或者实习过,那建议多少看看解题方式和presentation的基本技巧
偏工科出身的人经常communication上面差的十万八千而不自知。。。
鏉ユ簮涓浜.涓夊垎鍦拌鍧. 人家商科妹子的slides真的美太多了。。。讲的东西也清楚太多了. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴

为什么?对于scientist职位,如果最初这一点不成,你也许都没有机会去展示你高超的算法和ML能力. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴


当然了,其他看喜好,刷AB比刷ML容易
因为ML太宽广了,
刷codin的话,第一遍可能需要比较久,后来复习会快不少
stat/ML足够强的,可以掩盖coding的不足。.鐣欏璁哄潧-涓浜-涓夊垎鍦

所以需要花费多少精力刷coding题,看你其他部分有多强。

===========================
曾经有同学来问,analytics MS要做啥才能在ML上胜过ML PhD. more info on 1point3acres.com
我基本想不出多少状况能胜出,除非你代码能力超群,而且还能在面试的时候显露出来。。。
这要么得在开源之类社区有点名声,比如有个很好看的github。。。要么你发过什么paper非常牛掰,或者你是kaggle的全球前多少名什么的
没有这些,否则仅仅看简历和看面试表现,我很难想象analytics MS怎么能超越ML phd的。。。。
而有这些,你已经是大牛了,不需要来问我。。。;D

但是这是个伪命题:并不需要beat phd,只需要在一些ML职位上被考虑,那还是有可能的。
回复 支持 反对

使用道具 举报

lcy951212 发表于 4 天前 | 显示全部楼层
楼主讲的很好,十分受益!
回复 支持 反对

使用道具 举报

fresneldough 发表于 4 天前 | 显示全部楼层
谢谢K神对A/B test的最新分享!能不能再多问问DS职位求职中哪个环节比较看重Kaggle比赛成绩?是筛选简历还是面试?面试中哪个环节?我听了K神的第一单元讲座,感觉做Kaggle比赛训练的技巧,像怎么做parameter tuning, cross validation,太具体太细节。大厂里面DS的从业人员自己做不做Kaggle,对于Kaggle比赛的成绩是抱什么样的态度?
回复 支持 反对

使用道具 举报

 楼主| 小K 发表于 3 天前 | 显示全部楼层
大厂里面DS的从业人员自己做不做Kaggle
--- 很好的大厂,不做。。。因为自己公司的数据已经很好,问题已经很赞,各种infra又完备,不需要去做别人的问题
--- 大厂里面工作上不怎么能好好做ML但是很想做ML的,会业余做吧.1point3acres缃
当然不妨碍少量就是真爱的,上班下班都要做!
鏉ユ簮涓浜.涓夊垎鍦拌鍧.
Kaggle用来学习ML是很赞的。但是任何一个人都可以claim自己刷kaggle的对吧。。。。学到什么程度真的看各人。

Kaggle 肯定不会减分
但是至于说加分多少,看你做到什么程度了
. 鍥磋鎴戜滑@1point 3 acres
如果你是grandmaster,请私信我!!!并且你面试的时候肯定也会被问到你做kaggle的经验! 因为面试官会想来膜拜你!!!!
某个项目得奖肯定也加分的

如果你是top 30%,那我不知道有没有什么用
反正如果不是top几的,我面试不会花超过5分钟问“你如何做kaggle项目”这种问题。.鐣欏璁哄潧-涓浜-涓夊垎鍦
我会让面试人去解决一个我们设定的问题,里面会用公司的具体情况,具体数据(即使是simulated data, it would still reflect the nature of the actual work),

如果列的kaggle项目包括titanic,那还不如别放。。。。这各人心里有数的

不太清楚在简历上的作用。。。。除了占位置之外,肯定不会有坏作用的把。。。。
回复 支持 反对

使用道具 举报

myxu123 发表于 3 天前 | 显示全部楼层
哇 等这篇等了好久!终于等到你!
回复 支持 反对

使用道具 举报

dnaxy 发表于 3 天前 | 显示全部楼层
想请问一下K大大,我的积分700多啊,为什么一楼的内容,还看不了呢?谢谢
回复 支持 反对

使用道具 举报

 楼主| 小K 发表于 3 天前 | 显示全部楼层
dnaxy 发表于 2017-9-18 22:41
想请问一下K大大,我的积分700多啊,为什么一楼的内容,还看不了呢?谢谢

你已经看到了的吧?
回复 支持 反对

使用道具 举报

 楼主| 小K 发表于 3 天前 | 显示全部楼层
以下内容需要积分高于 100 才可浏览
这句话是永久存在的,
内容就在下面

===========. From 1point 3acres bbs
是的,论坛这部分界面真是丑到爆了
回复 支持 反对

使用道具 举报

find_advice 发表于 3 天前 | 显示全部楼层
小K 发表于 2017-9-19 14:07
大厂里面DS的从业人员自己做不做Kaggle
--- 很好的大厂,不做。。。因为自己公司的数据已经很好,问题已经 ...
.1point3acres缃
感觉kaggle除了feature engineering之外基本是规定动作,除了一些不必要的花式stacking……
回复 支持 反对

使用道具 举报

dnaxy 发表于 3 天前 | 显示全部楼层
小K 发表于 2017-9-19 14:49
以下内容需要积分高于 100 才可浏览
这句话是永久存在的,
内容就在下面

哈哈哈,原来如此,看到内容了,谢谢
回复 支持 反对

使用道具 举报

fresneldough 发表于 3 天前 | 显示全部楼层
谢谢K神坦诚相告!期待K神开的 A/B test 和 ML 单元,特别希望能讲讲大厂自己处理数据问题的具体例子,给我这样没工作过的人一点概念。
回复 支持 反对

使用道具 举报

本版积分规则

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明

custom counter

GMT+8, 2017-9-22 00:15

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表