🎁 长周末专享特惠!VIP通行证6个月立减$50,蓝莓立减$25 🎁
回复: 321
收起左侧

回报地里,总结自己如何cracking the Data Challenge

   
本楼:   👍  123
100%
0%
0   👎
全局:   891
100%
0%
3

2018(1-3月) 分析|数据科学类 博士 全职@facebook - 猎头 - 其他  | | Pass | 在职跳槽

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看附件。没有帐号?注册账号

x
先说一下自己的情况,本人主要面data science analytics职位,做过的题目基本都是简单的模型+如何做AB test+如何做产品改善推荐这种类型的题目。不是machine learning相关的职位。做过湾区多家热门独角兽公司的data challenge,之前每战必败,现在通过率100%。做多了发现都是套路,所以希望自己的经验可以帮助在寻找data方面工作的战友们

好了废话完了,马上进入正题。这种take home data challenge的难点在于问题比较开放性+时间限制。短则3-4个小时,长的最多一周。下面我来说一下前期准备工作,以及拿到题目后如何短时间内把握住要领,写出面试官满意的报告来。


下面先说一下前期准备:
  • 代码熟练:不管是sql,或者r, python,随便你选,但是一定要选你用的比较熟练的。因为你要短时间内完成数据分析+写报告,如果代码不熟练的话可能做不完。建议可以先准备一些模版,比如画图的,做模型的,做ab test的。我用的python,所以画图都是seaborn + matplotlib, 需要建模一律用random forest from h2O package。这里强烈推荐h2O random forest,自带auto bin的功能,解决了categorical level多的问题。不需要将 categorical variable 转化成numerical(对于python同学来说), 不需要impute missing value。至于我为什么只用random forest, 下面会讲到
  • 预习一些题目:这里推荐买这本书 “A Collection of Data Science Take-Home Challenges”。我以前买的时候可以单独买这本书,50块,现在好像得买整个package,有些小贵。这本书主要是给了几个例子,以及用r来做的详细解答。非常好的参考例子,我就是看了这个书以后才开窍的
    . ----

下面言归正传,题目拿到手以后改咋办:
    您好!
    本帖隐藏的内容需要积分高于 188 才可浏览
    您当前积分为 0。
    使用VIP即刻解锁阅读权限或查看其他获取积分的方式
    游客,您好!
    本帖隐藏的内容需要积分高于 188 才可浏览
    您当前积分为 0。
    VIP即刻解锁阅读权限查看其他获取积分的方式
    div align="left">分析做完了,写报告应该注意啥:
    • 思路清晰,言简意赅:看似是废话,但是很多同学,包括我以前,都恨不得做个特别复杂完美的图跟表格,然后展示给面试官我的技术有多牛掰。其实他们更看重的是你的分析是不是通俗易懂,非technical的人能不能一看你的图或者分析就知道怎么回事了。
    • 图文并茂:这里强烈推荐大家都鄙视的excel作图功能,个人觉得比seaborn, ggplot, matplotlib都好用多了。也许是因为我代码能力不强,改个图得debug半天,还经常弄不出自己想要的效果,但是用excel简直是神器,轻松做出非常专业的图来,改起来也很方便。我一般简单的图,比如boxplot, heatmap,用seaborn这种直接出,但是要做一些复杂的cohort analysis,就上excel了。
    • 不要写的太长:很多同学把data challenge当成论文来写,弄个几十页的报告,把能分析的都分析了一遍,结果还挂了。因为人家面试官根本没有时间看你的论文报告。确保他们花10-15分钟时间能把你的分析跟结论看懂。

    . check 1point3acres for more.

    我现在能想到的就这么多。最后总结一下主要步骤: 明确产品目标, 定义相关metrics,建模去预测关键指标,模型结果对产品改进有啥建议。希望这篇总结能对正在战斗或者打算战斗的战友们有点帮助。
    .google  и
    . From 1point 3acres bbs

评分

参与人数 224大米 +496 收起 理由
Pocono + 1 赞一个
lnuqjc + 2 给你点个赞!
alittlefishy + 1 很有用的信息!
Jack2020u + 2 很有用的信息!
nCOmAntF + 1 很有用的信息!

查看全部评分


上一篇:FB概率题
下一篇:果电面挂

本帖被以下淘专辑推荐:

wzzcangzi 2018-3-5 06:41:48 | 显示全部楼层
本楼:   👍  23
100%
0%
0   👎
全局:   28
100%
0%
0
十分感谢楼主分享。
补充一点:有些公司的会很注重data cleaning & processing,说白了就是data里面有雷。没有发现的话都是会被扣分的。除了简单duplication和missing之外,还要想一些和biz case相关的东西。比如时间上是不是make sense,比如有没有可疑地fraud data等等。
不然花了很多时间做model或者分析,因为这些小东西一眼没看到被扣分很不值当。

评分

参与人数 7大米 +11 收起 理由
OzzyB + 1 给你点个赞!
llwc + 3 给你点个赞!
求职新人 + 1 赞一个
fanfei2014 + 1 赞一个
stubbornsuri + 1 谢谢分享

查看全部评分

回复

使用道具 举报

zhuzaizai 2019-1-20 14:03:15 | 显示全部楼层
本楼:   👍  5
100%
0%
0   👎
全局:   87
98%
2%
2
刚做了个data challenge,问题学得很general,就问你要怎么去outlier,从而present给stakeholder。但问他们到底present的objective是啥,公司也不回复。就说直接想。dataset里也15个不同metrics,也看不出到底哪个更重要。后来我就简单概括了两个方法,选了两个比较highly correlate的说了一下,画了2个图,想着不过拉倒。没想到却过了
回复

使用道具 举报

freya17 2018-2-22 05:46:40 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   3
100%
0%
0
感谢楼主的分享,十分受益~
回复

使用道具 举报

karansh 2018-2-22 06:19:05 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   19
100%
0%
0
感谢分享,excel作图是个没注意过的好建议!
回复

使用道具 举报

lnq56789 2018-2-22 06:28:27 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   171
100%
0%
0
感谢楼主分享~感觉非常适合FB以及Linkedin那种DS面试!
回复

使用道具 举报

刷题 2018-2-22 06:33:25 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   7925
92%
8%
718
爱你               
回复

使用道具 举报

不虞 2018-2-22 07:23:47 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   1
100%
0%
0
感谢楼主的分享,十分受益~
回复

使用道具 举报

卢卢777 2018-2-22 08:56:23 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   10
77%
23%
3
我也看了那本书,去年买的,楼主总结的很精髓。感谢楼主!
回复

使用道具 举报

masonvincent 2018-2-22 10:09:36 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   104
100%
0%
0
感谢lz分享!总结得非常棒
回复

使用道具 举报

sanyet 2018-2-22 11:59:13 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   39
100%
0%
0
谢谢分享,thank you
回复

使用道具 举报

dnaxy 2018-2-22 12:24:08 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   105
88%
12%
14
感谢楼主的分享,满满的干货
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

>
快速回复 返回顶部 返回列表