查看: 144113|回复: 313
收起左侧

回报地里,总结自己如何cracking the Data Challenge

    |只看干货
本楼: 👍   100% (108)
 
 
0% (0)   👎
全局: 👍   99% (846)
 
 
0% (3)    👎

2018(1-3月) 分析|数据科学类 博士 全职@Facebook - 猎头 - 其他  | Pass | 在职跳槽

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看附件。没有帐号?注册账号

x
先说一下自己的情况,本人主要面data science analytics职位,做过的题目基本都是简单的模型+如何做AB test+如何做产品改善推荐这种类型的题目。不是machine learning相关的职位。做过湾区多家热门独角兽公司的data challenge,之前每战必败,现在通过率100%。做多了发现都是套路,所以希望自己的经验可以帮助在寻找data方面工作的战友们

好了废话完了,马上进入正题。这种take home data challenge的难点在于问题比较开放性+时间限制。短则3-4个小时,长的最多一周。下面我来说一下前期准备工作,以及拿到题目后如何短时间内把握住要领,写出面试官满意的报告来。


下面先说一下前期准备:
  • 代码熟练:不管是sql,或者r, python,随便你选,但是一定要选你用的比较熟练的。因为你要短时间内完成数据分析+写报告,如果代码不熟练的话可能做不完。建议可以先准备一些模版,比如画图的,做模型的,做ab test的。我用的python,所以画图都是seaborn + matplotlib, 需要建模一律用random forest from h2O package。这里强烈推荐h2O random forest,自带auto bin的功能,解决了categorical level多的问题。不需要将 categorical variable 转化成numerical(对于python同学来说), 不需要impute missing value。至于我为什么只用random forest, 下面会讲到
  • 预习一些题目:这里推荐买这本书 “A Collection of Data Science Take-Home Challenges”。我以前买的时候可以单独买这本书,50块,现在好像得买整个package,有些小贵。这本书主要是给了几个例子,以及用r来做的详细解答。非常好的参考例子,我就是看了这个书以后才开窍的


下面言归正传,题目拿到手以后改咋办:
  • 明确产品的目标: 一般都会给你描述一个产品,比如某社交网络公司想提高 rentention rate , 某电商公司想提高conversion rate。你下面的所有的分析一定要围绕这个目标来做。这个说起来容易,但是很多同学题目拿到手,都会脑补很多东西,想的太多了,反倒无从下手。建议就从跟产品目标最直观的开始分析
  • 定义metrics:在清楚了产品的目标以后,哪些metrics可以用来衡量产品的成功与否呢。对于互联网产品,基本都是从user acquisition, retention, engagement. monetization 相关的这些目标来定义metrics的。多了解用户使用产品的漏斗模型 (AAARRR)。然后定义metrics的时候思考产品特点以及目标,往漏斗模型上面靠,每一层应该用什么metrics来衡量。可以看这篇科普的:http://startitup.co/guides/374/aarrr-startup-metrics
  • 数据清理:也就是所谓的data cleaning。基本就是看看哪些变量的missing value太多了,或者某个变量只有一个level。这种情况下可以去掉那些没什么用的数据。另外如果你用h2O random forest建模,不用去impute missing value。
  • 提取跟产品目标相关的变量:比如uber想提高driver rentention rate,你拿到数据后,看一下每个变量都什么意思,想想哪些变量有可能跟目标相关。下面说一下我遇到的比较普遍的需要做一些data munipulation的相关变量

    • 时间变量:可以提取day of week, month, time of the day这种变量。还有一些time difference, 比如user sign up date,first time use this product,这里面的时间差也就是用户登记后多久开始使用产品,这也会是一个很重要的变量。
    • 需要求平均值,次数求和这种变量:比如一周内使用了多少次产品,平均每次花了多少钱
    • 去掉跟结果直接相关的变量:比如某个变量跟结果是显而易见的相关,虽然加入这个变量你的模型预测准确度达到99.9999%, 但是对于你后面做的产品推荐没有任何意义。比如某电商想看看用户的哪些行为能够促使最后花钱买产品,有个变量是是否到了check out页面。很显然用户到了check out 页面,购买的意向就已经很高了。在建模的时候要去掉这个变量,因为不用分析就知道这个变量重要。

  • 如何鉴别重要的变量:一般的问题都是让你鉴别哪些变量对结果影响最大。选3-4个重要变量即可,千万不要把所有的都分析了,因为你没有时间!下面说两种我常用的方法

    • 看分布:比如你觉得time difference是个很重要的变量,可以画个box plot,或者histogram,分别对retain and churn的人做图
    • 直接用模型:根据模型结果看feature importance。我只用random forest。因为第一我建模的目的只是为了看哪个变量
      您好!
      本帖隐藏的内容需要积分高于 188 才可浏览
      您当前积分为 0。
      使用VIP即刻解锁阅读权限或查看其他获取积分的方式
      游客,您好!
      本帖隐藏的内容需要积分高于 188 才可浏览
      您当前积分为 0。
      VIP即刻解锁阅读权限查看其他获取积分的方式
      活或者月活的用户。
      .1point3acres

分析做完了,写报告应该注意啥:
  • 思路清晰,言简意赅:看似是废话,但是很多同学,包括我以前,都恨不得做个特别复杂完美的图跟表格,然后展示给面试官我的技术有多牛掰。其实他们更看重的是你的分析是不是通俗易懂,非technical的人能不能一看你的图或者分析就知道怎么回事了。
  • 图文并茂:这里强烈推荐大家都鄙视的excel作图功能,个人觉得比seaborn, ggplot, matplotlib都好用多了。也许是因为我代码能力不强,改个图得debug半天,还经常弄不出自己想要的效果,但是用excel简直是神器,轻松做出非常专业的图来,改起来也很方便。我一般简单的图,比如boxplot, heatmap,用seaborn这种直接出,但是要做一些复杂的cohort analysis,就上excel了。
  • 不要写的太长:很多同学把data challenge当成论文来写,弄个几十页的报告,把能分析的都分析了一遍,结果还挂了。因为人家面试官根本没有时间看你的论文报告。确保他们花10-15分钟时间能把你的分析跟结论看懂。
    . 1point 3 acres


我现在能想到的就这么多。最后总结一下主要步骤: 明确产品目标, 定义相关metrics,建模去预测关键指标,模型结果对产品改进有啥建议。希望这篇总结能对正在战斗或者打算战斗的战友们有点帮助。
.


评分

参与人数 224大米 +496 收起 理由
Pocono + 1 赞一个
lnuqjc + 2 给你点个赞!
alittlefishy + 1 很有用的信息!
Jack2020u + 2 很有用的信息!
nCOmAntF + 1 很有用的信息!
nomnomnom + 1 很有用的信息!
wendiiiiz + 1 太有用了!!
tutti_gong + 1 特别给力

查看全部评分


上一篇:FB概率题
下一篇:果电面挂

本帖被以下淘专辑推荐:

本楼: 👍   100% (20)
 
 
0% (0)   👎
全局: 👍   100% (25)
 
 
0% (0)    👎
十分感谢楼主分享。
补充一点:有些公司的会很注重data cleaning & processing,说白了就是data里面有雷。没有发现的话都是会被扣分的。除了简单duplication和missing之外,还要想一些和biz case相关的东西。比如时间上是不是make sense,比如有没有可疑地fraud data等等。
不然花了很多时间做model或者分析,因为这些小东西一眼没看到被扣分很不值当。

评分

参与人数 7大米 +11 收起 理由
OzzyB + 1 给你点个赞!
llwc + 3 给你点个赞!
求职新人 + 1 赞一个
fanfei2014 + 1 赞一个
stubbornsuri + 1 谢谢分享
Rannie + 1 很有用的信息!
guairuxu + 3 很有用的信息!

查看全部评分

回复

使用道具 举报

killniu 2018-5-12 09:59:38 | 🔍试试Job多多
本楼: 👍   100% (7)
 
 
0% (0)   👎
全局: 👍   100% (13)
 
 
0% (0)    👎
夜里发呆 发表于 2018-4-20 11:27
感谢版友分享collection of data science take home challenge。我接龙发给了以下版友:. Waral dи,
panxu.zhang@gmai ...

谢谢 我收到了
需要的朋友给我发信,我发给你们
我的email是 rixin003@gmail.com
麻烦在题目里面写清楚,防止我当成垃圾邮件删掉
扫码关注一亩三分地求职与职场公众号
更多干货内容等你发现

本楼: 👍   100% (4)
 
 
0% (0)   👎
全局: 👍   97% (80)
 
 
2% (2)    👎
刚做了个data challenge,问题学得很general,就问你要怎么去outlier,从而present给stakeholder。但问他们到底present的objective是啥,公司也不回复。就说直接想。dataset里也15个不同metrics,也看不出到底哪个更重要。后来我就简单概括了两个方法,选了两个比较highly correlate的说了一下,画了2个图,想着不过拉倒。没想到却过了
回复

使用道具 举报

本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (3)
 
 
0% (0)    👎
感谢楼主的分享,十分受益~
回复

使用道具 举报

本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (17)
 
 
0% (0)    👎
感谢分享,excel作图是个没注意过的好建议!
回复

使用道具 举报

本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (143)
 
 
0% (0)    👎
感谢楼主分享~感觉非常适合FB以及Linkedin那种DS面试!
回复

使用道具 举报

本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   91% (7835)
 
 
8% (716)    👎
爱你               
回复

使用道具 举报

本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (1)
 
 
0% (0)    👎
感谢楼主的分享,十分受益~
回复

使用道具 举报

本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   76% (10)
 
 
23% (3)    👎
我也看了那本书,去年买的,楼主总结的很精髓。感谢楼主!
回复

使用道具 举报

本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (103)
 
 
0% (0)    👎
感谢lz分享!总结得非常棒
回复

使用道具 举报

本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (23)
 
 
0% (0)    👎
谢谢分享,thank you
回复

使用道具 举报

本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   88% (104)
 
 
11% (14)    👎
感谢楼主的分享,满满的干货
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

>
快速回复 返回顶部 返回列表