注册一亩三分地论坛,查看更多干货!
您需要 登录 才可以下载或查看附件。没有帐号?注册账号
x
先说一下自己的情况,本人主要面data science analytics职位,做过的题目基本都是简单的模型+如何做AB test+如何做产品改善推荐这种类型的题目。不是machine learning相关的职位。做过湾区多家热门独角兽公司的data challenge,之前每战必败,现在通过率100%。做多了发现都是套路,所以希望自己的经验可以帮助在寻找data方面工作的战友们
好了废话完了,马上进入正题。这种take home data challenge的难点在于问题比较开放性+时间限制。短则3-4个小时,长的最多一周。下面我来说一下前期准备工作,以及拿到题目后如何短时间内把握住要领,写出面试官满意的报告来。
下面先说一下前期准备: 代码熟练:不管是sql,或者r, python,随便你选,但是一定要选你用的比较熟练的。因为你要短时间内完成数据分析+写报告,如果代码不熟练的话可能做不完。建议可以先准备一些模版,比如画图的,做模型的,做ab test的。我用的python,所以画图都是seaborn + matplotlib, 需要建模一律用random forest from h2O package。这里强烈推荐h2O random forest,自带auto bin的功能,解决了categorical level多的问题。不需要将 categorical variable 转化成numerical(对于python同学来说), 不需要impute missing value。至于我为什么只用random forest, 下面会讲到 预习一些题目:这里推荐买这本书 “A Collection of Data Science Take-Home Challenges”。我以前买的时候可以单独买这本书,50块,现在好像得买整个package,有些小贵。这本书主要是给了几个例子,以及用r来做的详细解答。非常好的参考例子,我就是看了这个书以后才开窍的 . ----
下面言归正传,题目拿到手以后改咋办: 您好! 本帖隐藏的内容需要积分高于 188 才可浏览 您当前积分为 0。 使用VIP即刻解锁阅读权限或查看其他获取积分的方式 游客,您好! 本帖隐藏的内容需要积分高于 188 才可浏览 您当前积分为 0。 VIP即刻解锁阅读权限 或 查看其他获取积分的方式 div align="left">分析做完了,写报告应该注意啥:思路清晰,言简意赅:看似是废话,但是很多同学,包括我以前,都恨不得做个特别复杂完美的图跟表格,然后展示给面试官我的技术有多牛掰。其实他们更看重的是你的分析是不是通俗易懂,非technical的人能不能一看你的图或者分析就知道怎么回事了。 图文并茂:这里强烈推荐大家都鄙视的excel作图功能,个人觉得比seaborn, ggplot, matplotlib都好用多了。也许是因为我代码能力不强,改个图得debug半天,还经常弄不出自己想要的效果,但是用excel简直是神器,轻松做出非常专业的图来,改起来也很方便。我一般简单的图,比如boxplot, heatmap,用seaborn这种直接出,但是要做一些复杂的cohort analysis,就上excel了。 不要写的太长:很多同学把data challenge当成论文来写,弄个几十页的报告,把能分析的都分析了一遍,结果还挂了。因为人家面试官根本没有时间看你的论文报告。确保他们花10-15分钟时间能把你的分析跟结论看懂。
. check 1point3acres for more.
我现在能想到的就这么多。最后总结一下主要步骤: 明确产品目标, 定义相关metrics,建模去预测关键指标,模型结果对产品改进有啥建议。希望这篇总结能对正在战斗或者打算战斗的战友们有点帮助。 .google и
. From 1point 3acres bbs
|