携程-数据分析

谭德森 · 2023-11-13 20:22:28

注册一亩三分地论坛，查看更多干货！

您需要登录才可以下载或查看附件。没有帐号？注册账号

x

面试题目：
一、技术小哥：
1. 介绍你说的时间序列算法。有哪些集成的时间序列算法？

2. 知道哪些分类算法以及他们的原理？

3. KNN算法原理，如何选择 N 值？

4. 如何处理缺失值？某字段有 10% 缺失，如何处理？

5. AB 测试，T 检验与 Z 检验区别？

6. AB 测试，设计指标考虑因素，解释你写的 robustness 和 sensitivity？

二、业务大佬：
7. 什么叫“构建业务指标体系”？

8. 凭你在咨询公司这么久的经验，如果有两个紧急任务，一个是客户紧急的需求，一个是内部大领导安排的，你会如何做？

当时的回答及事后思考：

1. 我是在 kaggle 上找的时间序列的教程然后自己写了一个，感觉类似 ARIMA ，将时间序列分成四个部分：trend，seasonality，lag及residue，用 linear regression，fourier analysis 及 Xgboost 去对各部分进行预测。面试官问我知不知道一些复合的时间序列算法，我不知道，后来问了一下他说是什么什么 TSM，什么各种 TM，事后搜了一下应该是深度学习在时间序列上的应用，LSTM (Long Short-Term Memory Network) 是一种 RNN (recurrent neural network) 循环神经网络在时间序列上的应用。挺好，之后研究研究。后面在埃森哲 AI 岗位面试，面试官提到了 ARIMAX 算法，当时是在说，因为我做的是医疗领域的时序分析，有很多因素可能在数据里面很难体现，比如政府宏观政策、促销活动等等，所以可以人为给设定一些参数以模拟这些难以测控的数据的影响，认为强加进去一个新参数来对模型进行调整。总之在时间序列算法上，要再拓展一些方法。

2. scikit-learn 上总结了很多。网上资料很多。

3. KNN可以用于有监督学习（分类及回归）和无监督学习（聚类）。对于前者，对于给定的含有 n 个特征的数据，各个数据点可以看成 n 维欧氏空间中的点，并且每个数据点含有他们的类别信息（分类）或者数值信息（回归），而对于一个新的数据点，我们想对它的类别或数值信息做预测，则我们会找出离这个新数据点最近的 n 个点并计算这 n 个点的占大多数的分类（分类）或平均数值信息（回归）以作为新数据点的相应预测结果。对于 n 的选择，n 越小则模型越复杂，更容易 overfitting 或者 capture outliers；n 越大模型越简单，但分类的边界可能就不明显或者难以体现数据中的关联。对于有监督学习，可以用所谓的 "cross-validation" 或者 "grid search" 去选择 n 的值，即尝试不同的 n 值然后去预测看效果，即 accuracy（分类）或 mean square error（回归）。对于无监督学习（聚类），我们会选择 k1 ，即想把数据分成几类，这个 k1 的选择一般靠 domain knowledge。选定了 k1 个中心点之后，对于所有数据点，计算与其距离最近的中心点，将此数据点分类至此中心点。对全部数据点分类完毕后，用每个类别中数据点各坐标的均值重新计算各个分类的中心点，重复前面这两个过程直至中心点 tends to converge 或者到达了一定的迭代次数。然后还要选择 k2 ，即与有监督中的 n 一样，在分好类别，对新的数据点进行预测的时候，我们要选择 k2 个距离新数据点最近的数据点，来对新数据点进行预测，这个 k2 的选择就和之前有监督的 KNN 一样。
这是我目前的理解，还要再仔细学一下。

4. 可以选择 ① 删除这些行或列，如果数据不多（10%）或者缺失的部分是 randomly distributed 的，即你有一些列代表数据的一些分类，缺失值没有全部在同一个分类里面。 ② 均值/中位数/模型补全缺失值。需假设缺失的值与原始数据有相似的分布。也可以用机器学习等模型补充缺失值。 ③ 向前/向后补充。如果缺失值在时间序列上有规律或者在某个维度上符合一些数列规律，可用其补充。
这个还是需要很多实战经验的我感觉，要明白为什么会产生缺失值等等，而且通过不同的补充方法迭代结果以选取最好的补充方法。等我 kaggle 实战 100 个项目归来后再来分享经验👍

5. 我觉得面试老哥不太懂，因为我在学的时候一般没怎么遇到过这个概念，就是在做 validation check 比如算 sign test 可能会用到。后来查了一下，T 检验与 Z 检验（或者叫 U 检验）都是衡量正太样本的均值与整体正太样本均值之间差异的。首先 AB 测试是统计学上假设检验的一种，学学统计学的假设检验挺好的，T 检验这种。但一方面是，实际 AB 实验中，很多指标都不是正态分布的，我们一般用的点击率（去重后）倾向于符合二项分布，而当样本量很大的时候我们可以用正态分布来进行拟合，对于其他的指标

| type of metric                      |                            distribution                               | estimated variance of the metric |
| probability(如点击率去重)    |  binomial（二项分布）样本量大时用 normal 近似 |                      p(1-p)/N                   |
|    mean                                   |                      normal (中心极限定理)                    | δ(variance of sample, not metric)^2/N |
|    median/percentile       | normal (如果underlying data是normal并且样本量足够大) | ？？？（chatgpt 有回答，未知正误）|
| rates (比如平均每分钟 call center 可以应接的电话数) | Poisson (非连续分布，长尾，均值很小的二项分布) | var=mean    |
| count/difference between two counts  |   normal (maybe 尤其对于人口数据)       |             两组var之和                   |
| ratios (比如实验组与对照组点击率之比 Pexp/Pcont) |取决于分子分母的分布|如果分子分母都不是normal的，很难有analytical结果|

另一方面是，我在看假设检验的统计学书的时候，说 T 检验（或者 Z 检验）是，你假设知道整体样本的均值，然后你去进行一次抽样，检验抽样的均值是否符合整体假设。但还有另一种就是，你直接进行两次抽样，然后对比这两个抽样之间，是否相同或者不同。我感觉书上说这两个是两个事情，而 AB 测试是后一种，它在计算方式上与 T 检验也有些不同之处。我不知道是不是我学走火入魔了，有统计大佬也请指点一二。

6. 这个我可太擅长了。就在选择指标的时候，如何衡量你选择的指标是一个好指标。有些指标看起来很 nice，比如每人每天平均使用 APP 的时长，但实际上这个指标可能非常的 robust，就是它很难改变，你真的看到它改变了，也是大概率由于你计算错误或者系统错误导致的。robust 指是否能对我实验的变化作出反应，sensitivity 指是否容易受异常值的影响。销售额指标，我们选销售额的均值，就很容易受异常值的影响。今天榜一大哥心情好，给女主播刷了一伯万，均值翻了好几翻，你一看哇塞我的实验真有效果，不是的兄弟，这就很 sensitive。而如果选择销售额的众数（median），即使实验很有效果，处于 median 以后的用户每个人都多刷了一千，你的 median 还是没变，这就太 robust 了。

7. 这个我当时没说好。刚入职的时候在四大做数据分析师，感觉领导总提到这个词，感觉像是在假装高大上，问领导怎么定出来的这些指标，领导就说是凭经验，感觉就像是瞎蒙的。但随着工作了几年，体会到，指标体系，一方面指标这个词，希望我们量化的来衡量事情，用数据说话。老板问你今年干的怎么样，妳说增加了多少销售额，同比去年提升了多少等等，这就是指定指标。还有体系，体系就是横向纵向维度都有的，比如分析客户产品卖的好不好，纵向整体市场大环境，到客户整个公司在到具体产品，纵向客户竞品等等，去综合设置一些指标。

8. 这个当时也没说好。时间安排和预算是比较难的事情吧我感觉在咨询公司。老板问你这个预计要做多久，尤其是新做的项目，要留一些 buffer，尤其是向客户承诺的时候，因为可能会有各种问题，还要 QC 等等，这个会帮助解决这个面试题到的问题。还有就是沟通很重要吧，客户要的很急，她究竟要什么呢，我把关键的先做出来给一部分是否也可以？老板这边能找同事帮忙解决？及时沟通。

职位描述如下：
市场团队 | 项目/流程/数据 | 2023-08-29

职位描述
职位描述
1、负责数字营销数据分析工作，深入理解业务，梳理业务线的关键指标体系，完成数据看板的搭建，各类专题分析、报告撰写，以及通过因果推断等方法进行各类场景价值论证；
2、对业务异常问题进行跟踪和定位，深入分析归纳，以及可对数据仓库模型设计提出建设性建议；
3、输出业务专题分析报告，拆解开放性问题为若干明确问题，完成数据洞察，为产品、运营提供策略建议；
4、设计营销场景AB实验，并对AB实验进行分析解读，推进实验结论落地并带来业务增长；
5、主动理解和思考业务，运用统计学、机器学习等方法，发现业务问题，并为产品及运营优化方向提供数据支撑及策略建议；
6、对接营销展演各项目落地，能跨部门与业务、产品、研发进行团队合作，推进落地项目的完成；
任职资格
1、计算机、统计、数学相关专业优先，985/211硕士及以上学历；2年工作经验以上优先；
2、精通 SQL，熟悉使用spark、hive等数据库工具，有大型互联网公司数据分析经验、互联网数据建模分析经验者优先；
3、熟练使用 Python/R进行数据分析，精通常用的数据统计和分析方法，如因果推断、预测、异常检测、回归分析、聚类等；
4、对重大问题有钻研精神，能提出独到见解，能独立完成从提出问题到数据分析、报告撰写、展示汇报等全部工作；
5、抗压能力强，沟通协调推动能力强，积极主动，善于思考；

鱼仔Vincent · 2023-11-20 01:20:23

老哥您好，我最近也在找国内的数分的工作，希望能认识一下！

谭德森 · 2023-11-21 10:16:42

你好，很高兴认识你！

鱼仔Vincent · 2023-11-22 12:19:57

谭德森发表于 2023-11-20 20:16
你好，很高兴认识你！

哈喽可以加一下你的微信吗？

携程-数据分析

注册一亩三分地论坛，查看更多干货！

评分

相关帖子

浏览过的版块