一亩三分地论坛

 找回密码
 获取更多干货,去instant注册!

扫码关注一亩三分地公众号
查看: 2410|回复: 10
收起左侧

[DataScience] 码农背景想做数科的怎么补统计?

[复制链接] |试试Instant~ |关注本帖
小K 发表于 2014-9-22 10:46:06 | 显示全部楼层 |阅读模式

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干货,去instant注册!

x
码农背景想做数科的怎么补统计?
===============================

因为最近跟好多个不同的人重复过这个,所以单写个帖子。

1. 如果你有办法在学校上课,就上课,学:
基本概率,比较基本的统计,make sure 要cover:
exploratory data analysis (EDA), descriptive statistics and inference. 1point3acres.com/bbs

Inference里面,如果你只想会最基本的,学
t-test
CLT
chisq test (for proportions)
pvalue and power

线性代数不一定非要学。虽然学了也好。. From 1point 3acres bbs
ML你如果学过计算机的,也可以自己再看一个统计的 (intro to stat learning with R, Tibshrani)



2. 如果实在没办法选课,udacity都有descriptive statistics and inference两门。EDA在其他数科track里面都有cover,不妨把MongoDB的课也上了。作业不免费但是录像都有。
. from: 1point3acres.com/bbs
Udacity intro to stat 实在太浅了,差评不推荐。除非你看前面两门课觉得看不懂,否则没必要。-google 1point3acres


这些就是minimal set,剩余还有兴趣的看兴趣学。比如可以看这个帖子 http://www.1point3acres.com/bbs/ ... D192%26sortid%3D192

==========================
顺便再给我自己打个广告: 我来帮你学统计,你来帮我提高代码能力。http://www.1point3acres.com/bbs/thread-103630-1-1.html 需要OOP,设计模式方向的指导。
==========================
再顺便:我对申请学校无法提供任何帮助。我没法帮你学校,看某些学校是否好就业,看你的文书,或者给你定位
的确没有精力commit更多其他。有空会尽量在版面公开答疑。
除了以上说的相互帮助的情况,我也无法QQ,电话或者见面答疑。有问题欢迎在版面提出,这样大家有空都可以来回答,每次答疑内容也可以帮助更多的人。. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴




评分

1

查看全部评分

本帖被以下淘专辑推荐:

 楼主| 小K 发表于 2014-9-23 01:32:31 | 显示全部楼层
Analysis vs. Reporting. from: 1point3acres.com/bbs

我们经常看见有些其他组用“数据分析”和“统计”这种字样,然后仔细讨论后发现他们做的是reporting, dashboard etc. 或者,其他DEV听见“analyst”,就觉得是“跑SQL的”。
这些内容当然也是data products里面不可缺少的成分,但是要说数科就是做这个的,就太狭隘了。. 1point 3acres 璁哄潧
鏉ユ簮涓浜.涓夊垎鍦拌鍧.
只说不需要什么专业知识的几个例子:

分析提炼KPI, 这部分是个business问题,部分是个统计(+)问题,部分是CS问题: what do i need to log to keep KPI? cost of logging it? debug/maintain难度?计算方式正确吗?(not everything is analyzed with a straight up t-test) 提炼对business有用的部分,这个大家都能想到。下个问题是,这个KPI会不会被你做的改进移动?如果无论怎么改都很难动,那不能当KPI。是否非常敏感,会外界有一点东西就变,而并非真实的反应人为添加的改变?如果只有一个KPI, 是否能合理描述问题,比如以流量为KPI,而不顾现金流,就会造成烧钱买流量,烧完风投就倒闭的情况(我没做过这个。。。就是例子)。. 1point 3acres 璁哄潧
. Waral 鍗氬鏈夋洿澶氭枃绔,
鏉ユ簮涓浜.涓夊垎鍦拌鍧.
Quality: If you report on some KPI, and it moved, what made it move? You can't tell, unless you have already logged other metrics to help understand it. Say it's Revenue/1M users. And it suddenly went down. Why? 是总用户数变了?是用户数没变,但是用户买的次数少了?买的次数没变但是买的东西便宜了?还是东西也没便宜但是利润少了?或者什么都没少,但是计算错了?是用户添加到cart但是check out process bug掉了?是用户无法添加到cart了?是新button让用户找不到click的地方了?还是两个组做的改动,相互影响了?

Performance: 互联网的产品里面100毫秒已经会流失多少多少客户(数字忘记了)。Optimizely can slow down your site for up to 1-2 seconds (all the js loading). 在perf用毫秒计算的地方,这无疑太长了。Someone needs to keep an eye on this. If something does slow your site down significantly, DS usually can find out where. Devs can then fix it.. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷

做实验的,起码最初需要至少一个懂统计的人确保你计算的东西是对的。因为太多容易搞错的地方了。I love the can do attitude of devs, 但是随便一个公式拿来就套用,会造成用错误的数据指导结论。错误的数据不是什么“大不了盈利本来5%的错算成6%呗,有什么了不起”。完全可以造成,本来是losing feature,看起来是winner,本来是winning feature你看不出来,或者本来根本没有动静,你专门去捕捉noise.

Data engineer做的那部分我实在不太懂,大体上如果有个新business (or exisiting one)希望做数据驱动的产品,你需要去理解他们的软件,设计KPI,然后决定如何log和log什么东西。都存着太占空间,价格很高,不存好的话,将来想分析没有办法分析。具体到把什么json log写成什么样子,如何被下游的分析consume之类的。sorry i dont know enough to make a meaningful comment here.

Prediction/Forecast - 这个是比较有料的部分,我没具体做过,就不乱说了>__< 我觉得真正数科里面有相当比例应该做这个。精准投放广告拉,细分人群拉,推荐系统拉,各种预测拉。nate Silver的 the signal and the noise 讲的是这类问题比较多。
. From 1point 3acres bbs
======================
其他部分等大牛们补充。

评分

2

查看全部评分

回复 支持 反对

使用道具 举报

venomtian 发表于 2014-9-22 11:48:41 | 显示全部楼层
最近在上probability, 感觉所有的分布都可以从伯努利分布(抛硬币)展开:
二项分布:多抛几次硬币. 鍥磋鎴戜滑@1point 3 acres
几何分布:一条命,抛出人头就枪毙
负二项分布:多条命,抛出人头就枪毙,可以多枪毙几次
超几何分布:不抛硬币,用硬币砸彩蛋
泊松分布:把硬币拍碎了抛,碎了的硬币抛出人头的概率也跟着碎. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
指数分布:用碎了的硬币玩一条命
伽马分布:用碎了的硬币玩多条命,
回复 支持 反对

使用道具 举报

sy10017667 发表于 2014-9-22 11:59:17 | 显示全部楼层
好帖子。。。
回复 支持 反对

使用道具 举报

sy10017667 发表于 2014-9-22 12:00:29 | 显示全部楼层
2篇帖子分别解决了统计如何补码农,码农如何补统计。受教了
回复 支持 反对

使用道具 举报

everything 发表于 2014-9-22 22:52:31 | 显示全部楼层
很感谢指点迷津!如何做到既有码农的基础又有数科的能力和背景还挺模糊的,而且到现在我还不是特别清楚工业界的DS到底都做哪些东西,而且DS这个称呼已经泛滥了
回复 支持 反对

使用道具 举报

henry_xjtu 发表于 2014-9-25 07:20:55 | 显示全部楼层
针对想做ML相关的Data Scientist, Michael Jordon给的这个书单就不错:. visit 1point3acres.com for more.

In particular, I recommend A. Tsybakov's book "Introduction to Nonparametric Estimation" as a very readable source for the tools for obtaining lower bounds on estimators, and Y. Nesterov's very readable "Introductory Lectures on Convex Optimization" as a way to start to understand lower bounds in optimization. I also recommend A. van der Vaart's "Asymptotic Statistics", a book that we often teach from at Berkeley, as a book that shows how many ideas in inference (M estimation---which includes maximum likelihood and empirical risk minimization---the bootstrap, semiparametrics, etc) repose on top of empirical process theory. I'd also include B. Efron's "Large-Scale Inference: Empirical Bayes Methods for Estimation, Testing, and Prediction", as a thought-provoking book.
回复 支持 反对

使用道具 举报

bonnie1024 发表于 2014-9-25 21:21:06 | 显示全部楼层
必须mark啊,我也是cs背景的,现在学data science,总感觉统计不补,以后会成为硬伤,但是总体侧重感觉还是会放在技术上,LZ以后多跟你请教了,谢了
回复 支持 反对

使用道具 举报

henry_xjtu 发表于 2014-9-27 03:27:31 | 显示全部楼层
DS感觉还是要coding过硬,统计数学的至少要做到能看懂给你篇paper能实现。
回复 支持 反对

使用道具 举报

本版积分规则

请点这里访问我们的新网站:一亩三分地Instant.

Instant搜索更强大,不扣积分,内容组织的更好更整洁!目前仍在beta版本,努力完善中!反馈请点这里

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明 ( 沪ICP备11015994号 )

custom counter

GMT+8, 2016-12-4 17:04

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表