一亩三分地论坛

 找回密码
 获取更多干货,去instant注册!

扫码关注一亩三分地公众号
查看: 2354|回复: 52
收起左侧

[DataScience] 是不是数据科学领域统计stat与计算机CS越来越对立?

[复制链接] |试试Instant~ |关注本帖
xiatian122 发表于 2014-11-9 13:52:04 | 显示全部楼层 |阅读模式

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干货,去instant注册!

x
本人北美cs ms一枚,在统计系上课,越来越觉得搞统计的和搞计算机的好像越来越不对付啊!这是肿么一回事,求各位分析分析,最好能够针对stat与cs分别给出建议与对策适应当前Data Science的发展趋势。
meggie1111 发表于 2014-11-14 23:51:44 | 显示全部楼层
从以往的面试看来,感觉对于high tech的公司,ds更注重的是ml相关算法和算法的实现,这样cs的ml track跟占优势。做统计的ms在high tech更对口的职位是business analyst之类的。
回复 支持 1 反对 0

使用道具 举报

小K 发表于 2014-11-11 10:21:01 | 显示全部楼层
小K 发表于 2014-11-9 13:31
但是,一个统计师做的模型,变成数据产品的过程中从头到尾可能会匹配10个软工-google 1point3acres
我也觉得统计还是有用处, ...

普通软工做数据产品开发也很坑爹。统计结果的一个性质是stochastic, 你一个test case能工作不代表下次仍然工作,也不代表结果就是对的。即使data engineer经常也会瞎fit东西,最常见就拿不独立的数据跑ttest。不区分ordinal variable and nominal variable, 不看multiple testing,fit出来不看precision recall也不看CONFIDENCE INTERVAL!! time trend不看独立的天,而要看cumulative etc.
罄竹难书。

让纯统计师做开发,和让纯软工开发数据产品,都是巨坑
觉得还是必须有统计出身的数据科学家和软工出身的数据科学家合作才好做事。
那个统计人,一般会是“质量保证”和prototype性质的。

回复 支持 1 反对 0

使用道具 举报

小K 发表于 2014-11-10 12:35:30 | 显示全部楼层
what i hope to see and what company wants to hire are completely different things.
:p
. 1point 3acres 璁哄潧jokes aside, Udacity gives a very appropriate amount of stats for CS-data scientists
回复 支持 1 反对 0

使用道具 举报

leliang65 发表于 2014-11-10 02:37:16 | 显示全部楼层
但是没有理论哪来的算法?还是不要忘本 得感谢做纯理论研究的人
回复 支持 0 反对 1

使用道具 举报

fly901116 发表于 2014-11-9 14:36:16 | 显示全部楼层
越来越不对付是什么意思?彼此看不顺眼?
回复 支持 反对

使用道具 举报

luhanqiao 发表于 2014-11-9 14:58:26 | 显示全部楼层
stat归根到底是数学,要推公式建模型搞证明。然后用一点CS实现。所以重点不一样,一个是数学,搞公式搞证明,一个是计算机。. 1point 3acres 璁哄潧
回复 支持 反对

使用道具 举报

 楼主| xiatian122 发表于 2014-11-10 01:26:15 | 显示全部楼层
fly901116 发表于 2014-11-9 14:36
越来越不对付是什么意思?彼此看不顺眼?

就是搞统计的认为搞计算机的抢了他们的工作,搞计算机的认为搞统计的搞理论没用,实现还是要靠计算机。
回复 支持 反对

使用道具 举报

luhanqiao 发表于 2014-11-10 02:25:01 | 显示全部楼层
xiatian122 发表于 2014-11-10 01:26
就是搞统计的认为搞计算机的抢了他们的工作,搞计算机的认为搞统计的搞理论没用,实现还是要靠计算机。

看来我就是属于计算机的那群人. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
数学那些推公式证明本来就没啥用嘛,最后还不是要算法实现,总不能在草稿纸上写然后给boss看一堆推到证明吧
回复 支持 反对

使用道具 举报

 楼主| xiatian122 发表于 2014-11-10 02:32:29 | 显示全部楼层
luhanqiao 发表于 2014-11-10 02:25
看来我就是属于计算机的那群人
数学那些推公式证明本来就没啥用嘛,最后还不是要算法实现,总 ...
. 1point 3acres 璁哄潧
我开始也是这么觉得的
回复 支持 反对

使用道具 举报

luhanqiao 发表于 2014-11-10 02:42:49 | 显示全部楼层
leliang65 发表于 2014-11-10 02:37
但是没有理论哪来的算法?还是不要忘本 得感谢做纯理论研究的人

感谢归感谢,现实归现实. Waral 鍗氬鏈夋洿澶氭枃绔,
而且现在统计模型那么多,比起发展新理论新模型,如何选取模型来解决现实问题才是关键。-google 1point3acres
当然统计基础一定要有,不过没必要太深,看懂模型会用会比较即可
回复 支持 反对

使用道具 举报

leliang65 发表于 2014-11-10 02:48:54 | 显示全部楼层
luhanqiao 发表于 2014-11-10 02:42
感谢归感谢,现实归现实
而且现在统计模型那么多,比起发展新理论新模型,如何选取模型来解决 ...

多不代表好呀 模型还是需要不断完善 理论模型不好 就算有再高的编程技术也没用。每个模型都有可以进一步完善的地方 安于现状 不去探索新东西 那哪来的进步?

我觉得理论与应用永远是相辅相成的 两边都同等重要
回复 支持 反对

使用道具 举报

luhanqiao 发表于 2014-11-10 03:06:15 | 显示全部楼层
leliang65 发表于 2014-11-10 02:48
多不代表好呀 模型还是需要不断完善 理论模型不好 就算有再高的编程技术也没用。每个模型都有可以进一步 ...

同学是学stat的吧
回复 支持 反对

使用道具 举报

松岩 发表于 2014-11-10 05:14:55 | 显示全部楼层
典型越架贴
回复 支持 反对

使用道具 举报

小K 发表于 2014-11-10 05:31:43 | 显示全部楼层
leliang65 发表于 2014-11-9 10:48
多不代表好呀 模型还是需要不断完善 理论模型不好 就算有再高的编程技术也没用。每个模型都有可以进一步 ...

但是,一个统计师做的模型,变成数据产品的过程中从头到尾可能会匹配10个软工
我也觉得统计还是有用处,但是没软工性质的数科多。
btw i am a typical statistician turned data scientist
回复 支持 反对

使用道具 举报

 楼主| xiatian122 发表于 2014-11-10 11:16:47 | 显示全部楼层

希望大家能够多多讨论,讨论出一些富有建设性的结果,不仅仅是为了说服谁,而是真正的立足于两大专业的本身出发,相互提出补充的建议,能够更好的融入未来data science的角度。约价有点low了,最好能够把一些学习以及在使用模型各种困惑啥的都可以谈一谈体会,两个不同专业的可以好好说话。
回复 支持 反对

使用道具 举报

 楼主| xiatian122 发表于 2014-11-10 11:44:51 | 显示全部楼层
小K 发表于 2014-11-10 05:31
但是,一个统计师做的模型,变成数据产品的过程中从头到尾可能会匹配10个软工
我也觉得统计还是有用处, ...

那以你的经验,如果你找程序员,你希望他能具备什么技能,能够更好的与你沟通,更好的参与协作。或者说他可以看一些applied stat方面的哪些知识等等。
回复 支持 反对

使用道具 举报

小K 发表于 2014-11-10 12:34:32 | 显示全部楼层
what i hope to see and what company wants to hire are completely different things.
:p
jokes aside, Udacity gives a very appropriate amount of stats for CS-data scientists
回复 支持 反对

使用道具 举报

松岩 发表于 2014-11-11 01:18:12 | 显示全部楼层
xiatian122 发表于 2014-11-10 11:16
希望大家能够多多讨论,讨论出一些富有建设性的结果,不仅仅是为了说服谁,而是真正的立足于两大专业的本 ...

Good point!
回复 支持 反对

使用道具 举报

wwtpcsuper 发表于 2014-11-11 01:32:30 | 显示全部楼层
I don't think so.. 这个只是单向的而非双向,只有statistician在黑cs/ds,而没有反过来的
相反cs people always appreciate the works of Statisticians..
统计是受到严重威胁了才黑data science/computer science..
主要跟统计学家是scientist/mathematician而cs/ds是engineer的思维有关..
的确有些ml的算法难以interpret, 但是我觉得只要work就有存在的价值,就应该appreciate人家的工作
. 鍥磋鎴戜滑@1point 3 acres
主要是最早统计的话语权全在数学家手里而非Tukey/Box那帮人..否则database就不是一个cs的area了..
而现在一些统计学家仍然不能接受ml的方法, 只能被cs落下得越来越远
. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
另外,it's not good for the area of statistics.. treat mathematical statistics as the highest level of Statistics, which is 90% useless..
.鏈枃鍘熷垱鑷1point3acres璁哄潧
BTW, asymptotics就是在cheating..
回复 支持 反对

使用道具 举报

wwtpcsuper 发表于 2014-11-11 01:37:36 | 显示全部楼层
luhanqiao 发表于 2014-11-9 01:58
stat归根到底是数学,要推公式建模型搞证明。然后用一点CS实现。所以重点不一样,一个是数学,搞公式搞证明 ...

ML model和stat model的思维是完全不一样的..

applied stat跟数学关系没有那么紧密,如果一个applied statistician致力于搞证明,那只能说明他不懂统计..
回复 支持 反对

使用道具 举报

wwtpcsuper 发表于 2014-11-11 01:41:39 | 显示全部楼层
leliang65 发表于 2014-11-9 13:48-google 1point3acres
多不代表好呀 模型还是需要不断完善 理论模型不好 就算有再高的编程技术也没用。每个模型都有可以进一步 ...
.鏈枃鍘熷垱鑷1point3acres璁哄潧
理论真的没有那么重要。。而且搞统计理论真的就是大家都在cheating..
1. 大家在证之前都assume原来的model是对的
2. 证不出来就加非常强的assumption然后极力说这个条件是非常mild的
3. 当然还有更严重的cheating,加的条件跟证明的东西差不多,也经常出现
回复 支持 反对

使用道具 举报

本版积分规则

请点这里访问我们的新网站:一亩三分地Instant.

Instant搜索更强大,不扣积分,内容组织的更好更整洁!目前仍在beta版本,努力完善中!反馈请点这里

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明 ( 沪ICP备11015994号 )

custom counter

GMT+8, 2016-12-8 22:57

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表