一亩三分地论坛

 找回密码
 获取更多干货,去instant注册!

扫码关注一亩三分地公众号
查看: 2641|回复: 19
收起左侧

[找工就业] 统计生统phd找工作有些问题,各位大神看过来

[复制链接] |试试Instant~ |关注本帖
chillywind 发表于 2014-10-6 01:03:01 | 显示全部楼层 |阅读模式

2015(4-6月)-[10]Stat/Biostat博士+<3个月短暂实习/全职 - Other| 统计类全职@

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干货,去instant注册!

x
本人统计专业phd, 但做的做的偏生统,什么survival data, missing data的. 老板同意了明年5月毕业,想找那时候的业界工作.想去药厂或者有研究性质工作,不想纯编程写报告....
投了几个简历,HR联系了我之后就说他们想要立马就能工作的人,于是都没能继续谈下去. 是不是现在找还早了? 那个时候的职位什么时候会提前多久招人呢?

谢谢各位大神, 要有内推什么的也可以推荐下我,本人极其靠谱,各种实习,研究经验也蛮多....(怎么像征婚?)
小K 发表于 2014-10-9 05:29:53 | 显示全部楼层
y5yeyey 发表于 2014-10-8 11:42
谢谢详细解释!
我之前学过 C 和 MATLAB,所以 R 不是我的第一门语言。
. From 1point 3acres bbs
不会当然完全可以学。只要真想学,现在资源这么丰富,要学上手并不是问题。


关于数科为什么要自己取数据,故事好长一下说不完。. visit 1point3acres.com for more.
简言之是效率。假设数据是码农扒拉好了给你,你也得自己洗数据。假定别人洗数据,你要浪费半天时间解释如何如何洗,完事还未必是你想要的样子。。再说经常分析了一下觉得不够,又重新去取数据,重新洗,重新分析。而且数据也不是想药厂,就在个SQL甚至文档里面,你读进来一次就完事,数据的样子可能几年之前都设计好了,不允许随便改。数科面对的:可能有30T X 21的大数据需要MapReduce拿出里面需要的部分,可能有几百兆meta data在SQL数据库,可能有其他相关数据只用内部API expose给你,可能还需要去其他网站找点数据,可能有其他成分在Rdata/Json/py picke dump之类的地方。the iterative process can benefit hugely from speed. 如果真要说清楚了,你得浪费多少时间写specs,还不如自己做了算了。而且最初你也不是特别清楚你到底要什么数据的,看见了才知道。.鐣欏璁哄潧-涓浜-涓夊垎鍦

大数据要求高效率分析。药厂可以慢慢的每个步骤都分开来,因为clinical data积累慢,一个数据集了不起成千上万人(这已经很大了)你可以分析几个月,一点点数据里面要挖出金子来。大数据么当然相反。金子相对较多,不需要太过复杂的办法去提高那么一丁丁效果。而且数据太多,根本不可能每个都慢吞吞的看。对比两者分析效率,可能相差10X, 100X或者更多。绝不是瞎说。


IT的数科做统计的人,也不是药厂里面一样只跟“一个项目”跟n久。个人感觉真正用到统计的是整体方法上改进整个流程之类的事情。只是跟项目做分析的那种,我觉得基本都不需要多少统计,撑死1-2门课就够了。有不懂的问其他组的统计人。

改进流程给个例子,这个流程可以展示,为什么需要编程能力。

比如设计一套方法改进现有pipeline,整个方法可以应用到几乎全部项目上。首先你从平时工作(i.e. support其他project)里面发现一些现有系统的问题,积累一些解决的设想,然后花一些时间取点小数据(GB instead of TB),尝试你提出的办法什么的, maybe read papers, derive some theories, type up latex formula, do simulations, run on historical data etc。过程是iterative的。可能一般都不需要1个月那么久。然后应用到大数据。一般是用历史数据,比如上个月所有数据再看一遍,整体性能提高没有,其他有没有受影响 etc. 然后需要产生结果,试图让别人buy in your idea。一般这时候我们会做点presentation,(which is nice),这个可能几天吧, but a demo would really count。所以也会花个把星期做demo(OK...我比较土,it takes me weeks and weeks to build live demo)。肯定要有plots and tables,要describe 这个问题,你的解法,解法的背景,正确性,局限性什么的,可以认为是个working paper吧。然后谁有空读你的working paper啊,所以一般依赖demo, 这个demo也可以是命令行小程序最后产生个excel报表什么的,但是我们一般会做成几乎web app的样子,可以interact,可以实时取出现在的数据展示结果什么的 。如果大家看了数据结果和demo相信你,觉得的确有用,就要跟dev team pm什么的讨论他们什么时候做出来。当然dev做的时候你也得跟着看着,并且负责提供test case什么的。我们写app一般不太关心效率,只要还能跑出来,不够快不太要紧。别人会改的。但是我们需要懂得流程,如果提出的方法比较麻烦,你得负责讲清楚怎么fit in到现有的流程中。或者改改自己的办法fit到现有流程里面。如果代码强的,直接写production code,如果能力还好,Dev会拿prototype几乎直接去用,如果一般,就拿prototype去改,我比较挫,我的原型只能当pseudo code来帮助别人理解 =__=. 如果连这个都拿不出来的,这个人就没法跟dev合作了,可能不会被招进来。做原型的过程中搞不好还要自己去架个服务器来host自己的service,做个实时取数据的什么什么,这些部分就跟startup的dev差不多了(我至今都只用过别人弄好的,所以不瞎说了)。上线以后也不会就拉倒了,一直要monitor看是否如同设想,是否有新问题,是否需要再改进什么的。全程就是观察,找到问题,分析问题,提出解法,做出实现,然后持续观察。从头到尾,从ideation到做出“数据产品”,假设这个是个大半年的project,统计可能也就只有一个月。。可以想象spectrum 里面自己在什么位置。。。。很多系统也没有那么复杂,也没有那么需要高深统计去做系统性的改进,这种的越发不需要统计人,需要的还是DEV!!



唉,真的有人可以从头一个人做到尾吗。。。。答案是yes....内牛满面。

这些是offline的。还有实时分析的系统貌似更偏engineering.



评分

2

查看全部评分

回复 支持 1 反对 0

使用道具 举报

duanmupeiyi 发表于 2014-10-6 06:38:44 | 显示全部楼层
research lab不了解,你可以先投投看

业界的话
一月份开始联系就好,大公司这个timeline都可以
有的小公司可能确实找人很急

回复 支持 反对

使用道具 举报

 楼主| chillywind 发表于 2014-10-6 07:34:10 | 显示全部楼层
谢谢啦 好久没来了,duanmu还在
回复 支持 反对

使用道具 举报

snowtt 发表于 2014-10-6 07:56:36 | 显示全部楼层
为什么统计还是coding,coding。。。。
回复 支持 反对

使用道具 举报

小K 发表于 2014-10-6 10:16:16 | 显示全部楼层
统计但是不编程的话,难道公司雇佣你推公式吗。。。。。。
回复 支持 反对

使用道具 举报

duanmupeiyi 发表于 2014-10-7 11:14:16 | 显示全部楼层
chillywind 发表于 2014-10-5 15:34
谢谢啦 好久没来了,duanmu还在

嘿嘿,一直都在的 ^^
回复 支持 反对

使用道具 举报

duanmupeiyi 发表于 2014-10-7 11:14:43 | 显示全部楼层
snowtt 发表于 2014-10-5 15:56
为什么统计还是coding,coding。。。。

跟sde的coding还是两码事儿的
回复 支持 反对

使用道具 举报

 楼主| chillywind 发表于 2014-10-8 02:48:47 | 显示全部楼层
小K 发表于 2014-10-6 10:16
统计但是不编程的话,难道公司雇佣你推公式吗。。。。。。

哈哈,编程我不怕啦,我的意思是那种没有创造性的纯用sas ttest, 出报表,做做ppt什么的... 要是run点model还是挺好的.
回复 支持 反对

使用道具 举报

小K 发表于 2014-10-8 03:07:10 | 显示全部楼层
sas ttest/SQL/reporting is usually not considered "coding"....
R, unless you write packages and write components in C/C++, is not considered coding either
回复 支持 反对

使用道具 举报

y5yeyey 发表于 2014-10-8 06:03:12 | 显示全部楼层
小K 发表于 2014-10-7 12:07
sas ttest/SQL/reporting is usually not considered "coding"....
R, unless you write packages and wri ...

能进一步解释一下吗?为啥 R 不算 coding... 非要到最底层的 C/C++ 才算么。。。
回复 支持 反对

使用道具 举报

小K 发表于 2014-10-8 06:38:41 | 显示全部楼层
y5yeyey 发表于 2014-10-7 14:03
能进一步解释一下吗?为啥 R 不算 coding... 非要到最底层的 C/C++ 才算么。。。

好吧有点主观了。只从以下这点来看:以下仅仅谈用R做统计建模,不谈写R包,和添加C/C++。

如果一个人只会R,其他语言都没用过,再想学其他语言,我相信都是nontrivial的。
但是如果你已经会Py/java再学其他,就不是那么难。只是pickup一点语法的问题。. Waral 鍗氬鏈夋洿澶氭枃绔,
sas的话。。如果不写macro,感觉都不能算会编程。基本的control flow/function都没有吧。

过好的抽象:如果只用R,编程题大部分都无法想象如何去做,比如implement sqrt() -- 因为只需要call sqrt(),从来没想过为什么要自己去实现这样的东西。
鏉ユ簮涓浜.涓夊垎鍦拌鍧.
R有点基本的control flow,其他思路都用的很少。调用现成包较多,亲自实现底层细节很少。很多常用东西已经被抽象出来。测试的方法不同,经常没有明确的unit test。

R虽然可以oo但是一般用的话也用不到oo,非常procedural

R没有什么严格的test - 我已经问了好多人了,大家也都是就那么写写,了不起跟其他软件比结果,画图看结果什么的。因为统计的unit test除非reduce到极其简单,否则很难manually generate能用来做测试的结果。但是you don't really want to test if glm() works as advertised, you want to test if the model you fit makes sense ---- 所以不符合软工的所谓unit test。 u can only do integratation/functional test, manually. 除非后来好好学其他语言,否则编程风格上会让其他语言很难上手(个人体会,还有看一些同事做事的体会)
. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷. 1point3acres.com/bbs
整体上,也不会有特别专门的organization,了不起你把helper functions放在一边。. from: 1point3acres.com/bbs
如果写过packge这一点会有改进。. visit 1point3acres.com for more.
. more info on 1point3acres.com
说实话平常用R fit model我都已经不太用for loop了,很多其他package已经绕过了loop, data.table/plyr什么的,还有apply 系列。这些跟其他语言里面需要亲手实现做事情细节,思路完全不一样。
. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
R建模的过程需要你做“integration testing”的时候不多。大部分东西就是那么一件小事,不是很多很多细小部分合起来完成一个task。

重复使用率相对低。除非你写一个包,否则很少会把同一个项目的代码原原本本的直接用在下一个项目上。重复使用的function肯定是有的,但是重复使用的component很多R已经有现成包了,除非你写包,否则不会太多重复。建模过程大部分事情也不是特别相同。大部分项目根本variable组织和彼此关系都完全不同,根本没法用一样的代码,可能也是为什么我在R里面从来没用过继承。。。。能复用的部分可能就是glm() -- which don't need u to package up by urself.

一般对perf没有太多关心,除非做很大的数据或者写package。一般统计的那么10来M数据,无论你用什么办法都慢不到哪里去。如果用大数据,别人也写好了包,调用就是了,我也不知道具体data.table背后的index具体是如何实现的,直接就用了。。。复杂度这件事,感觉我在用R的时候几乎从来没有关心过。

真正大到需要用MapReduce的东西,普通R也做不了,虽然现在也有让R做大数据的工具,但是syntax什么的不太好用。如果真需要,我会宁可换语言。. 鍥磋鎴戜滑@1point 3 acres

统计里面写代码是一部分,可能更多时间是花在读结果上面。On a good day where I code smoothly without too many bugs,90%时间都是在读结果,改进model上面。普通的写代码,debug好了就结束交出去了,不会关心跑出来的结果。这个思路完完全全的不一样。

回复 支持 反对

使用道具 举报

小K 发表于 2014-10-8 06:43:51 | 显示全部楼层
如果今天能给统计人任何建议的话,就是去本本分分上一点编程课。哪怕将来根本不打算做编程相关工作,也会让平常写R什么的能力大大增强。.鐣欏璁哄潧-涓浜-涓夊垎鍦

我试图教过只会SAS (non macro)的人写R,难的不得了。
试图教我自己从只会R到用其他语言,也挺费劲的。.1point3acres缃
但是学了Py之后再学Java/C#/js...就觉得没什么了。
已经会Py/Java的人,不需要别人来教如何写R,因为完全可以自己pick up ---当然,正确的用R做事情,还是需要教的。
回复 支持 反对

使用道具 举报

 楼主| chillywind 发表于 2014-10-8 11:07:52 | 显示全部楼层
coding只要肯花时间,没什么太难的.就当外语来学好了,fortran和c++都是从一码黑,写几个月写几个大程序就熟了
回复 支持 反对

使用道具 举报

 楼主| chillywind 发表于 2014-10-8 11:09:29 | 显示全部楼层
这种coding技巧药厂是不是都用不到? 是不是IT公司的data mining的会用一点
回复 支持 反对

使用道具 举报

Deelers 发表于 2014-10-8 11:18:46 | 显示全部楼层
chillywind 发表于 2014-10-8 11:09
这种coding技巧药厂是不是都用不到? 是不是IT公司的data mining的会用一点

药厂还是以SAS为主吧,但是IT公司不仅仅是只要求会用一点......
回复 支持 反对

使用道具 举报

y5yeyey 发表于 2014-10-9 03:42:18 | 显示全部楼层
小K 发表于 2014-10-7 15:38
好吧有点主观了。只从以下这点来看:以下仅仅谈用R做统计建模,不谈写R包,和添加C/C++。

如果一个人 ...

谢谢详细解释!
我之前学过 C 和 MATLAB,所以 R 不是我的第一门语言。. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴

另外我还是不太懂,数据处理的前期工作不应该是码农做么?比如说地里的那篇 “谈谈 Data Scientist 的入门工作”。
然后到了后期才需要统计的人做 interpretation?
. from: 1point3acres.com/bbs
还是说,在小公司或者是新兴数据部门,往往要一人多用,所以统计学家也做很多编程的工作?. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷


回复 支持 反对

使用道具 举报

wilsoj 发表于 2014-10-9 03:49:51 | 显示全部楼层
y5yeyey 发表于 2014-10-9 03:42. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
谢谢详细解释!
我之前学过 C 和 MATLAB,所以 R 不是我的第一门语言。

matlab应该也不算coding。。。
回复 支持 反对

使用道具 举报

sabrina8502 发表于 2015-3-17 05:19:45 | 显示全部楼层
一般明年毕业的话,今年年底开始投简历就好。药厂用SAS的多,也有用R的。现在不太多做要求。
回复 支持 反对

使用道具 举报

lxtbkl 发表于 2015-7-9 23:51:22 | 显示全部楼层
作为一个**,觉得能找到用sas的简单工作起步就挺好啊。不过楼主背景强
回复 支持 反对

使用道具 举报

本版积分规则

请点这里访问我们的新网站:一亩三分地Instant.

Instant搜索更强大,不扣积分,内容组织的更好更整洁!目前仍在beta版本,努力完善中!反馈请点这里

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明 ( 沪ICP备11015994号 )

custom counter

GMT+8, 2016-12-5 03:00

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表