一亩三分地论坛

 找回密码
 获取更多干货,去instant注册!

扫码关注一亩三分地公众号
查看: 15773|回复: 99
收起左侧

[DataScience] 【在线Info Session】业界数据科学家回答你关于找数科工作的问题

   关闭 [复制链接] |试试Instant~ |关注本帖
小K 发表于 2015-5-24 06:04:45 | 显示全部楼层 |阅读模式

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干货,去instant注册!

x
It's been fun discussing Data Science learning/career with young people here
I am closing this thread to promote our beta site: instant
After 2/15, Please move to http://instant.1point3acres.com/discuz_thread/135165 for further discussions
I will continue to answer questions there


. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷

目前仍在找工的筒子,也许很焦急了,希望我的回答对你有帮助!本周末不定期在线回答关于求职的问题,之后会不定期检查这个帖子。
希望你是马上要毕业的相关专业学生,在找数科相关职位
==============================
提问的时候请一次性的说清楚你的背景,你现在的状况和你具体要问什么。
==============================
你的专业,学位,毕业时间
你的背景(技能清单看这里)
你在统计方向对哪些问题很有把握,哪些不太有把握
你在代码方面会什么,到什么程度(数据结构,算法,是否刷过题)
你在机器学习方面,除了调用现成包之外,还知道哪些
你最有把握的语言、工具是:.鐣欏璁哄潧-涓浜-涓夊垎鍦
你可能熟悉的语言、工具是:
你知道你在面试之前不可能搞定的是:
你觉得你的business sense如何,这里的几个问题你有什么想法吗


你希望找什么样的工作(工作分类看这里这里这里
你具体要问什么=================================
如果你是在校生来问应该如何选课的,请看我之前的帖子
如果你想申请数科项目问我如何准备,如何选择,哪个项目出路如何的:我不知道。. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴

=================================
作为答疑的回报,希望你找到工作后能把自己的经验跟大家分享,
找到工作之前,请给大家介绍你学校的项目,你学习的感受,你对更新人的建议等等。
论坛讲究pay it forward,前人栽树后人乘凉,希望能把好传统继承下去。
=================================
祝大家好运!
=================================. From 1point 3acres bbs






评分

12

查看全部评分

本帖被以下淘专辑推荐:

 楼主| 小K 发表于 2016-1-26 04:03:19 | 显示全部楼层
It's been fun discussing data science learning/career with young people here
I am closing this thread to promote our beta site: instantAfter 2 weeks, Please move to http://instant.1point3acres.com/discuz_thread/135165 for further discussions
I will continue to answer questions there

. From 1point 3acres bbs
. from: 1point3acres.com/bbs
回复 支持 反对

使用道具 举报

steamed_buns 发表于 2016-1-25 05:55:13 | 显示全部楼层
首先非常非常感谢楼主开这个帖子,辛苦楼主了!我今天才找到数科版,一下找到了组织TvT!

你的专业,学位,毕业时间:
本科国内top10化学,phd 化学(phd的学校很烂,虽然老板还可以,也发了六篇paper,这些应该对找ds一点用都没有……)2016年8月毕业。phd完全就是买化学样品打激光,不需要任何分析的工作

你的背景(技能清单看这里):
本科上过概率论与数理统计,c语言基础,数据结构与数据库(其实都忘得差不多了)。
15年7月决定转ds,之前没有任何coding经验。
上了course的ml和database课,开始学python和sql。看完machine learning in action和python for data analysis和programming collective intelligence,11月开始自己做kaggle项目(我phd研究的项目全部是基础科学实验,出结果就是结果- -不需要怎样分析结果,所以我仔细想想我真的是没有相关背景,只能埋头刷kaggle了),现在完成4个competition2个进25%,还在努力刷题中
上ml课的时候做作业用matlab,entry level.1point3acres缃
打算近期做几个爬虫项目- -收集数据自己找个模型弄好了放github

你在统计方向对哪些问题很有把握,哪些不太有把握:
比较有把握:hypothesis testing, point/interval estimation, t-test, logistic regression,bayesian(我去年看了遍本科概率论与数理统计的教材,课后习题做了点)
. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷不太有把握:time series,longitudinal……(这是什么?记下来google一下抽空学一下😭.鏈枃鍘熷垱鑷1point3acres璁哄潧
. Waral 鍗氬鏈夋洿澶氭枃绔,
你在代码方面会什么,到什么程度(数据结构,算法,是否刷过题):
刚看完MIT的算法课(今天看完最后一节了逛论坛,刚好看到这个帖子😭,准备开刷leetcode,二月刷完easy-medium

你在机器学习方面,除了调用现成包之外,还知道哪些: .鐣欏璁哄潧-涓浜-涓夊垎鍦
python基本离不开pandas,numpy,scikit-learn, scipy
之外还用这些regression,random forest, neutral network, extreme gradient boost, svm, pca, kmeans, knn(andrew课上讲过的和我平时做kaggle里会用到的)都是直接用现成的包- -但是让我说原理推倒我也可以推一推模型(仅限于andrew课里的难度
matlab仅限调用现成的- -

你最有把握的语言、工具是:
python

你可能熟悉的语言、工具是:
MapReduce,Spark,mySQL(这三个打算在二月搞定,也仅限于照着书做一个项目了)

你知道你在面试之前不可能搞定的是:
计算机理论,操作系统……时间来不及了. 1point 3acres 璁哄潧
.鏈枃鍘熷垱鑷1point3acres璁哄潧
你觉得你的business sense如何,这里的几个问题你有什么想法吗:
如果面对一个产品,我能做好背景调查(用户广告费用维护之类的)和收集一些数据,并且能设计实验改进实验找好模型(能不能具体落实就不一定了- -读phd写多了proposal这些大概的想法会有,虽然隔行如隔山……也可能是我想的太容易)

你希望找什么样的工作(工作分类看这里,这里和这里):
点进去主楼帖子里看了一下分类,我是想做data scientist和data analyst,但是可能我背景实在不够,自学也赶不上吧😭
.1point3acres缃
过去的求学背景实在是和ds一点关系都没有,要求coding统计和ml,我都只能尽力学个大概。回这个帖子才发现自己远远没有准备好。目前就是刷lc题和复习统计,同时不停做kaggle和爬虫项目。就是想问一下我这样还算有希望找到个data scientist的工作吗,以及哪方面差的比较多再突击一下 鏉ユ簮涓浜.涓夊垎鍦拌鍧.
还是实在背景差太多了……. visit 1point3acres.com for more.
提前谢谢露珠辛苦回答,希望自己能有机会来地里发找到工作的帖。
三点看到帖子,没想到写完回复已经四点了。
回复 支持 2 反对 0

使用道具 举报

sky420 发表于 2015-5-24 10:35:52 来自手机 | 显示全部楼层
你好,我现在是PhD在读第一学期,IE专业。老师是做data mining的。cs和stat都没有很深的基础。cs方面,了解python,java,sql语言,基本的会用,但都不深。了解一些基本的数据结构,例如array,linked list,map,tree,但只知道怎么用,深入的不了解。没上过数据结构,算法课。统计方面,自认为基础知识都比较清楚,例如各种distribution,point estimate,anova,confidence interval,t-test,f-test,moment,likelihood function,但因为不是本身stat出身,公式推导能力不强,总结说,就是都会用都明白,但自己不一定能推导出来。machine learning方面,了解大部分常用算法的工作原理,并能找到相应的R包应用,但深入一些的就不清楚了,例如算法的assumption,pros and cons,以及算法的推导的推导过程,这些细节都不是很明白。我预计从现在算起,3年后毕业。我想找data scientist的工作,请给一些意见。应该如何提高?统计知识和cs应该先提高哪个?cs应该上哪些课,上过这些课后是不是就可以刷题了?data scientist应该怎么改简历?我没有做过这方面的project,上哪里可以找到一些interesting的project来做,加强背景,丰富简历,让industry觉得我符合他们的职位?现在很多公司都在招data scientist的人,但我想知道,哪些公司是大公司,比较有潜力,适合发展,因为我知道有些公司招去的data scientist就是倒腾数据,做clean和简单的分析,不像一些大的公司有整个团队在做,比较scientist。问题比较多,比较碎,不好意思!多谢了!
回复 支持 反对

使用道具 举报

clfhaha1234 发表于 2015-5-24 11:02:48 | 显示全部楼层
本帖最后由 clfhaha1234 于 2015-5-24 11:13 编辑
. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
自我介绍:CMU ECE 15fall,学过机器学习课程并有相关实习经历
实力定位:
1、代码方面:擅长C,JAVA,数据结构、算法、刷题问题不大。Python起步中,Mapreduce框架学习中,毕业前可以修完相关课程。
2、统计方面:常用ML算法优缺点分析,包的运用,做点优化,但是每次面对大量的公式推导都很沮丧,比如LDA,混合高斯模型,还是看不懂……. more info on 1point3acres.com
3、商业思维:很弱,而且不知道怎么提高

希望找互联网领域data相关的工作

求问小K姐:1、如何提升统计思维来更好的理解机器学习模型算法,以及如何锻炼商业思维呢?
2、作为硕士从事ds相关工作具体能做什么?没有PHD文凭真的能做好DS吗?
回复 支持 反对

使用道具 举报

eve2ada 发表于 2015-5-24 14:22:24 | 显示全部楼层
  • 专业,学位,毕业时间: Industrial Engineering master, 2016年毕业,之前在国内拿过一个通信master学位. 1point3acres.com/bbs
  • 统计方向对哪些问题很有把握,哪些不太有把握: 我不是统计专业的,之前学过的统计课也很少,第一学期结束时去找了个教授做project,教授是统计科班出身,主要做data mining的research,这才上了DS这条道。自己感觉对于统计方面,积累确实不够,也就是了解一些基本概念吧,打算暑假找一本书系统地补一补。

  • 代码方面会什么,到什么程度(数据结构,算法,是否刷过题):前一个master阶段做过一段时间的C++,但后来工作了几年,基本就没用过了。现在主要用R和Matlab,会一点SAS,准备学python和java,感觉对programming越来越有兴趣。上过本科数据结构的课程。没有系统学过算法,没有刷过leetcode之类CS的面试题——想了解一下,数据结构、算法和刷题对于data science面试有多重要?
  • 机器学习方面,除了调用现成包之外,还知道哪些:这学期在上一门CS开的machine learning和一门business开的data mining,了解machine learning的基本算法和概念,实际做过3个data mining的project,主要用到的是collaborative filtering (recommender system)、regression (poisson, NB)、sparse inverse covariance estimation、bagging/random forest等
  • 最有把握的语言、工具是:目前是R,后续打算主要python
  • 可能熟悉的语言、工具是:matlab、SAS、C++、XLMiner/excel、AMPL、VBScript
  • 在面试之前不可能搞定的是:我觉得是big data相关的吧,hadoop、spark之类的,目前主要处理的数据都是excel的,对于database、分布式数据之类的还没有机会接触到
  • business sense:这方面基本还没有考虑过,不知道在公司里工作过的经验是否有些帮助?以前工作于国内一家大型科技公司,对于公司内部各方面运营都比较熟悉
  • 希望找什么样的工作: data scientist

我的问题是:因为我入行时间短,感觉要学的东西很多,所以在master第一年暑假找实习的事情上犹豫再三,不知道是用以前的工作经验(跟data science关系不大)找,还是用现在做的project和上的课找,所以可能错过了一些机会。但今年3、4月份也投了不少data science的实习职位,基本没有什么positive答复,感觉很困惑,不知道是不是只是因为自己的入行时间太短?您能否根据我提供的背景信息给点建议?或者给个学习的优先级排序建议?非常感谢。
目前的打算是如果找不到实习就在学校继续跟着教授做project,保持每个quarter至少一个project的节奏。另外系统学习统计,python,以及database相关的内容。
.鐣欏璁哄潧-涓浜-涓夊垎鍦
回复 支持 反对

使用道具 举报

liyangtnt 发表于 2015-5-24 14:26:05 | 显示全部楼层
你的专业,学位,毕业时间
1、国内数学学院-信息与计算科学,本科,2013.06
2、研发汪,B/S 架构管理系统全栈开发,正在接触 Hadoop 生态系统和 Streaming 框架(Storm)

你在统计方向对哪些问题很有把握,哪些不太有把握
1、基本的数理统计,得靠软件包
2、不太把握的,深入一些的多元统计分析、神经网络、深度学习什么的都不把握

你在代码方面会什么,到什么程度(数据结构,算法,是否刷过题)-google 1point3acres
1、Data Structure 这个课程里面涉及的基本都会
2、算法已经不怎么搞了,大学刷过 ZeroJudge、POJ
3、图、树操作复习下还记得
4、(题外话)熟悉设计模式
5、(题外话)大学到现在累积代码约八万(六万产品级),工作主要 JAVA/JS,大学和高中 C/C++

你在机器学习方面,除了调用现成包之外,还知道哪些
1、不知道,听过一些最最基本的分类、聚类算法. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
你最有把握的语言、工具是:
1、语言:JAVA、Javascript(HTML5)、C/C++.鏈枃鍘熷垱鑷1point3acres璁哄潧
2、工具:MATLAB

你可能熟悉的语言、工具是:
1、语言:SQL、Python、Shell、
2、工具:Octave、R. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷

你知道你在面试之前不可能搞定的是:
1、统计学

你觉得你的business sense如何,这里的几个问题你有什么想法吗
没啥 sense,看了下那边的问题,分享一下个人看法:
1、需求分析阶段,一定要和客户面对面,搞清楚他们要做什么,仔细了解并观察他们的操作过程。满足需求第一,技术只是手段(不能因为我们会什么就非要做什么)。如果客户是中间服务提供商,那么最终用户最好也能做一些分析调查,他们到底需要些什么,调查问卷、同类产品用户体验等(量化分析)。

就回头率,一般提供咨询的网站,直观、个性化定制/推送是比较重要的。
如果是产品类网站,良好的网站 UI、宣传图、产品细节展示、用户反馈、售后渠道比较好。. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
如果是问答类网站,搜索功能要下功夫。
其他附加价值,比如面积有限且质量好的广告植入、较短的服务器响应时间、皮肤定制、用户个性化设置等都可以增加回头率。
除此之外,用户群体的口碑,以及 OAuth 这种共享 ID 的认证方式,可以扩散本网站对外的影响力。. 1point 3acres 璁哄潧

基本没逛过论坛。一定要按照现有论坛的架构去设计吗?逛论坛最头疼的就是:
a、未注册用户无法搜索
b、注册后主题太多,不知道看什么
换个思路来说,现在大数据平台很成熟,论坛板块的组织形式可以考虑一些自动聚类和识别,并且使用一些随时间推移的热度衰减算法来呈现话题,搜索上还是要下功夫。 鏉ユ簮涓浜.涓夊垎鍦拌鍧.
. visit 1point3acres.com for more.
2、在技术上没有困难的情况下(有大数据平台、有服务器可用)
MITBBS 估计被 wall 上不去。除了广告商、技术外包、版主管理员这类特殊成员外,尽量不要预设潜水、发帖这些 tag。我们需要记录每一个用户的在线时间、在线时段、操作序列、各页面浏览时间、发帖时段、发帖特征量(文本内容识别后归类)等。然后才能识别出这类用户是自然人还是灌水机器,以及他们的发帖内容相似度判断是正常用户还是水军等,对于非活跃用户,可以修正推送喜好逐步返回默认;活跃用户,推送喜好逐步修正为他们关心的内容;水军、灌水机器人查封限制发帖停止一切服务等。

然后从服务器端的资源费用来说,我们可以使用一些大数据平台的能力,设计非活跃用户占用更少的计算资源、内存和磁盘(压缩存档),而活跃用户则应用更多的分发服务、实时计算等让他们看到自己影响力的迅速扩张。

产品健康度的定义要看是什么产品了,制造出来的设备、社交网站、O2C等健康度模型应该是完全不同的。年/月平均故障率、带宽、页面响应时间、客户浏览滞留时间、客户回头频率等都要考虑进来,越多越好。
. more info on 1point3acres.com
还有一个重要的是投诉/建议的处理速度。一开始客户很愿意试用并反馈,但是没有一个专业快速的投诉响应,客户流失会很严重。另外反馈的东西本身就应该自动化分拣识别,研发/决策团队也能快速修正。

再说 ABCD 多个度量,应该要用主成分分析、一些回归模型和相关度模型(个人弱项,相信有成熟的工具箱/平台)找出因变量,然后再结合业务分析因变量本身是不是真的就是原因。扩大模型变量后再验证下是不是还是这样。

广告没想法,虽然不客观,但是作为浏览用户来说,没有广告的网站最好…………. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴

3、设计实验有几个东西要考虑。就拿投放几个广告来说。
首先,投放广告本身太广泛,要明确定出维度,包括投放条数、文本还是图片还是视频、投放位置、投放排版、广告内容,可见用户等。除此之外,还要确定试验时间持续多久,全球化收集还是本地用户收集。

然后,广告内容和可见用户要细分,内容是否个性化推送,是根据浏览器 cookie、hisotry、OAuth 认证、客户其他信息来定制的,还是固定内容;可见用户是所有人可见,还是某类用户可见,还是某个地区用户可见(考虑本地语言错误导致结果不可信)。

以上控制好了以后,定制一些页面,确定投放模型(什么分布、location-based 还是别的什么 based)后,无缝上线,开始收集数据。

最后 OLAP 也好,Offline 也行,算一下收集数据的各种统计模型,可视化出来看和之前的设计对不对得上。

4、客户群体考虑不充分,假设本身不合理、系统实现不正确等情况下可能导致错误。首先排除系统开发导致的错误。然后用一些假设检验去看假设是否成立。(应该要结合业务特点来看,多请教有经验的人). 1point3acres.com/bbs
. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
5、…………

你希望找什么样的工作.
希望是一种把分析师结论快速转化成产品的工程师/分析师 candidate。换句话说,能听懂分析师的理论模型和看懂调查报告,还能全栈搞定所有技术实现并负责产品上线。类似一种桥梁,然后希望分析师大牛能带着把自己的分析能力提升上去,自己也成为分析师。
. more info on 1point3acres.com
加州硅谷为佳……

评分

1

查看全部评分

回复 支持 反对

使用道具 举报

 楼主| 小K 发表于 2015-5-24 16:15:31 | 显示全部楼层
sky420 发表于 2015-5-23 18:35
你好,我现在是PhD在读第一学期,IE专业。老师是做data mining的。cs和stat都没有很深的基础。cs方面,了解 ...

Yes you are absolutely right that there are different shades of data scientists. .鐣欏璁哄潧-涓浜-涓夊垎鍦
Since you will have a phd, i assume you'd be interested in doing more indepth work.

From your description of stats, i'd suggest taking time to really understand what stat is really about, when to use which model and why. Be prepared to answer questions from nonexperts.

CS is a must regardless of what you do. And it doesn't take that much to learn. Basic data structures and algo is a must. If you have the time, try out the easy to medium leetcode problems before you interview. It should cover most DS positions. . 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷

I doubt projects matter that much. But you can try your hands at kaggle and some of the udacity projects. It is really important to think things through ---- yes you are fitting such a model, but why? why not another model? How do you evaluate whether it's good or not? What could happen in a real life application?. 1point3acres.com/bbs
鏉ユ簮涓浜.涓夊垎鍦拌鍧.
For study guides read the link in this post -- i have a pretty comprehensive list of things to work on.
. 1point 3acres 璁哄潧
When I look at the resume of a fresh grad, I don't spend too much time reading the projects --- 90% of the time it's nothing amazing. I read the degree, how many years you have in industry (an internship goes a long, long, long way), and what skills you claim to be familiar with. The ordering matters, and how you described it also matters.

If you wanted to be a "researcher" type of data scientist rather than the business analyst type, there are only a few choices. And Yes you do need a strong phd for this.
Only MSR, Google (?EarlGray can comment more), Facebook, Linkedin, Microsoft, maybe Amazon, IBM(? 请那谁谁知道情况的出来说手) should have it. Note not all groups in these companies are research oriented. . from: 1point3acres.com/bbs

One way to tell is to look at education of the team members. Most research teams will only hire PhD, or at least strong PhD candidates. Almost none would be MS-only, unless they are very senior.




Hope this helps.  

========
Could you share with us the courses you have taken in your phd in IE studies, and what your understanding of what IE is? 鏉ユ簮涓浜.涓夊垎鍦拌鍧.
回复 支持 反对

使用道具 举报

 楼主| 小K 发表于 2015-5-24 16:21:04 | 显示全部楼层
clfhaha1234 发表于 2015-5-23 19:02
自我介绍:CMU ECE 15fall,学过机器学习课程并有相关实习经历
实力定位:
1、代码方面:擅长C,JAVA,数 ...

Your background seems more coding oriented than stats, so work with that. Many companies do not require lots of background in stats to be a data scientist - those positions read more like a data engineer.

MapReduce is just a skill, I think it will be easy for you to pick up, as long as you put in the time.

But, stats is not something that can be just picked up in a couple of months. It is really, really easy to fall into the zone of "just knowing enough to be dangerous".

I'd strongly suggest taking a few courses in stats, in probability, in regression, and read the statistical learning books ---they are free (Tibshrani). The junior version is very easy but gives very good intuition, without heavy formula. At least read that.
. 1point 3acres 璁哄潧
For business sense, read the link in the 1st floor of this post.  

Yes, without a PhD you can still do a lot along the lines of data engineer and data scientist. Some basic training in stats, hands-on experience with machine learning (recommender system, NLP, as well as the classic classification and regression problems etc) will be helpful.

Deriving formula is not a just ---- pay attention to building up the right intuition.

You can read through the interview questions on 1p3a. Some of the answers are really good.
===========================
Could you share some of your course experience in ML? And projects that you worked on along the DS line?
回复 支持 反对

使用道具 举报

 楼主| 小K 发表于 2015-5-24 16:26:54 | 显示全部楼层
eve2ada 发表于 2015-5-23 22:22
  • 专业,学位,毕业时间: Industrial Engineering master, 2016年毕业,之前在国内拿过一个通信master学 ...

  • If you don't have an intern offer now, it is slim chance you will find an internship this summer anyway (most interns already started or will start in a couple of weeks...)

    If you can't confidently fit a regression, then definitely focus on basic stats courses.
    . 1point3acres.com/bbs
    I think you can decide on what you want to do, and decide whether or not you want to pursue SAS. For IT, you can definitely go a long way without ever knowing SAS.

    If you are interested in coding, I strongly encourage you to do as much as posible in that area. It will be very helpful down the line. Yes data structure, algo, and leetcode will often come up in interviews. . 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷

    OK tell me when you'd use poisson and when NB.

    Describe to me what RF does, what are its pros and cons and when you'd want to use it.
    -google 1point3acres
    For data --- start with SQL - it's pretty much a given, regardless of which area of DS you are going into -- be it business analyst, statistics oriented, or engineering oriented. That said, learning spark/scala/the hadoop ecosystem definitely is helpful. And they are not hard to learn anyway.

    Excel will only land you analyst jobs. If you are interested in it , it 's fine too. But in general these positions don't pay as well as DS. . 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷

    It would be a plus in many positions if your business sense is good. Keep that up!-google 1point3acres
    回复 支持 反对

    使用道具 举报

     楼主| 小K 发表于 2015-5-24 16:32:35 | 显示全部楼层
    liyangtnt 发表于 2015-5-23 22:26
    你的专业,学位,毕业时间
    1、国内数学学院-信息与计算科学,本科,2013.06
    2、研发汪,B/S 架构管理系统 ...

    一种把分析师结论快速转化成产品的工程师/分析师 candidate。换句话说,能听懂分析师的理论模型和看懂调查报告,还能全栈搞定所有技术实现并负责产品上线。类似一种桥梁,然后希望分析师大牛能带着把自己的分析能力提升上去,自己也成为分析师。. 鍥磋鎴戜滑@1point 3 acres

    ------------
    Well it sounds like you want to be a full stack engineer, not a data scientist. .鏈枃鍘熷垱鑷1point3acres璁哄潧
    While data scientist may be responsible for deriving insights that inform product development, I doubt DS is also responsible for carrying out that development, except in tiny startups.


    From your description it seems you already have a good understanding of the basic product sense.

    I don't think your dreams will be fulfilled in a DS role, you are a typical engineer :) Personally, I don't think know R as a language, without a solid understanding of stats is a good idea. I have seen people doing more harm than good with it.

    - if you are graduating soon and are confident about your coding skills, you may be interested in the company I work for. (msg for more details)
    回复 支持 反对

    使用道具 举报

     楼主| 小K 发表于 2015-5-24 16:52:56 | 显示全部楼层
    对了楼上几位,我还想问问
    why do you want to be a data scientist
    . visit 1point3acres.com for more.
    数科is definitely a fun, and fantastically promising field
    but like like CS - it's not for everyone
    a passion is key

    数科需要你私下自学的对象,比码农只多不少,工资也并不会更高
    我一直说,真爱数科的才去数科,能码农的先码农

    这样比较优化。
    回复 支持 反对

    使用道具 举报

    eve2ada 发表于 2015-5-25 00:11:39 | 显示全部楼层
    小K 发表于 2015-5-24 03:26
    If you don't have an intern offer now, it is slim chance you will find an internship this summer a ...

    Thank you so much. I like these straightforward answer and suggestions.
    . 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
    For count variable prediction, intuitively I will try possion regression first, but if there is overdispersion (sd>>mean), we need to use NB regression.. more info on 1point3acres.com
    For RF, basically it could improve acuracy of prediction and provide almost unbiased estimation. But also RF might lead to overfitting, and the model might not be interpreted.

    Yes, I will move to more data structure, algorithm and leetcode things. Also spark things.
    For your following question, I'd like to say, yes, I really enjoy data science work, especially coding and finding ways to improve acuracy, or digging more interesting things from data.
    . visit 1point3acres.com for more.
    Could I ask two more questions?
    1. for companies in IT (most familiar business for me), what's the most important language/tool for data science? R or Python, or other? Because I'd like to focus on one.
    2. do you think data visualization skill is important for data science? since you didn't mention it in your background survey questions. I was told data visualization skill is very important, especially for novice.
    回复 支持 反对

    使用道具 举报

     楼主| 小K 发表于 2015-5-25 00:50:28 | 显示全部楼层
    eve2ada 发表于 2015-5-24 08:11
    Thank you so much. I like these straightforward answer and suggestions.
    . 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
    For count variable pred ...

    not sure I'd agree with the RF part :) You can read more about this. And ML in general.

    1. DS is not a one tool trade --- NOT AT ALL.
    If you think you can learn one and be all set....well you will be very disappointed.

    again I shamelessly refer to my own post:
    http://www.1point3acres.com/bbs/thread-76429-1-1.html

    A PhD Data Scientist: Jack of All trades, master of one.. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴

    If you are a PhD, You should know R (or Matlab) super well, and you'd need Py for many other things.
    That said, things change every day. Not sure which package/software will win out by the time you graduate.

    One thing is for sure -- all of us need to keep learning.
    . from: 1point3acres.com/bbs
    Almost every tool that I use now on a daily basis was learned ON THE JOB and not back at grad school. My colleague also said exactly the same thing. Our PhD backgrounds helped with the theory and principle, but packages in R, programming languages, ML, these things change at a fast pace.
    For a DS, a lot of passion is needed to just keep up. .1point3acres缃
    And sadly, one's skills definitely will go out of date in 2-3 years, if one does not keep learning.

    ============
    Visualization ---- Yes and No.
    Yes in the sense that you have to at least master ggplot2 type of stuff in R.
    scatterplots, bubble charts, barcharts, line/trend charts, heapmaps, clustering diagrams, etc.
    I thought that's a given, if one claims to know R. .鏈枃鍘熷垱鑷1point3acres璁哄潧

    No in the sense that you don't have to master highcharts (js), d3 to work as DS. It certainly would be fun and helpful. Think new york times and flowingdata.
    . 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
    For dashboard building, nowadays there are many ready made tools to help. for analyst type or data engineer type, they'd use these tools a lot.

    So viz for exploration and story telling, yes. viz for dashboard is not that hard, viz for production quality stuff facing outside customers? You can often get help from front end engineers.
    回复 支持 反对

    使用道具 举报

    eve2ada 发表于 2015-5-25 01:44:51 | 显示全部楼层
    小K 发表于 2015-5-24 11:50-google 1point3acres
    not sure I'd agree with the RF part :) You can read more about this. And ML in general. . 鍥磋鎴戜滑@1point 3 acres

    1. DS  ...

    Thanks a lot for your time.

    I am not PhD actually, and I ever thought of it. But because of my industry background I found myself more prefer to learn in real business world instead of academic environment.
    I agree with you on "Jack of all trades, master of one", and I am trying to cover "all trades" from the beginning I entered DS domain. Now I think I am locating "the one" :) I assume it will be python or java considering the business environment despite that I love R....

    And yes,  I will learn more on randome forest. . 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴

    Thanks again for your precious weekend morning:)
    回复 支持 反对

    使用道具 举报

    eve2ada 发表于 2015-5-25 01:53:55 | 显示全部楼层
    小K 发表于 2015-5-24 11:50
    not sure I'd agree with the RF part :) You can read more about this. And ML in general. . 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
    .1point3acres缃
    1. DS  ...

    And sorry for an additional question:
    about data structure and algorithm, could you describe roughly that what would be most important or covered in data science? or just some examples?

    Thanks again.
    回复 支持 反对

    使用道具 举报

    xuhao417347761 发表于 2015-5-25 05:48:33 | 显示全部楼层
    自我介绍:Fisrt year PhD Candidate@CS,北美某小学校,CS氛围不浓厚, 导师大数据安全方向(刚起步,研究方向不明朗)
    背景 统计信号处理,国内基本是做信号检测与估计的,熟悉Markov Chain Monte Carlo, Regression,熟悉大部分基本的统计知识. 个人感觉ML与统计信号处理非常接近,可以做一般算法的公式推导,看懂一般理论文章压力不大。.鏈枃鍘熷垱鑷1point3acres璁哄潧
    代码方面会什么,到什么程度: Python学习中,感觉很强大,熟悉Matlab. R还没有涉足。Javascript,java,C++略懂。已经修过算法课,并且当过本科生Algorithms的TA,马上开始Leetcode刷题。.鐣欏璁哄潧-涓浜-涓夊垎鍦
    你知道你在面试之前不可能搞定的是:Hadoop等分布式计算技术。主要是目前缺乏平台学习。
    希望成为既懂得系统架构又懂得数据分析的全栈Data Scientist.
    回复 支持 反对

    使用道具 举报

     楼主| 小K 发表于 2015-5-25 05:56:00 | 显示全部楼层
    xuhao417347761 发表于 2015-5-24 13:48
    自我介绍:Fisrt year PhD Candidate@CS,北美某小学校,CS氛围不浓厚, 导师大数据安全方向(刚起步,研究方 ...
    . 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
    Sounds like a very well rounded education.
    Hadoop可以自己设置一个本地的试试手。不难。udacity的相关课可以看看。不是很费时间。
    可能多动手做项目就有用吧,你的背景挺好的。
    统计好的CS人会有非常强大的发展。. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
    good luck!
    回复 支持 反对

    使用道具 举报

    xuhong 发表于 2015-5-25 12:21:22 | 显示全部楼层
    本帖最后由 xuhong 于 2015-5-25 12:23 编辑

    谢谢小K

    ==================
    你的专业,学位,毕业时间?. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
    本科Electrical Engineering, 作为software engineer在国内工作过两年,研究生Engineering Management, 项目比较business,我选课都尽量往data方向靠,2015 fall毕业
    .1point3acres缃
    你在统计方向对哪些问题很有把握,哪些不太有把握?
    有把握的:hypothesis testing,glm,regression, bayesian
    . 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷不太有把握的: time series, 以及模型背后的assumption, inference, forecasting

    你在代码方面会什么,到什么程度(数据结构,算法,是否刷过题)?
    数据结构基本都还记得,但是需要一个星期来refresh一下
    算法已经很生疏了,还没刷过,打算下学期强化一下

    -google 1point3acres
    你在机器学习方面,除了调用现成包之外,还知道哪些?
    基本都是自学的,从Andrew Ng的Machine Learning,到stanford的Mining Massive Dataset, 再到各种blog,ipython notebook
    对常见的regression和classification的特点,局限,使用场景比较熟悉,也跟着notebook做过一些小project
    . 鍥磋鎴戜滑@1point 3 acres
    你最有把握的语言、工具是:R, python

    你可能熟悉的语言、工具是:C, Java. visit 1point3acres.com for more.

    你知道你在面试之前不可能搞定的是:不可能成为熟练的码农,了解设计模式,软件工程. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴

    你觉得你的business sense如何,这里的几个问题你有什么想法吗?
    我觉得跟科班stats比起来我的长处在business sense. 之前一次比较大型的3校联合data analysis competition我们胜过那些专业出身的获得冠军,我觉得原因就是我们的模型虽简单,但Make more sense to sponsor's business

    你希望找什么样的工作.
    暑期在一家consulting firm做data scientist intern. 但以后还是想去technology firm, 比如facebook,linkedin这样的地方做DS
    我觉得自己的劣势可能在于1. 专业背景(非stats非phd) 2. 对于technology firm,代码能力还不够

    非常感谢!十分期待听到你的意见。
    回复 支持 反对

    使用道具 举报

    dennis_szsy 发表于 2015-5-26 11:20:07 | 显示全部楼层
    k妈能帮忙改简历吗
    回复 支持 反对

    使用道具 举报

    valqi 发表于 2015-5-26 11:54:12 | 显示全部楼层
    你的专业,学位,毕业时间CS/STAT MS 2016

    你在统计方向对哪些问题很有把握,哪些不太有把握. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
    只上过一些基本的统计,没有深入,也上的不太系统。没时间也没精力去好好系统的上统计理论课,只选了一些实用的课上。喜欢algorithom based的统计,用代码去实现。


    你在代码方面会什么,到什么程度(数据结构,算法,是否刷过题)
    上过算法,准备看下数据结构,还没刷过题


    你在机器学习方面,除了调用现成包之外,还知道哪些
    ML水很深,感觉MS学的基本都是很皮毛的东西,也就不在这班门弄斧了

    你最有把握的语言、工具是:
    R/Python
    . 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
    你可能熟悉的语言、工具是:. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
    Java/Javascrit/PHP
    . 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
    你觉得你的business sense如何,这里的几个问题你有什么想法吗
    除了本科上过1-2门课没啥其他背景,不过对这个方向还是有兴趣,也想尝试下

    你希望找什么样的工作:
    可能跟business analytics类似的工作
    回复 支持 反对

    使用道具 举报

    clfhaha1234 发表于 2015-5-26 12:15:14 | 显示全部楼层
    小K 发表于 2015-5-24 16:21.1point3acres缃
    Your background seems more coding oriented than stats, so work with that. Many companies do not re ...

    谢谢小K姐呀:

    选择数科的理由:
    1、兴趣,一直享受着用理论知识,从大数据中寻找解决实际问题的方法,编程实现并创造价值的乐趣。.鏈枃鍘熷垱鑷1point3acres璁哄潧
    2、机遇,相信数科领域的前景很广阔

    学好机器学习的方法:有志同道合的伙伴一起探讨,共同学习,并且能够迅速在项目中实战检验。具体做过的项目有推荐系统,文本分类和反作弊用户识别。. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴

    ===========================
    . 鍥磋鎴戜滑@1point 3 acres
    由于入门不久,简历还很捉急,不知道要如何润色体现竞争力,小K姐求指点
    回复 支持 反对

    使用道具 举报

    本版积分规则

    请点这里访问我们的新网站:一亩三分地Instant.

    Instant搜索更强大,不扣积分,内容组织的更好更整洁!目前仍在beta版本,努力完善中!反馈请点这里

    关闭

    一亩三分地推荐上一条 /5 下一条

    手机版|小黑屋|一亩三分地论坛声明 ( 沪ICP备11015994号 )

    custom counter

    GMT+8, 2016-12-7 06:20

    Powered by Discuz! X3

    © 2001-2013 Comsenz Inc. Design By HUXTeam

    快速回复 返回顶部 返回列表