求问有什么站立式办公桌推荐?

一亩三分地论坛

 找回密码
 Sign Up 注册获取更多干货

最近看过此主题的会员

H1B/绿卡遥遥无期
又不想回国
来东南亚最大的互联网集团工作?
码农求职神器Triplebyte:
不用海投
内推多家公司面试
坐标湾区
Games Startup
招聘游戏开发工程师
游戏初创公司招聘工程师、UIUX Designer和游戏策划
查看: 1597|回复: 4
收起左侧

讨论一道面试题

[复制链接] |试试Instant~ |关注本帖
我的人缘0
datascientist 发表于 2014-3-24 09:56:59 | 显示全部楼层 |阅读模式
  此人我要顶:
 
0% (暂未有人投票) 【我投】
  此人我要踩:
 
0% (暂未有人投票) 【我投】

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?Sign Up 注册获取更多干货

x
本帖最后由 datascientist 于 2014-3-24 10:00 编辑

关于R的,给某一年的1000支股票的每日交易量,和收盘价。想找这样一个回归函数

今日收盘价=f(昨日开盘价,昨日收盘价,昨日成交量)

有下面一些想法,抛砖引玉,欢迎大家讨论:
. 1point3acres

把大约1000*270条数据放一起做回归感觉不靠谱,有的股票六七百块一股,有的股票才不到一块钱一股。
把每个股票都scale一下,然后还是把1000*270条数据放一起做回归。
每个股票单独做回归
把股票分类,然后每一类都做一个回归,怎么分类?
分红,突发信息等引起的突然估价变动,要不要作为outlier除去?咱们就不要去考虑去网上找这些分红等信息了,就用给的每日交易量,和收盘价做。


上一篇:分享个MIT big data 的slides,对新手很有帮助
下一篇:Earth Science的PhD有转data scientist的可能吗

本帖被以下淘专辑推荐:

我的人缘0
Superlaw 发表于 2014-3-25 08:31:57 | 显示全部楼层
  此人我要顶:
 
0% (暂未有人投票) 【我投】
  此人我要踩:
 
0% (暂未有人投票) 【我投】
回归之前肯定是要做一个outlier去除的,以防影响回国的质量。
题目好像是把所有的数据放在一个回归方程中,我觉得应该是将1000*270条数据放一起做回归。

如果是1000支,每一类都做一个回归方程,题目的原意不是这样的,你说题目是找一个回归函数。-google 1point3acres

如果是分类的话,那要涉及到segmentation,做segmentation是非监督分类,涉及太多人为控制的因素。
. 围观我们@1point 3 acres
回复 支持 反对

使用道具 举报

我的人缘7
小K 发表于 2014-3-26 02:48:28 | 显示全部楼层
  此人我要顶:
 
84% (75) 【我投】
  此人我要踩:
 
16% (15) 【我投】
单只股票的价格across days是correlated,起码要考虑这一点吧。哪怕假定股票之间相互独立。
scaling对影响coefficient大小但是对model fit, stat inference毫无影响。
. more info on 1point3acres
不能去除outlier吧。。。
. visit 1point3acres for more.
random intercept random slope model?

统计里面好像用其他办法,不过也许可以cross validation看看predictive power?
回复 支持 反对

使用道具 举报

我的人缘0
wesley 发表于 2014-3-27 11:46:02 | 显示全部楼层
  此人我要顶:
 
0% (暂未有人投票) 【我投】
  此人我要踩:
 
0% (暂未有人投票) 【我投】
同意楼上K大妈的观点,应该单只分析
outlier 首先要找到outlier, R里有函数可以很容易的找出outliers, most influence observations, 然后去一个一个的分析如何处理outlier,这里最好是有domain knowledge, 而不是直接全部删掉
对于股票不太懂,但是一个简单的办法是将现有数据分成三块,train, test1,test2, 用step-wise lm 在train上求出模型,再用test1检验,检验predictive power,然后如果不好,再用train重新建模,iterally, 最后的模型再放入test2去检验,此时test2从未被用作计算过
如果数据充足,还可以试试 Cross-validation 以上都可以用R里现成的公式搞定
不过还得看具体的数据去分析,有的数据有很强的自身特点,比如季节性,非常不适用于lm,这时候可以用local linear regression
回复 支持 反对

使用道具 举报

我的人缘0
hayesses 发表于 2014-7-30 22:37:41 | 显示全部楼层
  此人我要顶:
 
0% (暂未有人投票) 【我投】
  此人我要踩:
 
0% (暂未有人投票) 【我投】
方差相近的股票为一组吧,如果用线性回归的话。
其实最好的还是要用业务逻辑来进行分类,比如板块类别( 石油, 房地产, 煤矿等)。这样才是最有代表性的。
另外,介于股票的价格存在数量级上的差别,可以用对数化进行处理,减少异方差。
回复 支持 反对

使用道具 举报

游客
请先登录

本版积分规则

提醒:发帖可以选择内容隐藏,部分板块支持匿名发帖。请认真读完以下全部说明:

■隐藏内容方法: [hide=200]你想要隐藏的内容比如面经[/hide]
■意思是:用户积分低于200则看不到被隐藏的内容
■可以自行设置积分值,不建议太高(200以上太多人看不到),也不建议太低(那就没必要隐藏了)
■建议只隐藏关键内容,比如具体的面试题目、涉及隐私的信息,大部分内容没必要隐藏。
■微信/QQ/电子邮件等,为防止将来被骚扰甚至人肉,以论坛私信方式发给对方最安全。
■匿名发帖的板块和方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

关闭

一亩三分地推荐上一条 /3 下一条

手机版|小黑屋|一亩三分地论坛声明

custom counter

GMT+8, 2018-6-18 14:12

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表