10月28,K神开讲数据科学:AB Test/实验设计


一亩三分地论坛

 找回密码
 Sign Up 注册获取更多干货
天天打游戏、照样领工资、还办H1B
这份工作你要不要?
把贵司招聘信息放这里
查看: 1329|回复: 4
收起左侧

[DataScience] 讨论一道面试题

[复制链接] |试试Instant~ |关注本帖
datascientist 发表于 2014-3-24 09:56:59 | 显示全部楼层 |阅读模式

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?Sign Up 注册获取更多干货

x
本帖最后由 datascientist 于 2014-3-24 10:00 编辑

关于R的,给某一年的1000支股票的每日交易量,和收盘价。想找这样一个回归函数

今日收盘价=f(昨日开盘价,昨日收盘价,昨日成交量). visit 1point3acres.com for more.

有下面一些想法,抛砖引玉,欢迎大家讨论:


把大约1000*270条数据放一起做回归感觉不靠谱,有的股票六七百块一股,有的股票才不到一块钱一股。
把每个股票都scale一下,然后还是把1000*270条数据放一起做回归。
每个股票单独做回归
把股票分类,然后每一类都做一个回归,怎么分类?
分红,突发信息等引起的突然估价变动,要不要作为outlier除去?咱们就不要去考虑去网上找这些分红等信息了,就用给的每日交易量,和收盘价做。

本帖被以下淘专辑推荐:

Superlaw 发表于 2014-3-25 08:31:57 | 显示全部楼层
回归之前肯定是要做一个outlier去除的,以防影响回国的质量。
题目好像是把所有的数据放在一个回归方程中,我觉得应该是将1000*270条数据放一起做回归。
.1point3acres缃
如果是1000支,每一类都做一个回归方程,题目的原意不是这样的,你说题目是找一个回归函数。

如果是分类的话,那要涉及到segmentation,做segmentation是非监督分类,涉及太多人为控制的因素。
.鏈枃鍘熷垱鑷1point3acres璁哄潧
回复 支持 反对

使用道具 举报

小K 发表于 2014-3-26 02:48:28 | 显示全部楼层
单只股票的价格across days是correlated,起码要考虑这一点吧。哪怕假定股票之间相互独立。
scaling对影响coefficient大小但是对model fit, stat inference毫无影响。

不能去除outlier吧。。。. from: 1point3acres.com/bbs

random intercept random slope model?.鐣欏璁哄潧-涓浜-涓夊垎鍦

统计里面好像用其他办法,不过也许可以cross validation看看predictive power?
回复 支持 反对

使用道具 举报

wesley 发表于 2014-3-27 11:46:02 | 显示全部楼层
同意楼上K大妈的观点,应该单只分析
outlier 首先要找到outlier, R里有函数可以很容易的找出outliers, most influence observations, 然后去一个一个的分析如何处理outlier,这里最好是有domain knowledge, 而不是直接全部删掉
对于股票不太懂,但是一个简单的办法是将现有数据分成三块,train, test1,test2, 用step-wise lm 在train上求出模型,再用test1检验,检验predictive power,然后如果不好,再用train重新建模,iterally, 最后的模型再放入test2去检验,此时test2从未被用作计算过
如果数据充足,还可以试试 Cross-validation 以上都可以用R里现成的公式搞定
不过还得看具体的数据去分析,有的数据有很强的自身特点,比如季节性,非常不适用于lm,这时候可以用local linear regression
回复 支持 反对

使用道具 举报

hayesses 发表于 2014-7-30 22:37:41 | 显示全部楼层
方差相近的股票为一组吧,如果用线性回归的话。
其实最好的还是要用业务逻辑来进行分类,比如板块类别( 石油, 房地产, 煤矿等)。这样才是最有代表性的。
另外,介于股票的价格存在数量级上的差别,可以用对数化进行处理,减少异方差。
回复 支持 反对

使用道具 举报

本版积分规则

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明

custom counter

GMT+8, 2017-10-24 06:34

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表