查看: 2270| 回复: 25
收起左侧

历史数据产生变化

|只看干货
zyq | 显示全部楼层 |阅读模式
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (14)
 
 
0% (0)    👎

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看附件。没有帐号?注册账号

x
请问各位,我想做一个类似时间序列的模型,预测销售之类的。但是由于疫情原因,2020年3月后的销量数据和以往相比产生了很大变动。如此预测2021年估计效果应该不会好,这种情况应该怎么处理啊?谢谢啦

评分

参与人数 1大米 +1 收起 理由
芒果冰冰 + 1 给你点个赞!

查看全部评分


上一篇:ProductSense + AARRR思维导图分享
下一篇:请教两个推荐系统的问题
garyzccisme 2021-1-27 04:28:29 | 显示全部楼层
本楼: 👍   100% (5)
 
 
0% (0)   👎
全局: 👍   98% (477)
 
 
1% (6)    👎
现在的工作正好是这个相关的modeling, 也是对销量预测,关注一波看大家怎么讨论。

My two cents:
1. 楼上已经有同学提到了用一些exogenous features比如sp500, 我之前也有考虑过,还有比如失业率,industry index, traffic volume等等
2. 加疫情variable,好像可以,但是不是很general,以后疫情结束了就没用了
3. 用scaling可以一定程度上减少这些outlier对结果的影响
4. 适当调节lookback period的长度,增加model update的频率
5. 用贝叶斯的思想来建模,return a distribution instead of an estimation
6. 我最近在用seq2seq的框架,很多idea可以从NLP那块借鉴,还是挺有意思的.1point3acres
7. 还有个脑洞是用reinforcemence learning,之前看过论文用RL来做SPY trading,那是否可以用RL来做allocation?这点完全是在空想,没有时间实验和研究哈哈

评分

参与人数 1大米 +1 收起 理由
dajiangdongqu + 1 给你点个赞!

查看全部评分

回复

使用道具 举报

jzhao59 2021-1-25 08:02:37 来自APP | 显示全部楼层
本楼: 👍   100% (4)
 
 
0% (0)   👎
全局: 👍   94% (5543)
 
 
5% (296)    👎
很难做长期预测了,整个3-7月的数据都很难看,这已经不是outlier的问题了,只能做短期预测,比如下个月,下周这样,长期的seasonality很难捕捉到了
回复

使用道具 举报

本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   70% (22)
 
 
29% (9)    👎
如果是要给宏观层面的时间序列数据建模,可以考虑outlier smoothing,或是structural break:level shift 或是 trend change。但这两种办法都要求很强的假设,还有就是疫情之后的数据点还很少。

另一种方法就是引入外生变量,比如covid case trend,google mobility trend,social distancing measures。如果要在此基础上做预测,就需要对外生变量做预测,或是生成一些可能情景,对这些外生变量的的趋势做qualitative的描述,在反过来看这些情景下你感兴趣的目标变量怎么变化。

再有就是看微观数据,但这个方法在数据收集和处理方面都更麻烦一些。
. 1point 3 acres
各种方法都有利弊,最终还是要看你想要解决的具体问题吧。个人感受是covid让预测更难了;毕竟所有的predictive model都是driving while looking into the rear mirror。
回复

使用道具 举报

本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (6)
 
 
0% (0)    👎
平滑这种outlier。或者set 一个outlier 的flag标出这些数据
回复

使用道具 举报

Vincentw 2021-1-25 07:25:41 来自APP | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   99% (1162)
 
 
0% (5)    👎
难道2021会很好吗😂
回复

使用道具 举报

uniwander 2021-1-25 08:15:00 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   91% (195)
 
 
8% (18)    👎
1. 你可以考虑引入exogenous variables,比如一些宏观变量GDP/Stock index之类的,又或者你们行业专有的数据;
2. 如果怀疑是因为疫情引起的,那你需要找到历史上跟这次疫情类似的阶段的数据(比较困难),或者需要做一些major assumption, 比如如果你是doordash,你可能需要assume有多少percent的人会永久WFH之类的。. 1point3acres

当然,以上的方法都需要forecast independent variable本身, 非常challenge。有时候短期的效果还是可以使用的,长期的(比如一年以上)就能就直接revert to historical mean了。
回复

使用道具 举报

本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   98% (1830)
 
 
1% (37)    👎
对所有三月份及之后数据加一个dummy variable代表疫情影响 (这一条相对应exogeneious variable那一条回复

补充内容 (2021-1-25 08:18):
exogenous,我大概率拼错了...

补充内容 (2021-1-25 08:21):-baidu 1point3acres
3-7月不是outlier,更可能是shock完之后一直有影响,愚以为dummy variable更佳,但是这也看你context,如果销售数据相对独立就可以当outlier扔掉了用往年同月数据来预测
回复

使用道具 举报

uniwander 2021-1-25 08:47:01 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   91% (195)
 
 
8% (18)    👎
TurkishCoffee 发表于 2021-1-25 08:17
对所有三月份及之后数据加一个dummy variable代表疫情影响 (这一条相对应exogeneious variable那一条回复
...

用dummy也是常用的方法,不过我感觉这次疫情应该不是one time deal, 可能会对一些行业产生深远的影响,如果是这样,用dummy可能不是最好的选择,几乎就是要做一个新的model了
回复

使用道具 举报

 楼主| zyq 2021-1-25 09:23:33 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (14)
 
 
0% (0)    👎
dazeze122222 发表于 2021-1-25 07:25
平滑这种outlier。或者set 一个outlier 的flag标出这些数据

嗯,能大概说说怎么平滑outlier吗?不是很清楚...
回复

使用道具 举报

 楼主| zyq 2021-1-25 09:26:20 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (14)
 
 
0% (0)    👎
uniwander 发表于 2021-1-25 08:15
1. 你可以考虑引入exogenous variables,比如一些宏观变量GDP/Stock index之类的,又或者你们行业专有的数 ...

谢谢,觉得这个exogenous variable可以一试
回复

使用道具 举报

本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   98% (1830)
 
 
1% (37)    👎
uniwander 发表于 2021-01-24 16:47:01. check 1point3acres for more.
用dummy也是常用的方法,不过我感觉这次疫情应该不是one time deal, 可能会对一些行业产生深远的影响,如果是这样,用dummy可能不是最好的选择,几乎就是要做一个新的model了
我感觉吧你的回答偏structural model,有很多assumptions,确实是对的而且是一个比较高级的方法而且可以得到更多的insights。如果lz就想搞个简单的prediction不想深入把context细节model进去的话,感觉dummy+time trend就够用了。主要还是没有context也不知道lz目标,想做的复杂度等等
.1point3acres
补充内容 (2021-1-25 09:53):
看lz回复lz是想做复杂的,那也没我什么事啦~时间序列不是我的专长,我就看到了你说的exogenous variable立马想到了diff in diff来看shock的影响程度所以扔了句dummy variables
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

>
快速回复 返回顶部 返回列表