一亩三分地

 找回密码 注册账号

扫描二维码登录本站

微信公众号
扫码关注公众号
留学申请公众号
扫码关注留学申请公众号
查看: 1948|回复: 11
收起左侧

NLP

[复制链接] |只看干货 |机器学习
我的人缘0

升级   74%


分享帖子到朋友圈
唐仙娥 | 显示全部楼层 |阅读模式
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   100% (24)
 
 
0% (0)    👎

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?注册账号

x
本帖最后由 唐仙娥 于 2020-2-16 11:27 编辑

小感悟:
句子的特征向量已经更新迭代了。
从word2vec 到Glove 到Elmo 已经到了Bert
word2vec, glove 不具备上下文之间的联系,一个词在不同的句子中只有一个意思。Elmo用了BiLSTM Bert用了Attention,实现了句子中不同的单词之间相互有影响。

word2vec 有人指出 中心词和上下文(unigram)之间有联系,ci = Q * wi 所以可以减少数据规模。

Elmo和Bert 的时候实在是太慢啦,1个epoch 要5-10分钟。不知道把句子提前训练好的向量存起来会不会快,明天尝试一下!



评分

参与人数 6大米 +6 收起 理由
z920631580 + 1 给你点个赞!
hy0v0 + 1 给你点个赞!
mao1maoer + 1 赞一个
悠U + 1 赞一个
zzzzla + 1 赞一个
toniya + 1 亲身经历非常棒!

查看全部评分

我的人缘0

升级   15.14%

youlegelin 2020-2-17 23:31:24 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   99% (1713)
 
 
0% (9)    👎
感觉NLP领域尤其是language model方向最近都是winner takes all的状态,有计算资源有数据的巨头们不停退出更大更牛逼的language model,像我们这种小学校没多少计算资源的人哪怕只是想run这些model都很费劲更别说beat他们了
回复

使用道具 举报

我的人缘0

升级   43.29%

mathfather 2020-2-17 08:00:03 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   100% (62)
 
 
0% (0)    👎
唐仙娥 发表于 2020-2-17 07:33
效果不好呀,估摸着是数据太少了,之前都没画图。今天画了图之后发现BiLSTM没学到什么东西。 Train的predic ...

Semeval2020有个和humor相关的数据集 现在任务好像都还没截至提交 https://competitions.codalab.org/competitions/20970

评分

参与人数 1大米 +1 收起 理由
唐仙娥 + 1 很有用的信息!

查看全部评分

回复

使用道具 举报

我的人缘0

升级   74%

 楼主| 唐仙娥 2020-2-16 11:19:29 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (24)
 
 
0% (0)    👎
求米求米呀
回复

使用道具 举报

我的人缘0

升级   87.5%

本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (4)
 
 
0% (0)    👎
Glove是可以联系上下文的.用的global context...
回复

使用道具 举报

我的人缘0

升级   66.71%

本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (17)
 
 
0% (0)    👎
MarukuQ 发表于 2020-2-16 14:30
Glove是可以联系上下文的.用的global context...

通常说的词向量联不联系上下文指的是在不同的上下文中这个词的词向量是否一致。
比如说,I want to eat an apple和What's the stock price of apple. 这里的apple在两个句子中的表达的语义是不同的。
word2vec/glove 不能做到这点,elmo可以,所以elmo是可以“联系”上下文的 :)
回复

使用道具 举报

我的人缘0

升级   87.5%

本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (4)
 
 
0% (0)    👎
啤酒田螺小龙虾 发表于 2020/02/16 15:04:09
通常说的词向量联不联系上下文指的是在不同的上下文中这个词的词向量是否一致。
比如说,I want to eat an ...
原来是这个意思! 谢谢指教!

补充内容 (2020-2-16 06:05):
同在做相似项目。你的经验非常practical。 谢谢!
回复

使用道具 举报

我的人缘0

升级   74%

 楼主| 唐仙娥 2020-2-17 07:29:58 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (24)
 
 
0% (0)    👎
MarukuQ 发表于 2020-2-16 21:57
原来是这个意思! 谢谢指教!

补充内容 (2020-2-16 06:05):

嗯嗯 解释得好好。 之前是我表达的不太清楚~
回复

使用道具 举报

我的人缘0

升级   74%

 楼主| 唐仙娥 2020-2-17 07:33:17 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (24)
 
 
0% (0)    👎
效果不好呀,估摸着是数据太少了,之前都没画图。今天画了图之后发现BiLSTM没学到什么东西。 Train的predict还能看到点趋势,valid和test的predict七成是嗝屁了。 求问有没有humor 相关的数据集推荐呀~
回复

使用道具 举报

我的人缘0

升级   14.95%

solomonking 2020-2-18 09:31:47 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   90% (110)
 
 
9% (12)    👎
youlegelin 发表于 2020-2-17 23:31
感觉NLP领域尤其是language model方向最近都是winner takes all的状态,有计算资源有数据的巨头们不停退出 ...

在GAN的领域也是,我觉得可以专注于对于不同应用场景的开发
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号

本版积分规则

隐私提醒:
■拉群请前往同学同事飞友|拉群结伴版块,其他版块拉群,帖子会被自动删除
■论坛不能删帖,为防止被骚扰甚至人肉,不要公开留微信等联系方式,请以论坛私信方式发送。
■特定版块可以超级匿名:https://tools.1point3acres.com/thread
■其他版块匿名方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

手机版|||一亩三分地

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

Some icons made by Freepik from flaticon.com

快速回复 返回顶部 返回列表