一亩三分地

 找回密码 注册账号

扫描二维码登录本站


Salarytics=Salary Analytics
查询工资数据
系统自动计算每年收入

科技公司如何
用数据分析驱动产品开发
coupon code 250off 立减$250

深入浅出AB Test
从入门到精通
coupon code 250off 立减$250
游戏初创公司招聘工程师、UIUX Designer和游戏策划
坐标湾区
DreamCraft创始团队
招聘游戏开发工程师
把贵司信息放这里
查看: 3984|回复: 28
收起左侧

[找工就业] [NLP经验] 无偿分享3个月NLP实习用到的专题知识

  [复制链接] |试试Instant~
我的人缘0

分享帖子到朋友圈
ttthhb | 显示全部楼层 |阅读模式
本楼: 👍   100% (12)
 
 
0% (0)   👎
全局: 👍   100% (61)
 
 
0% (0)    👎

2020(7-9月)-CS硕士+短暂实习或全职不超过3个月 | 网上海投|BayArea MachineLearningEng实习@VC

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?注册账号

x
楼主斯坦福MS,上个暑假在一个全美资VC做NLP。没错是一个VC,不经感叹道科技的力量已经从二级市场蔓延到投资领域的各个角落。做的项目十分有趣,用snorkel做了一个weak supervision的labeling,做了一个text classifier,以及一个text clustering。具体每个project的内容就不详细说了,其实在其他领域应用早就有了,大家上网也可以找点例子,接下来我也会分享一些链接。只不过在VC做的还是比较新,据老板说在DI & Sourcing方面至少领先同行业两年。
接下来分享一些用到知识点的链接,大家以后准备NLP相关岗位面试的时候可以参考。仅限于我实习项目而言的知识点(中英都有):
首先非常推荐斯坦福NLP的IR-book,基本一应俱全:
https://nlp.stanford.edu/IR-book/html/htmledition/

SQL tools:
https://hashrocket.com/blog/posts/materialized-view-strategies-using-postgresql
https://wiki.postgresql.org/wiki/Psycopg2_Tutorial
Pandas (非常重要,一定要熟练):
https://pandas.pydata.org/pandas ... _started/10min.html
https://pandas.pydata.org/pandas ... ataFrame.apply.html
https://pandas.pydata.org/pandas ... g.html#merging-join
https://scikit-learn.org/stable/ ... with_text_data.html

1. 有监督NLP
ML pipeline (Industry 必用,跟course project最大不同):
https://scikit-learn.org/stable/ ... eline.Pipeline.html
https://juejin.im/entry/5ad6b20a6fb9a028e46f293a

NLP:
https://www.zhihu.com/question/64984731
        Stop words:
                          https://en.wikipedia.org/wiki/Stop_words
        PorterStemmer:
                          http://qinxuye.me/article/porter-stemmer/
                          https://tartarus.org/martin/PorterStemmer/
        General ways to solve NLP problem:
                          https://blog.insightdatascience. ... 8e4e?imm_mid=0faff0
                          https://github.com/hundredblocks ... /NLP_notebook.ipynb
       Convolutional Neural Networks for Sentence Classification:
                          https://arxiv.org/abs/1408.5882
       LSTM:
                          https://blog.csdn.net/Jerr__y/article/details/58598296
                          https://www.jianshu.com/p/9dc9f41f0b29

       Feature extraction:
                          https://scikit-learn.org/stable/ ... ext.TfidfVectorizer
                          https://scikit-learn.org/stable/ ... ext.CountVectorizer
       Bert:
                          https://arxiv.org/pdf/1810.04805.pdf
                          https://huggingface.co/pytorch-transformers/model_doc/auto.html#. check 1point3acres for more.
                          https://mccormickml.com/2019/07/22/BERT-fine-tuning/
                          Freeze BERT:
                          https://github.com/google-research/bert/issues/637
                          https://github.com/huggingface/pytorch-transformers/issues/400
                          https://github.com/huggingface/pytorch-transformers/issues/95
                          https://discuss.pytorch.org/t/ho ... the-training/7088/5-baidu 1point3acres


       Gensim:
                          https://radimrehurek.com/gensim/models/word2vec.html

       Word2vec:
                          https://rare-technologies.com/parallelizing-word2vec-in-python/
                          https://machinelearningmastery.c ... ings-python-gensim/
                          https://zhuanlan.zhihu.com/p/27830489
                          https://pytorch.org/docs/stable/nn.html#torch.nn.Embedding

Git:
https://www.atlassian.com/git/tu ... ith-bitbucket-cloud

调参:
https://scikit-learn.org/stable/ ... omizedSearchCV.html

Data matching:
https://recordlinkage.readthedocs.io/en/latest/
       Words distance:
                          https://blog.csdn.net/chaoswork/article/details/5489877
                          https://blog.csdn.net/asty9000/article/details/81384650
                          https://blog.csdn.net/chaoswork/article/details/5489877
       Smith-Waterman algorithm:. check 1point3acres for more.
                          https://baike.baidu.com/item/%E5 ... 22800982?fr=aladdin
       Damerau/Levenshtein Distance
                          https://www.jianshu.com/p/6cc29bc31eb9
                          https://blog.csdn.net/vcbin/article/details/52121062
                          https://blog.csdn.net/asty9000/article/details/81384650
       Jaro-Winkler Distance
                          https://blog.csdn.net/vcbin/article/details/52121062
                          https://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance
XGboost:
https://zhuanlan.zhihu.com/p/31182879
https://zhuanlan.zhihu.com/p/33700459
https://blog.csdn.net/zc02051126/article/details/46711047
https://huggingface.co/pytorch-t ... trained_models.html
gtree glinear:
https://www.cnblogs.com/liuwu265/p/4693113.html

SVD PCA 潜在语义分析:
https://medium.com/@jonathan_hui ... is-pca-1d45e885e491. check 1point3acres for more.
https://scikit-learn.org/stable/ ... n.TruncatedSVD.html
https://medium.com/@chrisfotache ... d-more-b83451a327e0
https://nlp.stanford.edu/IR-book ... tic-indexing-1.html
https://blog.csdn.net/qq_27009517/article/details/79361439
. check 1point3acres for more.

2. 弱监督学习器、半监督:
Snorkel:
https://snorkel.readthedocs.io/e ... rityLabelVoter.html
https://hazyresearch.github.io/s ... h_tf_blog_post.html
https://www.snorkel.org/blog/babble
https://www.snorkel.org/use-cases/01-spam-tutorial

Semi supervised
https://scikit-learn.org/stable/modules/label_propagation.html

Active learning :
https://scikit-learn.org/stable/ ... ctive_learning.html

. From 1point 3acres bbs3. 无监督NLP:
K-means:
https://medium.com/@MSalnikov/te ... tf-idf-f099bcf95183
https://scikit-learn.org/stable/ ... ent_clustering.html
https://towardsdatascience.com/k-means-clustering-8e1e64c1561c
AHC:
https://nlp.stanford.edu/IR-book ... e-clustering-1.html
https://www.geeksforgeeks.org/ml ... ivisive-clustering/
https://towardsdatascience.com/m ... python-1e18e0075019(这个是真的舒服)

最后,知识点肯定无法涵盖NLP的各个角落,特别是一些deep Learning的应用,比如NMT,QA等等。但是一般面试一定会把最基础的东西问得很透彻(老板也只记得这些),所以越是基础的NLP越要牢牢掌握。像BERT,XLnet这些state-of-art,只要结构能说清楚,充其量用过其pre-trained model已经ok了。

祝大家找工作愉快!








评分

参与人数 65大米 +173 收起 理由
wanji00 + 2 给你点个赞!
youlandasu + 1 含泪点赞
yan_wang1112 + 1 给你点个赞!
jinliYYQ945 + 2 给你点个赞!
阿钟 + 1 给你点个赞!
cscscsc + 1 很有用的信息!
斥迟迟 + 1 赞一个
jimyoung + 1 赞一个
酒窝不在四白穴 + 2 给你点个赞!
charlesni + 1 赞一个

查看全部评分


上一篇:西雅图在职跳槽刷题找队友~
下一篇:硬币基地vs迪斯科vs脱衣舞

本帖被以下淘专辑推荐:

我的人缘0
kissingurami 2019-10-13 05:48:41 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   95% (21)
 
 
4% (1)    👎
本帖最后由 kissingurami 于 2019-10-13 05:52 编辑

小伙儿,给力。
另外,别忘了选Stanford CS 224D
https://web.stanford.edu/class/cs224n/index.html#schedule
这门课好在:1.帮你建立NLP知识体系,这是广度  
2. 从数学本质上认识NLP 各个state-of-art models(就是带你推导一遍公式),这是深度

看好你呦,加油。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册账号

x

评分

参与人数 1大米 +1 收起 理由
Jean821 + 1 给你点个赞!

查看全部评分

回复

使用道具 举报

我的人缘0
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   100% (5)
 
 
0% (0)    👎
感谢分享!
回复

使用道具 举报

我的人缘0
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   96% (355)
 
 
3% (11)    👎
厉害啊 最近在找 Translation Memory 的 Alignment 的方法 这帖有很多相关的内容 马住仔细研读
回复

使用道具 举报

我的人缘0
光影流转 2019-10-4 04:00:07 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (78)
 
 
0% (0)    👎
感谢lz分享!~
回复

使用道具 举报

我的人缘0
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   84% (43)
 
 
15% (8)    👎
snorkel好用吗
回复

使用道具 举报

我的人缘0
cai_lw 2019-10-4 05:11:49 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   94% (751)
 
 
5% (44)    👎
LZ之前有ML/NLP基础吗?能不能说一下怎么找到的这个实习?
回复

使用道具 举报

我的人缘0
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (61)
 
 
0% (0)    👎
Golden truth set 规模不小的话还是可以的
回复

使用道具 举报

我的人缘0
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (61)
 
 
0% (0)    👎
cai_lw 发表于 2019/10/04 05:11:49
LZ之前有ML/NLP基础吗?能不能说一下怎么找到的这个实习?
上过很多ML的课了,实习是handshake找的
回复

使用道具 举报

我的人缘0
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   0% (0)
 
 
0% (0)    👎
非常感谢楼主分享!资料很棒!受益匪浅!
回复

使用道具 举报

我的人缘0
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   84% (43)
 
 
15% (8)    👎
ttthhb 发表于 2019/10/04 05:20:14
Golden truth set 规模不小的话还是可以的
需要很多LFs 吗
回复

使用道具 举报

我的人缘0
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   0% (0)
 
 
0% (0)    👎
感谢分享^_^
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号

本版积分规则

隐私提醒:
■为防止被骚扰甚至人肉,不要公开留微信等联系方式,请以论坛私信方式发送。
■特定版块可以超级匿名:https://pay.1point3acres.com/tools/thread
■其他版块匿名方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

手机版||一亩三分地

GMT+8, 2019-11-19 06:18

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表