查看: 3382|回复: 16
收起左侧

[统计--软件] 怎么在R下自动下载网页数据:USNEWS RANK FOR STATS in 2010:

  |只看干货 |统计--软件, 数学|统计

分享帖子到朋友圈
joyce1322 | 显示全部楼层 |阅读模式
本楼: 👍   100% (4)
 
 
0% (0)   👎
全局: 👍   99% (362)
 
 
0% (2)    👎

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?注册账号

x
本帖最后由 joyce1322 于 2011-3-16 08:57 编辑

我错了,这个其实还是2010年的ranking。 engineering schools 的更新了,不过stat 还没有。

下面的就当是介绍下怎么在R下自动下载网页数据好了。

By the way, I web-scrape the rank via R ( the statistical software package). If anyone is interested in regular expression and web-scraping, here is also the R code.
. 1point3acres
Enjoy! Berkeley is ranked no.2... Go Bears!

--------Cannot upload files now due to tech probelm, pdf file will be up later --------------------------

Rcode:

url<- "http://grad-schools.usnews.rankingsandreviews.com/best-graduate-schools/search.result/program+top-science-schools/top-statistics-schools+y"

##load the page into memory . 1point3acres

page.stat<- readLines(url)

regexp<- "#[0-9]+|Published"
index<- grep(regexp,page.stat)
rank.stat<- gsub(".*#([0-9]+).*|Rank Not Published","\\1", page.stat[index])
rank.stat<- as.numeric (rank.stat)

##scrape the school rank

rank.stat<- gsub(".*#([0-9]+).*|Published","\\1", page.stat[index])
rank.stat<- as.numeric(rank.stat)

##scrape the school name and dept
index2 <- grep("schoolname",page.stat)
school<- gsub(".*[0-9]+\\\">(.*)</a>.*","\\1",page.stat[index2])

## order the school according to rank

school.order<- school[order(rank.stat)]
rank.order<- rank.stat[order(rank.stat)]
result<- data.frame(school.order, rank.order)
names(result)<- c("School/Dept", "Rank"). check 1point3acres for more.

##store the result into a csv file
write.csv(result,"statrank2012.csv")

评分

参与人数 2大米 +120 收起 理由
RehsuR + 20 赞代码~
duanmupeiyi + 100 精品文章

查看全部评分


上一篇:[Stat]好学校的MS和差学校的PhD,怎么选?请各位统计者讨论
下一篇:[Biostat@UC-Davis] 申请
edwardgtxy 2011-3-16 06:35:42 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   99% (522)
 
 
0% (4)    👎
哇。。第二~~~ 话说你们伯克利yummy党的口号还真是:”下得了厨房,写得了代码“
回复

使用道具 举报

听鱼唱 2011-3-16 07:11:29 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   78% (303)
 
 
21% (85)    👎
这个就是和去年一样的,没有更新

左上角还是Ranked in 2010
回复

使用道具 举报

 楼主| joyce1322 2011-3-16 07:17:08 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   99% (362)
 
 
0% (2)    👎
i know.  the point of this post is to introduce how to scrape web data via R.
by changing the url address, you can use R to scrape the school/rank from any major/sub-major you want.
回复

使用道具 举报

apple~cherry 2011-3-16 07:34:41 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (5)
 
 
0% (0)    👎
千呼万唤始出来呀!赞一个~~
回复

使用道具 举报

zz10fall 2011-3-16 07:57:44 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (24)
 
 
0% (0)    👎
明明就是2010年的,这忽悠的。。。
回复

使用道具 举报

RehsuR 2011-3-16 09:51:08 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   98% (357)
 
 
1% (5)    👎
哇。。第二~~~ 话说你们伯克利yummy党的口号还真是:”下得了厨房,写得了代码“
edwardgtxy 发表于 2011-3-15 16:35

. check 1point3acres for more.

    传说中的居家必备型才女啊~~~
回复

使用道具 举报

K姐 2011-3-16 10:18:54 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   94% (10530)
 
 
5% (571)    👎
thanks for sharing
i use this on a daily basis...
any way to get stuff from https instead of http?
回复

使用道具 举报

 楼主| joyce1322 2011-3-16 10:29:36 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   99% (362)
 
 
0% (2)    👎
try RCurl packages
it has a lot of advanced features. Last time I scraped some data from a website that requires login
http://www.omegahat.org/RCurl/FAQ.html
回复

使用道具 举报

K姐 2011-3-16 10:33:49 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   94% (10530)
 
 
5% (571)    👎
fantastic! will give it a try 1st thing tomorrow morning!!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号

本版积分规则

隐私提醒:
■拉群请前往同学同事飞友|拉群结伴版块,其他版块拉群,帖子会被自动删除
■论坛不能删帖,为防止被骚扰甚至人肉,不要公开留微信等联系方式,请以论坛私信方式发送。
■特定版块可以超级匿名:https://tools.1point3acres.com/thread
■其他版块匿名方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

>
快速回复 返回顶部 返回列表