您所在的位置: 首页 > 教程首页 > 新闻资讯 > 从数据角度分析陈冠希大骂林志玲事件
抓取完成后,得到了用户的一些属性以及评论的内容。
好,既然是评论,我们首先当然要来一发词云分析先。
library(tm)
library(Rwordseg)
installDict('明星【官方推荐】.scel','明星')
contentCorpus<- Corpus(VectorSource(na.omit(d$text)))
contentCorpus<- tm_map(contentCorpus, stripWhitespace)
contentCorpus=tm_map(contentCorpus, content_transformer(segmentCN), returnType='tm')
#tm分词对中文分词Bug解决方案
tokenizer <-function(x){
unlist(
strsplit(
x$content,
'[[:space:]]+'
)
)
}
tdm <-TermDocumentMatrix(
contentCorpus,
control=list(
wordLengths=c(1,Inf),
tokenize=tokenizer
)
)
#转成向量矩阵
tdm <-as.matrix(tdm)
library(wordcloud)
v <-sort(rowSums(tdm), decreasing = TRUE)
d <-data.frame(word = names(v), freq = v)
d <- d[1:300,]
wordcloud(
d$word,
d$freq,
min.freq=2,
random.order=F,
colors=rainbow(length(row.names(d)))
)