| 关键词: 文本 词频 王华 关联 语料库 freq 中心化 分析 云图 scale |
文本挖掘的艺术之一: QQ聊天记录:中文聊天内容的挖掘 核心词云的制作: 在用R做文本挖掘之前我们需要做一些前期的环境准备, 我们这里做分析的文本是tm包下面的一个示例文本, 例如: 第一步:设置文本路径: setwd("C:\\Users\\aioger\\Documents\\R\\win-library\\3.2\\tm") 第二步:建立自己的语料库: ovid <- VCorpus(DirSource(txt, encoding= "UTF-8"), readerControl = list(language = "en")) 第三步:文档词项矩阵 dtm <- DocumentTermMatrix(reuters) #词频关联查找: findAssocs(dtm,"qui",0.3) 第四:删除关联词频少的 dtm1<- removeSparseTerms(dtm,sparse=0.5)#这里是把关联性小于0.5的词给删掉 第五步:转正 data1<-t(t(dtm1)) data1<-as.matrix(data1) data1<-t(data1) 对data1做中心化 data.scale <- scale(data1) 绘制聚类图 d <- dist(data.scale, method ="euclidean") fit <- hclust(d,method="ward.D") plot(fit,main ="文件聚类分析-王华") 下面我们在来画出这个的词云图 v<-sort(rowSums(data1),decreasing=TRUE) d<-data.frame(word=names(v),freq=v) wordcloud(d$word,d$freq) wordcloud(d$word,d$freq,scale = c(6, 1.5),min.freq = 2, max.words = 1000, colors = rainbow(100)) |
|
声明:文章版权归原作者所有 部分文章转自互联网 如有侵权请联系
[邮箱地址] 删除
|