首页 ›运维› 网络学院 › 查看内容

令人称赞的文本挖掘技术

2015-7-15 15:11 3331 2

摘要: 文本挖掘的艺术之一：QQ聊天记录：中文聊天内容的挖掘核心词云的制作：在用R做文本挖掘之前我们需要做一些前期的环境准备，我们这里做分析的文本是tm包下面的一个示例文本，例如：第一步：设置文本路径：setwd("C ...

关键词： 文本词频王华关联语料库 freq 中心化分析云图 scale

文本挖掘的艺术之一：

QQ聊天记录：中文聊天内容的挖掘

核心词云的制作：

在用R做文本挖掘之前我们需要做一些前期的环境准备，

我们这里做分析的文本是tm包下面的一个示例文本，例如：

第一步：设置文本路径：

setwd("C:\\Users\\aioger\\Documents\\R\\win-library\\3.2\\tm")

第二步：建立自己的语料库：

ovid <- VCorpus(DirSource(txt, encoding= "UTF-8"), readerControl = list(language = "en"))

第三步：文档词项矩阵

dtm <- DocumentTermMatrix(reuters)

#词频关联查找：

findAssocs(dtm,"qui",0.3)

第四：删除关联词频少的

dtm1<- removeSparseTerms(dtm,sparse=0.5)#这里是把关联性小于0.5的词给删掉

第五步：转正

data1<-t(t(dtm1))

data1<-as.matrix(data1)

data1<-t(data1)

对data1做中心化

data.scale <- scale(data1)

绘制聚类图

d <- dist(data.scale, method ="euclidean")

fit <- hclust(d,method="ward.D")

plot(fit,main ="文件聚类分析-王华")

下面我们在来画出这个的词云图

v<-sort(rowSums(data1),decreasing=TRUE)

d<-data.frame(word=names(v),freq=v)

wordcloud(d$word,d$freq)

wordcloud(d$word,d$freq,scale = c(6, 1.5),min.freq = 2, max.words = 1000, colors = rainbow(100))

声明：文章版权归原作者所有部分文章转自互联网如有侵权请联系 [邮箱地址] 删除

路过

雷人

握手

鲜花

鸡蛋

收藏分享邀请

上一篇：全部用startssl生成的证书，配置Apache使其支持SSL下一篇：宾夕法尼亚大学病毒式传播研究：让文章转发过百万的9个秘密

发表评论

相关分类

72小时资讯榜

放一晚上就能拿到 exploit！Anthropic 安全

一句话指挥AI黑掉你的网络！这款GitHub 4k

渗透测试

279人已阅读

里程碑：Windows加入原生Linux命令！是否可

业界

1592人已阅读

AI刺激网络安全需求增长，多家网安巨头业绩

网安动态

305人已阅读

高危 HTTP/2 炸弹漏洞突袭！5大主流服务器

网安动态

401人已阅读

英伟达联合微软发布128GB统一内存的NVIDIA

AI动态

410人已阅读

社区热门

━※☆※━★===二〇二六年论坛每日签到帖=

社区活动

2026-03-13

为什么没有新贴了？

编程开发

2025-09-24

从上大学一直玩黑基到现在已经37岁感谢黑

数字空间

2025-06-03

想念各位啊·

数字空间

2025-07-06

好久没来这里了，居然能正常登录，佩服站长

区块技术

2025-05-19

好多年没来竟然还可以登录

区块技术

2025-09-22

令人称赞的 文本挖掘技术

最新评论 查看全部评论(2)

相关分类

令人称赞的文本挖掘技术

最新评论查看全部评论(2)