R语言文本挖掘：kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化|附代码数据

拓端tecdat / 141 / 2023-09-26 11:11:34

ChatGPT 可用网址，仅供交流学习使用，如对您有所帮助，请收藏并推荐给需要的朋友。
https://ckai.xyz

全文链接：http://tecdat.cn/?p=32307

原文出处：拓端数据部落公众号

互联网时代，大量的新闻信息、网络交互、舆情信息以文本形式存储在数据库中，如何利用数据分析和文本挖掘的算法，将海量文本的价值挖掘出来，成为我们团队近期的一个研究方向，本案例就是我们的一个尝试。

文本聚类其实也就是聚类分析在文本方向上的应用,首先我们要把一个个文档的自然语言转换成数学信息，这样形成高维空间点之后再去计算点与点之间的距离,然后将这些距离比较近的聚成一个簇，这些簇的中心成为簇心。而我们做的就是保证簇内点的距离足够近,簇与簇的距离足够远。

本文将通过R语言帮助客户来实现文本挖掘、聚类和词云可视化技术，体验一下舆情分析的魅力。

原始评论数据

本文获取上海玛雅水公园景区评论数据共计1692条数据：

读取数据


 pinglun=read.xlsx("玛雅景区数据5.8.xlsx")

文本预处理

res=pinglun1[pinglun1!=" "];  
#剔除通用标题  
# res=gsub(pattern="[專賣店【未拆封順豐】|<b>|</b>]+"," ",res);   
#剔除特殊词  
res=gsub(pattern="[我|你|的|了|是]"," ",res);       
#清理文本里的回车！否则每个回车就会被识别成一段文本
res=gsub("\n","",res)

分词+频数统计

words=unlist(lapply(X=res, FUN=segmentCN));

过滤掉1个字和词频小于100的记录

d=subset(d, nchar(as.character(d$word))>1 & d$freq>=100)

输出关键词结果

 write.table(d, file="/worldcup_keyword.txt", row.names=FALSE)

绘制词汇图

wordcloud(d$word,d$freq,random.order=FALS

kmeans聚类部分

转换成评价矩阵


rating=matrix(0,length(res1),dim(d)[1])#生成评价矩阵

for(i in 1:length(res1)){
  words=unlist(lapply(X=res1[i], FUN=segmentCN));#对每一条记录分析获得词频  
#输出评价矩阵###############################
write.table(rating, file="评价矩阵.txt", row.names=FALSE)

对评价矩阵进行k均值聚类

kmeans(rating,5)#对评价矩阵进行k均值聚类

词云可视化

#第一个类别################################
mycolors <- brewer.pal(8,"Dark2")#设置一个颜色系：
wordcloud(colnames(result)[-c(115,116)],freq1[

第二个类别


wordcloud(colnames(result)[-c(115,116)],f

第三个类别


wordcloud(colnames(result)[-c(115,116)],freq3[-c(

1.被提及了哪些维度

第一个维度是指开心好玩，可以认为是景点的可玩性程度。第二个维度是排队的关键词另外包含时间，因此可以认为是景点的秩序问题第三个维度是项目公园喇叭热带漂流等关键词，可以认为是景点的游玩项目维度.

2.各维度关注度如何（即被提及的频率）

#第一类的关注度 可玩性程度。
guanzhu1=length(which(result$kmeansmod.cluster==1))
#第二类的关注度 景点的秩序问题

guanzhu2=length(which(result$kmeansmod.cluster==4))
#第三类的关注度 游玩项目维度

guanzhu3=length(which(result$kmeansmod.cluster==3))

3.各维度的满意度指数

#第一类的满意度指数 可玩性程度。
manyi1=sum(na.omit(result$pinglun.星级.1.nrow.rating.. [which(result$kmeansmod.cluster==1)]))

#第二类的满意度指数 景点的秩序问题
manyi2=sum(result$pinglun.星级.1.nrow.rating.. [which(result$kmeansmod.cluster==4)])
 
#第三类的满意度指数 游玩项目维度
manyi3=sum(result$pinglun.星级.1.nrow.rating.. [which(result$kmeansmod.cluster==3)])

4.三张图：各维度关注度，各维度满意度，词云

colnames(manyi)=c("可玩性程度","景点的秩序问题","游玩项目维度")
barplot(manyi,ylab="满意度")

the-hidden-value-of-voice-conversations-part-2-reaping-the-rewards-1536x1536.webp

最受欢迎的见解

1.Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本挖掘新闻组

2.R语言文本挖掘、情感分析和可视化哈利波特小说文本数据

3.r语言文本挖掘tf-idf主题建模，情感分析n-gram建模研究

4.游记数据感知旅游目的地形象

5.疫情下的新闻数据观察

6.python主题lda建模和t-sne可视化

7.r语言中对文本数据进行主题模型topic-modeling分析

8.主题模型：数据聆听人民网留言板的那些“网事”

9.python爬虫进行web抓取lda主题语义数据分析

R语言文本挖掘：kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化|附代码数据

https://www.sockstack.cn/reproduce/nPmPrz5EPjsM00L

作者

拓端tecdat

许可协议

CC BY 4.0

发布于

2023-09-26

修改于

2024-07-26

上一篇：轻量级数据中台，大中型企业数字化转型首选下一篇：R语言用普通最小二乘OLS，广义相加模型GAM ，样条函数进行逻辑回归LOGISTIC分类|附代码数据

R语言文本挖掘：kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化|附代码数据

全文链接：http://tecdat.cn/?p=32307

原文出处：拓端数据部落公众号

原始评论数据

读取数据

文本预处理

分词+频数统计

过滤掉1个字和词频小于100的记录

输出关键词结果

绘制词汇图

kmeans聚类部分

对评价矩阵进行k均值聚类

词云可视化

第二个类别

第三个类别

1.被提及了哪些维度

2.各维度关注度如何（即被提及的频率）

3.各维度的满意度指数

4.三张图：各维度关注度，各维度满意度，词云

文章分类

博客重构之路

Spring Boot简单入门

k8s 入门教程

MySQL 知识

NSQ 消息队列

ThinkPHP5 源码分析

使用 Docker 从零开始搭建私人代码仓库

日常开发汇总

标签列表

springboot

hyperf

swoole

webman

php

多线程

数据结构

docker

k8s

thinkphp

mysql

tailwindcss

flowbite

css

前端