『中文、英文词频统计分析软件』免费工具分享

💡 SOUGOOD – 社交搜索引擎

无广告,搜索工具,10倍效率

👉 VIP会员,送 ChatGPT 注册教程(含魔法,不封号)、
送 5分钟云端部署 Stable Diffusion 教程(国内可访问)

越来越多的人开始意识到词频统计的重要性:
比如一个做插画自媒体新人,想要了解插画在小红书都有哪些高频的需求,于是获取了1000篇关于插画的笔记,统计其中的高频词,便知道需要更新什么方向上的内容才能收货粉丝、流量;
又比如你想知道一个社区为什么活跃,有哪些运营套路可以参考,可以获取社区中几千个标题,经过词频统计分析便能够知道大家都集中讨论什么样的话题,也能够快速了解运营一个社区都有哪些可能的玩法…… 小到分析一篇文章,大到舆情分析,几乎都有词频统计的身影。

对比了一下市面的词频统计工具,发现几个问题:

分析的量受限制
功能不太齐全,比如自定义方面
大部分都是收费的工具
一些简单的功能其实excel就能搞定

于是,还是决定自己 python 一个词频分析工具来用。

主要是结合结巴分词来做,稍加优化便可以实现更多的功能,比如百度推广关键词分组,英文分词等等

工具简单,分享给大家免费使用:

下载地址(最新) :

链接: https://pan.baidu.com/s/1pyX6cyBMnrkjKWVVPb_1yg?pwd=dx59

提取码:dx59

主要功能:

首先介绍一下分词工具的一些支持的功能:

  1. 『文本分析量』:我自己测试了大概500多万字符,没啥问题
  2. 『自定义词典』:支持
  3. 『停用词典』:支持
  4. 『是否支持英文』:支持
  5. 『分析准确度』:高
  6. 『词频数据下载』:支持,自动写入到 txt 文件
  7. 『生成词云图』:支持

使用教程(共 3 步):

下载之后会得到 3 个文件夹,一个 exe 格式的软件,如图所示:

重要提示:请勿修改文件夹名称及文件名称,否则软件无法正常运行~

词频统计分析工具 : 下载解压后的全部文件,箭头指示的就是执行文件

第一步:『粘贴文本』—— 将要分析的文本放入 “2_分析”中的 txt 文件当中

这里举例,我放入了豆瓣线上活动的标题一共 3000个,均为参加人数超过1000人的活动

分析这些热门的豆瓣活动有些什么特征

第二步:『运行程序』—— 双击运行 “keywords.exe”

软件会提示输入 3 个参数:①提取多少个高频词、②是否去掉单个字、③保存文件名称

如图所示:

这里我分别输入:20、1、豆瓣线上活动

分析完毕之后会生成一张词云图,点击保存按钮即可保存

词频统计中
词频统计结果以及生成的词云图

第三步:『查看结果』—— 打开文件 “3_结果”下的 txt 文件


特殊功能说明:

在【1_配置】文件夹下有两个文件:停用词 与 自定义词:

  1. 停用词
  2. 自定义词

一、停用词

通常我们在分析文本的时候,会发现有很多词是一些常用词,对于词频分析来说意义并不大,比如英文中的 “a、an、the、of、for、on” 等等,中文中的 “的、地、得、不仅、不然、而且、那么、它、他、她” 等等。

在分析大量文章的时候就会发现词频统计结果中有大量的这类词汇,真正有意义的词却被淹没在其中。因此停用词功能的主要作用就是去除掉这类的词汇。—— 目前我采用了 4 个停用词库的合并结果:

可以通过这里查看具体的词库:https://github.com/goto456/stopwords

  • 中文停用词表
  • 哈工大停用词表
  • 百度停用词表
  • 四川大学机器智能实验室停用词库

如果在做词频统计时发现有一些词虽然是高频词,但对于分析来说无特殊意义,添加到停用词表中即可(一行一个)

简单来说就是高频无意义,添加到停用词当中。

二、自定义词

比如有一些词具有行业特征或者是网络新词,比如有的行业当中 主攻文、主受文 是词,是不能被分开的,就添加到自定义词当中。

由于最近我自己也在做一些词库整理,所以默认在 自定义词表 当中添加了一些新媒体相关的词汇,比如:kol、新榜、5118、完美日记、up主、博主、百大、b站、人人秀、代运营、媒想到 等词汇。

简单来说就是你认为应该是一个词的但是被工具拆分成了一个一个的字,就将词添加到自定义词当中。


最新下载地址:

链接: https://pan.baidu.com/s/1pyX6cyBMnrkjKWVVPb_1yg?pwd=dx59

提取码:dx59

自己写的词频统计软件,如果工具对你有帮助,点个赞支持一下呗 ~