1038 1

求文本分析统计词频 代码 [推广有奖]

  • 0关注
  • 0粉丝

本科生

16%

还不是VIP/贵宾

-

威望
0
论坛币
37 个
通用积分
2.0555
学术水平
1 点
热心指数
1 点
信用等级
0 点
经验
216 点
帖子
55
精华
0
在线时间
49 小时
注册时间
2013-8-3
最后登录
2023-6-10

楼主
怎么没来盗号! 在职认证  发表于 2020-4-21 11:12:47 来自手机 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我有几本书的中文文字,我想统计其中所有的词频,而后罗列出所有包含我指定字的词或短语结果,最后做个词云。

有没有大神能赐R或者Python 代码啊??
我愿意有偿
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python 我愿意 有没有

沙发
yunnandlg 在职认证  学生认证  发表于 2020-4-21 21:27:57
import re  
import collections  
  
'''''
从文件中读取内容,统计词频
'''  
def count_word(path):  
    result = {}  
    with open(path) as file_obj:  
        all_the_text = file_obj.read()  
        #大写转小写  
        all_the_text = all_the_text.lower()  
        #正则表达式替换特殊字符  
        all_the_text = re.sub("\"|,|\.", "", all_the_text)  
         
        for word in all_the_text.split():  
            if word not in result:  
                result[word] = 0  
            result[word] += 1   
              
        return result  
      
  
'''''
以词频倒序
'''  
def sort_by_count(d):  
    #字典排序  
    d = collections.OrderedDict(sorted(d.items(), key = lambda t: -t[1]))  
    return d  
  
if __name__ == '__main__':  
    file_name = "..\my father.txt"  
  
    dword = count_word(file_name)  
    dword = sort_by_count(dword)  
      
    for key,value in dword.items():  
        print key + ":%d" % value  
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
Sunknownay + 3 + 3 + 3 热心帮助其他会员

总评分: 学术水平 + 3  热心指数 + 3  信用等级 + 3   查看全部评分

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-30 18:53