Python怎么统计西游记用字的数量
发表于:2024-11-11 作者:千家信息网编辑
千家信息网最后更新 2024年11月11日,本篇内容主要讲解"Python怎么统计西游记用字的数量",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"Python怎么统计西游记用字的数量"吧!一、数据xy
千家信息网最后更新 2024年11月11日Python怎么统计西游记用字的数量
本篇内容主要讲解"Python怎么统计西游记用字的数量",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"Python怎么统计西游记用字的数量"吧!
一、数据
xyj.txt,《西游记》的文本,2.2MB
致敬吴承恩大师,4020行(段)
二、目标
统计《西游记》中:
1. 共出现了多少个不同的汉字;
2. 每个汉字出现了多少次;
3. 出现得最频繁的汉字有哪些。
三、涉及内容:
1. 读文件;
2. 字典的使用;
3. 字典的排序;
4. 写文件
四、效果
五、源代码
# coding:utf8import sysreload(sys)sys.setdefaultencoding("utf8")fr = open('xyj.txt', 'r')characters = []stat = {}for line in fr: # 去掉每一行两边的空白 line = line.strip() # 如果为空行则跳过该轮循环 if len(line) == 0: continue # 将文本转为unicode,便于处理汉字 line = unicode(line) # 遍历该行的每一个字 for x in xrange(0, len(line)): # 去掉标点符号和空白符 if line[x] in [' ','', '\t', '\n', '。', ',', '(', ')', '(', ')', ':', '□', '?', '!', '《', '》', '、', ';', '"', '"', '……']: continue # 尚未记录在characters中 if not line[x] in characters: characters.append(line[x]) # 尚未记录在stat中 if not stat.has_key(line[x]): stat[line[x]] = 0 # 汉字出现次数加1 stat[line[x]] += 1print len(characters)print len(stat)# lambda生成一个临时函数# d表示字典的每一对键值对,d[0]为key,d[1]为value# reverse为True表示降序排序stat = sorted(stat.items(), key=lambda d:d[1], reverse=True)fw = open('result.csv', 'w')for item in stat: # 进行字符串拼接之前,需要将int转为str fw.write(item[0] + ',' + str(item[1]) + '\n')fr.close()fw.close()
到此,相信大家对"Python怎么统计西游记用字的数量"有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
西游
西游记
汉字
统计
数量
用字
内容
字典
尚未
文件
文本
空白
学习
排序
不同
实用
更深
频繁
一行
兴趣
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
如何谈网络技术
蓬莱区政府班子名单大数据库
网络安全的头脑风暴
新视云互联网科技有限公司
jdbc中文数据库表名
数据库安全设计角色分配
速达软件数据库结构期初数据表
数据库中表有几部分
传奇数据库下载
手机控制服务器关闭
网络数据库技术的 作业
服务器安全日志 注意 代码
有什么网络技术的工作
怎样把手机桌面文件变成数据库
数据安全 数据库防火墙
为什么软件开发商要强制推送消息
中国的新网络技术有限公司
常用的数据库设计工具
肇庆pc软件开发费用是多少
魔兽怀旧服70级是哪个服务器
web数据库怎么处理
放心的微信软件开发流程
软件开发个人项目总结范文
网络安全的威胁自然威胁
服务器的用户管理软件
小学网络安全检查校园总结
打印机 服务器
软件开发过程中最艰巨的脑力
网络安全法规贯彻落实情况
哪一个数据库有学术热点检索