资深Python程序员教你统计,三国中人物名字出现的频率,很简单

资深Python程序员教你简单、有趣的程序:
使用第三方库jieba切分,统计统计名著三国演义中人物名字出现次数。

创新互联公司主营独山子网站建设的网络公司,主营网站建设方案,重庆APP软件开发,独山子h5微信平台小程序开发搭建,独山子网站营销推广欢迎独山子等地区企业咨询

资深Python程序员教你统计,三国中人物名字出现的频率,很简单
其中一个jieba库是一个对中文文本依照汉字间关联概率进行词组划分的第三方库,使用简单,且非常好用

import jieba

def getWords():
 txt = open('novels/threekingdoms.txt', 'r', encoding = 'utf-8').read()
 words = jieba.lcut(txt)
 counts = {}
 for word in words:
 if len(word) == 1:
 continue
 else:
 counts[word] = counts.get(word, 0) + 1
 word_list = list(counts.items())
 word_list.sort(key = lambda x : x[1], reverse = True)
 return word_list

进行人肉优化,去掉不是人名的词语,并将一些指同一个人物的词合并到一个人物下。

import jieba

def countWords(excludes, merges):
 txt = open('novels/threekingdoms.txt', 'r', encoding = 'utf-8').read()
 words = jieba.lcut(txt)
 counts = {}
 # 取出长度为一的词和符号以及excludes中的词
 for word in words:
 if len(word) == 1 or word in excludes:
 continue
 else:
 counts[word] = counts.get(word, 0) + 1
 # 合并名称相同的人名
 for merge in merges:
 for name in merge[1]:
 counts[merge[0]] += counts.get(name, 0)
 del counts[name]
 word_list = list(counts.items())
 word_list.sort(key = lambda x : x[1], reverse = True)
 return word_list
excludes = {'却说','二人','不可','主公','陛下','汉中','只见','众将','后主','蜀兵','上马','大叫','太守','此人','夫人',
 '先主','后人','背后','城中','天子','一面','何不','大军','忽报','先生','百姓','何故','不能','如此','如何',
 '然后','先锋','不如','赶来','原来','令人','江东','下马','喊声','正是','徐州','忽然','荆州','左右','军马',
 '因此','成都','不见','未知','大败','大事','之后','一军','引军','起兵','军中','接应','引兵','次日','大喜',
 '进兵','大惊','可以','以为','大怒','不得','心中','下文','一声','追赶','粮草','天下','东吴','于是','都督',
 '曹兵','一齐','分解','回报','分付','只得','出马','三千','大将','许都','随后','报知','今日','不敢','魏兵',
 '前面','之兵','且说','众官','洛阳','领兵','商议','军士','星夜','精兵','城上','之计','不肯','相见','其言',
 '一日','而行','文武','襄阳','准备','若何','出战','亲自','必有','一人','人马','不知','何人','此事','之中',
 '伏兵','祁山','乘势','忽见','大笑','樊城','兄弟','首级','立于','西川','传令','当先','五百','一彪','坚守',
 '此时','之间','投降','五千','埋伏','长安','三路','遣使','将军','关兴','军师','朝廷','三军','大王','回见',
 '大将军','必然','将士','是夜','小路' }

merges = [ ('刘备',('玄德','玄德曰','玄德问','刘玄德','玄德大','玄德自','玄德闻','皇叔','刘皇叔')),
 ('关羽',('关公','云长','关云长')),
 ('孔明',('诸葛亮','孔明曰','孔明笑','孔明之','孔明自')),
 ('曹操',('丞相','孟德','曹公','曹孟德')),
 ('张飞',('翼德','张翼德'))
 ]

word_list = countWords(excludes, merges)
for i in range(30):
 word, count = word_list[i]
 print('{0:^10}{1:{3}^10}{2:^15}'.format(i+1, word, count, chr(12288))) # chr(12288)为中文空格 ```
结果如下,当然其中类似将军、英雄、主公、大哥、君这种词语无法判断指的是谁,这里仅统计能够判断的,所以这里只能做一个相对的参考。

1     刘备     1578
2     曹操     1485
3     孔明     1485
4     关羽     820
5     张飞     393
6     吕布     300
7     赵云     278
8     孙权     264
9     司马懿     221
10     周瑜     217
11     袁绍     191
12     马超     185
13     魏延     180
14     黄忠     168
15     姜维     151
16     马岱     127
17     庞德     122
18     孟获     122
19     刘表     120
20     夏侯惇     116
21     董卓     114
22     孙策     108
23     鲁肃     107
24     徐晃     97
25     司马昭     89
26     夏侯渊     88
27     王平     88
28     刘璋     85
29     袁术     84
30     吕蒙     83



以上是Python语言中的一个小案例,仅供大家参考。

文章题目:资深Python程序员教你统计,三国中人物名字出现的频率,很简单
路径分享:http://hxwzsj.com/article/pihgoo.html

其他资讯

Copyright © 2025 青羊区翔捷宏鑫字牌设计制作工作室(个体工商户) All Rights Reserved 蜀ICP备2025123194号-14
友情链接: 上市集团网站建设 重庆网站建设 营销网站建设 手机网站建设 网站制作公司 泸州网站建设 成都网站制作 成都响应式网站建设 LED网站设计方案 外贸网站设计方案 营销型网站建设 成都定制网站建设 手机网站设计 重庆手机网站建设 成都网站建设 成都网站建设 网站建设 成都网站设计 网站制作公司 成都网站制作 网站设计 手机网站建设套餐