不用类似re等工具,将输入英文文本,拆分成一个个有意义的单词。
(笔记模板由python脚本于2024年01月15日 23:34:05创建,本篇笔记适合会基础编程,熟悉python字符串的coder翻阅)
Python 官网:https://www.python.org/
Free:大咖免费“圣经”教程《 python 完全自学教程》,不仅仅是基础那么简单……
地址:https://lqpybook.readthedocs.io/
??自学并不是什么神秘的东西,一个人一辈子自学的时间总是比在学校学习的时间长,没有老师的时候总是比有老师的时候多。
????????????—— 华罗庚
本文质量分:
CSDN质量分查询入口:http://www.csdn.net/qc
??今天在 c s d n csdn csdn看到 j i e b a jieba jieba,脑中居然浮现出一个想法:“我可不可以撰写一段代码,实现 j i e b a jieba jieba一样的分词效果”。于是,我就开始了尝试……
??解析
6
k
+
6k+
6k+字符的试码文本
英
文
美
文
.
t
x
t
英文美文.txt
英文美文.txt
实现效果截屏图片
?
分
词
列
表
分词列表
分词列表
?
词
频
统
计
词频统计
词频统计
中间部分略
??描述
代码运行效果截屏图片
Python代码
def _isletter(self):
''' 剔除非字母字符 '''
lowers = ''.join(chr(i) for i in range(ord('a'), ord('z')+1)) # 生成26个小写字母字符串。
letters = tuple(lowers+lowers.upper())
#input(letters) # 校验字母列表。
words = [i if i in letters else ' ' for i in self.words] # 把非字母替换成英文空格字符。
return ''.join(words)
??描述
代码运行效果截屏图片
Python代码
def _count(self, words):
''' 统计词频 '''
words = [(i, words.count(i)) for i in set(words)] # 列表解析式统计词频。
words.sort(key=lambda x: x[0]) # 按单词排序。
words.sort(key=lambda x: x[-1], reverse=True) # 按词频排逆序。
return words
??描述
代码运行效果截屏图片
Python代码
def split(self):
''' 分词 '''
nowords = ('I', 'me', 'my', 'main', 'you', 'your', 'hers', 'she', 'her', 'hers', 'he', 'his', 'him', 'we', 'our', 'ours', 'they', 'their', 'them', 'its', 'it', 'a', 'an', 'm', 's', 'd', 'did', 'do', 'doing', 'does', 'done', 'can', 'would', 'am', 'is', 'was', 'are', 'were', 'be', 'have', 'has', 'often', 'always', 'to', 'too', 'very', 'many', 'any', 'in', 'on', 'with', 'at', 'of', 'up', 'down', 'go', 'goes', 'went', 'for', 'about', 'now', 'if', 'but', 're','from', 'the', 'there', 'this', 'that', 'than', 'when', 'what', 'where', 'who', 'why', 'so', 'as', 'yes', 'no', 'not', 'jion', 'or', 'and', 'by', 'but')
nowords = list(nowords) + [i.title() for i in nowords]
#input(nowords) # 校验无效单词列表。
words = [i for i in self._isletter().split() if i and i not in nowords] # 去除空格和无效单词。
print(words) # 打印分词列表。
return self._count(words)
(源码较长,点此跳过源码)
#!/sur/bin/nve python
# coding: utf-8
'''
英文分词
'''
class EnSplit:
def __init__(self, text):
self.words = text
def _isletter(self):
''' 剔除非字母字符 '''
lowers = ''.join(chr(i) for i in range(ord('a'), ord('z')+1)) # 生成26个小写字母字符串。
letters = tuple(lowers+lowers.upper())
#input(letters) # 校验字母列表。
words = [i if i in letters else ' ' for i in self.words] # 把非字母替换成英文空格字符。
return ''.join(words)
def _count(self, words):
''' 统计词频 '''
words = [(i, words.count(i)) for i in set(words)] # 列表解析式统计词频。
words.sort(key=lambda x: x[0]) # 按单词排序。
words.sort(key=lambda x: x[-1], reverse=True) # 按词频排逆序。
return words
def split(self):
''' 分词 '''
nowords = ('I', 'me', 'my', 'main', 'you', 'your', 'hers', 'she', 'her', 'hers', 'he', 'his', 'him', 'we', 'our', 'ours', 'they', 'their', 'them', 'its', 'it', 'a', 'an', 'm', 's', 'd', 'did', 'do', 'doing', 'does', 'done', 'can', 'would', 'am', 'is', 'was', 'are', 'were', 'be', 'have', 'has', 'often', 'always', 'to', 'too', 'very', 'many', 'any', 'in', 'on', 'with', 'at', 'of', 'up', 'down', 'go', 'goes', 'went', 'for', 'about', 'now', 'if', 'but', 're','from', 'the', 'there', 'this', 'that', 'than', 'when', 'what', 'where', 'who', 'why', 'so', 'as', 'yes', 'no', 'not', 'jion', 'or', 'and', 'by', 'but')
nowords = list(nowords) + [i.title() for i in nowords]
#input(nowords) # 校验无效单词列表。
words = [i for i in self._isletter().split() if i and i not in nowords] # 去除空格和无效单词。
print(words) # 打印分词列表。
return self._count(words)
if __name__ == '__main__':
text = '''
I'm a old man. I love Python.
我是一个老男人,我爱Python。
'''
text = open('/sdcard/Documents/英文美文.txt').read()
en = EnSplit(text)
print('\n'.join([f"{i[0]}: {i[-1]}" for i in en.split()]))
我的HOT博:
??本次共计收集289篇博文笔记信息,总阅读量44.72w。数据采集于2023年12月11日 23:07:13,用时5分11.8秒。阅读量不小于4.0k的有17篇。
截屏图片
精品文章:
来源:老齐教室
◆ Python 入门指南【Python 3.6.3】
好文力荐:
CSDN实用技巧博文: