文本分类应用到工作实践

发布时间:2024年01月02日

日常工作中会用到文本分类,如果量比较少人工分类一下也可实现,但是准确率不是很高。如果量多就需要用到NLP相关功能。直接上代码实践。
运行环境:python3 paddlepaddle2.5.0

加载数据集

# 加载当前数据集
cd /home/aistudio/data/data238254/

安装组件

# 安装组件
pip install fasttext -i https://pypi.tuna.tsinghua.edu.cn/simple

导入依赖包

import fasttext
import pandas as pd
import numpy as np
import jieba as jb
import re
import csv
from sklearn.utils import shuffle    

读取文件

#读取数据
df = pd.read_csv('/home/aistudio/data/data238254/train_data.csv',encoding='utf-8')
df=df[['cat','review']]
print("数据总量: %d ." % len(df))
print("在 cat 列中总共有 %d 个空值." % df['cat'].isnull().sum())
print("在 review 列中总共有 %d 个空值." % df['review'].isnull().sum())
df[df.isnull().values==True]
df = df[pd.notnull(df['review'])]

统计数据


#统计各类别数据量
d = {
   'cat':df['cat'].value_counts().index, 'count': df['cat'].value_counts()}
df_cat = pd.DataFrame
文章来源:https://blog.csdn.net/liberalliushahe/article/details/135333313
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。