日常工作中会用到文本分类,如果量比较少人工分类一下也可实现,但是准确率不是很高。如果量多就需要用到NLP相关功能。直接上代码实践。
运行环境:python3 paddlepaddle2.5.0
加载数据集
# 加载当前数据集
cd /home/aistudio/data/data238254/
安装组件
# 安装组件
pip install fasttext -i https://pypi.tuna.tsinghua.edu.cn/simple
导入依赖包
import fasttext
import pandas as pd
import numpy as np
import jieba as jb
import re
import csv
from sklearn.utils import shuffle
读取文件
#读取数据
df = pd.read_csv('/home/aistudio/data/data238254/train_data.csv',encoding='utf-8')
df=df[['cat','review']]
print("数据总量: %d ." % len(df))
print("在 cat 列中总共有 %d 个空值." % df['cat'].isnull().sum())
print("在 review 列中总共有 %d 个空值." % df['review'].isnull().sum())
df[df.isnull().values==True]
df = df[pd.notnull(df['review'])]
统计数据
#统计各类别数据量
d = {
'cat':df['cat'].value_counts().index, 'count': df['cat'].value_counts()}
df_cat = pd.DataFrame