Hugging Face实战-系列教程19:文本摘要建模实战1(中文商城评价数据处理方法)

发布时间:2023年12月18日

🚩🚩🚩Hugging Face 实战系列 总目录

有任何问题欢迎在下面留言
本篇文章的代码运行界面均在Jupyter Notebook中进行
本篇文章配套的代码资源已经上传

1 任务概述

1.1 任务概述

  1. 摘要任务要去解决一个什么事情呢
  2. 就是输入一个文章,输出一个总结归纳性的文字或者标题
  3. 输入也是文本,输出也是文本的text-to-text任务
  4. 对原本的文本进行精简,输入长文本,输出短文本
  5. 用一个长文本生成一个标题,用一个标题生成一个长文本,都是文本摘要建模的任务

1.2 数据与任务解析

在这里插入图片描述

数据下载链接,也可以通过代码中加载

这个数据集也是Hugging Face内置的数据集,这个数据集有多个语言版本,我们选中文的就好:
在这里插入图片描述
这个数据中我们主要关注两个字段:(review_body和review_title),其他的我们暂时不需要用,这个数据中body就是我们的输入,title就是我们的标签输出

1.3 数据展示

from datasets import load_dataset
chinese_dataset = load_dataset("A:/amazon_reviews_multi")
chinese_dataset
  1. 从datasets 模块导入load_dataset方法
  2. 从本地路径加载数据
  3. 打印出数据

DatasetDict({
?train: Dataset({
??features: [‘id’, ‘text’, ‘label’, ‘label_text’],
??num_rows: 200000
?})
?validation: Dataset({
??features: [‘id’, ‘text’, ‘label’, ‘label_text’],
??num_rows: 5000
?})
?test: Dataset({
??features: [‘id’, ‘text’, ‘label’, ‘label_text’],
??num_rows: 5000
?})
})

这个数据集中,数据是比较大的,因为包含了各种各样的数据,训练集达到 了20万,验证测试都是5千

def show_samples(dataset, num_samples=3, seed=40):
    sample = dataset["train"].shuffle(seed=seed).select(range(num_samples))
    for example in sample:
        print(f"\n'>> Title: {example['review_title']}'")
        print(f"'>> Review: {example['review_body']}'")
show_samples(chinese_dataset)
  1. 展示样本函数
  2. 从训练集中展示选取3条数据样本
  3. 遍历取出样本
  4. 打印标题
  5. 打印长文本

‘>> Title: 重修版的结局’ ’
‘>> Review:’
重修版的结局还是跟原版没什么很大出入…虽然说把原来伏笔用上句式古风可是结局感觉给人有点仓促’
‘>> Title: 盗版书!!!’
‘>> Review:’
这是盗版书,中间翻不开,胶装在一起的,如果想要翻开看全图,书都要撕掉的感觉,装订特别烂,我才翻了几次就有掉页的趋势,后悔后悔’
‘>> Title: 一分钱一分货’ ‘>> Review: 除了便宜真没什么好的,即便4档面包靠里一面还是会胡,设7档有什么意义。’

在原始的数据中,有很多种类

文章来源:https://blog.csdn.net/weixin_50592077/article/details/134962274
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。