from sklearn.preprocessing import LabelEncoder
import pandas as pd
df = pd.read_csv("yoochoose-clicks.dat",header=None)
df.columns = ['session_id','timestamp','item_id','category']
print(df)
其中,session_id
表示的是某次会话的编号,而item_id
表示的是某次会话下的某个操作,category代表购买情况,其中0代表未购入,1代表购入。
可以对某一个关键字采用unique()
。
应用场景:数据集过多,抽取部分数据进行观察。
工具:采用random
中的choice
进行提取(numpy
库也有random
包,也有choice
方法)。
choice
可以选取出列表/集合中的其中一项
应用场景:可用于熟悉操作。
工具:使用分片进行操作。
分片的具体操作可见于分片链接
第二步,刚开始这些点并没有图的编号(有session_id,但并不是一个方便建图的编号),于是可以采取按某一个关键字进行排序的方法,按大小给图上的节点进行重新编号。
后几步,开始制作边集。
考虑复用性的话,记得将构造出来的数据集进行保存。
应用场景:可以可视化进度