数据预处理

https://zh.d2l.ai/chapter_preliminaries/pandas.html

inputs = pd.get_dummies(inputs, dummy_na=True).astype(‘float32’)
新版pandas需要在后面加上.astype(‘float32’),不然是true和false,变不成tensor

2.2.2处理缺失值,现在需要指定number列来进行mean的求平均,否则会遇到类型错误
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
numeric_cols = inputs.select_dtypes(include=‘number’).columns
inputs = inputs.fillna(inputs[numeric_cols].mean())
print(inputs)

inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

pandas 2.2.3会把Nan列给优化掉

Pandas 的get_dummies() 默认生成bool 类型的列,而 PaddlePaddle 的paddle.to_tensor() 通常需要数值类型(如float32 )。
所以需要先转为数值类型
inputs = inputs.astype(‘int8’)
inputs