实战 Kaggle 比赛:预测房价

https://zh-v2.d2l.ai/chapter_multilayer-perceptrons/kaggle-house-price.html

竞赛数据很大,使用pd.get_dummies(all_features, dummy_na=True)处理时,内存(12G)会爆,请问有什么好的办法可以处理?目前我将"Address"和"Summary"列删除了。

1 Like

pd.to_datetime()会把’NaN’变成’NaT’,然后.astype(‘str’) … .astype(‘float’)就会报错could not convert string to float: ‘NaT’,坑死我了 :sob:

1 Like

文章,在对数据集进行0均值处理时,在未确定是否存在np.nan情况下 apply(lamba: x ; (x-x.mean())/x.std()), 在进行填补。缺少均值填补的步骤。

2 Likes

为什么这里训练模型的时候使用的损失函数还是nn.MSEloss()而不是上面定义的那个log_rmse?我们期望的不是这个损失最小吗?

1 Like

为什么这里的lr要求高达5呢 :rofl:?一般来说不是小于1 吗?

翻译错误。

英文原版内容,means的意思应该是“均值”而非“意味着”

1 Like


这里应该是’test_features’

1 Like

num_samples should be a positive integer value, but got num_samples=0,总是报这个错误是什么原因呢

弱弱问一句,还有12g内存吗。。。。。。

本地train能达到99%以上,但是在网站测试只有90%以下了,调参真不容易

我今天看到的时候,也有这个疑问~ :grinning: