环境和分布偏移

https://zh-v2.d2l.ai/chapter_multilayer-perceptrons/environment.html

上述算法依赖于一个重要的假设: 需要目标分布(例如,测试分布)中的每个数据样本在训练时出现的概率非零。请问这里应该怎么理解?

QQ截图20220226160436
我觉得是这个公式决定的吧,要不然重要性权重就变成无穷大了

标签偏移那,混淆矩阵C是怎么得到的啊?没看明白

正如我们向他们解释的那样,用近乎完美的精度来区分健康和患病人群确实很容易。 然而,这是可能因为受试者在年龄、激素水平、体力活动、 饮食、饮酒以及其他许多与疾病无关的因素上存在差异。 这对检测疾病的分类器可能并不适用。 这些抽样可能会遇到极端的协变量偏移。

区分容易是因为无关因素有差异吗?不应该是无关因素差异越小越容易区分吗?另外抽样遇到协变量偏移是相对于什么而言的?是因为大学生的特征相对于一般健康男性发生了偏移吗?还是说用大学生作为健康样本训练出来的模型,用在测试所有其他病人时会遇到协变量偏移的情况。