条件分布和边际分布的区别（解释）--所有的区别

01-06-202301-06-2023 Mary Davis

Table of contents

概率是数学的一个分支，它对给定数据集的某个事件发生的预测进行量化。它对获得预期结果的可能性进行数学解释。

任何事件发生的概率都在零和一之间。零表示该事件没有发生的机会或可能性，而一表示某一事件发生的可能性是100%。

对概率的研究使我们能够预测或判断任何期望事件的成功或失败的机会，并采取措施加以改进。

例如，在测试一个新产品时，失败的概率高意味着产品质量低下。量化失败或成功的几率可以帮助制造商提高产品质量和经验。

在数据分析中，边际分布和条件分布被用来寻找双变量数据中的概率。但在我们进入这个问题之前，让我们先了解一些基本知识。

概率论的基础知识

概率学中经常使用的一个术语是 "随机变量"。随机变量用于量化随机事件发生的结果。

例如，某学校进行研究，根据学生以前的成绩，预测他们在即将到来的考试中的数学成绩。该研究仅限于6至8年级的总共110名学生。如果随机变量 "X "被定义为获得的成绩。下表显示了收集的数据：

等级划分	学生人数
A+	14
A-	29
B	35
C	19
D	8
E	5
学生总数：	110

数据样本

p(x=a+) = 14/110 = 0.1273

0.1273 *100=12.7%

这表明，约有12.7%的学生在即将到来的考试中可以获得高达A+的分数。

如果学校也要分析学生的成绩与班级的关系，那么12.7%得A+的学生中，有多少是属于8级的呢？

处理单个随机变量是非常简单的，但是当你的数据是关于两个随机变量的分布时，计算就会有点复杂。

从双变量数据中提取相关信息的两种最简化方式是边际分布和条件分布。

为了直观地解释概率的基础知识，这里有一段来自Math Antics的视频：

数学趣谈--基本概率

边际分布是什么意思？

边际分布或边际概率是指独立于其他变量的分布。它只取决于两个事件中的一个发生，而把另一个事件的所有可能性都归入其中。

当数据以表格形式表示时，更容易理解边际分布的概念。术语边际表示它包括沿边际的分布。

以下表格显示了110名6-8年级学生的成绩。我们可以利用这些信息来预测他们即将到来的数学考试的成绩、

等级划分	6级	七级	8级	学生总数
A+	7	5	2	14
A-	11	8	10	29
B	6	18	11	35
C	4	7	8	19
D	1	3	4	8
E	0	3	2	5
累计	29	44	37	110

数据样本

利用这个表格或样本数据，我们可以计算出成绩相对于学生总数的边际分布，或特定标准下学生的边际分布。

在计算边际分布时，我们不考虑第二个事件的发生。

例如，在计算获得C的学生相对于学生总数的边际分布时，我们只需将每一个班级的学生人数跨行相加，并将该值与学生总数相切。

See_also: Thee vs. Thou vs. Thy vs. Ye (The Difference) - All The Differences

在所有标准中获得C的学生总数为19人。

除以6-8年级的学生总数：19/110=0.1727

将该值乘以100，得到17.27%。

17.27%的学生取得了C的成绩。

See_also: 新3DS XL与新3DS LL(有区别吗？) - 所有的区别

我们也可以用这个表格来确定每个标准的学生的边际分布。例如，第六标准的学生的边际分布是29/110，即0.2636。用这个值乘以100，就得到26.36%。

同样，七、八年级学生的边际分布分别为40%和33.6%。

条件分布是什么意思？

从名称上解释，条件分布是基于一个预先存在的条件。它是一个变量的概率，而另一个变量被设定为一个给定的条件。

条件分布使你能够分析有关两个变量的样本。在数据分析中，往往一个事件发生的可能性会受到另一个因素的影响。

条件概率使用数据的表格表示。这改善了样本数据的可视化和分析。

例如，如果你正在调查人口的平均寿命，需要考虑的两个变量可以是，他们的日平均卡路里摄入量和体育活动的频率。条件概率可以帮助你计算出如果他们的日卡路里摄入量超过2500千卡，体育活动对人口平均寿命的影响，反之亦然。

由于我们设定了每日卡路里摄入量<2500kcal，我们放置了一个条件。根据这个条件，可以确定体育活动对平均寿命的影响。

或者，在观察两种流行品牌的能量饮料的销售偏差时，影响这些能量饮料销售的两个变量是它们的存在和价格。我们可以用条件概率来确定两种能量饮料的价格和存在对顾客的购买意向的影响。

为了更好地理解，让我们看看边际分布中使用的同一个例子：

等级划分	6级	七级	8级	学生总数
A+	7	5	2	14
A-	11	8	10	29
B	6	18	11	35
C	4	7	8	19
D	1	3	4	8
E	0	3	2	5
累计	29	44	37	110

数据样本

例如，你想找到六级学生得C的分布，关于学生总数，你只需用六级学生得C的人数除以所有三个标准中得C的学生总数。

所以答案是4/19= 0.21

乘以100，得出21%。

一个七级学生得C的分布是7/19=0.37

与100相乘得出37%。

而一个8年级学生得C的分布是8/19= 0.42

乘以100，得出42.1%。