条件付分配と限界分配の違い(解説) - All The Differences
目次
確率とは、あるデータに対して、ある事象が起こる可能性を数値化する数学の一分野である。 望む結果が得られる可能性を数学的に解釈するものである。
ある事象が発生する確率は0と1の間にあり、0はその事象が発生する可能性がゼロであることを表し、1はある事象が発生する可能性が100%であることを表します。
確率を研究することで、あらゆる望ましい出来事の成功または失敗の可能性を予測または判断し、それを改善するための対策を講じることができます。
例えば、新製品をテストする際、失敗する確率が高ければ低品質であることを意味する。 失敗や成功の確率を数値化することは、メーカーが製品の品質や経験を改善するのに役立つ。
データ分析では、2変数データの確率を求めるために、限界分布や条件分布が使われます。 しかし、その前に、基本的なことを説明しましょう。
確率の基礎知識
確率論でよく使われる用語に「確率変数」があります。 確率変数は、ランダムに起こる事象の結果を定量化するために使われます。
例えば、ある学校では、生徒の数学の成績を過去の成績から予測する研究を行う。 研究の対象は、6年生から8年生までの合計110名である。 ランダム変数「X」を成績と定義すると、次の表は収集したデータを示している:
グレード | 学生数 |
A+ | 14 |
A- | 29 |
B | 35 |
C | 19 |
D | 8 |
E | 5 |
総学生数です: | 110 |
データサンプル
p(x=a+) = 14/110 = 0.1273
0.1273 *100=12.7%
関連項目: シットダウンレストランとファーストフードレストランの違い - すべての違いこのことから、約12.7%の生徒が、これから受ける試験でA+まで得点できることがわかります。
学校側も生徒のクラスに関する成績を分析したいと考えたらどうでしょう。 では、A+を獲得した12.7%の生徒のうち、何人が第8標準に属しているのでしょうか。
1つの確率変数を扱うのはとても簡単ですが、データが2つの確率変数に関して分布している場合、計算が少し複雑になります。
2変数データから関連情報を抽出する方法として、最も簡略化された2つの方法は、限界分布と条件付き分布です。
確率の基本を視覚的に説明するために、Math Anticsのビデオを紹介します:
数学アンティック - 基本的な確率
限界分布の意味するところは?
限界分布または限界確率とは、ある変数の分布が他の変数から独立しており、2つの事象のうちの1つが起こることにのみ依存し、他の事象のすべての可能性を包含している。
限界分布の概念は、データを表形式で表すと理解しやすい。 限界という言葉は、余白に沿った分布を含むことを示すものである。
次の表は、6~8年生の110人の生徒の成績を示したものです。 この情報を使って、今度の数学の試験の成績を予測することができます、
グレード | ろくぶん | 第七水準 | はちぶ | 総学生数 |
A+ | 7 | 5 | 2 | 14 |
A- | 11 | 8 | 10 | 29 |
B | 6 | 18 | 11 | 35 |
C | 4 | 7 | 8 | 19 |
D | 1 | 3 | 4 | 8 |
E | 0 | 3 | 2 | 5 |
和算 | 29 | 44 | 37 | 110 |
データサンプル
この表やサンプルデータを使って、生徒総数に対する成績の限界分布や、特定の規格の生徒の限界分布を計算することができます。
限界分布の計算では、2つ目の事象の発生を無視する。
例えば、Cを取得した学生の総人数に対する限界分布を計算する場合、各クラスの学生数を行ごとに合計し、その値を総人数とダイスで割るだけでいいのです。
すべての基準を合わせてCを取得した生徒は19名です。
それを6-8標準の生徒総数で割ると、19/110=0.1727となります。
この値に100をかけると17.27%になります。
全体の17.27%がC判定を獲得しています。
また、この表から、各規格における学生の限界分布を求めることもできます。 たとえば、第6規格の学生の限界分布は29/110で、0.2636となります。 この値に100をかけると26.36%となります。
同様に、第7水準と第8水準の生徒の限界分布は、それぞれ40%と33.6%である。
条件付分配の意味するところは?
条件付分布は、その名の通り、あらかじめ設定された条件に基づき、もう一方の変数が所定の条件に設定されている間に、一方の変数が発生する確率のことである。
条件付き分布は、2つの変数に関するサンプルを分析することができます。 データ分析では、事象が発生する可能性が別の要因によって影響されることがよくあります。
条件付確率は、データを表形式で表現することで、サンプルデータの可視化・分析を向上させます。
例えば、人口の平均寿命を調査する場合、1日の平均摂取カロリーと身体活動の頻度という2つの変数を考慮することができます。 条件付き確率は、1日の摂取カロリーが2500kcal以上であれば、身体活動が人口の平均寿命に与える影響を把握することができますし、逆であれば、その影響を把握できます。
1日の摂取カロリーを2500kcalに設定し、その条件に基づいて、身体活動が平均寿命に与える影響を判断することができるようにしました。
あるいは、2つの有力ブランドのエナジードリンクの売上偏差を観察していると、そのエナジードリンクの売上に影響を与える変数として、その存在と価格がある。 条件付き確率を用いて、2つのエナジードリンクの価格と存在が顧客の購買意欲に与える影響を判断することができるのだ。
よりよく理解するために、限界分布で使われるのと同じ例を見てみましょう:
グレード | ろくぶん | 第七水準 | はちぶ | 総学生数 |
A+ | 7 | 5 | 2 | 14 |
A- | 11 | 8 | 10 | 29 |
B | 6 | 18 | 11 | 35 |
C | 4 | 7 | 8 | 19 |
D | 1 | 3 | 4 | 8 |
E | 0 | 3 | 2 | 5 |
和算 | 29 | 44 | 37 | 110 |
データサンプル
例えば、6年生がCを獲得している分布を全生徒数に対して求めたい場合、6年生でCを獲得している生徒の数を、3つの基準でCを獲得している生徒の総数で割るだけです。
つまり、答えはb 4/19= 0.21となります。
100をかけると21%になります。
7番目の標準的な生徒がCを獲得する分布は、7/19= 0.37
100をかけると37%になる
関連項目: IPSモニターとLEDモニターの違いとは(詳細比較) - All The Differencesそして、8年生がCを獲得する分布は、8/19=0.42です。
100をかけると42.1%になります。
条件付き分布と限界分布の違い
条件付き分布と限界分布の違い
限界分布はサンプル全体に対する変数の分布で、条件付き分布はある変数が別の変数に関する分布である。
限界分布は、他の変数の結果に依存しない。 つまり、単純に無条件である。
例えば、あるサマーキャンプに参加する子どもたちの性別にランダム変数「X」を割り当て、その子どもたちの年齢に別のランダム変数「Y」を割り当てたとします、
サマーキャンプに参加する男子の限界分布はP(X=boys)で与えられるが、8歳以下の男子の割合は条件付き分布でP(X=boys)で与えられる。
最終的な感想
限界分布は、他の変数を指し示すことなく、変数の異なる値の確率を示す。
しかし、条件付き分布とは、ある変数が別の変数を参照して計算される確率のことである。
これらの確率論はどちらも正しく、問題やケース、シナリオによってその適用が異なる。