Różnica między dystrybucją warunkową a marginalną (wyjaśniona) - All The Differences
Spis treści
Prawdopodobieństwo jest dziedziną matematyki, która określa ilościowo przewidywanie wystąpienia pewnego zdarzenia dla danego zbioru danych. Nadaje matematyczną interpretację prawdopodobieństwu uzyskania pożądanego wyniku.
Prawdopodobieństwo wystąpienia dowolnego zdarzenia mieści się w przedziale od zera do jedynki. Zero oznacza, że nie ma szans lub prawdopodobieństwa wystąpienia tego zdarzenia, a jedynka oznacza, że prawdopodobieństwo wystąpienia danego zdarzenia wynosi 100%.
Badanie prawdopodobieństwa pozwala nam przewidzieć lub ocenić szanse na sukces lub porażkę dowolnego pożądanego zdarzenia i podjąć działania w celu jego poprawy.
Na przykład, podczas testowania nowego produktu, wysokie prawdopodobieństwo niepowodzenia oznacza niską jakość produktu. Kwantyfikacja szans na niepowodzenie lub sukces może pomóc producentom poprawić jakość produktu i doświadczenie.
W analityce danych, rozkłady marginalne i warunkowe są używane do znalezienia prawdopodobieństwa w danych dwuwartościowych. Ale zanim wskoczymy do tego, przejdźmy przez kilka podstaw.
Podstawy prawdopodobieństwa
Często używanym terminem w prawdopodobieństwie jest "zmienna losowa". Zmienna losowa służy do ilościowego określenia wyników zdarzenia losowego, które ma miejsce.
Na przykład, szkoła prowadzi badania, aby przewidzieć wyniki swoich uczniów z matematyki w nadchodzących egzaminach, na podstawie ich wcześniejszych wyników.Badania są ograniczone do łącznej liczby 110 uczniów od 6 do 8 standardu.Jeśli zmienna losowa "X" jest zdefiniowana jako uzyskane oceny.Poniższa tabela pokazuje zebrane dane:
Klasy | Liczba uczniów |
A+ | 14 |
A- | 29 |
B | 35 |
C | 19 |
D | 8 |
E | 5 |
Liczba uczniów ogółem: | 110 |
Próbka danych
P(X=A+) = 14/110 = 0,1273
0.1273 *100=12.7%
Wynika z tego, że około 12,7% uczniów może uzyskać na zbliżających się egzaminach wynik do A+.
Co z tego, że szkoły chcą też analizować oceny uczniów w odniesieniu do ich klas. Ile więc z 12,7% uczniów zdobywających A + należy do 8 normy?
Radzenie sobie z pojedynczą zmienną losową jest dość proste, ale kiedy twoje dane są dystrybuowane w odniesieniu do dwóch zmiennych losowych, obliczenia mogą być nieco skomplikowane.
Dwa najbardziej uproszczone sposoby wydobywania istotnych informacji z danych dwudzielnych to rozkład marginalny i warunkowy.
Aby wizualnie wyjaśnić podstawy prawdopodobieństwa, oto wideo z Math Antics:
Antyki matematyczne - Podstawowe prawdopodobieństwo
Co oznacza dystrybucja krańcowa?
Rozkład marginalny lub prawdopodobieństwo marginalne to rozkład zmiennej niezależnej od drugiej zmiennej. Zależy on tylko od wystąpienia jednego z dwóch zdarzeń przy jednoczesnej subsumcji wszystkich możliwości wystąpienia drugiego zdarzenia.
Łatwiej jest zrozumieć pojęcie rozkładu marginalnego, gdy dane są reprezentowane w formie tabelarycznej. Termin marginalny oznacza, że obejmuje on rozkład wzdłuż marginesów.
Poniższe tabele pokazują oceny 110 uczniów z 6-8 standardu. Możemy użyć tych informacji, aby przewidzieć ocenę ich nadchodzącego egzaminu z matematyki,
Klasy | 6. standard | 7. standard | 8. standard | Liczba studentów ogółem |
A+ | 7 | 5 | 2 | 14 |
A- | 11 | 8 | 10 | 29 |
B | 6 | 18 | 11 | 35 |
C | 4 | 7 | 8 | 19 |
D | 1 | 3 | 4 | 8 |
E | 0 | 3 | 2 | 5 |
SUMA | 29 | 44 | 37 | 110 |
Próbka danych
Korzystając z tej tabeli lub przykładowych danych, możemy obliczyć rozkład brzegowy ocen w odniesieniu do ogólnej liczby uczniów lub rozkład brzegowy uczniów w określonym standardzie.
Przy obliczaniu rozkładu marginalnego pomijamy wystąpienie drugiego zdarzenia.
Na przykład, obliczając rozkład krańcowy uczniów, którzy uzyskali C w odniesieniu do całkowitej liczby uczniów, po prostu sumujemy liczbę uczniów dla każdej klasy w całym rzędzie i kroimy tę wartość w kostkę z całkowitą liczbą uczniów.
Łączna liczba uczniów, którzy uzyskali C we wszystkich standardach łącznie wynosi 19.
Dzieląc ją przez ogólną liczbę uczniów w standardzie 6-8: 19/110=0,1727
Pomnożenie tej wartości przez 100 daje 17,27%.
17,27% ogółu uczniów uzyskało ocenę C.
Możemy również wykorzystać tę tabelę do określenia rozkładu krańcowego uczniów w każdym standardzie. Na przykład rozkład krańcowy uczniów w szóstym standardzie wynosi 29/110, co daje 0,2636. Pomnożenie tej wartości przez 100 daje 26,36%.
Podobnie marginalny rozkład uczniów w 7. i 8. standardzie wynosi odpowiednio 40% i 33,6%.
Co oznacza rozkład warunkowy?
Rozkład warunkowy jak interpretuje nazwa, opiera się na istniejącym wcześniej warunku. Jest to prawdopodobieństwo wystąpienia jednej zmiennej, podczas gdy druga zmienna jest ustawiona na dany warunek.
Rozkłady warunkowe umożliwiają analizę próbki dotyczącej dwóch zmiennych. W analityce danych często na prawdopodobieństwo wystąpienia zdarzenia ma wpływ inny czynnik.
Prawdopodobieństwo warunkowe wykorzystuje tabelaryczną reprezentację danych. Poprawia to wizualizację i analizę przykładowych danych.
Na przykład, jeśli badasz średnią długość życia populacji, dwiema zmiennymi, które należy wziąć pod uwagę mogą być, ich dzienne średnie spożycie kalorii oraz częstotliwość aktywności fizycznej. Prawdopodobieństwo warunkowe może pomóc Ci określić wpływ aktywności fizycznej na średnią długość życia populacji, jeśli ich dzienne spożycie kalorii jest powyżej 2500kcal lub odwrotnie.
Jak ustaliliśmy dzienne spożycie kalorii <2500kcal, to postawiliśmy warunek. Na podstawie tego warunku można określić wpływ aktywności fizycznej na średnią długość życia.
Albo, obserwując odchylenie sprzedaży dwóch dominujących marek napojów energetycznych, dwie zmienne, które wpływają na sprzedaż tych napojów energetycznych to ich obecność i cena. Możemy wykorzystać prawdopodobieństwo warunkowe, aby określić wpływ ceny i obecności dwóch napojów energetycznych na zamiar zakupu przez klientów.
Aby lepiej zrozumieć, przyjrzyjmy się temu samemu przykładowi używanemu w dystrybucji marginalnej:
Klasy | 6. standard | 7. standard | 8. standard | Liczba studentów ogółem |
A+ | 7 | 5 | 2 | 14 |
A- | 11 | 8 | 10 | 29 |
B | 6 | 18 | 11 | 35 |
C | 4 | 7 | 8 | 19 |
D | 1 | 3 | 4 | 8 |
E | 0 | 3 | 2 | 5 |
SUMA | 29 | 44 | 37 | 110 |
Próbka danych
Na przykład chcesz znaleźć rozkład uczniów z klasy szóstej, którzy zdobyli C, dotyczący całkowitej liczby uczniów. Wystarczy podzielić liczbę uczniów z klasy szóstej, którzy zdobyli C, przez całkowitą liczbę uczniów z wszystkich trzech klas, którzy zdobyli C.
Zatem odpowiedź będzie b 4/19= 0,21
Zobacz też: Różnice pomiędzy C-17 Globemaster III a C-5 Galaxy (wyjaśnione) - All The DifferencesPomnożenie jej przez sto daje 21%.
Rozkład prawdopodobieństwa uzyskania przez ucznia klasy siódmej oceny C wynosi 7/19= 0,37
Mnożąc to przez 100 otrzymujemy 37%.
A rozkład prawdopodobieństwa uzyskania przez ucznia 8 klasy oceny C wynosi 8/19= 0,42
Mnożąc to przez 100 otrzymujemy 42,1%
Różnica między rozkładem warunkowym a krańcowym
Różnica między rozkładem warunkowym a marginalnym
Rozkład marginalny to rozkład zmiennej w odniesieniu do całej próby, natomiast rozkład warunkowy to rozkład zmiennej dotyczący innej zmiennej.
Zobacz też: Kiedy on mówi, że jesteś ładna VS jesteś słodka - wszystkie różniceRozkład krańcowy jest niezależny od wyników drugiej zmiennej. Innymi słowy, jest po prostu bezwarunkowy.
Przykładowo, jeśli zmienna losowa "X" jest przypisana do płci dzieci na obozie letnim, a inna zmienna losowa "Y" jest przypisana do wieku tych dzieci to,
Rozkład krańcowy chłopców na obozie letnim może być dany przez P(X=chłopcy), natomiast odsetek chłopców w wieku poniżej 8 lat jest dany przez rozkład warunkowy jako P(X=chłopcy
Uwagi końcowe
Rozkład marginalny pokazuje prawdopodobieństwa różnych wartości zmiennych bez wskazywania na inne zmienne.
Natomiast rozkład warunkowy to prawdopodobieństwo zmiennej, które jest obliczane w odniesieniu do innej zmiennej.
Obie te teorie prawdopodobieństwa są poprawne, a ich zastosowanie różni się w różnych problemach, przypadkach i scenariuszach.