Einführung – stetige Gleichverteilung
Diskrete Zufallsvariablen können nur endlich viele oder abzählbar unendlich viele Werte annehmen. Beispiele sind ein sechsseitiger Würfel oder die Anzahl von Erfolgen bei einer festen Anzahl von Versuchen. Was ist nun, wenn die Wertemenge einer Zufallsvariablen nicht diskret ist? Z.B. könnten wir das Körpergewicht eines Menschen, die Wartezeit bei einem Arzt oder die Länge einer Fahrtstrecke nicht als diskrete Werte darstellen. Die möglichen Werte sind unendlich und nicht abzählbar – es handelt sich um Werte der reelen Zahlenmenge \(\mathbb{R}\). In so einem Fall sprechen wir von einer stetigen Zufallsvariable und damit von einer stetigen Wahrscheinlichkeitsverteilung.
Wollen wir bei einer diskreten Zufallsvariablen die Wahrscheinlichkeit in einem bestimmten Intervall bestimmen, konnten wir die Wahrscheinlichkeiten für jeden Wert im gefragten Intervall addieren. So berechnet sich beispielsweise bei einem sechsseitigen Würfel die Wahrscheinlichkeit, mindestens eine vier zu Würfeln als \(P(X \ge 4) = P(X=4) + P(X=5) + P(X=6)\), wenn wir \(X\) als Zufallsvariable betrachten, die die Augenzahl des Würfels abbildet. Bei einer stetigen Zufallsvariablen funktioniert das nicht mehr. Man nimmt sich hier die Wahrscheinlichkeitsdichte zu Hilfe, welche sich als Fläche unter einer Dichtefunktion \(f(x)\) berechnen lässt. Die Gesamtfläche muss dabei immer die Wahrscheinlichkeitsdichte 1 ergeben.
Dichtefunktion der stetigen Gleichverteilung
Nehmen wir an, Sie gehen für eine dringende Angelegenheit ohne Termin zu einer Behörde. Die Wartezeit ist vollkommen unvorhersehbar, Ihnen wurde allerdings garantiert, dass die Wartezeit zwischen 10 und 60 Minuten ist. Somit ist die einzige Annahme, die wir treffen können, dass jede Wartezeit zwischen 10 und 60 Minuten gleich wahrscheinlich ist. Dabei ist die Wartezeit als stetige Zufallsvariable anzusehen: es kann sich um genau 23 Minuten handeln, aber es könnte sich auch um 43 Minuten, 14 Sekunden und 5 Millisekunden usw. handeln.
Wie sieht nun die Dichtefunktion \(f(x)\) einer solchen stetigen Gleichverteilung aus? Jede Wartezeit \(x\) ist gleich wahrscheinlich, d.h. für jedes \(x\) muss \(f(x)\) den gleichen Wert \(f(x) = c\) liefern und somit ergibt sich eine horizontale Linie auf Höhe von \(c\):
Um \(c\) zu bestimmen, können wir uns zwei Fakten zu Hilfe nehmen: Erstens bildet \(f(x)\) wie wir oben sehen ein Rechteck und zwar mit einer Höhe von \(c\) und einer Breite von \(60-10 = 50\) Minuten. Zweitens muss die Gesamtfläche unter der Dichtefunktion \(f(x)\) immer 1 ergeben. Über die Fläche des Rechtecks ergibt sich \(c \cdot 50 = 1\) und somit \(c = \frac 1 {50}\). Die gesuchte Dichtefunktion für eine Gleichverteilung im Intervall von 10 bis 60 Minuten ist also \(f(x) = \frac 1 {50}\) für \(x \in [10, 60]\), andernfalls ist \(f(x) = 0\).
Mit Hilfe der Dichtefunktion ist es nun auch möglich, dass wir Wahrscheinlichkeiten für bestimmte Intervalle \([a, b]\) ausrechnen, also \(P(a \le X \le b)\) bestimmen können. Die interaktive Grafik unten zeigt wie das geht: Die Fläche unter der Dichtefunktion \(f(x)\) im Intervall \([a, b]\) bildet wieder ein Rechteck mit den Seitenlängen \(b-a\) und \(f(x)\), in unserem Fall \(f(x) = \frac 1 {50}\).
Stetige Wahrscheinlichkeitsverteilungen haben eine Besonderheit: Die Wahrscheinlichkeit, dass eine stetige Zufallsvariable \(X\) exakt einen bestimmten Wert \(x\) (bspw. genau 10 Minuten wie in der vorherigen Aufgabe) annimmt, ist immer null, also \(P(X=x) = 0\). Um \(P(X=x)\) zu berechnen, ist das gefragte Intervall \([x, x]\) und somit ist die Länge des Intervalls null. Auf die Gleichverteilung übertragen bedeutet das, dass die Breite des Rechtecks unter der Dichtefunktion null ist und somit ist auch die Fläche, ergo die Wahrscheinlichkeitsdichte, null.
Eine andere Erklärung ist, dass es unendlich und nicht abzählbar viele Werte gibt, die \(X\) annehmen könnte. Daher ist die Wahrscheinlichkeit, genau einen davon zu treffen unendlich klein. Paradoxerweise bedeutet das bei einer stetigen Wahrscheinlichkeitsverteilung allerdings nicht, dass es unmöglich ist, exakt \(x\) “zu treffen”, sondern es ist nur extrem unwahrscheinlich.
Daraus, dass bei stetigen Wahrscheinlichkeitsverteilungen gilt, dass \(P(X=x) = 0\), folgt \(P(X \le x) = P(X < x)\) und \(P(X \ge x) = P(X > x)\). Es ist also egal, ob wir die Wahrscheinlichkeit von \(X\) in einem Intervall kleiner gleich \(x\) oder kleiner \(x\) betrachten. Bei diskreten Warscheinlichkeitsverteilungen macht es hingegen im allgemeinen einen Unterschied!
In der Praxis bedeutet das, dass es bei stetigen Zufallsvariablen nur Sinn macht, Wahrscheinlichkeiten innerhalb von bestimmten Intervallen zu berechnen, also \(P(a < X < b)\). So macht es bspw. in der obigen Aufgabe eher Sinn nach der Wahrscheinlichkeit zu fragen, zwischen 10 und 11 Minuten warten zu müssen.
Besonderheiten bei stetigen Verteilungen
Es gilt \(P(X=x) = 0\) und damit \(P(X \le x) = P(X < x)\), sowie \(P(X \ge x) = P(X > x)\).
Dichtefunktion der stetigen Gleichverteilung
\[ f(x) = \begin{cases} \frac 1 {b-a} & \text{ falls } a \le x \le b,\\ 0 & \text { sonst.} \end{cases} \]
- stetige Gleichverteilung im Intervall \([a, b]\), wobei \(a < b\)
- Funktion in R:
dunif(x, a, b)
Verteilungsfunktion der stetigen Gleichverteilung
Wie jede Wahrscheinlichkeitsverteilung hat auch die stetige Gleichverteilung eine Verteilungsfunktion \(F(x)\), die die Wahrscheinlichkeit \(P(X < x)\) für einen Grenzwert \(x\) bestimmt. Wir können uns dabei wieder das Rechteck zu Hilfe nehmen, welches unter der Dichtefunktion bis zum Grenzwert \(x\) gebildet wird:
Die Berechnung in R geschieht mit Hilfe von punif()
.
Es werden wieder die Parameter \(x, a\) und \(b\) übergeben:
Verteilungsfunktion der stetigen Gleichverteilung
\[ F(x) = \begin{cases} 0 & \text { falls } x < a \\ \frac {x - a} {b - a} & \text{ falls } a \le x \le b,\\ 1 & \text { falls } x > b \end{cases} \]
- liefert Wahrscheinlichkeit \(P(X < x)\) für gleichverteilte Zufallsvariable \(X\)
- Funktion in R:
punif(x, a, b)
Das Prinzip, dass wir \(P(X < x)\) mit Hilfe der Fläche unter der Dichtefunktion berechnen können, lässt sich für jede stetige Wahrscheinlichkeitsverteilung anwenden. Das werden wir uns im nächsten Kapitel zu nutze machen, wenn es um die wohl wichtigste (stetige) Wahrscheinlichkeitsverteilung geht – die Normalverteilung.
Die Normalverteilung
Einführung
Mit der Normalverteilung lernen Sie die wichtigste stetige Wahrscheinlichkeitsverteilung kennen. Sie findet in der Praxis oft Anwendung, da viele Daten in der Natur oder in technischen Bereichen einer Normalverteilung folgen.
Ist eine Zufallsvariable \(X\) normalverteilt, so schreibt man
\[ X \sim \mathcal{N(\mu, \sigma)}. \]
Dabei ist \(X\) normalverteilt um den Erwartungswert \(\mu\) mit einer Standardabweichung \(\sigma\). Die Dichtefunktion der Normalverteilung zeigt die charakteristische “Glockenkurve.” Sie ist symmetrisch um den Erwartungswert \(\mu\) und die Streuung wird durch die Standardabweichung \(\sigma\) bestimmt:
Wir werden im folgenden die Normalverteilung nutzen, um Wahrscheinlichkeiten dafür zu berechnen, dass eine normalverteilte Zufallsvariable Werte in einem bestimmten Bereich annimmt.
Dichtefunktion der Normalverteilung
- Funktion in R:
pnorm(x, mu, sigma)
Ein Praxisbeispiel – Liefert das Routenberechnungssystem gute Routen?
In Ihrer Firma wurde ein Routenberechnungssystem entwickelt. Ihre Kollegin hat sich die Länge der generierten Routen angeschaut und diese verglichen mit den Längen der Routen eines Routenberechnungssystems einer Konkurrenzfirma. Die Daten sehen in etwa wie folgt aus:
route | eigenes_system | konkurrenz | differenz |
---|---|---|---|
Berlin – Hamburg | 312.1 | 289 | 23.1 |
Potsdam – Berlin | 34.8 | 36.2 | -1.4 |
Dresden – Leipzig | 147.4 | 120.7 | 26.7 |
… | … | … | … |
Sie teilt Ihnen folgende Informationen mit: Die Differenz zur kürzesten Route des konkurrierenden Kartendienstes scheint normalverteilt zu sein, leider weiß sie aber nicht mit welchem Erwartungswert und welcher Standardabweichung. Ihre Kollegin zeigt Ihnen folgendes Histogramm aus den Daten, die sie berechnet hat:
Dichtefunktion der Normalverteilung
Sie möchten folgendes wissen: Wie hoch ist die Wahrscheinlichkeit, dass das Routenberechnungssystem Ihrer Firma eine Route generiert, die kürzer ist, als die der Konkurrenzfirma? Da negative Differenzen in der Routenlänge bedeuten, dass ihr Routenberechnungssystem eine kürzere Route als die Konkurrenz liefert, können wir diese Wahrscheinlichkeit notieren als \(P(X < 0 \text{ km})\). Dabei fassen wir \(X\) als normalverteilte Zufallsvariable auf. Allerdings kennen wir deren Erwartungswert und Standardabweichung nicht. Wir können diese aber aus den Daten Ihrer Kollegin berechnen.
Programmieraufgabe 1
Die Daten sind in einem Vektor namens abweichung
definiert. Erstellen Sie einen Vektor mit zwei Elementen: Das erste Element soll das arithmetische Mittel und das zweite Element die Standardabweichung der Daten abweichung
sein.
c(mean(abweichung), sd(abweichung))
Stimmen die Daten Ihrer Kollegin wirklich mit der Annahme überein, dass diese normalverteilt sind? Das können wir jetzt zumindest visuell prüfen, in dem wir schauen, ob das Histogramm der erhobenen Daten ungefähr der Dichtefunktion der Normalverteilung mit den Parametern, die Sie in der vorherigen Aufgabe herausgefunden haben, folgt. Stellen Sie dafür die Parameter der Normalverteilung korrekt ein. Der Erwartungswert \(\mu\) bestimmt dabei den Schwerpunkt und damit die Lage der Kurve auf der X-Achse, während die Standardabweichung \(\sigma\) die Streuung, d.h. die “Breite” der Kurve bestimmt. Die Dichtefunktion ist für den gesamten Wertebereich der reellen Zahlen definiert, die Kurve läuft also theoretisch von \(-\infty\) bis \(+\infty\).
Verteilungsfunktion der Normalverteilung
Wir haben also herausgefunden, dass die Differenz der Routenlängen zum Konkurrenzdienst in etwa normalverteilt ist mit Erwartungswert \(\mu = 20\text{ km}\) und Standardabweichung \(\sigma = 30\text{ km}\). Das können wir jetzt nutzen, um die Frage zu beantworten, wie hoch die Wahrscheinlichkeit ist, dass unser Routenberechnungssystem bessere (also kürzere) Routen liefert, als die Konkurrenz. Wir suchen also \(P(X < 0 \text{ km})\). Wie schon bei der stetigen Gleichverteilung können wir bei solchen Fragestellungen auf die Verteilungsfunktion zurückgreifen. Diese gibt uns die Wahrscheinlichkeitsdichte \(P(X < x)\) bis zu einem Wert \(x\), also im Intervall \((-\infty, x)\), als Fläche unter der Kurve der Dichtefunktion \(f(x)\) der Normalverteilung. Folgende interaktive Grafik zeigt das Prinzip:
Die Berechnung in R geschieht mit Hilfe von pnorm()
.
Es werden die Parameter \(x, \mu\) und \(\sigma\) übergeben:
Verteilungsfunktion der Normalverteilung
- liefert Wahrscheinlichkeit \(P(X < x)\) für normalverteilte Zufallsvariable \(X\)
- Funktion in R:
pnorm(x, mu, sigma)
Was ist nun, wenn wir die Wahrscheinlichkeit bestimmen wollen, dass \(X\) Werte in einem Intervall von \(a\) bis \(b\) animmt, also \(P(a < X < b)\)? Das lässt sich erklären, indem wir uns die Flächen unter der Kurve der Dichtefunktion für \(P(X < a)\) und \(P(X < b)\) anschauen:
Wir möchten jetzt herausfinden, wie groß die Wahrscheinlichkeit ist, dass das Routenberechnungssystem Routen liefert, deren Längen maximal 10 km von der des Konkurrenzsystems abweichen. Das bedeutet, wir suchen \(P(-10 \text{ km} < X < 10 \text{ km})\). Folgende interaktive Grafik zeigt, wie sich diese Wahrscheinlichkeit berechnen lässt:
Die Berechnung in R geschieht mit Hilfe von pnorm()
.
Es werden die Parameter \(x, \mu\) und \(\sigma\) übergeben:
Verteilungsfunktion der Normalverteilung
- Bestimmung Wahrscheinlichkeit innerhalb eines Intervalls \((a, b)\) mittels \(P(a < X < b) = F(b) - F(a)\)
Programmieraufgabe 2
Ihnen wird mitgeteilt, dass die tägliche Distanz, die die Nutzerinnen und Nutzer Ihres Routenberechnungsdienstes zurücklegen, normalverteilt ist, mit Erwartungswert \(\mu = 79.2 \text{ km}\) und Standardabweichung \(\sigma = 24.1 \text{ km}\). Berechnen Sie mit Hilfe der Verteilungsfunktion der Normalverteilung die Wahrscheinlichkeit dafür, dass eine Nutzerin bzw. ein Nutzer mehr als 100 km oder weniger als 50 km an einem Tag zurücklegen.
mu <- 79.2
sigma <- 24.1
___
mu <- 79.2
sigma <- 24.1
1 - pnorm(100, mu, sigma) + pnorm(50, mu, sigma)
Quantilfunktion
Ihnen wird mitgeteilt, dass die tägliche Distanz, die die Nutzerinnen und Nutzer ihres Routenberechnungsdienstes zurücklegen, normalverteilt ist, mit Erwartungswert \(\mu = 79.2 \text{ km}\) und Standardabweichung \(\sigma = 24.1 \text{ km}\). Die Verteilung lässt sich wie folgt grafisch darstellen:
Wir möchten wissen, wie groß die maximale tägliche Fahrdistanz für die kürzesten 5% aller Fahrdistanzen ist. Wir suchen also den Wert \(x\), für den gilt: \(P(X < x) = 0.05\). Wenn wir das auf die Fläche unter der Dichtefunktion der Normalverteilung übertragen, so suchen wir den Wert für \(x\), der die blaue Fläche in der folgenden Grafik so begrenzt, dass sie einer Wahrscheinlichkeit von 5% entspricht. Auf die darunter abgebildete Verteilungsfunktion \(F(x)\) bezogen, bedeutet das, wir suchen \(x\), so dass \(F(x) = 0.05\).
Um \(x\) herauszubekommen, können wir die Umkehrfunktion der Verteilungsfunktion, \(F^{-1}(p)\) verwenden. Diese Funktion wird auch Quantilfunktion genannt:
Abschließend sehen Sie das Zusammenspiel zwischen Quantilfunktion und der Fläche unter der Dichtefunktion. In R können Sie qnorm()
als Quantilfunktion der Normalverteilung verwenden. Wie sie sehen, können Sie einen Grenzwert \(x\) auch so berechnen, dass er für eine Fläche “rechts” des Grenzwertes gilt, also als untere Grenze für eine Wahrscheinlichkeit \(P(X > x)\).
Die Berechnung in R geschieht mit Hilfe von qnorm()
.
Es werden die Parameter \(p, \mu\) und \(\sigma\) übergeben:
Quantilfunktion der Normalverteilung
- ermittelt Grenzwert \(x\) für gegebene Wahrscheinlichkeit von \(P(X < x)\)
- Funktion in R:
qnorm(p, mu, sigma)
Zusammenfassung
Sie haben mit der Normalverteilung die wohl wichtigste stetige Wahrscheinlichkeitsverteilung kennengelernt und wissen jetzt, wie man Sie praktisch einsetzen kann. Insbesondere ist der Umgang mit der Verteilungsfunktion \(F(x)\) wichtig, denn hiermit können Sie die Wahrscheinlichkeit \(P(X < x)\) für eine normalverteilte Zufallsvariable \(X\) bestimmen. Anschaulich gemacht wurde das durch die Fläche unter der Dichtefunktion \(f(x)\) von \(-\infty\) bis zum Grenzwert \(x\). Wir haben festgestellt, dass über die Gegenwahrscheinlichkeit die Wahrscheinlichkeit \(P(X > x)\) mittels \(P(X > x) = 1 - F(x)\) bestimmt werden kann. Des weiteren kann die Wahrscheinlichkeit für \(X\) innerhalb eines Intervalls \((a, b)\) bestimmt werden, indem wir die Fläche, und damit die Wahrscheinlichkeit, für den unteren Grenzwert \(a\) abziehen von der Fläche für den oberen Grenzwert \(b\), also \(P(a < X < b) = F(b) - F(a)\).
Schließlich haben Sie noch den Umgang mit der Quantilfunktion der Normalverteilung kennengelernt. Hier Fragen wir nicht nach einer Wahrscheinlichkeit, sondern umgekehrt nach einem Grenzwert \(x\), für den eine bestimmte Wahrscheinlichkeit \(p\) erreicht wird, also ein \(x\) für \(P(X < x) = p\).
Umfrage
Datenschutzhinweise
Datenschutzrechtliche Informationspflichten über die Datensammlung im Forschungsprojekt “MultiLA” nach Art. 13 DSGVO
Das Projekt “Multimodale interaktive Lerndashboards mit Learning Analytics” (MultiLA) hat sich zum Ziel gesetzt das Lernverhalten in den zur Verfügung gestellten Lernanwendungen zu erforschen. Zu diesem Zwecke werden Daten erhoben und verarbeiten, worüber wir im folgenden aufklären.
1. Name und Kontaktdaten des Verantwortlichen
Hochschule für Technik und Wirtschaft Berlin
Treskowallee 8
10318 Berlin
T: +49.40.42875-0
Vertreten durch die Präsidentin Praesidentin@HTW-Berlin.de
2. Datenschutzbeauftragter
Behördlicher Datenschutzbeauftragter
Vitali Dick (HiSolutions AG)
datenschutz@htw-berlin.de
Projektverantwortlicher
Andre Beinrucker
andre.beinrucker@htw-berlin.de
3. Die Verarbeitung von personenbezogenen Daten
3.1 Zweck
Die Verarbeitung personenbezogener Daten dient dem Zweck der Analyse des Lernverhaltens und des Umgangs mit interaktiven Lernanwendungen im Rahmen des Foschungsprojekts “MultiLA”.
3.2 Rechtsgrundlage
Die Rechtsgrundlage ist Art. 6 Abs. 1 lit. e DSGVO.
3.3 Dauer der Speicherung
Alle Daten werden nur innerhalb der Lernanwendung aufgezeichnet. Sie werden auf den Servern der HTW-Berlin gespeichert und werden mit Auslaufen des Projektes oder möglichen Folgeprojekten gelöscht.
4. Ihre Rechte
Sie haben das Recht, von der Hochschule Auskunft über die zu Ihrer Person gespeicherten Daten zu erhalten und/oder unrichtig gespeicherte Daten berichtigen zu lassen. Sie haben darüber hinaus das Recht auf Löschung oder auf Einschränkung der Verarbeitung oder ein Widerspruchsrecht gegen die Verarbeitung. Außerdem haben Sie in dem Fall, in dem als Rechtsgrundlage für die Verarbeitung Sie die Einwilligung gegeben haben, das Recht, die Einwilligung jederzeit zu widerrufen. Die Rechtmäßigkeit, der aufgrund der Einwilligung bis zum Widerruf erfolgten Verarbeitung bleibt davon unberührt. Bitte wenden Sie sich in dem Fall jeweils an folgende Person: Andre Beinrucker, andre.beinrucker@htw-berlin.de. Sie haben das Recht auf Beschwerde bei einer Aufsichtsbehörde, wenn Sie der Ansicht sind, dass die Verarbeitung der Sie betreffenden personenbezogenen Daten gegen die Rechtsvorschriften verstößt.
5. Information über Ihr Widerspruchsrecht nach Art . 21 Abs. 1 DSGVO
Sie haben das Recht, aus Gründen, die sich aus Ihrer besonderen Situation ergeben, jederzeit gegen die Verarbeitung Sie betreffender Daten, die aufgrund von Art. 6 Abs. 1 lit. e DSGVO (Datenverarbeitung im öffentlichen Interesse) erfolgt, Widerspruch einzulegen.