Ihre Vermutung: Gibt es einen Zusammenhang zwischen den Messdaten auf der x-Achse und auf der y-Achse?
Tatsächlich gibt es für alle Punktwolken - selbst bei Messungen mit dermaßen gestreuten Datenpunkten wie oben - eine OPTIMALE Gerade, die sogenannte [b]Regressionsgerade[/b]. Man nennt sie auch [b]Trendlinie[/b]; die Funktion wird oft als [b]Fitfunktion [/b]bezeichnet.[br][br]In diesem Arbeitsblatt werden Sie kennenlernen, wie man eine solche Regressionsgerade erhält.[br][br]Zuerst aber die Auflösung, welche Werte im Diagramm auf der x-Achse und der y-Achse aufgetragen sind:
Es scheint laut statistischer Auswertung einen Zusammenhang zwischen der Geburtenrate in einem [b]europäischen Land[/b] (jeder Punkt gehört zu einem Land) und der Anzahl der Storchenpaare in diesem Land zu geben.[br][br]Grob gesagt gibt das [b]R², das sogenannte Bestimmtheitsmaß[/b] an, wie viel Prozent der Streuung auf der einen Achse durch die Streuung auf der anderen Achse bestimmt ist. Oder mit anderen Worten: 37 % der Information auf der y-Achse (wie hoch ist die Geburtenrate in einem Europäischen Land?) kann aus der Information auf der x-Achse (wie viele Storchenpaar gibt es in diesem Land?) vorhergesagt werden.[br][br]Und umgangssprachlich ausgedrückt gibt der sogenannte [b]p-Wert [/b]an, bei wie viel Prozent solcher Messungen dieser statistische Zusammenhang durch [b]reinen Zufall[/b] verursacht worden wäre. Grob gesagt: Die Wahrscheinlichkeit, dass es in Wirklichkeit gar keinen Zusammenhang zwischen Geburten und Störchen gibt, ist unter 1 %![br][br]Welche Erklärung haben Sie für dieses erstaunliche Phänomen?
Je größer ein Land ist, desto größer ist tendenziell auch die Anzahl an Störchen, und desto höher ist auch die Geburtenrate. Extrem formuliert: In Luxemburg gibt es wenige Störche und wenige Geburten pro Jahr, da das Land sehr klein ist; in Deutschland gibt es - allein wegen der Größe des Landes und seiner Bevölkerungszahl - relativ viele Störche und eine recht hohe Geburtenrate.[br][br];-)
Ein Maß für die Güte einer Regressionsgeraden ist, wie stark diese Gerade von den Messpunkten abweicht. Die Abweichung [b]eines Punktes[/b] von der Geraden kann aber kein gutes Maß dafür sein. Es müssen [b]alle Punkte und deren Abstände[/b] berücksichtigt werden.
Da der Abstand, wenn er so berechnet wird, mal positiv und mal negativ sein kann (je nachdem ob der Punkt überhalb oder unterhalb der Geraden liegt), ist diese Summe jedoch kein gutes Maß für die Güte der Regression. Im schlimmsten Fall könnte es eine riesige Abweichung nach oben und eine zweite genauso große Abweichung nach unten geben. In der Summe würden sich diese beiden Abweichung aber aufheben.[br][br]Eine mathematische Strategie wäre, die [b]Beträge der Abstände[/b] zu addieren. Das führt aber bei der Optimierung zu Problemen. Einfacher ist es, die [b]Abstände zuerst zu quadrieren und dann zu addieren[/b]. Auch das Quadrieren sorgt ja dafür, dass nur positive Werte zusammengezählt werden.
[br][list=1][*]Aktivieren Sie die "Fehlerbalken" im folgenden Applet (s.u.).[/*][*]Lassen Sie sich eine "Test-Gerade" sowie die dazugehörigen "Abstandsquadrate" und die "Summe der Abstandsquadrate" anzeigen.[/*][*]Variieren Sie die Steigung a und den y-Achsenabschnitt b der Test-Geraden (y=ax+b), sodass die Summe der Abstandsquadrate möglichst klein wird.[/*][*]Lassen Sie sich die optimale Gerade, die sogennante "Regressionsgerade" sowie deren "Abstandsquadrate" und die "Summe der Abstandsquadrate" anzeigen und vergleichen Sie diese mit der von Ihnen erreichten Werte.[br][/*][/list]