Σ ξ ζ       statistik hilfe & info

statistik hilfe: Interpretation

Verteilung

Daten-Verteilung

Werden Messungen durchgeführt, so streuen die gemessenen Daten – auf Grund einer natürlichen Variation – stets um einen Mittelwert. Dabei wird eine Abweichung von einem Mittelwert um so weniger häufig, je weiter sie vom Mittelwert entfernt ist. Diese Aussage ist als 'zentraler Grenzwertsatz' bekannt.

Eine korrekte Messung ist daher allein durch die Verteilung der Daten erkennbar oder falsifizierbar. Dabei muss der Graf der Häufigkeiten der einzelnen gemessenen Daten einer Wahrscheinlichkeitsfunktion folgen und damit 'glockenförmig' aussehen. Von dieser Glockenform kann allerdings gelegentlich auch nur ein Teil sichtbar sein.

Die grafische Darstellung einer Verteilung

In der grafischen Darstellung einer Daten-Verteilung finden sich sinnvollerweise zwei Grafen. Zum Einen werden Balken (oder gelegentlich auch Datenpunkte) zur Angabe der Häufigkeit der gemessenen Daten angegeben. Darüber sollte die theoretisch zu erwartende Linie der Datenhäufigkeiten (hier blau) gelegt sein.

Durch diese Darstellung ist klar sichtbar, wie weit die Messungen von der Theorie abweichen. So ist etwa leicht erkennbar, ob bestimmte Messdaten besonders auffällig abweichen.

Auch kann noch ein Streubereich der Daten – in weiteren Linien – angegeben werden. Dieser Bereich kann durch die mindestens oder die maximal zu erwartenden Streuungen angegeben sein. Damit sind die zwei Hypothesen 'die Daten folgen einer Zufallsverteilung' oder 'die Daten folgen keiner Zufallsverteilung' grafisch darstellbar.

Achtung: Einige Statistik-Programme stellen die Verteilungen nicht korrekt dar oder benutzen falsche Bezüge. Erläuterungen hierzu finden sich hier.

Die mathematische Darstellung einer Verteilung

In der Datenanalyse wird eine Tabelle der gemessenen Häufigkeiten und der theoretisch zu erwartenden Datenhäufigkeiten angegeben.

Aus diesen Tabellendaten werden dann Prüfgrößen, wie etwa Χ ('Chi') oder auch die t-Test-Größe gebildet... Hierüber kann dann entschieden werden, ob die Daten der erwarteten Zufallsverteilung folgen.

Es existieren auch Schnelltestverfahren, die speziell für eine unzureichend große Datenanzahl verwendet werden.

Das Ergebnis ist dann 'die Daten sind zufällig verteilt', also sind die Daten korrekt erhoben worden – oder 'die Daten sind nicht zufällig verteilt', also sind die Daten fehlerhaft.

Diese Datenvergleichstabelle wird üblicherweise im Anhang eines Dokumentes angegeben.

Interpretationshinweise

Worin der Grund fehlerhafter Daten liegen mag, kann hier nur ansatzweise vermutet werden, es kommt auf den Einzelfall an. Der wichtigste Grund findet sich zumeist in einer viel zu kleinen Anzahl Messungen! Der Versuch wurde nicht ausreichend geplant. Aber auch Messfehler oder Datenmanipulation sind denkbar. Ein Lehrer, der bestimmte Noten an bestimmte Schüler manipulativ vergibt, ist in einer entsprechenden Verteilung erkennbar. Ebenso würden Sportler und Nichtsportler in einem Fitnesstest zu einer 'falschen' Datenverteilung führen. Die zwei Gruppen würden direkt zu einer 'zweihöckrigen' Verteilung führen.


Eine ausführliche Besprechung der Verfahren findet sich in meinem Lehrbuch Statistik und Wahrscheinlichkeit – leicht gemacht