Σ ξ ζ       statistik-hilfe & info

statistik hilfe: Hintergrundwissen

Verteilungsgraphenfehler

Darstellungsfehler in Dichtegraphen

Auf dieser Seite werden die verbreiteten Darstellungsfehler in Dichtegraphen kurz besprochen. Die korrekten Darstellungen finden Sie in der Besprechung der Untersuchung auf Zufallsverteilung.

Für die nachfolgenden Betrachtungen werden beispielhaft Messdaten aus der Menge {0; 1; 2; 3; 4; 5} – mit dem Mittelwert xM=2 (binomial verteilt) – verwendet.

Dichte oder Verteilung

Oftmals wird begrifflich nicht zwischen Dichte und Verteilung unterschieden. Dichtegraphen geben die (relativen) Häufigkeiten von Zufallsgrößen an. Verteilungsgraphen stellen dagegen die Summe von Häufigkeiten – oder im stetigen Falle das Integral dieser 'Wahrscheinlichkeitsableitungen' – dar. Die hier besprochenen grafischen Darstellungen sind Dichtegraphen, die fast immer fälschlich als Verteilungsgraphen bezeichnet werden.

Das grundsätzliche Aussehen eines Dichtegraphen

Da alle zufallsbeeinflussten Daten um einen Mittelwert streuen und in der Nähe des Mittelwertes am Häufigsten auftreten, lassen sich stets Graphen derartiger Daten angeben, die die Häufigkeiten bestimmter Messwerte in Abhängigkeit vom Messwert darstellen. In den gestuften ('diskreten') Skalen aus Fragebögen treten nur bestimmte Messwerte auf. In physikalischen Messungen sind die Messdaten zumeist kontinuierlich ('stetig'). Diese stetigen Daten werden jedoch zu Klassen zusammengefasst und damit auch in ihrer Häufigkeit angebbar dargestellt. Ein derartiger Häufigkeitsgraph (fälschlich 'Verteilungsgraph') ist rechts dargestellt.

Der Graph ist jedoch schwer lesbar, denn er enthält nur einzelne Punktmarkierungen. Zur Verbesserung der Lesbarkeit werden üblicherweise die Messpunkte mit senkrechten Linien nach unten, oder noch deutlicher mit senkrechten Balken unter den Messpunkten versehen. Dabei dürfen die Balken einander nur dann berühren, wenn auch tatsächlich Messdaten kontinuierlich (also stetig) vorliegen. Für diskrete Daten, wie etwa jene aus einer Fragebogenskala, ist dieses nicht korrekt – es existieren schließlich keine Zwischendaten. Aus Darstellungsgründen wird dennoch zumeist der Balkenkontakt verwendet (dies ist also ein 'kosmetischer Fehler').

Verschobener Graph

Doch oftmals wird dann noch eine Verschiebung der Stützbalken vorgenommen. Im rechts dargestellten Graphen beginnen die Stüützbalken jeweils linksseitig an der Stützstelle und enden rechtssitig an der folgenden Stützstelle. Für das Messdatum '2' erstreckt sich der Balken beispielsweise über das Intervall [2; 3]. Damit interpretiert der Graph die Daten so, als ob eine Person, die in der Antwort auf eine Frage zwischen 2 und 3, eher zur 3 (also etwa 2,7) tendiert, eine Note 2 vergeben würde. Hier wird die Klassenmitte zur 2,5 verschoben.
Allgemein ist eine Verschiebung um die halbe Klassenbreite ein inhaltlicher Fehler.

Datenvergleich theoretischer und gemessener Daten

Die so dargestellten Häufigkeiten der Messdaten sollen mit den theoretisch zu erwartenden Häufigkeiten verglichen werden. Hierzu wird auch in der graphischen Darstellung der Vergleich dargestellt. Die theoretisch zu erwartenden Häufigkeiten folgen stets einer 'Glockenform', die dann oftmals mit dem Begriff 'Normalverteilung' belegt wird. Allerdings ist die hierfür verwendete GAUSS-Dichtefunktion (und ihr Integral, die -Verteilungsfunktion) nur für stetige Daten gültig! In diesem Zusammenhang werden stetige Daten zu Klassen zusammengefasst und damit in diskrete Daten verwandelt. Die hier links dargestellte Überlagerung des Häufigkeitsgraphen mit der GAUSS-Dichtefunktion ist also ein inhaltlicher Fehler. Richtig ist die Überlagerung mit einem diskreten Graphen, etwa dem einer binomialen Dichtefunktion.

Diese falsche Darstellung geht oftmals einher mit einer falschen Berechnung der Vergleichsdaten. Zwar lassen sich die Funktionswerte der erforderlichen diskreten (binomialen) Wahrscheinlichkeitsfunktion mittels der GAUSS-Dichtefunktion approximieren, doch werden die diskreten Daten in den meisten Fällen nur aus den nichtnegativen Zahlen entnommen. Die GAUSS-Dichtefunktion ist jedoch auf den reellen Zahlen (also auch den negativen Zahlen) definiert. Der rechts abgebildete Graph zeigt die auch noch für negative Daten errechneten Wahrscheinlichkeiten. Dies ist ein inhaltlicher Fehler.

Genauigkeit der Darstellung

Die Genauigkeit der Approximation einer diskreten Verteilung mittels der GAUSS-Dichtefunktion wird hier abschließend noch einmal dargestellt. Insbesondere in der Nähe des Mittelwertes ist die Abweichung zwischen beiden Datenmengen erkennbar.
Problematisch ist aber gerade eine Abweichung zwischen den beiden Graphen, denn die Datenabweichung wird als Entscheidungskriterium für die korrekte Zufallsverteilung der Daten verwendet!

$


Die Graphen wurden mit dem wunderbaren Mathematikprogramm Euler (EULER Math Toolbox) erstellt.