Erfahren Sie, was eine einfache lineare Regression ist und wie sie funktioniert

Ein grundlegender statistischer Ansatz zur Analyse von quantitativen Daten

Mit freundlicher Genehmigung von Colin Broug, Fotograf. © 10. Juni 2010 Stock.xchng

Lineare Regressionsmodelle werden verwendet, um die Beziehung zwischen zwei Variablen oder Faktoren zu zeigen oder vorherzusagen. Der vorhergesagte Faktor (der Faktor, für den sich die Gleichung löst ) heißt: abhängige Variable. Die Faktoren, die verwendet werden, um den Wert der abhängigen Variablen vorherzusagen, werden die unabhängigen Variablen genannt.

Gute Daten erzählen nicht immer die komplette Geschichte. Die Regressionsanalyse wird üblicherweise in der Forschung verwendet, da sie feststellt, dass eine Korrelation zwischen Variablen besteht.

Korrelation ist jedoch nicht dasselbe wie Kausalität . Selbst eine Linie in einer einfachen linearen Regression, die zu den Datenpunkten passt, sagt vielleicht nichts über eine Ursache-Wirkungs-Beziehung aus.

In der einfachen linearen Regression besteht jede Beobachtung aus zwei Werten. Ein Wert ist für die abhängige Variable und ein Wert ist für die unabhängige Variable.

Einfaches lineares Regressionsmodell

Das einfache lineare Regressionsmodell wird wie folgt dargestellt: y = ( β 0 + β 1 + Ε

Nach mathematischer Konvention werden die beiden Faktoren, die an einer einfachen linearen Regressionsanalyse beteiligt sind, mit x und y bezeichnet .

Die Gleichung, die beschreibt, wie y mit x zusammenhängt, ist als Regressionsmodell bekannt . Das lineare Regressionsmodell enthält außerdem einen Fehlerausdruck, der durch Ε oder den griechischen Buchstaben Epsilon dargestellt wird. Der Fehlerausdruck wird verwendet, um die Variabilität von y zu berücksichtigen, die nicht durch die lineare Beziehung zwischen x und y erklärt werden kann .

Es gibt auch Parameter, die die untersuchte Population repräsentieren. Diese Parameter des Modells , die durch ( β 0+ β 1 x ) dargestellt werden.

Einfaches lineares Regressionsmodell

Die einfache lineare Regressionsgleichung wird wie folgt dargestellt: Ε ( y ) = ( β 0 + β 1 x ).

Die einfache lineare Regressionsgleichung wird als eine gerade Linie dargestellt.

( β 0 ist der y- Schnittpunkt der Regressionslinie.

β 1 ist die Steigung.

Ε ( y ) ist der mittlere oder erwartete Wert von y für einen gegebenen Wert von x .

Eine Regressionslinie kann eine positive lineare Beziehung, eine negative lineare Beziehung oder keine Beziehung zeigen. Wenn die grafische Linie in einer einfachen linearen Regression flach ist (nicht geneigt), gibt es keine Beziehung zwischen den beiden Variablen. Wenn die Regressionslinie mit dem unteren Ende der Linie am y- Schnittpunkt (Achse) des Graphen nach oben geneigt ist und das obere Ende der Linie sich aufwärts in das Graphikfeld erstreckt, existiert außerhalb des x- Schnittpunkts (Achse) eine positive lineare Beziehung . Wenn die Regressionslinie mit dem oberen Ende der Linie am y- Schnittpunkt (Achse) des Graphen nach unten abfällt und das untere Ende der Linie sich nach unten in das Graphikfeld erstreckt, existiert in Richtung des x- Schnittpunkts (Achse) eine negative lineare Beziehung.

Geschätzte lineare Regressionsgleichung

Wenn die Parameter der Population bekannt wären, könnte die einfache lineare Regressionsgleichung (siehe unten) verwendet werden, um den Mittelwert von y für einen bekannten Wert von x zu berechnen.

Ε ( y ) = ( β 0 + β 1 x ).

In der Praxis sind die Parameterwerte jedoch nicht bekannt, so dass sie unter Verwendung von Daten aus einer Stichprobe der Population geschätzt werden müssen. Die Populationsparameter werden anhand von Stichprobenstatistiken geschätzt . Die Stichprobenstatistik wird durch b 0 + b 1 dargestellt. Wenn die Stichprobenstatistik die Populationsparameter ersetzt, wird die geschätzte Regressionsgleichung gebildet.

Die geschätzte Regressionsgleichung ist unten gezeigt.

( ŷ ) = ( β 0 + β 1 x

( ŷ ) ist ausgesprochen y Hut .

Der Graph der geschätzten einfachen Regressionsgleichung wird als geschätzte Regressionslinie bezeichnet.

Der b 0 ist der y-Schnittpunkt.

Das b 1 ist die Steigung.

Der ŷ ) ist der geschätzte Wert von y für einen gegebenen Wert von x .

Wichtiger Hinweis: Die Regressionsanalyse wird nicht zur Interpretation von Ursache-Wirkungs-Beziehungen zwischen Variablen verwendet. Die Regressionsanalyse kann jedoch anzeigen, wie Variablen miteinander in Beziehung stehen oder inwieweit Variablen miteinander verknüpft sind.

Die Regressionsanalyse tendiert dazu, auffällige Beziehungen zu bilden, die einen kenntnisreichen Forscher näher untersuchen .

Auch bekannt als: bivariate Regression, Regressionsanalyse

Beispiele: Die Methode der kleinsten Quadrate ist ein statistisches Verfahren zur Verwendung von Stichprobendaten , um den Wert der geschätzten Regressionsgleichung zu finden. Die Methode der kleinsten Quadrate wurde von Carl Friedrich Gauß vorgeschlagen, der im Jahr 1777 geboren wurde und 1855 starb. Die Methode der kleinsten Quadrate ist noch weit verbreitet.

Quellen:

Anderson, DR, Sweeney, DJ und Williams, TA (2003). Grundlagen der Statistik für Wirtschaft und Volkswirtschaft (3. Aufl.) Mason, Ohio: Southwestern, Thompson Learning.

______. (2010). Erklärt: Regressionsanalyse. MIT Nachrichten.

McIntyre, L. (1994). Verwenden von Cigarettendaten für eine Einführung in die multiple Regression. Zeitschrift für Statistik Bildung, 2 (1).

Mendenhall, W., und Sincich, T. (1992). Statistik für Technik und die Wissenschaften (3. Aufl.), New York, NY: Dellen Publishing Co.

Panchenko, D. 18.443 Statistik für Anwendungen, Herbst 2006, Abschnitt 14, Einfache lineare Regression. (Massachusetts Institut für Technologie: MIT OpenCourseWare)