Weitere Daten:
Daten aus der Case-Study, welche wir im vorherigen Semester eingelesen und deskriptiv analysiert haben wollen wir nun mittels der induktiven Statistik näher untersuchen.
stargazer
Daten aus der Case-Study, welche wir im vorherigen Semester eingelesen und deskriptiv analysiert haben wollen wir nun mittels der induktiven Statistik näher untersuchen.
stargazer
Ziele des dritten Teils der Case Study:
Daten aus der Case-Study, welche wir im vorherigen Semester eingelesen und deskriptiv analysiert haben wollen wir nun mittels der induktiven Statistik näher untersuchen.
stargazer
Ziele des dritten Teils der Case Study:
Im vierten RTutor Problem Set beschäftigen Sie sich auch mit der linearen Regression zu einzelnen Ländern auf europäischer Ebene und im 5. und 6. Problem Set geht es um die Kausalität.
Wir laden die aus Teil 1 der Case-Study erstellten Datensätze:
library(tidyverse)library(stargazer)library(corrr)
# Daten einlesenbip_zeitreihe <- readRDS("../case-study/data/bip_zeitreihe.rds")gesamtdaten <- readRDS("../case-study/data/gesamtdaten.rds")# Zuerst wollen wir die Arbeitslosenquote, einen Dummy für Ostdeutschland und die Verschuldung im Verhältnis zum BIP pro Landkreisberechnengesamtdaten <- gesamtdaten %>% mutate(alo_quote = (total_alo / (erw+total_alo))*100, ost = as.factor(ifelse(bundesland_name %in% c("Brandenburg", "Mecklenburg-Vorpommern", "Sachsen", "Sachsen-Anhalt", "Thüringen"), 1, 0)), ost_name = ifelse(ost == 1, "Ostdeutschland", "Westdeutschland"), anteil_schulden = (Schulden_gesamt / bip)*100)bip_wachstum <- bip_zeitreihe %>% filter( nchar(Regionalschluessel) == 5) %>% group_by(Regionalschluessel) %>% arrange(Jahr) %>% mutate( bip_wachstum = 100*(bip - lag(bip)) / bip ) %>% ungroup() %>% filter( Jahr == 2017 ) %>% select(Regionalschluessel, bip_wachstum, Jahr)gesamtdaten <- left_join(gesamtdaten, bip_wachstum, by = "Regionalschluessel")
Wir hatten uns im letzten Semester bereits die Korrelation der einzelnen Variablen angeschaut und wollen diese Korrelationen noch einmal aufgreifen:
Wir hatten uns im letzten Semester bereits die Korrelation der einzelnen Variablen angeschaut und wollen diese Korrelationen noch einmal aufgreifen:
Bevor wir uns der Regressionsanalyse zuwenden schauen wir uns den Zusammenhang der unterschiedlichen Variablen erst visuell noch einmal an.
Wir hatten uns im letzten Semester bereits die Korrelation der einzelnen Variablen angeschaut und wollen diese Korrelationen noch einmal aufgreifen:
Bevor wir uns der Regressionsanalyse zuwenden schauen wir uns den Zusammenhang der unterschiedlichen Variablen erst visuell noch einmal an.
Hierdurch bekommen wir einen ersten Eindruck der Daten und werden auf mögliche Probleme aufmerksam, wie z.B. Multikolliniarität.
cor_alo_bip <- cor(gesamtdaten$alo_quote, gesamtdaten$bip_wachstum, use = "pairwise.complete.obs")gesamtdaten %>% ggplot(aes(x = bip_wachstum, y = alo_quote)) + geom_point() + labs( x = "Wachstum des BIP %", y = "Arbeitslosenquote in %", title = "Korrelation des BIP-Wachstums und der Arbeitslosenquote") + theme_minimal() + geom_text(x = 0.02, y =13, label = paste("r = ", as.character(round(cor_alo_bip,2))))
cor_alo_verschuldung <- cor(gesamtdaten$alo_quote, gesamtdaten$anteil_schulden,use = "pairwise.complete.obs")gesamtdaten %>% ggplot(aes(x = anteil_schulden, y = alo_quote)) + geom_point() + labs( x = "Anteil der Schulden am BIP in %", y = "Arbeitslosenquote in %", title = "Korrelation der öffentlichen Verschuldung und der Arbeitslosenquote") + theme_minimal() + geom_text(x = 0.02, y =13, label = paste("r = ", as.character(round(cor_alo_verschuldung,2))))
cor_alo_verschuldung <- cor(gesamtdaten$alo_quote, gesamtdaten$anteil_schulden,use = "pairwise.complete.obs")gesamtdaten %>% ggplot(aes(x = anteil_schulden, y = alo_quote)) + geom_point() + labs( x = "Anteil der Schulden am BIP in %", y = "Arbeitslosenquote in %", title = "Korrelation der öffentlichen Verschuldung und der Arbeitslosenquote") + theme_minimal() + geom_text(x = 0.02, y =13, label = paste("r = ", as.character(round(cor_alo_verschuldung,2))))
korrelationen <- gesamtdaten %>% select(bip_wachstum, anteil_schulden, alo_quote) %>% correlate() %>% # Korrelationen erzeugen rearrange() %>% # Sortieren nach Korrelation shave() # Oberen Teil der Tabelle abschneidenfashion(korrelationen)
## rowname bip_wachstum anteil_schulden alo_quote## 1 bip_wachstum ## 2 anteil_schulden -.13 ## 3 alo_quote -.15 .59
In empirischen Arbeiten wird meist auf die lineare Regression zurückgegriffen und nicht auf die Analyse von Korrelationen:
Zur weiteren Analyse wollen wir uns der linearen Regression bedienen:
yi=β0+β1xi+εi,i=1,…,N
Wobei wir die Arbeitslosenquote ( yi ) auf das BIP Wachstum ( xi ) regressieren.
bip <- lm(alo_quote ~ bip_wachstum, data = gesamtdaten)stargazer(bip, type = "html", header = FALSE, digits = 2, title = "Arbeitslosigkeit auf BIP-Wachstum", dep.var.labels=c("Alo-quote"), covariate.labels="BIP-Wachstum" )
Dependent variable: | |
Alo-quote | |
BIP-Wachstum | -0.17*** |
(0.05) | |
Constant | 5.93*** |
(0.23) | |
Observations | 399 |
R2 | 0.02 |
Adjusted R2 | 0.02 |
Residual Std. Error | 2.34 (df = 397) |
F Statistic | 9.41*** (df = 1; 397) |
Note: | *p<0.1; **p<0.05; ***p<0.01 |
Bitte fixieren Sie sich in ihrer Interpretation nicht auf das R²!
Interessanter: Der geschätze Koeffizient zum BIP-Wachstum
in höhe von 0,17.
Wie kann dieser Koeffizient interpretiert werden?
Interessanter: Der geschätze Koeffizient zum BIP-Wachstum
in höhe von 0,17.
Wie kann dieser Koeffizient interpretiert werden?
Eine um 1 Prozentpunkt höheres BIP Wachstum korrespondiert im Durchschnitt mit einer um 0,17 Prozentpunkte niedrigeren Arbeitslosenquote.
Interessanter: Der geschätze Koeffizient zum BIP-Wachstum
in höhe von 0,17.
Wie kann dieser Koeffizient interpretiert werden?
Eine um 1 Prozentpunkt höheres BIP Wachstum korrespondiert im Durchschnitt mit einer um 0,17 Prozentpunkte niedrigeren Arbeitslosenquote.
Wie kann die Konstante interpretiert werden?
Interessanter: Der geschätze Koeffizient zum BIP-Wachstum
in höhe von 0,17.
Wie kann dieser Koeffizient interpretiert werden?
Eine um 1 Prozentpunkt höheres BIP Wachstum korrespondiert im Durchschnitt mit einer um 0,17 Prozentpunkte niedrigeren Arbeitslosenquote.
Wie kann die Konstante interpretiert werden?
Die erwartete Arbeitslosenquote bei einem Wachstum von 0% liegt im Durchschnitt bei 5,93 Prozent.
Weitere wichtige Erkenntnis aus der Tabelle:
BIP-Wachstum
ist auf dem 1%-Niveau signifikantWoran kann dies gesehen werden?
Weitere wichtige Erkenntnis aus der Tabelle:
BIP-Wachstum
ist auf dem 1%-Niveau signifikantWoran kann dies gesehen werden?
Wie hoch ist die t-Statistik für unseren Koeffizienten BIP-Wachstum
?
Weitere wichtige Erkenntnis aus der Tabelle:
BIP-Wachstum
ist auf dem 1%-Niveau signifikantWoran kann dies gesehen werden?
Wie hoch ist die t-Statistik für unseren Koeffizienten BIP-Wachstum
?
Landkreise mit einem höheren BIP Wachstum könnten neue Unternehmen angesiedelt haben, welche neue Mitarbeiter brauchen. Daher würde ein entsprechend negativer Zusammenhang zwischen BIP-Wachstum und Arbeitslosenquote unseren Erwartungen entsprechen.
schulden <- lm(alo_quote ~ anteil_schulden, data=gesamtdaten)stargazer(schulden, type = "html", header = FALSE, digits = 2, title = "Arbeitslosigkeit auf Anteil der Schulden pro Landkreis", dep.var.labels=c("Alo-quote"), covariate.labels="Anteil der Schulden" )
Dependent variable: | |
Alo-quote | |
Anteil der Schulden | 0.25*** |
(0.02) | |
Constant | 3.37*** |
(0.16) | |
Observations | 397 |
R2 | 0.35 |
Adjusted R2 | 0.35 |
Residual Std. Error | 1.90 (df = 395) |
F Statistic | 215.18*** (df = 1; 395) |
Note: | *p<0.1; **p<0.05; ***p<0.01 |
Der geschätze Koeffizient zum Anteil der öffentlichen Schulden
lieg bei 0,25.
Wie kann dieser Koeffizient interpretiert werden?
Der geschätze Koeffizient zum Anteil der öffentlichen Schulden
lieg bei 0,25.
Wie kann dieser Koeffizient interpretiert werden?
Eine um 1 Prozentpunkt höhere Verschuldung korrespondiert im Durchschnitt mit einer um 0,25 Prozentpunkte höheren Arbeitslosenquote
Der geschätze Koeffizient zum Anteil der öffentlichen Schulden
lieg bei 0,25.
Wie kann dieser Koeffizient interpretiert werden?
Eine um 1 Prozentpunkt höhere Verschuldung korrespondiert im Durchschnitt mit einer um 0,25 Prozentpunkte höheren Arbeitslosenquote
Die Interpretation der Konstante wäre dann wie folgt:
Für einen Landkreis ohne Verschuldung wäre die erwartete Arbeitslosenquote im Durchschnitt bei 3,37 Prozent.
Der geschätze Koeffizient zum Anteil der öffentlichen Schulden
lieg bei 0,25.
Wie kann dieser Koeffizient interpretiert werden?
Eine um 1 Prozentpunkt höhere Verschuldung korrespondiert im Durchschnitt mit einer um 0,25 Prozentpunkte höheren Arbeitslosenquote
Die Interpretation der Konstante wäre dann wie folgt:
Für einen Landkreis ohne Verschuldung wäre die erwartete Arbeitslosenquote im Durchschnitt bei 3,37 Prozent.
Ein stark verschuldeter öffentlicher Haushalt hat potentiell weniger Gewerbeeinnahmen und da dort potentiell weniger Unternehmen vorhanden sind in denen Arbeitnehmer angestellt sein könnten.
yi=β0+β1xi1+β2xi2+...+βKxiK+εi,i=1,…,N
multi <- lm(alo_quote ~ anteil_schulden + bip_wachstum, data=gesamtdaten)stargazer(multi, type = "html", header = FALSE, digits = 2, title = "Arbeitslosigkeit auf Anteil Schulden und BIP-Wachstum", dep.var.labels=c("Alo-quote"), covariate.labels=c("Anteil der Schulden", "BIP-Wachstum") )
Dependent variable: | |
Alo-quote | |
Anteil der Schulden | 0.25*** |
(0.02) | |
BIP-Wachstum | -0.09* |
(0.04) | |
Constant | 3.71*** |
(0.24) | |
Observations | 397 |
R2 | 0.36 |
Adjusted R2 | 0.36 |
Residual Std. Error | 1.89 (df = 394) |
F Statistic | 110.18*** (df = 2; 394) |
Note: | *p<0.1; **p<0.05; ***p<0.01 |
Dependent variable: | |
Alo-quote | |
Anteil der Schulden | 0.25*** |
(0.02) | |
BIP-Wachstum | -0.09* |
(0.04) | |
Constant | 3.71*** |
(0.24) | |
Observations | 397 |
R2 | 0.36 |
Adjusted R2 | 0.36 |
Residual Std. Error | 1.89 (df = 394) |
F Statistic | 110.18*** (df = 2; 394) |
Note: | *p<0.1; **p<0.05; ***p<0.01 |
Durch die deskriptive Analyse wissen wir, dass es große Unterschiede zwischen ost- und westdeutschen Landkreisen gibt (und das in allen untersuchten Dimensionen).
Gilt der dokumentierte Zusammenhang zwischen dem Anteil der öffentlichen Verschuldung und der Arbeitslosenquote für Ost- und Westdeutschland gleichermaßen?
Durch die deskriptive Analyse wissen wir, dass es große Unterschiede zwischen ost- und westdeutschen Landkreisen gibt (und das in allen untersuchten Dimensionen).
Gilt der dokumentierte Zusammenhang zwischen dem Anteil der öffentlichen Verschuldung und der Arbeitslosenquote für Ost- und Westdeutschland gleichermaßen?
Um dieser Frage auf den Grund zu gehen wollen wir im ersten Schritt die Variable Ostdeutschland
in unserer Regression hinzufügen:
schulden <- lm(alo_quote ~ anteil_schulden + ost, data=gesamtdaten)stargazer(schulden, type = "html", header = FALSE, digits = 2, title = "Arbeitslosigkeit mit Interaktionstermen", dep.var.labels=c("Alo-quote"), covariate.labels=c("Anteil Schulden", "Ostdeutschland") )
Dependent variable: | |
Alo-quote | |
Anteil Schulden | 0.22*** |
(0.02) | |
Ostdeutschland | 2.02*** |
(0.23) | |
Constant | 3.20*** |
(0.15) | |
Observations | 397 |
R2 | 0.46 |
Adjusted R2 | 0.46 |
Residual Std. Error | 1.73 (df = 394) |
F Statistic | 169.06*** (df = 2; 394) |
Note: | *p<0.1; **p<0.05; ***p<0.01 |
Dependent variable: | |
Alo-quote | |
Anteil Schulden | 0.22*** |
(0.02) | |
Ostdeutschland | 2.02*** |
(0.23) | |
Constant | 3.20*** |
(0.15) | |
Observations | 397 |
R2 | 0.46 |
Adjusted R2 | 0.46 |
Residual Std. Error | 1.73 (df = 394) |
F Statistic | 169.06*** (df = 2; 394) |
Note: | *p<0.1; **p<0.05; ***p<0.01 |
Ostdeutschland
ist eine Dummyvariable, welche 1 ist für alle ostdeutschen LandkreiseDiese Regression beantwortet jedoch nicht genau unsere Frage!
Dafür müssen wir die Variable Ostdeutschlandmit der Variablen
Anteil Schulden` interagieren!
schulden <- lm(alo_quote ~ anteil_schulden + ost, data=gesamtdaten)ost <- lm(alo_quote ~ anteil_schulden, data=filter(gesamtdaten, ost==1))west <- lm(alo_quote ~ anteil_schulden, data=filter(gesamtdaten, ost==0))interaktion <- lm(alo_quote ~ anteil_schulden*ost, data=gesamtdaten)stargazer(schulden, interaktion, west, ost, type = "html", header = FALSE, digits = 2, title = "Arbeitslosigkeit mit Interaktionstermen", dep.var.labels=c("Alo-quote"), covariate.labels=c("Anteil Schulden", "Ostdeutschland", "Anteil Schulden * Ostdeutschland") )
Dependent variable: | ||||
Alo-quote | ||||
(1) | (2) | (3) | (4) | |
Anteil Schulden | 0.22*** | 0.24*** | 0.24*** | 0.05 |
(0.02) | (0.02) | (0.02) | (0.07) | |
Ostdeutschland | 2.02*** | 3.82*** | ||
(0.23) | (0.68) | |||
Anteil Schulden * Ostdeutschland | -0.18*** | |||
(0.07) | ||||
Constant | 3.20*** | 3.12*** | 3.12*** | 6.94*** |
(0.15) | (0.15) | (0.15) | (0.75) | |
Observations | 397 | 397 | 321 | 76 |
R2 | 0.46 | 0.47 | 0.41 | 0.01 |
Adjusted R2 | 0.46 | 0.47 | 0.41 | -0.01 |
Residual Std. Error | 1.73 (df = 394) | 1.72 (df = 393) | 1.66 (df = 319) | 1.95 (df = 74) |
F Statistic | 169.06*** (df = 2; 394) | 117.33*** (df = 3; 393) | 220.33*** (df = 1; 319) | 0.53 (df = 1; 74) |
Note: | *p<0.1; **p<0.05; ***p<0.01 |
Wie können Sie den Interaktionsterm interpretieren?
Wie können Sie den Interaktionsterm interpretieren?
Wie können Sie den Interaktionsterm interpretieren?
Dieses Ergebnis bekommen wir auch aus dem Interaktionsmodell!
→ Dummy Variable Ostdeutschland
und die Konstante aufaddieren: Ostdeutschland + Constant
= 3.82 + 3.12
= 6.94
!
Anteil Schulden * Ostdeutschland
→ Wenn wir uns den Zusammenhang für alle ostdeutschen Landkreise berechnen möchten, dann ergibt sich dieser als Anteil Schulden + Anteil Schulden * Ostdeutschland
= 0.24 + (-0.18)
= 0.06
Die westdeutschen Landkreise dienen uns hier überall als Basislevel!
Anteil Schulden * Ostdeutschland
→ Wenn wir uns den Zusammenhang für alle ostdeutschen Landkreise berechnen möchten, dann ergibt sich dieser als Anteil Schulden + Anteil Schulden * Ostdeutschland
= 0.24 + (-0.18)
= 0.06
Die westdeutschen Landkreise dienen uns hier überall als Basislevel!
Vorteil des Interaktionsmodells:
Durch das Interaktionsmodell nutzen wir eine Regression und verwenden den kompletten Datensatz, dadurch hat unsere Regression mehr Power um Effekte zu detektieren.
Kausale Antworten auf verschiedenste Fragen wollen wir in den folgenden Vorlesungseinheiten auf der Basis anderer Datensätze tätigen.
Was haben wir über die Arbeitslosenquote in Deutschland gelernt?
Im ersten Teil der Case Study hatten Sie sich noch die durchschnittlichen Einkommen auf Landkreisebene in R eingelesen und im zweiten Teil deskriptiv untersucht. Nun sollten Sie diese Tabelle mittels linearer Regression analysieren:
stargazer
in der Sie die Arbeitslosenquote auf die Einkommen für das Jahr 2017 regressieren.stargazer
und interpretieren Sie die Ergebnisse ihrer Regressionen.Weitere Daten:
Keyboard shortcuts
↑, ←, Pg Up, k | Go to previous slide |
↓, →, Pg Dn, Space, j | Go to next slide |
Home | Go to first slide |
End | Go to last slide |
Number + Return | Go to specific slide |
b / m / f | Toggle blackout / mirrored / fullscreen mode |
c | Clone slideshow |
p | Toggle presenter mode |
t | Restart the presentation timer |
?, h | Toggle this help |
Esc | Back to slideshow |