################################################################################ # # Beispiel: Faktoren für Fehler bei einem Lesetest I # # Vorlesung Lineare Modelle (Helmut Küchenhoff) 6.5 - 7.05.2015 # Thema: Die lineare Hypothese # # data: Daten von 180 Kindern aus den 8 Klassen (3. und 4. Klassen Grundschule) # von Christa Kieferle (Pädagogik, LMU) # file: lesen.txt (auf der web Seite) # # contents: (1) Einlesen der Daten # (2) Modellbildung # (3) Lineare Hypothese # (4) neues Modell mit der linearer Restriktion # # last.modified: HK 5.5.2015 # ################################################################################ #### (1) Einlesen der Daten #################################################### # Einlesen der Daten lesen <- read.table('c:/d/lesen.txt', header = TRUE) # kurze Kontrolle head(lesen) with(lesen,plot(WieoftLesen,Fehlerzahl)) # Variablen: # Fehlerzahl - Anzahl von Fehlern von Schülern bei einem Test zu starken Verben # sex - Geschlecht (= 1 für männlich, =0 für weiblich) # WieoftLesen - Häufigkeit des sonstigen Lesens (Likertskala: Häufig=1 bis Nie=5) # Lesezeitmin - Leseförderzeit (Lesezeit in der Schule) # WieoftFern - Häufigkeit des Fernsehens (Likertskala: Häufig=1 bis Nie=5) # WieoftMusik - Häufigkeit des Musik hörens (Likertskala: Häufig=1 bis Nie=5) # WieoftWalk - Häufigkeit der benutzung des Walkmans (Likertskala: Häufig=1 bis Nie=5) # WieoftComp - Häufigkeit der Computernutzung (Likertskala: Häufig=1 bis Nie=5) # WieoftGame - Häufigkeit des Gameboy spielens (Likertskala: Häufig=1 bis Nie=5) # Jahrgang - Idikator für Jahrgang (=1 für 3. Klasse, =0 für 4. Klasse) # Klasse - Idikator für Klasse ### Damit es intuitiver wir, umkodierung: Nie = 0, Häufig = 5 lesen<-within(lesen, {WOL <- 5-WieoftLesen WOTV <- 5-WieoftFern WOM <- 5-WieoftMusik WOW <- 5-WieoftWalk WComp<- 5-WieoftComp WOG <- 5-WieoftGame}) ### Scatterplot mit einfacher Regressionsgerade with(lesen, plot(WOL,Fehlerzahl)) abline(lm(Fehlerzahl~WOL,data=lesen)) #### (2) Modellbildung ######################################################### # Zielgröße: Anzahl der Fehler bei einem Lesetest # potentielle Einflussgrößen: Geschlecht, Jahrgang, Leseförderzeit, # sonstiges Lesen, Häufigkeit des Gameboy spielens # und Jahrgang # Modell 1: großes Modell model1 <- lm(Fehlerzahl ~ sex + Jahrgang + Lesezeitmin + WOL + WOG + WOTV, data = lesen) summary (model1) ## R^2 = 0.3132 ### Overall test p= 3.068 e -12 signifikante Zusammenhänge ### residual standard error 7.852 ## (Schwankung unterberücksichtugung der Kovariablen ) ## -> beta_1 = 2.6 (*): Geschlechtsunterschied zwischen Mädchen und Jungen, # dh. die Jungen machen durchschnittlich 2.6 Fehler mehr als ein vergleichsbares # Mädchen #beta2= 6.25 #Geht das Kind in die Klasse 1 (entspricht 3. Klasse) , so steigt die Fehlerzahl im Mittel #um 6.25 Einheiten im Vergleich zu Klasse 0 (4.Klasse), bei Konstanthalten der restlichen Variablen. # -> beta_4 = -1.88 (*): Je haeufiger die Kinder sonstiges lesen, desto weniger # Fehler sind im Lesetest zu erwarten, mit jeder erhöhten Einheit auf der # Likertskala erhöht sich die Fehleranzahl um etwa 2; # p-wert = 0.00323 ### Grafische Darstellung durch Plots ### Bie der Darstellung des Zusammenhangs werden jeweils die ### anderen Einflussgrößen auf einen festen Wert gesetzt library(effects) plot(allEffects(model1)) ### besser mit einheitliche y- Skala plot(allEffects(model1),ylim=c(10,24)) #### (3) Lineare Hypothese ##################################################### library(car) ### (a) Gibt es einen Zusammenhang zwischen den Variablen WieoftLesen, WieoftGame, # WieoftFern und Fehleranzahl? # Formulierung als lineare Hypothese linearHypothesis(model1, c("WOL=0","WOG=0","WOTV=0")) #p-Wert 0.00059 # Null-Hypothese wird abgelehnt # -> H_0: Modell 1 = restringiertes Modell wurde abgelehnt, dh. WieoftLesen, # WieoftGame, WieoftFern stehen im Zusammenhang mit der Fehleranzahl im Lesetest ### Einzeln: linearHypothesis(model1,"WOL=0") ### p-wert entspricht t-test wert von obiger Auswertung 0.00323 # ### Overall - Hypothese linearHypothesis(model1,c("sex=0","Jahrgang=0","Lesezeitmin=0","WOL=0","WOG=0","WOTV=0")) ### p wert entspricht dem p-wert im Gesamtoutput ## Einfluss von Gameboy und TV gleich ? linearHypothesis(model1,"WOG=WOTV") ## Kein Unterschied erkennbar ## Einfluss des Lesens linearHypothesis(model1,c("Lesezeitmin=0","WOL=0")) ###Signifiknater Effekt ### Zur Interpretation sollten die Regressionskoeffizienten herangezoegne werden. ### Jetzt wir die andere Möglichkeit der Formulierung der Hypothese benutzt. ### Es werden 2 Modelle verglichen: erst gesamtmodell und dann unter der Nullhypothese #Modellvergleich zwichen Modell 1 und Modell 2 mittels ANOVA #model1:Fehlerzahl ~ sex + Jahrgang + Lesezeitmin + WieoftLesen + WieoftGame + WieoftFern #model2:Fehlerzahl ~ sex + Jahrgang + Lesezeitmin # Modell 2: kleines Modell model2 <- lm(Fehlerzahl ~ sex + Jahrgang + Lesezeitmin, data = lesen) summary(model2) anova(model1, model2) # # -> H_0: Modell 1 = Modell 2 wurde abgelehnt, dh. WieoftLesen, WieoftGame, # WieoftFern stehen im Zusammenhang mit der Fehleranzahl im Lesetest # p-wert wie bei linearHypothesis(model1, c("WOL=0","WOG=0","WOTV=0")) ### Ist der Einfluss von WieoftGame und WieoftTV auf die Fehlerzahl gleich ? #### neues Modell mit der linearer Restriktion # Bilde neue Variable für Häufigkeit von Fernsehen UND Gamboy spielen # beachte die neue Skala zwischen nie= 0 und häufig= 8 lesen$WOTVG = lesen$WOTV + lesen$WOG model3 <- lm(Fehlerzahl ~ sex + Jahrgang + Lesezeitmin + WOL + WOTVG, data = lesen) summary(model3) anova(model1,model3) ### p-Wert wie bei linearHypothesis(model1,"WOG=WOTV") linearHypothesis(model1, c("WieoftLesen=0","Lesezeitmin=0")) #p-Wert < alpha # -> H_0: Modell 1 = restringiertes Modell wurde abgelehnt, dh. WieoftLesen, # Lesezeitmin stehen im Zusammenhang mit der Fehleranzahl im Lesetest #### (4) neues Modell mit der linearer Restriktion # Bilde neue Variable für Häufigkeit von Fernsehen UND Gamboy spielen # beachte die neue Skala zwischen häufig=2 und nie=10 lesen$WieoftF_G = lesen$WieoftFern + lesen$WieoftGame # neues Modell mit linearer Restriktion model3 <- lm(Fehlerzahl ~ sex + Jahrgang + Lesezeitmin + WieoftLesen + Wieoft, data = lesen) summary(model3) # Vergleich mit usprünglichen Modell anova(model3, model1)