#Aufgabe 1 ########## # Datensatz laden Theater_0<-read.table("Theater.txt",header=TRUE) head(Theater_0) #(i) M0<-lm(Theater~., data=Theater_0) summary(M0) #-> Theater_Vorjahr als einzige nichtsignifikante Variable #-> großes Problem: Geschlecht wird nicht als Faktorvariable ausgegeben, sondern #wie eine stetige Größe behandelt [Faktorisierung: siehe Aufgabe 2] #(ii) M1<-lm(Theater~.-Theater_Vorjahr, data=Theater_0) #alternativ: M1<-update(M0, Theater~.-Theater_Vorjahr) summary(M1) #(iii) #M1 und M0 können durch anova verglichen werden anova(M1,M0) # M1 ist "sparsamer" als M0! Beim Übergang von M0 auf M1 geht nur # wenig Information verloren - die Residualstreuung wird nur geringfügig größer. #(P-Wert > 0.1, Nullhypothese, dass das kleinere Modell verwendet werden kann, # kann nicht verworfen werden, d.h. kleineres Modell M1 "angebrachter") # Daher kann bzw. sollte das volle Modell durch das reduzierte ersetzt werden # Fazit: M1 scheint sinnvoller als M0 zu sein #Aufgabe 2 ########## head(Theater_0$Geschl) #1,0,1,1 d.h. w,m,w,w (zur Veranschaulichung) #(i) Geschl_fac<- factor(Theater_0$Geschl, levels=c(0,1), labels=c("männl.", "weibl.") ) head(Geschl_fac) #zur Überprüfung summary(Geschl_fac) #Hier werden durch den summary()-Befehl die absoluten #Häufigkeiten der beiden Kategorien angezeigt. Dies entspricht auch table(Geschl_fac). #(ii) Theater_1 <- Theater_0 Theater_1$Geschl <- Geschl_fac head(Theater_1) M_neu<-lm(Theater~., data=Theater_1) summary(M_neu) #Interpretation: #Intercept:Durchschnittliche Theaterausgaben der Männer, wenn alle # anderen Variablen auf 0 gesetzt sind # #metr.Einflussgrößen: steigt die Variable (z.B.) Alter um eine Einheit, # so erhöhen sich die durchschnittlichen Ausgaben um # 0.398 Einheiten.Vorausgesetzt alle anderen Variablen bleiben gleich. #Geschlweibl: Beim Übergang auf die Kategorie weibl. ändern sich die # durchschnittlichen Ausgaben um 22.221. # Vorausgesetzt alle anderen Variablen bleiben gleich. #(iii) #Vermutung: # Da die Referenzkategorie geändert wurde, dreht sich das Vorzeichen beim # Koeffizienten für Geschlmännl. um. # Im neuen Intercept geht der Effekt von Geschlweibl. mit ein Theater_2 <- Theater_1 Theater_2$Geschl<-relevel(Geschl_fac, ref="weibl.") M_rel<-lm(Theater~., data=Theater_2) summary(M_rel) #Überprüfung der Vermutung: -127.22271+22.22059 # Geschlweibl. = - Geschlmännl. # Alter Intercept + Geschlweibl. = neuer Intercept #(iv) plot(Geschl_fac, Theater_2$Theater) #Boxplots für beide Kategorien boxplot(Theater_2$Theater~Geschl_fac) # weitere Möglichkeit, Boxplots zu erzeugen plot(Geschl_fac ~ Theater_2$Theater) #sog. Spinogramm # Interpretation: # weibliche Besucher gaben in diesem Jahr mehr Geld für Theater aus #Aufgabe 3 ########## #(i) #Vermutung: # Da Theater_Vorjahr nicht signifikant ist, ist davon auszugehen, dass die # Interaktion auch nicht signifikant ist # M_interac<-update(M_neu, .~.+Geschl_fac:Theater_Vorjahr) summary(M_interac) #Interpretation #Interaktionsterm hat keinen signifikanten Einfluss und auch die # Haupteffekte sind nicht (mehr) signifikant #(ii) M_log1<-lm(Theater~log(Alter)+log(Gehalt)+log(Kultur)+ log(Theater_Vorjahr)+Geschl_fac, data=Theater_1) #Response logarithmieren: M_log2<-update(M_log1, log(Theater)~.) M_sqrt<-update(M_neu, .~.+sqrt(Gehalt)) summary(M_log1) summary(M_log2) summary(M_sqrt) #Generell ist zu Beobachten, dass die Signifikanzen (t-Tests) der einzelnen #Variablen - je nach Modell - voneinander abweichen. #Vergleich der Modellfits mit dem Ausgangsmodell: # Die stärkste Modellverbesserung erhält man durch Hinzufügen der Wurzel von # Gehalt, ABER: Wie lässt sich diese interpretieren bzw. rechtfertigen # Man würde wohl zu M_log2 tendieren, da auch hierdurch R^2 verbessert wird. # Allerdings sind auch in diesem Modell die Koeffizienten eher schwer interpretierbar.