Im Sommersemester 2003 biete ich zwei BI-Projekte an. Beide Projekte drehen sich um das Thema Multivariate Verfahren. Im ersten Projekt beschäftigen wir uns mit Verfahren, die in der Vorlesung behandelt wurden. Bei den Verfahren des zweiten Projektes betreten wir aus Sicht der Vorlesung Neuland. Jedes der beiden
Projekte besteht aus 5 Teilprojekten. Jedes der Teilprojekte wird von 3 Teilnehmern bearbeitet. Bei allen Teilprojekten sollen die interessierenden Verfahren so dargestellt werden, dass sie von einem interessierten Leser mit Vorbildung in Multivariaten Verfahren verstanden werden können. Somit sollte das Ziel des Verfahrens, die Vorgehensweise und natürlich auch der Output berücksichtigt werden. Beweise sind nicht nötig. Formeln werden aber sicher auftauchen. Außerdem soll an Hand von Datenbeispielen illustriert werden, wie man mit R die Verfahren anwenden kann. Ist ein Verfahren nicht in R implementiert sind, so sollte eine Funktion in R erstellt werden. Die Projektarbeiten müssen in LATEX erstellt werden. Mit LATEX und R werden zwei Programme benutzt, die kostenlos sind. In den ersten Veranstaltung am 25.4.2003 werden die Themen vergeben. Die Teilnehmer beider Projekte müssen an diesem Termin anwesend sein. In den nächsten Wochen beschäftigen wir uns dann zuerst mit R und mit LATEX. Wie bei jedem meiner Projekte gibt es eine Gemeinschaftsaufgabe, die von allen Projektgruppen bearbeitet werden muss. Diese Gemeinschaftsaufgabe ist eine Art Lockerungsübung, mit der man zeigen soll, dass man mit R und LATEX umgehen kann. Für die Gemeinschaftsaufgabe wird auch ein Papier erstellt. Dieses muss Mitte Juni abgegeben werden.
Gemeinschaftaufgabe
Viele Praktiker gehen im unverbundenen Zweistichprobenproblem mit stetigen Merkmalen folgendermaßen vor:
Zuerst überprüfen Sie, ob Normalverteilung unterstellt werden kann. Hierzu führen sie den K-S-Test auf Normalverteilung durch. Kann keine Normalverteilung unterstellt werden, so wenden sie den Wilcoxon-Rangsummentest an. Kann Normalverteilung unterstellt werden, so wird mit dem F-Test überprüft, ob die
Varianzen identisch sind. Lehnt der F-Test die Hypothese identischer Varianzen ab, so wird der Welch-Test durchgeführt. Ansonsten wird der t-Test durchgeführt.
Jede Gruppe der beiden Projekte soll in R eine Funktion zu schreiben, die diese Vorgehensweise automatisiert. Die Funktion erhält die beiden Datensätze als Input und führt alle Tests zum Niveau 0.05 durch. Sie liefert dem Benutzer Informationen über alle Tests, die angewendet wurden, und erzählt ihm natürlich auch, ob einUnterschied zwischen den beiden Gruppen besteht.
Die Funktion und alle statistischen Verfahren sollen in einem in LATEX erstellten Papier beschrieben werden. Außerdem soll die Funktion auf mindestens einen Datensatz angewendet werden. Der Fantasie sind natürlich keine Grenzen gesetzt. Man könnte also auch den vergleichenden Boxplot der beiden Stichproben erstellen. Ein Normal-Probality-Plot der standardisierten Merkmale ist auch bedenkenswert.
BI-Projekt MVA1
Teilprojekt 1: Hauptkomponentenanalyse
In R gibt es keine Funktion MSTREE, um einen minimalspannenden Baum zu erstellen. Diese soll in diesem Teilprojekt geschrieben werden.
Mit der von Hyvärinen und Oja entwickelten ICA (Independent Component Analysis) kann man interessante Projektionen im Sinne des Projection Pursuits finden.
Die Vorgehensweise der ICA soll dargestellt werden. Außerdem sollen Datensätze in R mir der ICA analysiert werden. Funktionen für die ICA sind im Package fastICA zu finden, das von http://lib.stat.cmu.edu/R/CRAN/src/contrib/PACKAGES.html
heruntergeladen werden kann.
Literatur:
Gower, J.C. and Ross, G.J.S. (1969). Minimum spanning trees and single linkage cluster analysis. Appl. Stat., 18: 54-64.
Hyvärinen, A., E. Oja (2000): Independent Component Analysis: algorithms and applications. Neural Networks13,S.411-430
Teilprojekt 2: Mehrdimensionale Skalierung
In R gibt es eine Reihe von Funktionen, mit denen eine nichtmetrische MDS durchgeführt werden kann. Es handelt sich um die Funktionen isoMDS, sammon und Shepard, die in der Bibliothek MASS zu finden sind. Die Verfahren sollen dargestellt werden. Außerdem sollen in R Datensätze mit diesen Verfahren analysiert werden.
Das Verfahren INDSCAL, mit dem die Bewertungen mehrerer Personen dargestellt werden können, soll beschrieben werden und in R implementiert werden.
Die Funktion procrustes zur Procrustes Analyse soll in R implementiert werden.
Literatur:
Cox, T.F., M.A.A. Cox((1994): Multidimensional scaling.
Davison, M.L.(1983): Multidimensional scaling.
Teilprojekt 3: Varianzanalyse
Oft wird bei der Analyse von zweidimensionalen Kontingenztabellen nicht berücksichtigt, dass eine oder sogar beide Variablen ordinales Messniveau besitzen. In diesem Fall sollte man den Kruskal-Wallis-Test und den Jonckheere-Test anwenden. Der Jonckheere-Test soll in R implementiert werden und beide Tests in R auf Kontingenztabellen angewendet werden. Wird bei einer einfaktoriellen Varianzanalyse die Nullhypothese identischer Verteilungen abgelehnt, so stellt sich die Frage, welche der Gruppen sich unterscheiden.
Hierzu kann man alle paarweisen Vergleiche durchführen. Eine Möglichkeit bietet das HSD-Verfahren von Tukey. Dieses ist in R in der Funktion TukeyHSD implementiert. Das HSD-Verfahren soll dargestellt werden. Außerdem soll Datensätze in R mit dem HSD-Verfahren analysiert werden.
Literatur:
Miller, R.P.G.(1981): Simultaneous statistical inference
Sprent,P., N.C. Smeeton (2001): Applied nonparametric statistical methods
Teilprojekt 4: Clusteranalyse
R bietet eine Reihe weiterer Verfahren zur hierarchischen Clusteranalyse in der Funktion hclust in der Bibliothek mva. Diese sollen dargestellt und in R auf Datensätze angewendet werden. Außerdem sollen aus der Bibliothek cluster von Rousseeuw die Verfahren pam, clara, agnes und mona dargestellt werden und mit diesen Verfahren Datensätze in R analysiert werden.
Literatur:
Everitt B.S., S. Landau, M. Leese (2001): Cluster analysis.
Kaufman, L., P.J. Rousseeuw (1990): Finding groups in data : an introduction to cluster analysis.
Teilprojekt 5: Diskriminanzanalyse
In der Bibliothek MASS gibt es die Funktionen lda und qda für die lineare und quadratische Diskriminanzanalyse. Mit diesen sollen auf Datensätze in R analysiert werden.
Es soll untersucht werden, welche Möglichkeiten die Funktion tree in der Bibliothek tree zur Erstellung von Klassifikationsbäumen bietet. Mit dieser Funktion sollen in R Datensätzen analysiert werden.
Außerdem soll das kNN -Verfahren beschrieben und in R mit der Funktion knn aus der Bibliothek class auf Datensätze angewendet werden.
Literatur:
Breiman, L., J. Friedman (1984): Classification and regression trees
Hastie T., R. Tibshirani, J. Friedman (2001): The elements of statistical learning : data mining, inference, and prediction
Frequency | Weekday | Time | Format / Place | Period |
---|
Degree programme/academic programme | Validity | Variant | Subdivision | Status | Semester | LP | |
---|---|---|---|---|---|---|---|
Betriebswirtschaftslehre / Diplom | (Enrollment until SoSe 2005) | B4 | Wahlpflicht | 5 | HS | ||
Volkswirtschaftslehre / Diplom | (Enrollment until SoSe 2005) | WP03 | Wahl | 5 | HS |