312061 BI - Projekt: Multivariate Analyse 1 (Pj) (SoSe 2003)

Short comment

Contents, comment

Im Sommersemester 2003 biete ich zwei BI-Projekte an. Beide Projekte drehen sich um das Thema Multivariate Verfahren. Im ersten Projekt beschäftigen wir uns mit Verfahren, die in der Vorlesung behandelt wurden. Bei den Verfahren des zweiten Projektes betreten wir aus Sicht der Vorlesung Neuland. Jedes der beiden
Projekte besteht aus 5 Teilprojekten. Jedes der Teilprojekte wird von 3 Teilnehmern bearbeitet. Bei allen Teilprojekten sollen die interessierenden Verfahren so dargestellt werden, dass sie von einem interessierten Leser mit Vorbildung in Multivariaten Verfahren verstanden werden können. Somit sollte das Ziel des Verfahrens, die Vorgehensweise und natürlich auch der Output berücksichtigt werden. Beweise sind nicht nötig. Formeln werden aber sicher auftauchen. Außerdem soll an Hand von Datenbeispielen illustriert werden, wie man mit R die Verfahren anwenden kann. Ist ein Verfahren nicht in R implementiert sind, so sollte eine Funktion in R erstellt werden. Die Projektarbeiten müssen in LATEX erstellt werden. Mit LATEX und R werden zwei Programme benutzt, die kostenlos sind. In den ersten Veranstaltung am 25.4.2003 werden die Themen vergeben. Die Teilnehmer beider Projekte müssen an diesem Termin anwesend sein. In den nächsten Wochen beschäftigen wir uns dann zuerst mit R und mit LATEX. Wie bei jedem meiner Projekte gibt es eine Gemeinschaftsaufgabe, die von allen Projektgruppen bearbeitet werden muss. Diese Gemeinschaftsaufgabe ist eine Art Lockerungsübung, mit der man zeigen soll, dass man mit R und LATEX umgehen kann. Für die Gemeinschaftsaufgabe wird auch ein Papier erstellt. Dieses muss Mitte Juni abgegeben werden.

Gemeinschaftaufgabe

Viele Praktiker gehen im unverbundenen Zweistichprobenproblem mit stetigen Merkmalen folgendermaßen vor:
Zuerst überprüfen Sie, ob Normalverteilung unterstellt werden kann. Hierzu führen sie den K-S-Test auf Normalverteilung durch. Kann keine Normalverteilung unterstellt werden, so wenden sie den Wilcoxon-Rangsummentest an. Kann Normalverteilung unterstellt werden, so wird mit dem F-Test überprüft, ob die
Varianzen identisch sind. Lehnt der F-Test die Hypothese identischer Varianzen ab, so wird der Welch-Test durchgeführt. Ansonsten wird der t-Test durchgeführt.
Jede Gruppe der beiden Projekte soll in R eine Funktion zu schreiben, die diese Vorgehensweise automatisiert. Die Funktion erhält die beiden Datensätze als Input und führt alle Tests zum Niveau 0.05 durch. Sie liefert dem Benutzer Informationen über alle Tests, die angewendet wurden, und erzählt ihm natürlich auch, ob einUnterschied zwischen den beiden Gruppen besteht.
Die Funktion und alle statistischen Verfahren sollen in einem in LATEX erstellten Papier beschrieben werden. Außerdem soll die Funktion auf mindestens einen Datensatz angewendet werden. Der Fantasie sind natürlich keine Grenzen gesetzt. Man könnte also auch den vergleichenden Boxplot der beiden Stichproben erstellen. Ein Normal-Probality-Plot der standardisierten Merkmale ist auch bedenkenswert.
BI-Projekt MVA1

Teilprojekt 1: Hauptkomponentenanalyse

In R gibt es keine Funktion MSTREE, um einen minimalspannenden Baum zu erstellen. Diese soll in diesem Teilprojekt geschrieben werden.
Mit der von Hyvärinen und Oja entwickelten ICA (Independent Component Analysis) kann man interessante Projektionen im Sinne des Projection Pursuits finden.
Die Vorgehensweise der ICA soll dargestellt werden. Außerdem sollen Datensätze in R mir der ICA analysiert werden. Funktionen für die ICA sind im Package fastICA zu finden, das von http://lib.stat.cmu.edu/R/CRAN/src/contrib/PACKAGES.html
heruntergeladen werden kann.
Literatur:
Gower, J.C. and Ross, G.J.S. (1969). Minimum spanning trees and single linkage cluster analysis. Appl. Stat., 18: 54-64.
Hyvärinen, A., E. Oja (2000): Independent Component Analysis: algorithms and applications. Neural Networks13,S.411-430

Teilprojekt 2: Mehrdimensionale Skalierung

In R gibt es eine Reihe von Funktionen, mit denen eine nichtmetrische MDS durchgeführt werden kann. Es handelt sich um die Funktionen isoMDS, sammon und Shepard, die in der Bibliothek MASS zu finden sind. Die Verfahren sollen dargestellt werden. Außerdem sollen in R Datensätze mit diesen Verfahren analysiert werden.
Das Verfahren INDSCAL, mit dem die Bewertungen mehrerer Personen dargestellt werden können, soll beschrieben werden und in R implementiert werden.
Die Funktion procrustes zur Procrustes Analyse soll in R implementiert werden.
Literatur:
Cox, T.F., M.A.A. Cox((1994): Multidimensional scaling.
Davison, M.L.(1983): Multidimensional scaling.

Teilprojekt 3: Varianzanalyse

Oft wird bei der Analyse von zweidimensionalen Kontingenztabellen nicht berücksichtigt, dass eine oder sogar beide Variablen ordinales Messniveau besitzen. In diesem Fall sollte man den Kruskal-Wallis-Test und den Jonckheere-Test anwenden. Der Jonckheere-Test soll in R implementiert werden und beide Tests in R auf Kontingenztabellen angewendet werden. Wird bei einer einfaktoriellen Varianzanalyse die Nullhypothese identischer Verteilungen abgelehnt, so stellt sich die Frage, welche der Gruppen sich unterscheiden.
Hierzu kann man alle paarweisen Vergleiche durchführen. Eine Möglichkeit bietet das HSD-Verfahren von Tukey. Dieses ist in R in der Funktion TukeyHSD implementiert. Das HSD-Verfahren soll dargestellt werden. Außerdem soll Datensätze in R mit dem HSD-Verfahren analysiert werden.
Literatur:
Miller, R.P.G.(1981): Simultaneous statistical inference
Sprent,P., N.C. Smeeton (2001): Applied nonparametric statistical methods

Teilprojekt 4: Clusteranalyse

R bietet eine Reihe weiterer Verfahren zur hierarchischen Clusteranalyse in der Funktion hclust in der Bibliothek mva. Diese sollen dargestellt und in R auf Datensätze angewendet werden. Außerdem sollen aus der Bibliothek cluster von Rousseeuw die Verfahren pam, clara, agnes und mona dargestellt werden und mit diesen Verfahren Datensätze in R analysiert werden.
Literatur:
Everitt B.S., S. Landau, M. Leese (2001): Cluster analysis.
Kaufman, L., P.J. Rousseeuw (1990): Finding groups in data : an introduction to cluster analysis.

Teilprojekt 5: Diskriminanzanalyse

In der Bibliothek MASS gibt es die Funktionen lda und qda für die lineare und quadratische Diskriminanzanalyse. Mit diesen sollen auf Datensätze in R analysiert werden.
Es soll untersucht werden, welche Möglichkeiten die Funktion tree in der Bibliothek tree zur Erstellung von Klassifikationsbäumen bietet. Mit dieser Funktion sollen in R Datensätzen analysiert werden.
Außerdem soll das kNN -Verfahren beschrieben und in R mit der Funktion knn aus der Bibliothek class auf Datensätze angewendet werden.
Literatur:
Breiman, L., J. Friedman (1984): Classification and regression trees
Hastie T., R. Tibshirani, J. Friedman (2001): The elements of statistical learning : data mining, inference, and prediction

Teaching staff

Herr Dr. Andreas Handl

Dates ( Calendar view )

Frequency	Weekday	Time	Format / Place	Period
weekly	Fr	9-12	W9-109	22.04.-31.07.2003

Hide passed dates <<

Subject assignments

Degree programme/academic programme	Validity	Variant	Subdivision	Status	Semester	LP
Betriebswirtschaftslehre / Diplom	(Enrollment until SoSe 2005)		B4	Wahlpflicht		5	HS
Volkswirtschaftslehre / Diplom	(Enrollment until SoSe 2005)		WP03	Wahl		5	HS

No more requirements

No eLearning offering available

Address:: SS2003_312061@ekvv.uni-bielefeld.de; This address can be used by teaching staff, their secretary's offices as well as the individuals in charge of course data maintenance to send emails to the course participants. IMPORTANT: All sent emails must be activated. Wait for the activation email and follow the instructions given there.; If the reference number is used for several courses in the course of the semester, use the following alternative address to reach the participants of exactly this: VST_1060081@ekvv.uni-bielefeld.de
Notes:: Additional notes on the electronic mailing lists

Last update basic details/teaching staff:: Friday, December 11, 2015
Last update times:: Sunday, December 15, 2002
Last update rooms:: Sunday, December 15, 2002

Type(s) / SWS (hours per week per semester): project (Pj) / 3
Department: Faculty of Business Administration and Economics
Questions or corrections?: Questions or correction requests for this course?
Planning support: Clashing dates for this course
Links to this course: If you want to set links to this course page, please use one of the following links. Do not use the link shown in your browser!; The following link includes the course ID and is always unique:; https://ekvv.uni-bielefeld.de/kvv_publ/publ/vd?id=1060081
Send page to mobile: Click to open QR code
Scan QR code:
ECTS points: 5; (Also refer to the credit information in connection with the subject assignments)
ID: 1060081

Quick links

312061 BI - Projekt: Multivariate Analyse 1 (Pj) (SoSe 2003)

Short comment

Contents, comment

Teaching staff

Dates ( Calendar view )

Subject assignments

Requirement concretion

eLearning

Automatic electronic mailing list for the course

Changes to/updates of the course details

Others