Vorstellung von Methoden wie Prediction by Partial Matching (PPM),
Context Tree Weighting (CTW) und deren Derivate.
Zunächst wird die Frage behandelt: “Was ist Datenkompression?”
Dazu nähern wir uns dem Problem in 6 Schritten:
1. Betrachtung verschiedener Codes
2. Codieren auf Symbolen
3. Codieren auf Sequenzen von Symbolen
4. Codieren mit unbekannten Verteilungen
5. Codieren mit unbekannten Abhängigkeiten
6. Die Varianten PPM und CTW
1. Verschiedene Codes
• Wann haben wir gut komprimiert?
• Grundlegende Definitionen
– Symbole, Sequenzen, Bäume, Codes
• Eigenschaften verschiedener Codes
– Blockcodes, singuläre Codes, eindeutig dekodierbare Codes,
sofort dekodierbare Codes
– Prefixcodes, Huffman-Codes, fixfree-Codes, Shannon-Fano-Codes,
alphabetic Codes
• Existenz von Codes
– Kraftungleichung Prefix Codes, Kraftungleichung UDC, 3/4 -Vermutung
2. Codieren auf Symbolen
• Wahrscheinlichkeitsverteilung auf Symbolen
• durchschnittliche Codewortlänge
• Messen der Ungewissheit
– Shannon-Entropy,
I-Divergenz (Kullback-Leibler-Information), Renyi-Entropy
• Noiseless Coding Theorem (NCT)
3. Codieren auf Sequenzen
• Finalisierung Codieren auf Symbolen
– Codieren als injektive Abbildung, NCT mit Renyi-Entropy, Schranken
Symbolcodierung auf Sequenzen
• Shannon-Fano-Codes, arithmetic coding
• Verallgemeinerung der bisherigen Schranken z.b. H∞
4. unbekannte Verteilung
• Schätztheorie
– Krichevski-Trofimov estimator,
α-ary Dirichlet estimator
• Schranken mit geschätzter WV
5. unbekannte Abhängigkeiten
• Definition verschiedener Quellen
– i.i.d,
stationär ergodisch, Markov-Ketten,
CT-Sources, FSMX-Sources
• Konvergenzgeschwindigkeit der Schätzungen bei verschiedenen Quellen
6. Die Varianten PPM und CTW
• PPM auf Markov-Sources
• Die Varianten A, B, C, D, X
• CTW
• eine weitere Quellenbetrachtung
• PPMZ
Rhythmus | Tag | Uhrzeit | Format / Ort | Zeitraum |
---|
Studiengang/-angebot | Gültigkeit | Variante | Untergliederung | Status | Sem. | LP | |
---|---|---|---|---|---|---|---|
Bioinformatik und Genomforschung / Bachelor | (Einschreibung bis SoSe 2011) | Pflicht | |||||
Bioinformatik und Genomforschung / Bachelor | (Einschreibung bis SoSe 2011) | Spezielle Algorithmen; Angewandte Algorithmik | Pflicht | 4. | 4 | benotet | |
Bioinformatik und Genomforschung / Master | (Einschreibung bis SoSe 2012) | Individueller Ergänzungsb | Wahl | 2. 4. | 4 | unbenotet | |
Informatik / Bachelor | (Einschreibung bis SoSe 2011) | Nebenfach | Angewandte Algorithmik | Wahlpflicht | 6. | 4 | scheinfähig benotet/unbenotet |
Informatik für Geistes- und Sozialwissenschaftler/innen | A | ||||||
Intelligente Systeme / Master | (Einschreibung bis SoSe 2012) | Individuelle Ergänzung | Wahl | 2. 4. | 4 | unbenotet | |
Naturwissenschaftliche Informatik / Bachelor | (Einschreibung bis SoSe 2011) | Angewandte Algorithmik | Wahlpflicht | 6. | 4 | benotet | |
Naturwissenschaftliche Informatik / Diplom | (Einschreibung bis SoSe 2004) | allgem.HS | HS | ||||
Naturwissenschaftliche Informatik / Master | (Einschreibung bis SoSe 2012) | Angewandte Algorithmik | Wahlpflicht | 2. 4. | 4 | benotet | |
Naturwissenschaftliche Informatik / Master | (Einschreibung bis SoSe 2012) |
Vortrag ergibt 2 LP und schriftliche Ausarbeitung ergibt 2 LP.