Reed-Solomon-Code
Reed-Solomon-Codes (kurz RS-Codes) sind eine Klasse von zyklischen Blockcodes und werden im Rahmen der Kanalkodierung zum Erkennen und Korrigieren von Übertragungs- oder Speicherfehlern als Teil einer Vorwärtsfehlerkorrektur eingesetzt. Sie bilden eine spezielle Unterklasse der allgemeinen Klasse der BCH-Codes. RS-Codes sind MDS-Codes, womit sie im Rahmen der Kodierungstheorie als optimale Codes gelten.
Reed-Solomon-Codes wurden um 1960 von Irving S. Reed und Gustave Solomon am MIT Lincoln Laboratory, einer Forschungseinrichtung des Verteidigungsministeriums der Vereinigten Staaten entwickelt.<ref name="irvi1"/> Zu dieser Zeit war die praktische Verwendbarkeit dieser Codes allerdings eingeschränkt, da keine effiziente Methode zur Decodierung bekannt war. Ein effizienter Decodieralgorithmus wurde 1969 von Elwyn Berlekamp und James Massey in Form des auch für BCH-Codes verwendbaren Berlekamp-Massey-Algorithmus vorgestellt.
Erste Anwendungen von RS-Codes war das Voyager-Programm der NASA im Jahr 1977. Erste kommerzielle Anwendung fanden RS-Codes 1982 im Rahmen der Fehlerkorrektur von Compact Disk. Heutige Anwendungen erstrecken sich über einen großen Bereich wie dem DVB-Standard zur Aussendung von digitalen Fernsehsignalen, in verschiedenen Mobilfunkstandards, im Digital Audio Broadcasting (DAB), und in Dateiformaten wie PAR2 zur Datenspeicherung. Weitere Anwendungsbeispiele sind zweidimensionale Barcodes; so setzen z. B. der QR-Code, DataMatrix, Aztec-Code und der PDF417 Reed-Solomon zur Fehlerkorrektur von Lesefehlern ein. In neueren Anwendungsbereichen werden RS-Codes zunehmend durch leistungsfähigere Codes wie die Low-Density-Parity-Check-Codes (LDPC) oder Turbo-Codes (TPC) abgelöst, wie dies beispielsweise im Fernsehstandard DVB-S2 der Fall ist, welcher LDPC zur Vorwärtsfehlerkorrektur einsetzt.
Inhaltsverzeichnis
Motivation
Es soll eine Nachricht aus <math>k</math> Zahlen (zum Beispiel ein Textfragment in ASCII-Kodierung) fehlerfrei übertragen werden. Auf dem Übertragungsweg kann es aber zur Auslöschung oder Verfälschung einiger der Zahlen kommen (im ersten Fall weiß man, dass ein Fehler auftrat, im zweiten nicht). Um nun Redundanz zur Nachricht hinzuzufügen, werden die Zahlen der Nachricht als Werte eines Polynoms an <math>k</math> fest vereinbarten Stützstellen interpretiert. Ein Polynom des Grades <math>k-1</math> oder kleiner kann als Summe von <math>k</math> Monomen dargestellt werden. Die Koeffizienten dieser Monome ergeben sich als Lösung eines linearen Gleichungssystems. Aufgrund der speziellen Form dieses Systems gibt es eine Lösungsformel, die Lagrange-Interpolation. Das so erhaltene Polynom wird nun auf weitere Stützstellen extrapoliert, so dass die kodierte Nachricht insgesamt aus <math>n>k</math> Zahlen besteht.
Werden bei der Übertragung nun einige wenige Zahlen ausgelöscht, so dass immer noch mehr als <math>k</math> der Zahlen erhalten bleiben, so kann das Polynom wiederum durch Interpolation aus den korrekt übertragenen Zahlen rekonstruiert werden, und damit auch die ursprüngliche Nachricht durch Auswerten in den ersten <math>k</math> Stützstellen. Im Falle einer fehlerbehafteten Übertragung mit Fehlern an nur wenigen Stellen kann mit einem etwas komplizierteren Ansatz immer noch die ursprüngliche Nachricht sicher rekonstruiert werden.
Die in der Interpolation auftretenden Ausdrücke enthalten Divisionen, müssen also über einem Körper durchgeführt werden. Werden die Zahlen – oder Symbole – der Nachricht aus den ganzen Zahlen gewählt, so finden die Rechnungen also in den rationalen Zahlen statt. Außerdem können die extrapolierten Werte sehr groß werden, was eventuell im vorliegenden Übertragungskanal nicht übermittelt werden kann. Um diese Nachteile zu beheben, führt man die Rechnungen in einem endlichen Körper durch. Dieser hat eine endliche Anzahl von Elementen, die durchnummeriert werden können, um sie mit den Symbolen der Nachricht zu verknüpfen. Die Division – außer durch Null – ist uneingeschränkt durchführbar, und somit auch die Interpolation.
Reed-Solomon-Codes sind zur Korrektur von Burstfehlern bei der Datenübertragung geeignet. Bei Burstfehlern erscheinen fehlerhafte („gekippte“) Bits häufig als eine zusammenhängende Kette von Fehlern im Datenstrom. Beispielsweise werden durch einen Kratzer auf einer CD mit jeder Umdrehung viele aufeinanderfolgende Bits nicht richtig gelesen.
Definition
Sei <math>\mathbb F_p</math> ein endlicher Körper mit <math>p</math> Elementen (<math>p=q^m</math> ist dann notwendigerweise eine Primzahlpotenz, <math>q</math> prim). Es werden nun <math>n</math> paarweise verschiedene Elemente <math>u_1,\dots,u_n\in\mathbb F_p</math> ausgewählt und fixiert.
Die Menge der Kodewörter eines Reed-Solomon-Codes <math>\text{RS}(p,k,n)</math> der Länge <math>n</math> für Nachrichten der Länge <math>k</math> über <math>\mathbb F_p</math> ergibt sich nun durch die Wertetupel aller Polynome aus <math>\mathbb F_p[x]</math> mit Grad kleiner <math>k</math> an den gewählten Stützstellen:
- <math>C=\left\{
a=(a_1,\dots,a_n)\in\mathbb F_p{}^n \;\Big|\; a_j=f(u_j),\;j=1,\dots,n;\ \mathsf{wobei}\ f\in\mathbb F_p[x]\ \mathsf{mit}\ \deg(f)<k
\right\}</math>
Stützstellenmengen
RS-Codes zu verschiedenen zulässigen Stützstellenmengen sind linear isomorph. Die bijektive lineare Abbildung, die die Isomorphie vermittelt, ergibt sich durch Lagrange-Interpolation bezüglich der ersten Stützstellenmenge und Auswertung in der zweiten Stützstellenmenge. Dabei werden im ersten Schritt Kodewörter in Polynome kleiner <math>k</math>-ten Grades umgewandelt, so dass der zweite Schritt wieder ein Kodewort ergibt.
Ist <math>\alpha\in \mathbb F_p</math> ein Element der Ordnung <math>n</math> oder größer, so kann zum Beispiel
- <math>u_1=1,\,u_2=\alpha,\,\dots,u_j=\alpha^{j-1},\dots,u_n=\alpha^{n-1}</math>
gewählt werden. Jeder endliche Körper enthält ein erzeugendes oder primitives Element der multiplikativen Gruppe <math>\mathbb F_p{}^*=\mathbb F_p\setminus\{0\}</math>, das heißt ein Element der Ordnung <math>p-1</math>. Daher ist diese spezielle Wahl für <math>n=p-1</math> immer möglich.
Sind die Stützstellen genau die Potenzen <math>u_1=1,\;u_j=\alpha^{j-1}\ne 1,\;j=2,\dots,n,</math> eines Elementes <math>\alpha\in\mathbb F_p</math> der Ordnung <math>n</math>, <math>\alpha^n=1</math>, so ist der RS-Kode ein zyklischer Code. Denn das Kodewort zum Polynom <math>f_j(x)=f(\alpha^jx)</math> ergibt sich durch Rotation des Kodewortes zu <math>f(x)</math> um <math>j</math> Stellen nach links. Wegen der einfacheren Implementierbarkeit zyklischer Codes wird diese Variante im Allgemeinen bevorzugt.
Kodieren von Nachrichten
Man kann eine Nachricht <math>(a_1,a_2,\dots,a_k)\in\mathbb F_p{}^k</math> direkt in ein Kodewort verwandeln, indem man die Komponenten als Koeffizienten eines Polynoms
- <math>f(x)=a_1 + a_2\,x + a_3\,x^2 + \dots + a_k\,x^{k-1} = \sum_{i=1}^k a_i\,x^{i-1} \in\mathbb F_p[x]</math>
einsetzt und dieses an den Stützstellen auswertet. Es ergibt sich damit ein Kodewort
- <math>c=(c_1,c_2,\dots,c_n)=\Big(f(u_1),f(u_2),\dots,f(u_n)\Big)\in\mathbb F_p{}^n</math>
der Länge <math>n</math>.
Man erhält eine systematische Kodierung, in der die Nachricht in den ersten <math>k</math> Komponenten im „Klartext“ enthalten ist, durch eine vorbereitende Transformation der Nachricht. Das zum Kodewort führende Polynom <math>f(x)</math> ergibt sich hier als Interpolationspolynom der Paare
- <math>\Big((u_1,a_1),\,(u_2,a_2),\,\ldots,\,(u_k,a_k)\Big)</math>,
nach der Formel der Lagrange-Interpolation also
- <math>f(x)=\sum_{j=1}^k \left( a_j \cdot \prod_{i\ne j}^n\frac{x-u_i}{u_j-u_i} \right) </math>.
Wegen <math>f(u_j)=a_j</math> für <math>j=1,\dots,k</math> ergibt sich aus <math>f(x)</math> das Kodewort
- <math>c=(c_1,c_2,\dots,c_n)=\Big(a_1,a_2,\ldots,a_k,f(u_{k+1}),\dots,f(u_n)\Big)</math>.
Beide Varianten benutzen dieselbe Menge von Kodewörtern und haben damit dieselben Fehlerkorrektureigenschaften.
Eigenschaften
Durch die Definition ergeben sich sofort folgende Eigenschaften:
- Codewortlänge: <math>n</math>
- Dimension des Codes: <math>|C|=|f|=q^k</math>
- Coderate: <math>R_c=k/n</math>
Die Mindestdistanz beträgt <math>d_\text{min}=n-k+1</math> und erfüllt damit die Singleton-Schranke. Codes mit dieser Eigenschaft werden auch MDS-Codes genannt.
- Erklärung
- Da <math>f</math> maximal <math>k-1</math> Nullstellen besitzen kann (durch den Grad des Polynoms beschränkt), tauchen im korrespondierenden Codewort maximal <math>k-1</math> Stellen auf, die zu 0 werden. Damit ist das Hamming-Gewicht <math>wt(C) \geqq n-k+1</math> und somit wegen der Linearität auch die Minimaldistanz.
- Zusammen mit der Singleton-Schranke <math>d_\text{min} \leqq n-k+1</math> ergibt sich die Gleichheit.
Literatur
- Stephen B. Wicker, Vijay K. Bhargava: Reed Solomon Codes Applications. Wiley, 1999, ISBN 978-0-78-035391-6.
Einzelnachweise
<references> <ref name="irvi1">Irving S. Reed, Gustave Solomon: Polynomial codes over certain finite fields. In: Journal of the Society for Industrial and Applied Mathematics, SIAM J.. 8, 1960, ISSN 0036-1399, S. 300–304.</ref> </references>
Weblinks
- Kodier- und Dekodieralgorithmen für Reed-Solomon- und andere Kodes in C (Robert Morelos-Zaragoza) (en)
- Interaktive Darstellung des Grundgedankens (Uni Paderborn)
- Skript der Uni Paderborn mit Schwerpunkt RS-Kodes (PDF-Datei; 739 kB)
- James S. Plank: A Tutorial on Reed-Solomon Coding for Fault-Tolerance in RAID-like Systems, Software – Practice & Experience, 27(9), September, 1997, S. 995-1012