Корректирующий код

Корректирующий код (также помехоустойчивый код) — код, предназначенный для обнаружения и исправления ошибок.

Основная техника — добавление при записи (передаче) в полезные данные специальным образом структурированной избыточной информации (например, контрольного числа), а при чтении (приёме) использование такой избыточной информации для обнаружения и исправления ошибки. Число ошибок, которое можно исправить, ограничено и зависит от конкретного применяемого кода.

Коды обнаружения ошибок (которые могут только установить факт ошибки) принадлежат к тем же классам кодов, что и коды, исправляющие ошибки. Фактически любой код, исправляющий ошибки, может быть также использован для обнаружения ошибок (при этом он будет способен обнаружить бо́льшее число ошибок, чем был способен исправить). Коды, исправляющие ошибки, применяются в системах цифровой связи, в том числе: спутниковой, радиорелейной, сотовой, передаче данных по телефонным каналам, а также в системах хранения информации, в том числе магнитных и оптических. Коды, обнаруживающие ошибки, применяются в сетевых протоколах различных уровней.

По способу работы с данными коды, исправляющие ошибки, делятся на блоковые➤, делящие информацию на фрагменты постоянной длины и обрабатывающие каждый из них в отдельности, и свёрточные➤, работающие с данными как с непрерывным потоком.

Блоковые коды

Блоковый код, разбивающий информацию на фрагменты длиной $k$ бит и преобразующий их в кодовые слова длиной $n$ бит обычно обозначают $(n,\;k)$ ; при этом число $R={\frac {k}{n}}$ называется скоростью кода. Если исходные $k$ бит код оставляет неизменными, и добавляет $n-k$ проверочных, такой код называется систематическим, иначе — несистематическим.

Задать блоковый код можно по-разному, в том числе таблицей, где каждой совокупности из $k$ информационных бит сопоставляется $n$ бит кодового слова. Однако хороший код должен удовлетворять как минимум следующим критериям:

способность исправлять как можно большее число ошибок,
как можно меньшая избыточность,
простота кодирования и декодирования.

Приведённые требования в общем случае противоречат друг другу, поэтому существует большое количество кодов, каждый из которых пригоден для определённого круга задач. Практически все используемые коды являются линейными, это связано с тем, что нелинейные коды значительно сложнее исследовать, и для них трудно обеспечить приемлемую лёгкость кодирования и декодирования.

Линейные коды общего вида

Линейный блоковый код — такой код, что множество его кодовых слов образует $k$ -мерное линейное подпространство $C$ в $n$ -мерном линейном пространстве, изоморфное пространству $k$ -битных векторов.

Это значит, что операция кодирования соответствует умножению исходного $k$ -битного вектора на невырожденную матрицу $G$ , называемую порождающей матрицей.

Для ортогонального по отношению к $C$ подпространства $C^{\perp }$ и матрицы $H$ , задающей базис этого подпространства, и для любого вектора ${\overrightarrow {v}}\in C$ справедливо:

{\overrightarrow {v}}H^{T}={\overrightarrow {0}}

.

Минимальное расстояние и корректирующая способность

Расстоянием Хэмминга (метрикой Хэмминга) между двумя кодовыми словами ${\overrightarrow {u}}$ и ${\overrightarrow {v}}$ называется количество отличных бит на соответствующих позициях:

d_{H}({\overrightarrow {u}},\;{\overrightarrow {v}})=\sum _{s}{|u^{(s)}-v^{(s)}|}

.

Минимальное расстояние Хэмминга $d_{\min }=\min _{u\neq v}d_{H}({\overrightarrow {u}},\;{\overrightarrow {v}})$ является важной характеристикой линейного блокового кода. Она показывает, насколько «далеко» расположены коды друг от друга. Она определяет другую, не менее важную характеристику — корректирующую способность:

t=\left\lfloor {\frac {d_{\min }-1}{2}}\right\rfloor

.

Корректирующая способность определяет, сколько ошибок передачи кода (типа $1\leftrightarrow 0$ ) можно гарантированно исправить. То есть вокруг каждого кодового слова $A$ имеем $t$ -окрестность $A_{t}$ , которая состоит из всех возможных вариантов передачи кодового слова $A$ с числом ошибок ( $1\leftrightarrow 0$ ) не более $t$ . Никакие две окрестности двух любых кодовых слов не пересекаются друг с другом, так как расстояние между кодовыми словами (то есть центрами этих окрестностей) всегда больше двух их радиусов $d_{H}(A,\;B)\geqslant d_{\min }>2t$ .

Таким образом, получив искажённую кодовую комбинацию из $A_{t}$ , декодер принимает решение, что исходной была кодовая комбинация $A$ , исправляя тем самым не более $t$ ошибок.

Например, при наличии всего двух кодовых слов $A$ и $B$ с расстоянием Хэмминга между ними, равным 3, ошибка в одном бите слова $A$ может быть исправлена, так как даже в этом случае принятое слово ближе к кодовому слову $A$ , чем к $B$ . Но если каналом были внесены ошибки в двух битах (в которых $A$ отличалось от $B$ ), то результат ошибочной передачи $A$ окажется ближе к $B$ , чем $A$ , и декодер примет решение, что передавалось слово $B$ .

Коды Хэмминга

Коды Хэмминга — простейшие линейные коды с минимальным расстоянием 3, то есть способные исправить одну ошибку. Код Хэмминга может быть представлен в таком виде, что синдром:

{\overrightarrow {s}}={\overrightarrow {r}}H^{T}

,

где ${\overrightarrow {r}}$ — принятый вектор, будет равен номеру позиции, в которой произошла ошибка. Это свойство позволяет сделать декодирование очень простым.

Общий метод декодирования линейных кодов

Любой код (в том числе нелинейный) можно декодировать с помощью обычной таблицы, где каждому значению принятого слова ${\overrightarrow {r}}_{i}$ соответствует наиболее вероятное переданное слово ${\overrightarrow {u}}_{i}$ . Однако данный метод требует применения огромных таблиц уже для кодовых слов сравнительно небольшой длины.

Для линейных кодов этот метод можно существенно упростить. При этом для каждого принятого вектора ${\overrightarrow {r}}_{i}$ вычисляется синдром ${\overrightarrow {s}}_{i}={\overrightarrow {r}}_{i}H^{T}$ . Поскольку ${\overrightarrow {r}}_{i}={\overrightarrow {v}}_{i}+{\overrightarrow {e}}_{i}$ , где ${\overrightarrow {v}}_{i}$ — кодовое слово, а ${\overrightarrow {e}}_{i}$ — вектор ошибки, то ${\overrightarrow {s}}_{i}={\overrightarrow {e}}_{i}H^{T}$ . Затем с помощью таблицы по синдрому определяется вектор ошибки, с помощью которого определяется переданное кодовое слово. При этом таблица получается гораздо меньше, чем при использовании предыдущего метода.

Линейные циклические коды

Несмотря на то, что декодирование линейных кодов значительно проще декодирования большинства нелинейных, для большинства кодов этот процесс всё ещё достаточно сложен. Циклические коды, кроме более простого декодирования, обладают и другими важными свойствами.

Циклическим кодом является линейный код, обладающий следующим свойством: если ${\overrightarrow {v}}$ является кодовым словом, то его циклическая перестановка также является кодовым словом.

Слова циклического кода удобно представлять в виде многочленов. Например, кодовое слово ${\overrightarrow {v}}=(v_{0},\;v_{1},\;\ldots ,\;v_{n-1})$ представляется в виде полинома $v(x)=v_{0}+v_{1}x+\ldots +v_{n-1}x^{n-1}$ . При этом циклический сдвиг кодового слова эквивалентен умножению многочлена на $x$ по модулю $x^{n}-1$ .

Чаще всего используются двоичные циклические коды (то есть $v_{0},\;v_{1},\;\ldots$ могут принимать значения 0 или 1).

Порождающий многочлен

Можно показать, что все кодовые слова конкретного циклического кода кратны определённому порождающему (генераторному) многочлену $g(x)$ . Порождающий многочлен является делителем $x^{n}-1$ .

С помощью порождающего многочлена осуществляется кодирование циклическим кодом. В частности:

несистематическое кодирование осуществляется путём умножения кодируемого вектора на $g(x)$ : $v(x)=u(x)g(x)$ ;
систематическое кодирование осуществляется путём «дописывания» к кодируемому слову остатка от деления $x^{n-k}u(x)$ на $g(x)$ , то есть $v(x)=x^{n-k}u(x)+[x^{n-k}u(x)\,{\bmod {\,}}g(x)]$ .

Коды CRC

Коды CRC (англ. cyclic redundancy check — циклическая избыточная проверка) являются систематическими кодами, предназначенными не для исправления ошибок, а для их обнаружения. Они используют способ систематического кодирования, изложенный выше: «контрольная сумма» вычисляется путём деления $x^{n-k}u(x)$ на $g(x)$ . Ввиду того, что исправление ошибок не требуется, проверка правильности передачи может производиться точно так же.

Таким образом, вид многочлена $g(x)$ задаёт конкретный код CRC. Примеры наиболее популярных полиномов:

Название кода	Степень	Полином
CRC-12	12	$x^{12}+x^{11}+x^{3}+x^{2}+x+1$
CRC-16	16	$x^{16}+x^{15}+x^{2}+1$
CRC-CCITT	16	$x^{16}+x^{12}+x^{5}+1$
CRC-32	32	$x^{32}+x^{26}+x^{23}+x^{22}+x^{16}+x^{12}+x^{11}+x^{10}+x^{8}+x^{7}+x^{5}+x^{4}+x^{2}+x+1$

Коды БЧХ

Коды Боуза — Чоудхури — Хоквингема (БЧХ) являются подклассом циклических кодов. Их отличительное свойство — возможность построения кода БЧХ с минимальным расстоянием не меньше заданного. Это важно, потому что, вообще говоря, определение минимального расстояния кода есть очень сложная задача.

Коды коррекции ошибок Рида — Соломона

Коды Рида — Соломона — недвоичные циклические коды, позволяющие исправлять ошибки в блоках данных. Элементами кодового вектора являются не биты, а группы битов (блоки). Очень распространены коды Рида-Соломона, работающие с байтами (октетами).

Математически коды Рида — Соломона являются кодами БЧХ.

Преимущества и недостатки блоковых кодов

Хотя блоковые коды, как правило, хорошо справляются с редкими, но большими пачками ошибок, их эффективность при частых, но небольших ошибках (например, в канале с АБГШ), менее высока.

Свёрточные коды

Свёрточные коды, в отличие от блоковых, не делят информацию на фрагменты и работают с ней как со сплошным потоком данных. Такие коды, как правило, порождаются дискретной линейной инвариантной во времени системой. Поэтому, в отличие от большинства блоковых кодов, свёрточное кодирование — очень простая операция, чего нельзя сказать о декодировании.

Кодирование свёрточным кодом производится с помощью регистра сдвига, отводы от которого суммируются по модулю два. Таких сумм может быть две (чаще всего) или больше.

Декодирование свёрточных кодов, как правило, производится по алгоритму Витерби, который пытается восстановить переданную последовательность согласно критерию максимального правдоподобия.

Свёрточные коды эффективно работают в канале с белым шумом, но плохо справляются с пакетами ошибок. Более того, если декодер ошибается, на его выходе всегда возникает пакет ошибок.

Каскадное кодирование. Итеративное декодирование

Преимущества разных способов кодирования можно объединить, применив каскадное кодирование. При этом информация сначала кодируется одним кодом, а затем другим, в результате получается код-произведение.

Например, популярной является следующая конструкция: данные кодируются кодом Рида — Соломона, затем перемежаются (при этом символы, расположенные близко, помещаются далеко друг от друга) и кодируются свёрточным кодом. На приёмнике сначала декодируется свёрточный код, затем осуществляется обратное перемежение (при этом пачки ошибок на выходе свёрточного декодера попадают в разные кодовые слова кода Рида — Соломона), и затем осуществляется декодирование кода Рида — Соломона.

Некоторые коды-произведения специально сконструированы для итеративного декодирования, при котором декодирование осуществляется в несколько проходов, каждый из которых использует информацию от предыдущего. Это позволяет добиться большой эффективности, однако декодирование требует больших ресурсов. К таким кодам относят турбо-коды и LDPC-коды (коды Галлагера).

Оценка эффективности кодов

Эффективность кодов определяется количеством ошибок, которые тот может исправить, количеством избыточной информации, добавление которой требуется, а также сложностью реализации кодирования и декодирования (как аппаратной, так и в виде программы для ЭВМ).

Граница Хэмминга и совершенные коды

Пусть имеется двоичный блоковый $(n,k)$ код с корректирующей способностью $t$ . Тогда справедливо неравенство (называемое границей Хэмминга):

\sum _{i=0}^{t}{n \choose i}\leqslant 2^{n-k}.

Коды, удовлетворяющие этой границе с равенством, называются совершенными. К совершенным кодам относятся, например, коды Хэмминга. Часто применяемые на практике коды с большой корректирующей способностью (такие, как коды Рида — Соломона) не являются совершенными.

Литература

Блейхут Р. Теория и практика кодов, контролирующих ошибки = Theory and Practice of Error Control Codes. — М.: Мир, 1986. — 576 с.
Мак-Вильямс Ф. Дж., Слоэн Н. Дж. А. Теория кодов, исправляющих ошибки. М.: Радио и связь, 1979.
Морелос-Сарагоса Р. Искусство помехоустойчивого кодирования. Методы, алгоритмы, применение / пер. с англ. В. Б. Афанасьева. — М.: Техносфера, 2006. — 320 с. — (Мир связи). — 2000 экз. — ISBN 5-94836-035-0.