Анализ независимых компонент

Анализ независимых компонент (АНК, англ. Independent Component Analysis, ICA), называемый также Метод независимых компонент (МНК) — это вычислительный метод в обработке сигналов для разделения многомерного^[en] сигнала на аддитивные подкомпоненты. Этот метод применяется при предположении, что подкомпоненты являются негауссовыми сигналами и что они статистически независимы друг от друга. АНК является специальным случаем слепого разделения сигнала. Типичным примером приложения является задача вечеринки с коктейлем — когда люди на шумной вечеринке выделяют голос собеседника, несмотря на громкую музыку и шум людей в помещении: мозг способен фильтровать звуки и сосредотачиваться на одном источнике (голос визави) в реальном времени.

Введение[править | править код]

АНК на четырёх случайно смешанных видео^[1]

Анализ независимых компонент пытается разложить множественный сигнал на независимые негауссовые сигналы. Например звук обычно является сигналом, который состоит из сложения в каждый момент одиночных t-сигналов, идущих из нескольких источников. Вопрос заключается в том, возможно ли разделить эти источники, выделяя их из общего сигнала. Если допущение статистической независимости верно, слепое разделение независимых компонент смешанного сигнала даст очень хорошие результаты. Метод также применяется для анализа сигналов, которые могут быть и не смешанными.

Простым приложением АНК является «задача о шумной вечеринке», когда собеседники слышат друг друга, выделяя голос собеседника из общего сигнала, состоящего из шума одновременно говорящих людей в помещении и шумной улицы за окном. Обычно задача упрощается предположением, что задержка по времени или эхо отсутствуют. Заметим, что отфильтрованный и задержанный сигнал является копией зависимой компоненты, и тогда допущение статистической независимости не нарушено.

Важно также учитывать, что если представлено ${\textstyle N}$ источников, нужно по меньшей мере ${\textstyle N}$ наблюдений (например микрофонов, если наблюдаемый сигнал — аудио), чтобы обнаружить исходные сигналы. В этом случае матрица квадратна ( ${\textstyle J=D}$ , где ${\textstyle D}$ входная размерность данных, а ${\textstyle J}$ — размерность модели). Иначе получаем и исследуем недоопределённый ( ${\textstyle J>D}$ ) или переопределённый ( ${\textstyle J<D}$ ) случай.

Метод АНК — разделение смешанных сигналов, базируется на двух допущениях и трёх эффектах источников смешанного сигнала, что даёт очень хорошие результаты. Двумя допущениями являются:

Источники сигналов независимы друг от друга.
Значения каждого источника сигнала имеют негауссово распределение.

Тремя эффектами источника смешанного сигнала являются:

Независимость: как в и допущении 1, источники сигналов независимы, однако их смесь не является независимой от источников, потому что смесь сигналов имеет одни и те же источники.
Нормальность: согласно центральной предельной теореме, распределение суммы независимых случайных переменных с конечной дисперсией стремится к гауссовому распределению. Попросту говоря, сумма двух независимых случайных переменных обычно имеет распределение более близкое к гауссовому, чем любое из двух исходных случайных переменных. Здесь мы рассматриваем каждый сигнал как случайную переменную.
Сложность: временна́я сложность любой смеси сигналов больше, чем сложность одного сигнала, более простого по его составляющим.

Эти принципы составляют базовые основы АНК. Если сигналы, которые нам удалось извлечь из смеси, независимы, подобно исходным сигналам, и имеют негауссовые гистограммы или имеют малую сложность, подобную сигналу источников, они должны быть сигналами источников^[2]^[3].

Определение независимости компонент[править | править код]

АНК находит независимые компоненты (которые называются факторами, скрытыми переменными или источниками) путём максимизации статистической независимости оцениваемых компонент. Можно выбрать один из многих путей для определения заменителя независимости, и этот выбор определит форму алгоритма АНК. Два наиболее широких определения независимости АНК:

Минимизация взаимной информации
Максимизация негауссовости

Семейство алгоритмов АНК с минимизацией взаимной информации (англ. Minimization-of-Mutual information, MMI) использует такие меры, как расхождение Кульбака — Лейблера и максимальная энтропия. Семейство алгоритмов АНК с максимизацией негауссовости использует коэффициент эксцесса и негэнтропию.

Типичным алгоритмам АНК свойственно использование следующих методов:

центрирование (вычитание среднего и создание нулевого среднего для сигнала);
избавление от корреляции^[en] (обычно с помощью спектрального разложения матрицы);
снижение размерности в качестве препроцессорных шагов для снижения сложности проблемы и создания действительного итеративного алгоритма.

Декорреляция и снижение размерности могут быть получены методом главных компонент или сингулярным разложением. Декорреляция обеспечивает методу такие условия, когда все размерности трактуются одинаково и установлены априори до прогона алгоритма. Хорошо известные алгоритмы для АНК: infomax^[en], FastICA^[en], JADE^[en], ядерный независимый компонентный анализ^[en] и многие другие. В общем случае АНК не сможет определить действительное число источников сигналов, единственно правильный порядок или масштаб (включая знак) сигналов.

АНК важен для слепого разделения сигнала и имеет много практических приложений. Метод тесно связан с поиском (или даже является частным случаем поиска) факториального кодирования^[en] данных, то есть нового векторного представления каждого вектора данных таким образом, чтобы он был однозначно закодирован результирующим кодовым вектором (кодирование без потерь), при этом компоненты кода статистически независимы.

Математическое определение[править | править код]

Линейный анализ независимых компонент может быть разделён на случай без шумов и случай с шумами, где АНК без шумов является частым случаем АНК с шумом. Нелинейный АНК следует считать отдельным случаем.

Общее определение[править | править код]

Данные представлены наблюдаемым случайным вектором ${\boldsymbol {x}}=(x_{1},\ldots ,x_{m})^{T}$ , а скрытые компоненты случайным вектором ${\boldsymbol {s}}=(s_{1},\ldots ,s_{n})^{T}$ . Задачей построения алгоритма является преобразование наблюдаемых данных ${\boldsymbol {x}}$ с помощью статического преобразования ${\boldsymbol {W}}$ в наблюдаемый вектор максимально независимых компонент ${\boldsymbol {s}}={\boldsymbol {W}}{\boldsymbol {x}}$ , измеренных некоторой функцией независимости $F(s_{1},\ldots ,s_{n})$ .

Генерирующая модель[править | править код]

Линейная АНК без шума[править | править код]

Компоненты $x_{i}$ наблюдаемого случайного вектора ${\boldsymbol {x}}=(x_{1},\ldots ,x_{m})^{T}$ генерируются как сумма независимых компонент $s_{k}$ , $k=1,\ldots ,n$ :

$x_{i}=a_{i,1}s_{1}+\cdots +a_{i,k}s_{k}+\cdots +a_{i,n}s_{n}$

взвешенных весами $a_{i,k}$ .

Та же генерирующая модель может быть записана в векторном виде как ${\boldsymbol {x}}=\sum _{k=1}^{n}{\boldsymbol {s}}_{k}{\boldsymbol {a}}_{k}$ , где наблюдаемый случайный вектор $x$ представлен базисными векторами ${\boldsymbol {a}}_{k}=({\boldsymbol {a}}_{1,k},\ldots ,{\boldsymbol {a}}_{m,k})^{T}$ . Базисные вектора ${\boldsymbol {a}}_{k}$ образуют столбцы матрицы смешивания ${\boldsymbol {A}}=({\boldsymbol {a}}_{1},\ldots ,{\boldsymbol {a}}_{n})$ и генерирующая формула может быть записана как ${\boldsymbol {x}}={\boldsymbol {A}}{\boldsymbol {s}}$ , где ${\boldsymbol {s}}=(s_{1},\ldots ,s_{n})^{T}$ .

Если дана модель и реализации $x_{1},\ldots ,x_{N}$ случайного вектора ${\boldsymbol {x}}$ , задачей является оценка как матрицы смешивания ${\boldsymbol {A}}$ , так и источников ${\boldsymbol {s}}$ . Это делается путём адаптивного вычисления векторов ${\boldsymbol {w}}$ и установления функции цены, которая либо максимизирует негауссовость вычисленного $s_{k}={\boldsymbol {w}}^{T}{\boldsymbol {x}}$ или минимизирует взаимную информацию. В некоторых случаях априорное знание распределения вероятности источников может быть использовано в функции цены.

Исходные источники ${\boldsymbol {s}}$ могут быть извлечены путём умножения наблюдаемых сигналов ${\boldsymbol {x}}$ на обратную к матрице смешивания ${\boldsymbol {W}}={\boldsymbol {A}}^{-1}$ , которая известна также как не смешивающая матрица. Здесь предполагается, что матрица смешивания квадратная ( $n=m$ ). Если число базисных векторов больше размерности наблюдаемых векторов $n>m$ , задача является переопределённой, но остаётся разрешимой с помощью псевдообратной матрицы.

Линейный АНК с шумом[править | править код]

С добавочным предположением о нулевом среднем и не коррелирующим гауссовым шумом $n\sim N(0,\operatorname {diag} (\Sigma ))$ , модель АНК принимает форму ${\boldsymbol {x}}={\boldsymbol {A}}{\boldsymbol {s}}+n$ .

Нелинейный АНК[править | править код]

Смесь источников не обязательно должна быть линейной. Используя нелинейную функцию смешивания $f(\cdot |\theta )$ с параметрами $\theta$ нелинейной моделью АНК будет $x=f(s|\theta )+n$ .

Различимость[править | править код]

Независимые компоненты различимы с точностью до перестановки и масштабирования источников. Эта различимость требует, чтобы:

Максимум один из источников $s_{k}$ был гауссовым,
Число наблюдаемых смесей $m$ должно быть не меньше числа компонент $n$ : $m\geqslant n$ . Это эквивалентно высказыванию, что матрица смеси ${\boldsymbol {A}}$ должна иметь полный ранг, чтобы существовала обратная ей смесь.

Бинарный анализ независимых компонент[править | править код]

Специальным вариантом АНК является Бинарный АНК, в котором как источники сигнала, так и мониторы имеют двоичную форму, а наблюдения от мониторов являются дизъюнктивной смесью бинарных независимых источников. Задача, как было показано, имеет приложения во многих областях, включая медицинскую диагностику, многокластерное назначение, сетевую томографию^[en] и управление ресурсами интернета.

Пусть ${x_{1},x_{2},\ldots ,x_{m}}$ является набором бинарных переменных из $m$ мониторов и ${y_{1},y_{2},\ldots ,y_{n}}$ является набором бинарных переменных из $n$ источников. Связи источник-монитор представлены (неизвестной) смешанной матрицей ${\textstyle {\boldsymbol {G}}}$ , где $g_{ij}=1$ указывает, что сигнал от i-го источника может наблюдаться j-м монитором. Система работает следующим образом: в любое время, если источник $i$ активен ( $y_{i}=1$ ) и он связан с монитором $j$ ( $g_{ij}=1$ ), то монитор $j$ будет наблюдать некоторую активность ( $x_{j}=1$ ). Формально мы имеем:

x_{i}=\bigvee _{j=1}^{n}(g_{ij}\wedge y_{j}),i=1,2,\ldots ,m,

где $\wedge$ является булевым И (англ. AND), а $\vee$ является булевым ИЛИ (англ. OR). Заметим, что шум не моделируется явно, а трактуется как независимые источники.

Описанная выше проблема может быть эвристически решена^[4] (при предположении, что переменные непрерывны) путём применения метода FastICA^[en] на бинарных наблюдаемых данных для получения смешанной матрицы ${\textstyle {\boldsymbol {G}}}$ (получены вещественные значения), затем применяем технику округления на ${\textstyle {\boldsymbol {G}}}$ для получения бинарных значений. Этот подход, как было показано, даёт крайне неточный результат.

Другим методом является использование динамического программирования — матрица рекурсивно разбивает наблюдения ${\textstyle {\boldsymbol {X}}}$ на подматрицы и алгоритм вывода прогоняется на этих подматрицах. Ключевое наблюдение, которое ведёт к этому алгоритму: подматрица ${\textstyle {\boldsymbol {X}}^{0}}$ матрицы ${\textstyle {\boldsymbol {X}}}$ , где ${\textstyle x_{ij}=0\forall j}$ соответствует несмещённой матрице наблюдений скрытых компонент, которые не имеют связи с $i$ -м монитором. Результаты экспериментов^[5] показывают, что этот подход точен при умеренном уровне шумов.

Аппарат обобщённой бинарной АНК^[6] вводит более широкое описание проблемы, которое не требует какого-либо знания о порождающей модели. Другими словами, этот метод пытается разложить источник на независимые компоненты (на столько, насколько возможно создать алгоритм без потери какой-либо информации) без предварительных допущений применения способа, при помощи которого он был получен. Хотя эта задача достаточно сложна, она может быть точно решена с помощью метода ветвей и границ или точно ограничена сверху умножением матрицы на вектор.

Методы слепого разделения сигнала[править | править код]

Поиск наилучшей проекции[править | править код]

Смеси сигналов имеют тенденцию к получению гауссовой плотности вероятности, а сигналы источников имеют тенденцию к негауссовой плотности вероятности. Каждый источник сигнала может быть выделен из набора смесей сигналов путём вычисления скалярного произведения вектора весов и той смеси сигналов, на которой это скалярное произведение даёт ортогональную проекцию смеси сигналов. Следующая задача заключается в нахождении вектора весов. Один из методов — поиск наилучшей проекции^[2]^[7].

Поиск наилучшей проекции ищет одну проекцию за шаг, при условии, что выделенный сигнал будет настолько негауссовым, насколько это возможно. Это контрастирует с АНК, который обычно выделяет M сигналов одновременно из M смесей сигналов, что требует оценки $M\times M$ несмешивающей матрицы. Одним из практических преимуществ поиска наилучшей проекции над АНК является то, что может выделяться менее M сигналов, если требуется, где каждый источник сигнала выделяется из смеси M сигналов используя M-элементный вектор весов.

Мы можем использовать коэффициент эксцесса для извлечения сигнала с несколькими источниками путём нахождения правильных векторов весов с использованием поиска наилучшей проекции.

Коэффициент эксцесса плотности вероятности сигнала, для конечной выборки вычисляется как

K={\frac {\operatorname {E} [(\mathbf {y} -\mathbf {\overline {y}} )^{4}]}{(\operatorname {E} [(\mathbf {y} -\mathbf {\overline {y}} )^{2}])^{2}}}-3

где $\mathbf {\overline {y}}$ является выборочным средним $\mathbf {y}$ выделенных сигналов. Константа 3 обеспечивает, чтобы гауссовы сигналы имели нулевой коэффициент эксцесса, супергауссовы сигналы имели положительный коэффициент эксцесса, а субгауссовы сигналы имели отрицательный коэффициент эксцесса. Знаменатель равен дисперсии $\mathbf {y}$ и он обеспечивает, чтобы измеренный коэффициент эксцесса получал дисперсию сигнала. Целью поиска наилучшей проекции является максимизация коэффициента эксцесса и сделать выделенный сигнал настолько ненормальным, насколько возможно.

Используя коэффициент эксцесса как меру ненормальности мы можем теперь проверить насколько коэффициент эксцесса сигнала $\mathbf {y} =\mathbf {w} ^{T}\mathbf {x}$ , извлечённого из набора M смесей $\mathbf {x} =(x_{1},x_{2},\ldots ,x_{M})^{T}$ , изменяется по мере того, как вектор весов $\mathbf {w}$ вращается вокруг начала координат. Если задано, что каждый источник сигнала $\mathbf {s}$ является супергауссовым, мы можем ожидать

коэффициент эксцесса извлечённого сигнала $\mathbf {y}$ максимален в точности тогда, когда $\mathbf {y} =\mathbf {s}$ .
коэффициент эксцесса извлечённого сигнала $\mathbf {y}$ максимален, когда $\mathbf {w}$ ортогонален проекциям осей $S_{1}$ или $S_{2}$ , поскольку мы знаем, что вектор оптимального веса должен быть ортогонален преобразованным осям $S_{1}$ и $S_{2}$ .

Для смеси сигналов от разных источников мы можем использовать коэффициент эксцесса ортогонализации Грама ― Шмидта (ОГШ) для извлечения сигналов. Если дана смесь M сигналов в M-мерном пространстве, ОГШ проектирует эти точки данных в (M-1)-мерное пространство с помощью вектора весов. Мы можем гарантировать независимость выделенных сигналов с помощью ОГШ.

С целью поиска правильного значения $\mathbf {w}$ мы можем использовать метод градиентного спуска. Прежде всего, мы избавляемся от корреляции и преобразуем $\mathbf {x}$ в новую смесь $\mathbf {z}$ , которая имеет единичную дисперсию и $\mathbf {z} =(z_{1},z_{2},\ldots ,z_{M})^{T}$ . Этот процесс может быть выполнен путём применения сингулярного разложения к $\mathbf {x}$ ,

\mathbf {x} =\mathbf {U} \mathbf {D} \mathbf {V} ^{T}

Масштабируем каждый вектор $U_{i}=U_{i}/\operatorname {E} (U_{i}^{2})$ и положим $\mathbf {z} =\mathbf {U}$ . Сигнал, выделенный взвешенным вектором $\mathbf {w}$ , равен $\mathbf {y} =\mathbf {w} ^{T}\mathbf {z}$ . Если вектор весов w имеет единичную длину, то есть $\operatorname {E} [(\mathbf {w} ^{T}\mathbf {z} )^{2}]=1$ , тогда коэффициент эксцесса можно переписать как:

K={\frac {\operatorname {E} [\mathbf {y} ^{4}]}{(\operatorname {E} [\mathbf {y} ^{2}])^{2}}}-3=\operatorname {E} [(\mathbf {w} ^{T}\mathbf {z} )^{4}]-3.

Процесс обновления для $\mathbf {w}$ :

\mathbf {w} _{new}=\mathbf {w} _{old}-\eta \operatorname {E} [\mathbf {z} (\mathbf {w} _{old}^{T}\mathbf {z} )^{3}].

где $\eta$ является малой константой для гарантирования, что $\mathbf {w}$ сходится к оптимальному решению. После каждого обновления мы нормализуем $\mathbf {w} _{new}={\frac {\mathbf {w} _{new}}{|\mathbf {w} _{new}|}}$ и множество $\mathbf {w} _{old}=\mathbf {w} _{new}$ и повторяем процесс обновления пока он не сойдётся. Мы можем использовать также другой алгоритм для обновления вектора весов $\mathbf {w}$ .

Другим подходом является использование негэнтропии^[8] вместо коэффициента эксцесса. Негэнтропия является устойчивым методом по отношению коэффициента эксцесса, поскольку коэффициент эксцесса очень чувствителен к выбросам. Метод негэнтропии основывается на важном свойстве распределения Гаусса — нормальная случайная величина имеет наибольшую энтропию среди всех непрерывных случайных переменных с одинаковой дисперсией. Это также является причиной, почему мы хотим найти наиболее негауссовые переменные. Простое доказательство можно найти в статье дифференциальной энтропии.

J(x)=S(y)-S(x)\,

y являются гауссовой случайной переменной некоторой ковариантной матрицы,

S(x)=-\int p_{x}(u)\log p_{x}(u)du

Аппроксимация для негэнтропии равна

J(x)={\frac {1}{12}}(E(x^{3}))^{2}+{\frac {1}{48}}(kurt(x))^{2}

Доказательство можно найти на странице 131 книги «Анализ независимых компонент», которую написали Аапо Хювяринен, Юха Кархунен и Эркки Ойя^[3]. Эта аппроксимация также страдает теми же проблемами, что и коэффициент эксцесса (чувствительность к выбросам). Разрабатывались и другие подходы^[9]

J(y)=k_{1}(E(G_{1}(y)))^{2}+k_{2}(E(G_{2}(y))-E(G_{2}(v))^{2}

Выбор $G_{1}$ и $G_{2}$

G_{1}={\frac {1}{a_{1}}}\log(\cosh(a_{1}u))

и

G_{2}=-\exp(-{\frac {u^{2}}{2}})

Основанный на infomax[править | править код]

АНК, по существу, является многомерной параллельной версией поиска наилучшей проекции. В то время как поиск наилучшей проекции выделяет серию сигналов по одному из смеси M сигналов, АНК выделяет M сигналов параллельно. Это приводит к большей устойчивости АНК по сравнению с поиском наилучшей проекции^[2].

Метод поиска наилучшей проекции, чтобы обеспечить независимость выделяемых сигналов, использует ортогонализацию Грама ― Шмидта, в то время как АНК использует метод infomax^[en] и оценку максимального правдоподобия для обеспечения независимости выделяемого сигнала. Ненормальность выделяемого сигнала достигается с помощью соответствующей модели.

Процесс АНК, основанный на infomax^[en], коротко: если дана смесь сигналов $\mathbf {x}$ и набор одинаковых независимых функций распределения $g$ , мы ищем несмешивающую матрицу $\mathbf {W}$ , которая максимизирует совместную энтропию сигналов $\mathbf {Y} =g(\mathbf {y} )$ , где $\mathbf {y} =\mathbf {Wx}$ являются сигналами, отобранными по $\mathbf {W}$ . Если дана оптимальная $\mathbf {W}$ , сигналы $\mathbf {Y}$ имеют максимальную энтропию и, потому, независимы, что гарантирует, что выделенные сигналы $\mathbf {y} =g^{-1}(\mathbf {Y} )$ также независимы. Функция $g$ обратима и является моделью сигнала. Заметим, что если плотность вероятности модели источника сигнала $p_{s}$ соответствует плотности вероятности выделенного сигнала $p_{\mathbf {y} }$ , то максимизация совместной энтропии $Y$ также максимизирует количество взаимной информации между $\mathbf {x}$ и $\mathbf {Y}$ . По этой причине, использование энтропии для выделения независимых сигналов известно как infomax^[en].

Рассмотрим энтропию векторной переменной $\mathbf {Y} =g(\mathbf {y} )$ , где $\mathbf {y} =\mathbf {Wx}$ является набором сигналов, выделенных несмешивающей матрицей $\mathbf {W}$ . Для конечного набора значений, выбранных из распределения с плотностью вероятности $p_{\mathbf {y} }$ , энтропия $\mathbf {Y}$ может быть оценена как:

H(\mathbf {Y} )=-{\frac {1}{N}}\sum _{t=1}^{N}\ln p_{\mathbf {Y} }(\mathbf {Y} ^{t})

Совместная плотность вероятности $p_{\mathbf {Y} }$ , как можно показать, связана с совместной плотностью вероятности $p_{\mathbf {y} }$ извлечённых сигналов с помощью многомерной формы:

p_{\mathbf {Y} }(Y)={\frac {p_{\mathbf {y} }(\mathbf {y} )}{|{\frac {\partial \mathbf {Y} }{\partial \mathbf {y} }}|}}

где $\mathbf {J} ={\frac {\partial \mathbf {Y} }{\partial \mathbf {y} }}$ является матрицей Якоби. Мы имеем $|\mathbf {J} |=g'(\mathbf {y} )$ , и $g'$ является плотностью вероятности, принятых для источников сигналов $g'=p_{s}$ , поэтому,

p_{\mathbf {Y} }(Y)={\frac {p_{\mathbf {y} }(\mathbf {y} )}{|{\frac {\partial \mathbf {Y} }{\partial \mathbf {y} }}|}}={\frac {p_{\mathbf {y} }(\mathbf {y} )}{p_{\mathbf {s} }(\mathbf {y} )}}

поэтому,

H(\mathbf {Y} )=-{\frac {1}{N}}\sum _{t=1}^{N}\ln {\frac {p_{\mathbf {y} }(\mathbf {y} )}{p_{\mathbf {s} }(\mathbf {y} )}}

Мы знаем, что когда $p_{\mathbf {y} }=p_{s}$ , $p_{\mathbf {Y} }$ является однородным распределением, а $H({\mathbf {Y} })$ максимизирована. Поскольку

p_{\mathbf {y} }(\mathbf {y} )={\frac {p_{\mathbf {x} }(\mathbf {x} )}{|{\frac {\partial \mathbf {y} }{\partial \mathbf {x} }}|}}={\frac {p_{\mathbf {x} }(\mathbf {x} )}{|\mathbf {W} |}}

где $|\mathbf {W} |$ является абсолютным значением определителя несмешивающей матрицы $\mathbf {W}$ . Поэтому,

H(\mathbf {Y} )=-{\frac {1}{N}}\sum _{t=1}^{N}\ln {\frac {p_{\mathbf {x} }(\mathbf {x} ^{t})}{|\mathbf {W} |p_{\mathbf {s} }(\mathbf {y} ^{t})}}

так что,

H(\mathbf {Y} )={\frac {1}{N}}\sum _{t=1}^{N}\ln p_{\mathbf {s} }(\mathbf {y} ^{t})+\ln |\mathbf {W} |+H(\mathbf {x} )

поскольку $H(\mathbf {x} )=-{\frac {1}{N}}\sum _{t=1}^{N}\ln p_{\mathbf {x} }(\mathbf {x} ^{t})$ , и максимизация $\mathbf {W}$ не влияет на $H_{\mathbf {x} }$ , мы можем максимизировать функцию

h(\mathbf {Y} )={\frac {1}{N}}\sum _{t=1}^{N}\ln p_{\mathbf {s} }(\mathbf {y} ^{t})+\ln |\mathbf {W} |

чтобы получить независимость извлечённого сигнала.

Если имеется M маргинальных плотностей вероятности модели, совместные плотности вероятности $p_{\mathbf {s} }$ независимы и используют супергауссову модель плотности вероятности для источников сигналов $p_{\mathbf {s} }=(1-\tanh(\mathbf {s} )^{2})$ , то мы получаем

h(\mathbf {Y} )={\frac {1}{N}}\sum _{i=1}^{M}\sum _{t=1}^{N}\ln(1-\tanh(\mathbf {w_{i}^{T}x^{t}} )^{2})+\ln |\mathbf {W} |

В сумме, если задана наблюдаемая смесь сигнала $\mathbf {x}$ , соответствующий набор извлечённых сигналов $\mathbf {y}$ и модель источника сигнала $p_{\mathbf {s} }=g'$ , мы можем найти оптимальную несмешивающую матрицу $\mathbf {W}$ и сделать извлечённые сигналы независимыми и негауссовыми. Подобно ситуации с поиском наилучшей проекции, мы можем использовать метод градиентного спуска для поиска оптимального решения несмешивающей матрицы.

На основе оценки максимального правдоподобия[править | править код]

Оценка максимального правдоподобия (англ. Maximum likelihood estimation, MLE) является стандартным статистическим средством для нахождения значений параметров (например, несмешивающей матрицы $\mathbf {W}$ ), которые обеспечивают лучшее соответствие некоторых данных (например, извлечённых сигналов $y$ ) для данной модели (например, совместной плотности вероятности (ПВ) $p_{s}$ источников сигналов)^[2].

Модель максимального правдоподобия включает спецификацию плотности вероятности, которая в этом случае является плотностью вероятности $p_{s}$ сигналов неизвестного источника $s$ . При использовании максимального правдоподобия целью является нахождение несмешивающей матрицы, которая даёт извлечённые сигналы $y=\mathbf {W} x$ с совместной плотностью вероятности, которые максимально подобны совместной плотностью вероятности $p_{s}$ сигналов неизвестного источника $s$ .

Оценка максимального правдоподобия основывается на предположении, что если модель плотности вероятности $p_{s}$ и модель параметров $\mathbf {A}$ правильны, то должна быть получена высокая вероятность для $x$ , что эти данные действительно наблюдаемы. Обратно, если $\mathbf {A}$ далёк от верных значений параметров, то следует ожидать низкую вероятность наблюдения данных.

При оценке максимального правдоподобия мы называем вероятность наблюдаемых данных для данного набора значений параметров модели (например, плотности вероятности $p_{s}$ и матрицы $\mathbf {A}$ ) правдоподобностью значений параметров модели, заданной наблюдаемыми данными.

Мы определяем функцию правдоподобия $\mathbf {L(W)}$ матрицы $\mathbf {W}$ :

$\mathbf {L(W)} =p_{s}(\mathbf {W} x)|\det \mathbf {W} |.$

Это равно плотности вероятности в $x$ , поскольку $s=\mathbf {W} x$ .

Тогда, если мы хотим найти $\mathbf {W}$ , то наиболее вероятно иметь сгенерированные наблюдаемые смеси $x$ из неизвестных источников сигналов $s$ с плотностью вероятности $p_{s}$ , то нам нужно лишь найти $\mathbf {W}$ , которая максимизирует правдоподобность $\mathbf {L(W)}$ . Несмешивающая матрица, которая максимизирует равенство, известна как оценка максимального правдоподобия оптимальной несмешивающей матрицей.

Распространённой практикой является использование логарифма правдоподобия, поскольку его проще всего вычислить. Так как логарифм является монотонной функцией, матрица $\mathbf {W}$ , которая максимизирует функция $\mathbf {L(W)}$ , также максимизирует его логарифм $\ln \mathbf {L(W)}$ . Это позволяет взять логарифм в равенстве выше, что даёт логарифм функции правдоподобия

$\ln \mathbf {L(W)} =\sum _{i}\sum _{t}\ln p_{s}(w_{i}^{T}x_{t})+N\ln |\det \mathbf {W} |$

Если мы подставим широко используемую модель плотности вероятности с высоким коэффициентом эксцесса для источников сигналов $p_{s}=(1-\tanh(s)^{2})$ , мы получим

$\ln \mathbf {L(W)} ={1 \over N}\sum _{i}^{M}\sum _{t}^{N}\ln(1-\tanh(w_{i}^{T}x_{t})^{2})+\ln |\det \mathbf {W} |$

Матрица $\mathbf {W}$ , максимизирующая эту функцию, является оценкой максимального правдоподобия.

История и предпосылки[править | править код]

Раннюю общую основу для анализа независимых компонент предложили Дженни Эро и Бернард Анс в 1984 году^[10], затем к ним присоединился Христиан Джуттен с 1985 года^[11]^[12]^[13]. Наиболее ясно этот метод изложил Пьер Комон в 1994 году^[14]. В 1995 году Тони Белл и Терри Седжновски предложили быстрый и эффективный алгоритм АНК, основанный на принципе infomax^[en], который ввёл Ральф Линскер в 1987 г.

Многие алгоритмы, реализующие АНК, доступны и описаны в литературе, относящейся к данной области. Алгоритм FastICA, который разработали Аапо Хювяринен и Эркки Ойя, широко используется, включая производственные приложения. В нём применен коэффициент эксцесса в качестве функции цены. Другие примеры скорее связаны со слепым разделением сигнала, в основе которого лежит более общий подход. Например, можно опустить допущение независимости и разделить попарно коррелирующие сигналы, а следовательно, избежать статистически «зависимых» сигналов. Сепп Хохрайтер и Юрген Шмидхубер показали, как получить нелинейный АНК или осуществить разделение источников, если они являются побочным продуктом регуляризации (1999)^[15]. Их метод не требует бесспорного и строгого знания о числе независимых источников.

Приложения[править | править код]

АНК может быть расширен на анализ нефизических сигналов. Например, АНК был применён для обнаружения тем обсуждения в архивах новостей.

Некоторые из приложений АНК перечислены ниже^[2]:

оптическое изображение нейронов^[16]
сортировка импульсов нейронов sorting^[17]
распознавание лица^[18]
моделирование рецепторного поля главных зрительных нейронов^[19]
предсказание цен на рынке бумаг^[20]
мобильная телефонная связь^[21]
определение зрелости помидор на основе цвета^[22]
удаление объектов, таких как мигание глаза, из данных электроэнцефалограммы^[23]
анализ изменений в экспрессии гена со временем в экспериментах по секвенированию РНК в отдельной клетке cell^[24]
изучение функциональной МРТ мозга в состоянии покоя^[en]^[25]

См. также[править | править код]

Примечания[править | править код]

↑ Isomura, Toyoizumi, 2016.
↑ ¹ ² ³ ⁴ ⁵ Stone, 2004.
↑ ¹ ² Hyvärinen, Karhunen, Oja, 2001.
↑ Himbergand, Hyvärinen, 2001.
↑ Nguyen, Zheng, 2011, с. 3168—3181.
↑ Painsky, Rosset, Feder, 2014, с. 1326–1330.
↑ Kruskal, 1969, с. 427–440.
↑ Hyvärinen, Oja, 2000, с. 411–430.
↑ Hyvärinen, 1998, с. 273–279.
↑ Hérault, Ans, 1984, с. 525–528.
↑ Ans, Hérault, Jutten, 1985, с. 593—597.
↑ Hérault, Jutten, Ans, 1985, с. 1017—1022.
↑ Hérault, Jutten, 1986, с. 206—211.
↑ Comon, 1994.
↑ Hochreiter, Schmidhuber, 1999, с. 679–714.
↑ Brown, Yamada, Sejnowski, 2001, с. 54–63.
↑ Lewicki, 1998, с. 53–78.
↑ Barlett, 2001.
↑ Bell, Sejnowski, 1997, с. 3327–3338.
↑ Back, Weigend, 1997, с. 473–484.
↑ Hyvarinen, Karhunen, Oja, 2001.
↑ Polder, van der Heijen, 2003, с. 57–64.
↑ Delorme, Sejnowski, Makeig, 2007, с. 1443–1449.
↑ Trapnell, Cacchiarelli, Grimsby, 2014, с. 381–386.
↑ Kiviniemi, Kantola, Jauhiainen, Hyvärinen, Tervonen, 2003, с. 253–260.

Литература[править | править код]

Takuya Isomura, Taro Toyoizumi. A local learning rule for independent component analysis // Scientific Reports. — 2016. — doi:10.1038/srep28073.
Aapo Hyvärinen, Juha Karhunen, Erkki Oja. Independent component analysis. — 1st. — New York: John Wiley & Sons, 2001. — ISBN 0-471-22131-7.
Aapo Hyvärinen, Juha Karhunen, Erkki Oja. Independent component analysis. — Reprint. — New York, NY: Wiley, 2001. — ISBN 0-471-40540-X.
Aapo Hyvärinen, Erkki Oja. Independent Component Analysis:Algorithms and Applications // Neural Networks. — 2000. — Т. 13, вып. 4–5. — doi:10.1016/s0893-6080(00)00026-5. — PMID 10946390.
Johan Himbergand, Aapo Hyvärinen. Independent Component Analysis For Binary Data: An Experimental Study // Proc. Int. Workshop on Independent Component Analysis and Blind Signal Separation (ICA2001). — San Diego, California, 2001.
Aapo Hyvärinen. New approximations of differential entropy for independent component analysis and projection pursuit. // Advances in Neural Information Processing Systems. — 1998. — Т. 10.
Huy Nguyen, Rong Zheng. Binary Independent Component Analysis With or Mixtures // IEEE Transactions on Signal Processing. — 2011. — Июль (т. 59, вып. 7).
Amichai Painsky, Saharon Rosset, Meir Feder. Generalized Binary Independent Component Analysis // IEEE International Symposium on Information Theory (ISIT), 2014. — 2014.
James V. Stone. Independent Component Analysis: A Tutorial Introduction. — Cambridge, Massachusetts, London, England: The MIT Press, 2004. — ISBN 0-262-69315-1.

Kruskal J. B. Toward a practical method which helps uncover the structure of a set of observations by finding the line transformation which optimizes a new "index of condensation" // Statistical computation / Milton R. C., Nelder J. A.. — New York: Academic Press, 1969.
Pierre Comon. Independent Component Analysis: a new concept? // Signal Processing. — 1994. — Т. 36, вып. 3. — С. 287–314. (Оригинальная статья, описывающая концепцию ICA)
Comon P., Jutten C. Handbook of Blind Source Separation, Independent Component Analysis and Applications. — Oxford UK: Academic Press, 2010. — ISBN 978-0-12-374726-6.
Lee T.-W. Independent component analysis: Theory and applications. — Boston, Mass: Kluwer Academic Publishers, 1998. — ISBN 0-7923-8261-7.
Ranjan Acharyya. A New Approach for Blind Source Separation of Convolutive Sources - Wavelet Based Separation Using Shrinkage Function. — 2008. — ISBN 3-639-07797-0. (книга фокусируется на обучении без учителя с помощью слепого выделения источника)
Hérault J., Ans B. Réseau de neurones à synapses modifiables : Décodage de messages sensoriels composites par apprentissage non supervisé et permanent // Comptes Rendus de l'Académie des Sciences, Série III. — 1984. — Т. 299. — С. 525–528.
Ans B., Hérault J., Jutten C. Architectures neuromimétiques adaptatives: Détection de primitives. // Cognitiva 85, Paris 4-7 Juin 1985. — Paris, 1985. — Т. 2.
Hérault J., Jutten C., Ans B. Détection de grandeurs primitives dans un message composite par une architecture de calcul neuromimétique en apprentissage non supervise // Proceedings of the 10th Workshop Traitement du signal et ses applications. — Nice (France): GRETSI, 1985. — Т. 2.
Hérault J., Jutten C. Space or time adaptive signal processing by neural networks models // Intern. Conf. on Neural Networks for Computing. — Utah, USA: Snowbird, 1986.
Sepp Hochreiter, Jürgen Schmidhuber. Feature Extraction Through LOCOCODE // Neural Computation. — 1999. — Т. 11, вып. 3. — ISSN 0899-7667. — doi:10.1162/089976699300016629.
Brown G. D., Yamada S., Sejnowski T. J. Independent components analysis at the neural cocktail party // Trends in Neurosciences. — 2001. — Т. 24, вып. 1. — doi:10.1016/s0166-2236(00)01683-0.
Lewicki M. S. Areview of methods for spike sorting: detection and classification of neural action potentials // Network: Computation in Neural Systems. — 1998. — Т. 9.
Barlett M. S. Face image analysis by unsupervised learning. — Boston: Kluwer International Series on Engineering and Computer Science, 2001. — Т. 612. — (SECS). — ISBN 978-1-4613-5653-0.
Bell A. J., Sejnowski T. J. The independent components of natural scenes are edge filters // Vision Research. — 1997. — Т. 37, вып. 23. — doi:10.1016/s0042-6989(97)00121-1. — PMID 9425547. — PMC 2882863.
Back A. D., Weigend A. S. A first application of independent component analysis to extracting structure from stock returns // International Journal of Neural Systems. — 1997. — Т. 8, вып. 4. — doi:10.1142/s0129065797000458. — PMID 9730022.
Hyvarinen A., Karhunen J., Oja E. Independent component analysis / Symon Haykin. — New York: John Wiley and Sons, 2001. — (Adaptive and Learning System for Signal Processing, Communications, and Control). — ISBN 0-471-40540-X.
Polder G., van der Heijen F.W.A.M. Estimation of compound distribution in spectral images of tomatoes using independent component analysis // Austrian Computer Society. — 2003.
Delorme A., Sejnowski T., Makeig S. Enhanced detection of artifacts in EEG data using higher-order statistics and independent component analysis // NeuroImage. — 2007. — Т. 34, вып. 4. — doi:10.1016/j.neuroimage.2006.11.004. — PMID 17188898. — PMC 2895624.
Trapnell C., Cacchiarelli D., Grimsby J. The dynamics and regulators of cell fate decisions are revealed by pseudotemporal ordering of single cells // Nature Biotechnology. — 2014. — Т. 32, вып. 4. — doi:10.1038/nbt.2859. — PMID 24658644. — PMC 4122333.
Vesa J. Kiviniemi, Juha-Heikki Kantola, Jukka Jauhiainen, Aapo Hyvärinen, Osmo Tervonen. Independent component analysis of nondeterministic fMRI signal sources // NeuroImage. — 2003. — Т. 19. — doi:10.1016/S1053-8119(03)00097-1. — PMID 12814576.

Ссылки[править | править код]

Что есть анализ независимых компонент? (Аапо Хювяринен)
Обучающий курс: Анализ независимых компонент (Аапо Хювяринен)
Обучающий курс: Анализ независимых компонент
FastICA как пакет для Matlab, на языках R и C++
Инструментальные средства ICALAB для Matlab, разработанный в RIKEN
Инструментальные средства высокоэффективного анализа сигналов даёт реализацию на языке C++ методов FastICA и Infomax
Инструментальные средства ICA — Инструментальные средства Matlab для ICA с Bell-Sejnowski, Molgedey-Schuster и mean field ICA. Разработано в DTU.
Демонстрация задачи о шумной вечеринке Архивная копия от 13 марта 2010 на Wayback Machine
Инструментальное средство EEGLAB ICA для электроэнцефалограмм для Matlab, разработанное в UCSD.
Инструментальные средства FMRLAB ICA функциональной магнитно-резонансной томографии для Matlab, разработанное в UCSD
MELODIC, часть библиотеки FMRIB^[en].
Обсуждение ICA, используемой в контексте биометрических представлений объектов
Алгоритмы FastICA, CuBICA, JADE и TDSEP для языка Python
Инструментальные средства Group ICA и Fusion ICA
Обучающий курс: Использование ICA для очищения сигналов энцефалограммы

[_2a4eeaac094eb14f-1] Isomura, Toyoizumi, 2016.

[_9bf5aa43d03616dc-2] ¹ ² ³ ⁴ ⁵ Stone, 2004.

[_2e00d822678b76e0-3] ¹ ² Hyvärinen, Karhunen, Oja, 2001.

[_10b38c3e611f627d-4] Himbergand, Hyvärinen, 2001.

[_647d724066b5d50c-5] Nguyen, Zheng, 2011, с. 3168—3181.

[_a578272d9277be59-6] Painsky, Rosset, Feder, 2014, с. 1326–1330.

[_f53c6ce87d695bb5-7] Kruskal, 1969, с. 427–440.

[_682f4c47c8c1afcd-8] Hyvärinen, Oja, 2000, с. 411–430.

[_c8a5661b10908223-9] Hyvärinen, 1998, с. 273–279.

[_c4dcad2d8d1e2745-10] Hérault, Ans, 1984, с. 525–528.

[_98e7772e53b77f64-11] Ans, Hérault, Jutten, 1985, с. 593—597.

[_d124ef1882c84ade-12] Hérault, Jutten, Ans, 1985, с. 1017—1022.

[_4bab1d4d82db7507-13] Hérault, Jutten, 1986, с. 206—211.

[_9a32d851f6efdf0e-14] Comon, 1994.

[_28cc0d67b91c4aa9-15] Hochreiter, Schmidhuber, 1999, с. 679–714.

[_7821f52645da826d-16] Brown, Yamada, Sejnowski, 2001, с. 54–63.

[_5c62e157aa94cf6e-17] Lewicki, 1998, с. 53–78.

[_449e95b711d430ba-18] Barlett, 2001.

[_46f12512d0ad3f2c-19] Bell, Sejnowski, 1997, с. 3327–3338.

[_61746c0967385d32-20] Back, Weigend, 1997, с. 473–484.

[_860a581f243180ac-21] Hyvarinen, Karhunen, Oja, 2001.

[_df833e36c544ab76-22] Polder, van der Heijen, 2003, с. 57–64.

[_1573bbd9fdd076b6-23] Delorme, Sejnowski, Makeig, 2007, с. 1443–1449.

[_d00a5758cb9ebdd3-24] Trapnell, Cacchiarelli, Grimsby, 2014, с. 381–386.

[_ee59a55a225ede9b-25] Kiviniemi, Kantola, Jauhiainen, Hyvärinen, Tervonen, 2003, с. 253–260.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k-ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Random forest Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k-ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Теория Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG