Глубокое обучение

Глубокое обучение (глубинное обучение; англ. Deep learning) — совокупность методов машинного обучения (с учителем, с частичным привлечением учителя, без учителя, с подкреплением), основанных на обучении представлениям (англ. feature/representation learning), а не специализированных алгоритмах под конкретные задачи. Многие методы глубокого обучения были известны ещё в 1980-е (и даже ранее^[1]), но результаты не впечатляли^[2], пока продвижения в теории искусственных нейронных сетей (предобучение нейросетей с помощью специального случая ненаправленной графической модели, так называемой ограниченной машины Больцмана) и вычислительные мощности середины 2000-х годов (в том числе использующие графические ускорители, программируемые пользователем вентильные матрицы и различные формы нейронных процессоров) не позволили создавать сложные технологические архитектуры нейронных сетей, обладающие достаточной производительностью и позволяющие решать широкий спектр задач, не поддававшихся эффективному решению ранее, например, в компьютерном зрении, машинном переводе, распознавании речи, причём качество решения во многих случаях теперь сопоставимо, а в некоторых превосходит эффективность человека^[3].

История[править | править код]

Несмотря на то что термин «глубокое обучение» появился в научном сообществе машинного обучения только в 1986 году после работы Рины Дехтер^[4], первый общий рабочий алгоритм для глубоких многослойных перцептронов прямого распространения был опубликован в книге советских учёных Алексея Григорьевича Ивахненко и Валентина Григорьевича Лапы «Кибернетические предсказывающие устройства» ещё в 1965 г.^[5]

Другие глубокие архитектуры, в особенности те, которые специализируются на распознавании образов, берут своё начало с неокогнитрона, разработанного Кунихико Фукусимой (англ.) (рус. в 1980 году. В 1989 году Яну Лекуну удалось использовать алгоритм обратного распространения ошибки для обучения глубоких нейросетей для решения задачи распознавания рукописных ZIP-кодов^[6]. Несмотря на успешный опыт, для обучения модели потребовалось три дня, что существенно ограничивало применимость этого метода. Низкая скорость обучения связана со многими факторами, включая проблему исчезающих градиентов из-за большого разброса значений обучаемых параметров, которую в 1991 году анализировали Йорген Шмидхубер и Зепп Хохрайтер. Из-за этих проблем нейронные сети в 1990-х годах уступили место методу опорных векторов.

К 1991 году такие системы использовались для распознавания изолированных двумерных рукописных цифр, а распознавание трёхмерных объектов осуществлялось путём сопоставления двумерных изображений с трёхмерной объектной моделью, изготовленной вручную. В 1992 году создана модель кресцептрона^[7]^[8]^[9] для распознавания трёхмерных объектов в загромождённых сценах.

В 1994 году Андре де Карвальо вместе с Майком Фэйрхерстом и Дэвидом Биссетом опубликовал экспериментальные результаты многослойной булевой нейронной сети, также известной как невесомая нейронная сеть, состоящая из трехуровневого самоорганизующегося модуля нейронной сети для выделения признаков (SOFT), а затем - модуль нейронной сети многоуровневой классификации (GSN). Каждый модуль прошел независимое друг от друга обучение. Каждый слой в модуле извлекал объекты с растущей сложностью относительно предыдущего слоя.^[10]

В 1995 году Брендан Фрей продемонстрировал, что можно обучить (в течение двух дней) сеть, содержащую шесть полностью соединенных слоев и несколько сотен скрытых юнитов, используя алгоритм сна-бодрствования, разработанный совместно с Питером Даяном и Хинтоном^[11]. Многие факторы способствуют низкой скорости, включая проблему исчезающего градиента, проанализированную в 1991 году Зеппом Хохрайтером^[12]^[13].

Более простые модели, которые используют ручные работы, специфичные для конкретной задачи, такие как фильтры Габора и метод опорных векторов (МОВ), были популярным выбором в 1990-х и 2000-х годах из-за вычислительных затрат искусственной нейронной сети (ИНС, англ. ANN) и отсутствия понимания того, как мозг связывает свои биологические сети.

Как поверхностное, так и глубокое обучение (например, рекуррентные сети) ИНС изучалась в течение многих лет^[14]^[15]^[16]. Эти методы никогда не превосходили неоднородную смешанную Гауссову модель и скрытую модель Маркова, основанную на генеративных моделях речи, обученных дискриминационно^[17]. Были проанализированы ключевые трудности, в том числе уменьшение градиента^[12] и слабая временная корреляционная структура в нейронных прогностических моделях^[18]^[19]. Дополнительными трудностями были отсутствие обучающих данных и ограниченная вычислительная мощность.

Глубокое обучение приобрело популярность в середине 2000-х годов, когда всё сошлось воедино: компьютеры стали достаточно мощными, чтобы обучать большие нейронные сети (вычисления научились делегировать графическим процессорам, что ускорило процесс обучения на порядок), наборы данных стали достаточно объёмными, чтобы обучение больших сетей имело смысл, а в теории искусственных нейронных сетей произошло очередное продвижение — статьи Хинтона, Осиндеро и Тэ^[20], а также Бенджио^[21], в которых авторы показали, что можно эффективно предобучать многослойную нейронную сеть, если обучать каждый слой отдельно при помощи ограниченной машины Больцмана, а затем дообучать при помощи метода обратного распространения ошибки.

Революция в глубоком обучении[править | править код]

В 2012 году команда под руководством Джорджа Э. Даля выиграла конкурс «Merck Molecular Activity Challenge», используя многозадачные глубокие нейронные сети для прогнозирования биомолекулярной мишени одного препарата^[22]. В 2014 году группа Хохрейтера использовала глубокое обучение для выявления нецелевых и токсических эффектов химических веществ, присутствующих в окружающей среде, в питательных веществах, продуктах домашнего обихода и лекарствах, и выиграла «Tox21 Data Challenge» от Национального института здравоохранения США, Управления по санитарному надзору за качеством пищевых продуктов и медикаментов и NCATS^[23].

Концептуальное изображение глубокого обучения в виде подмножества машинного обучения, а машинного обучения - как подмножество искусственного интеллекта (ИИ)

Значительное развитие в распознавании изображений или объектов ощущалось в период с 2011 по 2012 годы. Хотя сверточные нейронные сети (СНН), обученные обратному распространению, существовали в течение десятилетий, и GPU внедряли нейронные сети в течение многих лет, включая СНН, быстрые реализации СНН на GPU использовали для развития компьютерного зрения. В 2011 году этот подход впервые позволил добиться сверхчеловеческой производительности в конкурсе визуального распознавания образов. Также в 2011 году он выиграл конкурс рукописного ввода ICDAR, а в мае 2012 года — конкурс сегментации изображений ISBI^[24]. До 2011 года СНН не играли основной роли на конференциях по компьютерному зрению, но в июне 2012 года доклад Циресана^[25] на ведущей конференции CVPR показал, как максимальное объединение СНН на GPU может значительно улучшить многие результаты бенчмарков. В октябре 2012 г. аналогичная система была разработана Крижевским^[26], коллектив которого выиграл крупномасштабный конкурс ImageNet со значительным преимуществом по сравнению с методами поверхностного машинного обучения. В ноябре 2012 года команда Циресана также выиграла конкурс ICPR по анализу больших медицинских изображений для выявления рака, а в следующем году MICCAI Grand Challenge по той же теме^[27]. В 2013 и 2014 годах частота ошибок в задаче ImageNet с использованием глубокого обучения была ещё снижена вследствие аналогичной тенденции в широкомасштабном распознавании речи. Стивен Вольфрам в рамках проекта по идентификации изображений опубликовал эти улучшения^[28].

Классификация изображений была затем расширена до более сложной задачи генерации описаний (подписей) для изображений, часто в виде комбинации СНН и LSTM^[29]^[30]^[31]^[32].

Некоторые исследователи считают, что победа ImageNet в октябре 2012 года положила начало «революции глубокого обучения», которая изменила индустрию искусственного интеллекта^[33].

В марте 2019 года Йошуа Бенжио, Джеффри Хинтон и Янн ЛеКун были награждены премией Тьюринга за концептуальные и инженерные прорывы, которые сделали глубокие нейронные сети критическим компонентом вычислений.

Нейронные сети[править | править код]

Искусственные нейронные сети (ИНС) — это вычислительные системы, основанные на принципах биологических нейронных сетей, составляющих мозг животных. Такие системы учатся (постепенно улучшают свои способности) выполнять задачи, как правило, без программирования для решения конкретных задач. Например, при распознавании изображений кошек они могут научиться распознавать изображения, содержащие кошек, анализируя примеры изображений, которые были вручную помечены как «кошка» или «нет кошки», и используя результаты анализа для идентификации кошек на других изображениях. Наибольшее применение ИНС нашли в программных приложениях, которые трудно выразить традиционным компьютерным алгоритмом, использующим программирование на основе правил.

ИНС основаны на наборе связанных единиц, называемых искусственными нейронами (аналог биологических нейронов в биологическом мозге). Каждое соединение (синапс) между нейронами может передавать сигнал другому нейрону. Принимающий (постсинаптический) нейрон может обрабатывать сигнал (сигналы) и затем сигнализировать о подключенных к нему нейронах. Нейроны могут иметь состояние, обычно представляемое действительными числами, обычно между 0 и 1. Нейроны и синапсы могут также иметь вес, который изменяется в процессе обучения, что может увеличивать или уменьшать силу сигнала, который он посылает далее.

Как правило, нейроны организованы в слои. Разные слои могут выполнять различные виды преобразований. Сигналы проходят от первого (входного) до последнего (выходного) слоя, возможно, после многократного прохождения слоев.

Первоначальная цель нейросетевого подхода состояла в том, чтобы решать задачи так же, как это делает человеческий мозг. Со временем внимание сосредоточилось на подборе определённых интеллектуальных способностей, что привело к отклонениям от биологии, таким как обратное распространение, или передаче информации в обратном направлении и настройке сети для отражения этой информации.

Нейронные сети используются для решения различных задач, включая машинное зрение, распознавание речи, машинный перевод, фильтрацию в социальных сетях, видеоигры и медицинскую диагностику.

Начиная с 2017 года нейронные сети обычно имеют от нескольких тысяч до нескольких миллионов единиц и миллионы соединений. Несмотря на то что это число на несколько порядков меньше, чем число нейронов в человеческом мозге, эти сети могут выполнять множество задач на уровне, превышающем возможности людей (например, распознавание лиц, игра в го)^[34].

Глубокие нейронные сети[править | править код]

Глубокая нейронная сеть (ГНС, англ. DNN — Deep neural network) — это искусственная нейронная сеть (ИНС) с несколькими слоями между входным и выходным слоями^[35]^[36]. ГНС находит корректный метод математических преобразований, чтобы превратить входные данные в выходные, независимо от линейной или нелинейной корреляции. Сеть продвигается по слоям, рассчитывая вероятность каждого выхода. Например, ГНС, которая обучена распознавать породы собак, пройдет по заданному изображению и вычислит вероятность того, что собака на изображении относится к определённой породе. Пользователь может просмотреть результаты и выбрать вероятности, которые должна отображать сеть (выше определённого порога, например), и вернуть в сеть предложенную метку. Каждое математическое преобразование считается слоем, а сложные ГНС имеют много слоев, отсюда и название «глубинные» или «глубокие» сети.

ГНС могут моделировать сложные нелинейные отношения. Архитектуры ГНС генерируют композиционные модели, в которых объект выражается в виде многоуровневой композиции примитивов^[37]. Дополнительные уровни позволяют составлять элементы из более низких уровней, потенциально моделируя сложные данные с меньшим количеством единиц, чем мелкая сеть с аналогичными показателями^[35].

Глубокая архитектура включает в себя множество вариантов нескольких основных подходов. Каждая архитектура нашла успех в определённых областях. Не всегда возможно сравнить производительность нескольких архитектур, если они не были оценены на одних и тех же наборах данных.

ГНС, как правило, представляют собой сети с прямой связью, в которых данные передаются от входного уровня к выходному уровню без обратной связи. Сначала ГНС создает карту виртуальных нейронов и назначает случайные числовые значения или «веса» соединениям между ними. Веса и входные данные умножаются и возвращают выходной сигнал от 0 до 1. Если сеть не точно распознала конкретный шаблон, алгоритм будет корректировать весовые коэффициенты, до тех пор, пока не определит коэффициенты, правильно обрабатывающие данные. ^[38]

Определения[править | править код]

Алгоритмы машинного обучения[править | править код]

Глубокое обучение характеризуется как класс алгоритмов машинного обучения, который^[39]:

использует многослойную систему нелинейных фильтров для извлечения признаков с преобразованиями. Каждый последующий слой получает на входе выходные данные предыдущего слоя. Система глубокого обучения может сочетать алгоритмы обучения с учителем и без учителя, при этом анализ образца представляет собой обучение без учителя, а классификация — обучение с учителем.
обладает несколькими слоями выявления признаков или параметров представления данных (обучение без учителя). При этом признаки организованы иерархически, признаки более высокого уровня являются производными от признаков более низкого уровня.
является частью более широкой области машинного обучения изучения представлений данных.
формирует в процессе обучения слои на нескольких уровнях представлений, которые соответствуют различным уровням абстракции; слои образуют иерархию понятий.

Все определения констатируют

наличие нескольких слоев нелинейной обработки
обучение с учителем или без учителя признаков каждого слоя, формируя иерархию от низкого до высокого уровня^[39].

Состав конкретных нелинейных слоёв зависит от решаемой проблемы. Используются как скрытые слои нейронной сети, так и слои сложных логических преобразований^[40]. Система может включать скрытые переменные, организованные послойно в глубоких генеративных моделях, таких как узлы в глубокой сети доверия и глубокой ограниченной машине Больцмана.

Алгоритмы глубокого обучения противопоставлены алгоритмам неглубокого обучения по количеству параметризованных преобразований, с которыми сталкивается сигнал, распространяющийся от входного слоя к выходному слою, где параметризованным преобразованием считается такой блок обработки данных, у которого есть обучаемые параметры, такие как веса или пороги^[41]. Цепочка преобразований от входа к выходу называется CAP — путём передачи ответственности (англ. credit assignment path, CAP). CAP описывают потенциальные причинные связи вдоль сети от входа к выходу, при этом путь в разных ветвях может иметь разную длину. Для нейронной сети прямого распространения (feedforward) глубина CAP не отличается от глубины сети и равна количеству скрытых слоев плюс один (выходной слой также параметризован). Для рекуррентных нейронных сетей, в которых сигнал может перескакивать через слои минуя промежуточные, CAP из-за обратной связи потенциально неограничен в длине. Не существует универсально согласованного порога глубины деления неглубокого обучения от глубокого обучения, но обычно считается, что глубокое обучение характеризуется несколькими нелинейными слоями (CAP > 2). Йорген Шмидхубер выделяет также «очень глубокое обучение», когда CAP > 10^[41].

Содержание[править | править код]

Глубокое обучение — это алгоритмы машинного обучения для моделирования высокоуровневых абстракций с применением многочисленных нелинейных преобразований^[39]^[40]^[41]^[42]^[43].

В первую очередь к глубинному обучению относятся следующие методы и их вариации:

Определённые системы обучения без учителя, такие как ограниченная машина Больцмана для предварительного обучения, автокодировщик, глубокая сеть доверия, генеративно-состязательная сеть,
Определённые системы обучения с учителем, такие как свёрточная нейронная сеть, которая вывела на новый уровень технологии распознавания образов,
Рекуррентные нейронные сети, позволяющие обучаться на процессах во времени,
Рекурсивные нейронные сети, позволяющие включать обратную связь между элементами схемы и цепочками.

Комбинируя эти методы, создаются сложные системы, соответствующие различным задачам искусственного интеллекта.

Глубокое обучение является апробированной выборкой из широкого семейства методов машинного обучения для представлений данных, наиболее соответствующих характеру задачи. Изображение, например, может быть представлено многими способами, такими как вектор интенсивности значений на пиксель, или (в более абстрактной форме) как множество примитивов, областей определённой формы, и т. д. Удачные представления данных облегчают решение конкретных задач — например, распознавания лиц и выражений лица^[44]). В системах глубокого обучения автоматизирует сам процесс выбора и настройки признаков, проводя обучение признаков^[en] без учителя или с частичным привлечением учителя, используя для этого эффективные алгоритмы и иерархическое извлечение признаков^[en]^[45].

Исследования в этой области позволили усовершенствовать модели работы с большими объёмами немаркированных данных. Некоторые подходы возникли в результате достижений в области нейронаук, успехов интерпретации обработки информации, построения коммуникационных моделей в нервной системе, таких как нейронное кодирование, связанное с определением отношения между стимулом и нейронными реакциями и взаимосвязи электрической активности между нейронами в головном мозге^[46].

Системы глубокого обучения нашли применение в таких областях, как компьютерное зрение, распознавание речи, обработка естественного языка, аудиораспознавание, биоинформатика, где для ряда задач были продемонстрированы существенно лучшие результаты, чем ранее.

Несмотря на успехи использования глубинного обучения, у него всё же есть фундаментальное ограничение: модели глубинного обучения ограничены в том, что они могут представлять, и большинство программ нельзя выразить в виде непрерывного геометрического морфинга многообразия данных^[47].

Осталось, однако, и скептическое представление, что глубокое обучение — не что иное, как модное слово или ребрендинг для нейронных сетей^[48]^[49].

См. также[править | править код]

Сравнение программ глубинного обучения

Примечания[править | править код]

↑ На самом деле, первые глубокие сети появились ещё в середине 1960-х: сети в виде глубоких перцептронов были описаны в работах советских учёных А. Г. Ивахненко и В. Г. Лапы — см. далее раздел «История».
↑ Исследователь нейронных сетей Джон Денкер (John Denker) в 1994 году заметил: «Нейронные сети — это второй лучший способ сделать практически что угодно».
↑ Ciresan, Dan; Meier, U.; Schmidhuber, J. Multi-column deep neural networks for image classification (англ.) // 2012 IEEE Conference on Computer Vision and Pattern Recognition : journal. — 2012. — June. — P. 3642—3649. — doi:10.1109/cvpr.2012.6248110. Архивировано 20 февраля 2018 года.
↑ Rina Dechter (1986). Learning while searching in constraint-satisfaction problems Архивная копия от 19 апреля 2016 на Wayback Machine. University of California, Computer Science Department, Cognitive Systems Laboratory.
↑ Ивахненко А. Г., Лапа В. Г. Кибернетические предсказывающие устройства. — К.: «Наукова думка», 1965. — 216 с. — ISBN 978-5-458-61159-6.
↑ Yann LeCun et al. Backpropagation Applied to Handwritten Zip Code Recognition (неопр.). Дата обращения: 28 августа 2014. Архивировано из оригинала 29 мая 2015 года.
↑ J. Weng, N. Ahuja and T. S. Huang. Cresceptron: a self-organizing neural network which grows adaptively // Proc. International Joint Conference on Neural Networks, Baltimore, Maryland, vol I, pp. 576-581. — June, 1992.. Архивировано 21 сентября 2017 года.
↑ J. Weng, N. Ahuja and T. S. Huang,. Learning recognition and segmentation of 3-D objects from 2-D images // Proc. 4th International Conf. Computer Vision, Berlin, Germany, pp. 121-128. — May, 1993.. Архивировано 21 сентября 2017 года.
↑ J. Weng, N. Ahuja and T. S. Huang,. Learning recognition and segmentation using the Cresceptron // International Journal of Computer Vision, vol. 25, no. 2, pp. 105-139. — Nov. 1997.. Архивировано 25 января 2021 года.
↑ de Carvalho, Andre C. L. F.; Fairhurst, Mike C.; Bisset, David (1994-08-08). An integrated Boolean neural network for pattern classification // Pattern Recognition Letters.. — С. 807–813. — doi:10.1016/0167-8655(94)90009-4.. Архивировано 25 августа 2019 года.
↑ Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford. The wake-sleep algorithm for unsupervised neural networks // Science. 268 (5214): 1158–1161.. — 1995-05-26. — doi:10.1126/science.7761831.. Архивировано 25 августа 2019 года.
↑ ¹ ² S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen // Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber. — 1991. Архивировано 6 марта 2015 года.
↑ Hochreiter, S.; et al. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies // In Kolen, John F.; Kremer, Stefan C. (eds.). A Field Guide to Dynamical Recurrent Networks. John Wiley & Sons.. — 15 January 2001. — ISBN 978-0-7803-5369-5.. Архивировано 19 августа 2020 года.
↑ Morgan, Nelson; Bourlard, Hervé; Renals, Steve; Cohen, Michael; Franco, Horacio. Hybrid neural network/hidden markov model systems for continuous speech recognition // International Journal of Pattern Recognition and Artificial Intelligence.. — 1993-08-01. — № 07 (4): 899–916. — ISSN 0218-0014. — doi:10.1142/s0218001493000455.
↑ Robinson, T. A real-time recurrent error propagation network word recognition system. — ICASSP. Icassp'92: 617–620.. — 1992. — ISBN 9780780305328..
↑ Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, K. J. Phoneme recognition using time-delay neural networks // IEEE Transactions on Acoustics, Speech, and Signal Processing. 37 (3): 328–339. — March 1989. — ISSN 0096-3518. — doi:10.1109/29.21701. hdl:10338.dmlcz/135496.
↑ Baker, J.; Deng, Li; Glass, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. 2009. Research Developments and Directions in Speech Recognition and Understanding, Part 1 // IEEE Signal Processing Magazine.. — № 26 (3): 75–80. — doi:10.1109/msp.2009.932166.
↑ Bengio, Y. Artificial Neural Networks and their Application to Speech/Sequence Recognition // McGill University Ph.D. thesis.. — 1991. Архивировано 9 мая 2021 года.
↑ Deng, L.; Hassanein, K.; Elmasry, M. Analysis of correlation structure for a neural predictive model with applications to speech recognition // Neural Networks. 7 (2). — 1994. — С. 331–339. — doi:10.1016/0893-6080(94)90027-2.
↑ A Fast Learning Algorithm for Deep Belief Nets (неопр.). Дата обращения: 24 января 2018. Архивировано 23 декабря 2015 года.
↑ Bengio, Yoshua (2012). "Practical recommendations for gradient-based training of deep architectures". arXiv:1206.5533.
↑ Announcement of the winners of the Merck Molecular Activity Challenge (неопр.). Дата обращения: 27 ноября 2019. Архивировано 21 июня 2017 года.
↑ NCATS Announces Tox21 Data Challenge Winners (неопр.). Дата обращения: 27 ноября 2019. Архивировано 8 сентября 2015 года.
↑ Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Juergen. Advances in Neural Information Processing Systems // Curran Associates, Inc.. — 2012. — С. 2843–2851.. Архивировано 9 августа 2017 года.
↑ Ciresan, D.; Meier, U.; Schmidhuber, J. Multi-column deep neural networks for image classification // IEEE Conference on Computer Vision and Pattern Recognition. — 2012. — С. 3642–3649. — ISBN 978-1-4673-1228-8. — doi:10.1109/cvpr.2012.6248110. — arXiv:1202.2745..
↑ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffry. ImageNet Classification with Deep Convolutional Neural Networks // NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada.. — 2012. Архивировано 10 января 2017 года.
↑ Ciresan, D.; Giusti, A.; Gambardella, L.M.; Schmidhuber, J. Mitosis Detection in Breast Cancer Histology Images using Deep Neural Networks // Proceedings MICCAI. Lecture Notes in Computer Science. 7908 (Pt 2): 411–418.. — 2013. — ISBN 978-3-642-38708-1. — doi:10.1007/978-3-642-40763-5_51. — PMID 24579167.
↑ "The Wolfram Language Image Identification Project". www.imageidentify.com. Retrieved 2017-03-22. (неопр.) Дата обращения: 29 ноября 2019. Архивировано 22 июля 2020 года.
↑ Vinyals, Oriol; Toshev, Alexander; Bengio, Samy; Erhan, Dumitru. Show and Tell: A Neural Image Caption Generator // [cs.CV]. — 2014. — arXiv:1411.4555.
↑ Fang, Hao; Gupta, Saurabh; Iandola, Forrest; Srivastava, Rupesh; Deng, Li; Dollár, Piotr; Gao, Jianfeng; He, Xiaodong; Mitchell, Margaret; Platt, John C; Lawrence Zitnick, C; Zweig, Geoffrey. From Captions to Visual Concepts and Back // [cs.CV]. — 2014. — arXiv:https://arxiv.org/abs/1411.4952.
↑ Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Richard S. Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models // [cs.LG]. — 2014. — arXiv:https://arxiv.org/abs/1411.2539.
↑ Zhong, Sheng-hua; Liu, Yan; Liu, Yang. Bilinear Deep Learning for Image Classification // Proceedings of the 19th ACM International Conference on Multimedia. MM '11. New York, NY, USA: ACM. — 2011. — С. 343–352. — ISBN 9781450306164. — doi:10.1145/2072298.2072344.
↑ Why Deep Learning Is Suddenly Changing Your Life (неопр.). Fortune (13 апреля 2018). Дата обращения: 30 ноября 2019. Архивировано 14 апреля 2018 года.
↑ Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda. Mastering the game of Go with deep neural networks and tree search // Nature: 529 (7587):. — January 2016. — ISSN 1476-4687. — doi:10.1038/nature16961. — Bibcode: 2016Natur.529..484S. — PMID 26819042.
↑ ¹ ² Bengio, Yoshua. Learning Deep Architectures for AI // Foundations and Trends in Machine Learning. 2 (1): 1–127. — 2009. — doi:10.1561/2200000006. Архивировано 4 марта 2016 года.
↑ Schmidhuber, J. Deep Learning in Neural Networks: An Overview // Neural Networks. 61: 85–117. — 2015. — doi:10.1016/j.neunet.2014.09.003. — arXiv:1404.7828. — PMID 25462637.
↑ Szegedy, Christian; Toshev, Alexander; Erhan, Dumitru. Deep neural networks for object detection // Advances in Neural Information Processing Systems. — 2013. — С. 2553–2561. Архивировано 29 июня 2017 года.
↑ Hof, Robert D. Is Artificial Intelligence Finally Coming into Its Own? // MIT Technology Review. Retrieved 2018-07-10. Архивировано 31 марта 2019 года.
↑ ¹ ² ³ Deng, L.; Yu, D. Deep Learning: Methods and Applications (неопр.) // Foundations and Trends in Signal Processing. — 2014. — Т. 7, № 3—4. — С. 1—199. — doi:10.1561/2000000039. Архивировано 14 марта 2016 года.
↑ ¹ ² Bengio, Yoshua. Learning Deep Architectures for AI (неопр.) // Foundations and Trends in Machine Learning. — 2009. — Т. 2, № 1. — С. 1—127. — doi:10.1561/2200000006. Архивировано 4 марта 2016 года. Архивированная копия (неопр.). Дата обращения: 24 ноября 2017. Архивировано из оригинала 4 марта 2016 года.
↑ ¹ ² ³ Schmidhuber, J. Deep Learning in Neural Networks: An Overview (неопр.) // Neural Networks. — 2015. — Т. 61. — С. 85—117. — doi:10.1016/j.neunet.2014.09.003. — arXiv:1404.7828. — PMID 25462637.
↑ Bengio, Y.; Courville, A.; Vincent, P. Representation Learning: A Review and New Perspectives (англ.) // IEEE Transactions on Pattern Analysis and Machine Intelligence^[en] : journal. — 2013. — Vol. 35, no. 8. — P. 1798—1828. — doi:10.1109/tpami.2013.50. — arXiv:1206.5538.
↑ Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey. Deep Learning (англ.) // Nature. — 2015. — Vol. 521. — P. 436—444. — doi:10.1038/nature14539. — PMID 26017442.
↑ Glauner, P. (2015). Deep Convolutional Neural Networks for Smile Recognition (MSc Thesis). Imperial College London, Department of Computing. arXiv:1508.06535.
↑ Song, Lee, Neural Information Processing, 2013
↑ Olshausen, B. A. Emergence of simple-cell receptive field properties by learning a sparse code for natural images (англ.) // Nature : journal. — 1996. — Vol. 381, no. 6583. — P. 607—609. — doi:10.1038/381607a0. — Bibcode: 1996Natur.381..607O. — PMID 8637596.
↑ Francois Chollet. Chapter 9, Section 2 // Deep Learning with Python. — Manning, 2017. — 350 p. — ISBN 9781617294433.
↑ Collobert, R. (April 2011). Deep Learning for Efficient Discriminative Parsing. VideoLectures.net. Event occurs at 7min 45s. Источник (неопр.). Дата обращения: 14 декабря 2016. Архивировано 19 октября 2020 года.
↑ Gomes, Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts

Литература[править | править код]

Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение = Deep Learning. — М.: ДМК Пресс, 2017. — 652 с. — ISBN 978-5-97060-554-7.
Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. — СПб.: Питер, 2018. — 480 с. — ISBN 978-5-496-02536-2.

[1] На самом деле, первые глубокие сети появились ещё в середине 1960-х: сети в виде глубоких перцептронов были описаны в работах советских учёных А. Г. Ивахненко и В. Г. Лапы — см. далее раздел «История».

[2] Исследователь нейронных сетей Джон Денкер (John Denker) в 1994 году заметил: «Нейронные сети — это второй лучший способ сделать практически что угодно».

[3] Ciresan, Dan; Meier, U.; Schmidhuber, J. Multi-column deep neural networks for image classification (англ.) // 2012 IEEE Conference on Computer Vision and Pattern Recognition : journal. — 2012. — June. — P. 3642—3649. — doi:10.1109/cvpr.2012.6248110. Архивировано 20 февраля 2018 года.

[dechter1986-4] Rina Dechter (1986). Learning while searching in constraint-satisfaction problems Архивная копия от 19 апреля 2016 на Wayback Machine. University of California, Computer Science Department, Cognitive Systems Laboratory.

[5] Ивахненко А. Г., Лапа В. Г. Кибернетические предсказывающие устройства. — К.: «Наукова думка», 1965. — 216 с. — ISBN 978-5-458-61159-6.

[6] Yann LeCun et al. Backpropagation Applied to Handwritten Zip Code Recognition (неопр.). Дата обращения: 28 августа 2014. Архивировано из оригинала 29 мая 2015 года.

[7] J. Weng, N. Ahuja and T. S. Huang. Cresceptron: a self-organizing neural network which grows adaptively // Proc. International Joint Conference on Neural Networks, Baltimore, Maryland, vol I, pp. 576-581. — June, 1992.. Архивировано 21 сентября 2017 года.

[8] J. Weng, N. Ahuja and T. S. Huang,. Learning recognition and segmentation of 3-D objects from 2-D images // Proc. 4th International Conf. Computer Vision, Berlin, Germany, pp. 121-128. — May, 1993.. Архивировано 21 сентября 2017 года.

[9] J. Weng, N. Ahuja and T. S. Huang,. Learning recognition and segmentation using the Cresceptron // International Journal of Computer Vision, vol. 25, no. 2, pp. 105-139. — Nov. 1997.. Архивировано 25 января 2021 года.

[10] de Carvalho, Andre C. L. F.; Fairhurst, Mike C.; Bisset, David (1994-08-08). An integrated Boolean neural network for pattern classification // Pattern Recognition Letters.. — С. 807–813. — doi:10.1016/0167-8655(94)90009-4.. Архивировано 25 августа 2019 года.

[11] Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford. The wake-sleep algorithm for unsupervised neural networks // Science. 268 (5214): 1158–1161.. — 1995-05-26. — doi:10.1126/science.7761831.. Архивировано 25 августа 2019 года.

[:0-12] ¹ ² S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen // Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber. — 1991. Архивировано 6 марта 2015 года.

[13] Hochreiter, S.; et al. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies // In Kolen, John F.; Kremer, Stefan C. (eds.). A Field Guide to Dynamical Recurrent Networks. John Wiley & Sons.. — 15 January 2001. — ISBN 978-0-7803-5369-5.. Архивировано 19 августа 2020 года.

[14] Morgan, Nelson; Bourlard, Hervé; Renals, Steve; Cohen, Michael; Franco, Horacio. Hybrid neural network/hidden markov model systems for continuous speech recognition // International Journal of Pattern Recognition and Artificial Intelligence.. — 1993-08-01. — № 07 (4): 899–916. — ISSN 0218-0014. — doi:10.1142/s0218001493000455.

[15] Robinson, T. A real-time recurrent error propagation network word recognition system. — ICASSP. Icassp'92: 617–620.. — 1992. — ISBN 9780780305328..

[16] Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, K. J. Phoneme recognition using time-delay neural networks // IEEE Transactions on Acoustics, Speech, and Signal Processing. 37 (3): 328–339. — March 1989. — ISSN 0096-3518. — doi:10.1109/29.21701. hdl:10338.dmlcz/135496.

[17] Baker, J.; Deng, Li; Glass, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. 2009. Research Developments and Directions in Speech Recognition and Understanding, Part 1 // IEEE Signal Processing Magazine.. — № 26 (3): 75–80. — doi:10.1109/msp.2009.932166.

[18] Bengio, Y. Artificial Neural Networks and their Application to Speech/Sequence Recognition // McGill University Ph.D. thesis.. — 1991. Архивировано 9 мая 2021 года.

[19] Deng, L.; Hassanein, K.; Elmasry, M. Analysis of correlation structure for a neural predictive model with applications to speech recognition // Neural Networks. 7 (2). — 1994. — С. 331–339. — doi:10.1016/0893-6080(94)90027-2.

[20] A Fast Learning Algorithm for Deep Belief Nets (неопр.). Дата обращения: 24 января 2018. Архивировано 23 декабря 2015 года.

[bengio2012-21] Bengio, Yoshua (2012). "Practical recommendations for gradient-based training of deep architectures". arXiv:1206.5533.

[22] Announcement of the winners of the Merck Molecular Activity Challenge (неопр.). Дата обращения: 27 ноября 2019. Архивировано 21 июня 2017 года.

[23] NCATS Announces Tox21 Data Challenge Winners (неопр.). Дата обращения: 27 ноября 2019. Архивировано 8 сентября 2015 года.

[24] Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Juergen. Advances in Neural Information Processing Systems // Curran Associates, Inc.. — 2012. — С. 2843–2851.. Архивировано 9 августа 2017 года.

[25] Ciresan, D.; Meier, U.; Schmidhuber, J. Multi-column deep neural networks for image classification // IEEE Conference on Computer Vision and Pattern Recognition. — 2012. — С. 3642–3649. — ISBN 978-1-4673-1228-8. — doi:10.1109/cvpr.2012.6248110. — arXiv:1202.2745..

[26] Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffry. ImageNet Classification with Deep Convolutional Neural Networks // NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada.. — 2012. Архивировано 10 января 2017 года.

[27] Ciresan, D.; Giusti, A.; Gambardella, L.M.; Schmidhuber, J. Mitosis Detection in Breast Cancer Histology Images using Deep Neural Networks // Proceedings MICCAI. Lecture Notes in Computer Science. 7908 (Pt 2): 411–418.. — 2013. — ISBN 978-3-642-38708-1. — doi:10.1007/978-3-642-40763-5_51. — PMID 24579167.

[28] "The Wolfram Language Image Identification Project". www.imageidentify.com. Retrieved 2017-03-22. (неопр.) Дата обращения: 29 ноября 2019. Архивировано 22 июля 2020 года.

[29] Vinyals, Oriol; Toshev, Alexander; Bengio, Samy; Erhan, Dumitru. Show and Tell: A Neural Image Caption Generator // [cs.CV]. — 2014. — arXiv:1411.4555.

[30] Fang, Hao; Gupta, Saurabh; Iandola, Forrest; Srivastava, Rupesh; Deng, Li; Dollár, Piotr; Gao, Jianfeng; He, Xiaodong; Mitchell, Margaret; Platt, John C; Lawrence Zitnick, C; Zweig, Geoffrey. From Captions to Visual Concepts and Back // [cs.CV]. — 2014. — arXiv:https://arxiv.org/abs/1411.4952.

[31] Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Richard S. Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models // [cs.LG]. — 2014. — arXiv:https://arxiv.org/abs/1411.2539.

[32] Zhong, Sheng-hua; Liu, Yan; Liu, Yang. Bilinear Deep Learning for Image Classification // Proceedings of the 19th ACM International Conference on Multimedia. MM '11. New York, NY, USA: ACM. — 2011. — С. 343–352. — ISBN 9781450306164. — doi:10.1145/2072298.2072344.

[33] Why Deep Learning Is Suddenly Changing Your Life (неопр.). Fortune (13 апреля 2018). Дата обращения: 30 ноября 2019. Архивировано 14 апреля 2018 года.

[34] Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda. Mastering the game of Go with deep neural networks and tree search // Nature: 529 (7587):. — January 2016. — ISSN 1476-4687. — doi:10.1038/nature16961. — Bibcode: 2016Natur.529..484S. — PMID 26819042.

[:1-35] ¹ ² Bengio, Yoshua. Learning Deep Architectures for AI // Foundations and Trends in Machine Learning. 2 (1): 1–127. — 2009. — doi:10.1561/2200000006. Архивировано 4 марта 2016 года.

[36] Schmidhuber, J. Deep Learning in Neural Networks: An Overview // Neural Networks. 61: 85–117. — 2015. — doi:10.1016/j.neunet.2014.09.003. — arXiv:1404.7828. — PMID 25462637.

[37] Szegedy, Christian; Toshev, Alexander; Erhan, Dumitru. Deep neural networks for object detection // Advances in Neural Information Processing Systems. — 2013. — С. 2553–2561. Архивировано 29 июня 2017 года.

[38] Hof, Robert D. Is Artificial Intelligence Finally Coming into Its Own? // MIT Technology Review. Retrieved 2018-07-10. Архивировано 31 марта 2019 года.

[BOOK2014-39] ¹ ² ³ Deng, L.; Yu, D. Deep Learning: Methods and Applications (неопр.) // Foundations and Trends in Signal Processing. — 2014. — Т. 7, № 3—4. — С. 1—199. — doi:10.1561/2000000039. Архивировано 14 марта 2016 года.

[BENGIODEEP-40] ¹ ² Bengio, Yoshua. Learning Deep Architectures for AI (неопр.) // Foundations and Trends in Machine Learning. — 2009. — Т. 2, № 1. — С. 1—127. — doi:10.1561/2200000006. Архивировано 4 марта 2016 года. Архивированная копия (неопр.). Дата обращения: 24 ноября 2017. Архивировано из оригинала 4 марта 2016 года.

[SCHIDHUB-41] ¹ ² ³ Schmidhuber, J. Deep Learning in Neural Networks: An Overview (неопр.) // Neural Networks. — 2015. — Т. 61. — С. 85—117. — doi:10.1016/j.neunet.2014.09.003. — arXiv:1404.7828. — PMID 25462637.

[42] Bengio, Y.; Courville, A.; Vincent, P. Representation Learning: A Review and New Perspectives (англ.) // IEEE Transactions on Pattern Analysis and Machine Intelligence^[en] : journal. — 2013. — Vol. 35, no. 8. — P. 1798—1828. — doi:10.1109/tpami.2013.50. — arXiv:1206.5538.

[NatureBengio-43] Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey. Deep Learning (англ.) // Nature. — 2015. — Vol. 521. — P. 436—444. — doi:10.1038/nature14539. — PMID 26017442.

[44] Glauner, P. (2015). Deep Convolutional Neural Networks for Smile Recognition (MSc Thesis). Imperial College London, Department of Computing. arXiv:1508.06535.

[45] Song, Lee, Neural Information Processing, 2013

[46] Olshausen, B. A. Emergence of simple-cell receptive field properties by learning a sparse code for natural images (англ.) // Nature : journal. — 1996. — Vol. 381, no. 6583. — P. 607—609. — doi:10.1038/381607a0. — Bibcode: 1996Natur.381..607O. — PMID 8637596.

[47] Francois Chollet. Chapter 9, Section 2 // Deep Learning with Python. — Manning, 2017. — 350 p. — ISBN 9781617294433.

[48] Collobert, R. (April 2011). Deep Learning for Efficient Discriminative Parsing. VideoLectures.net. Event occurs at 7min 45s. Источник (неопр.). Дата обращения: 14 декабря 2016. Архивировано 19 октября 2020 года.

[49] Gomes, Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k-ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Random forest Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k-ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Теория Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG