Глибоке навчання (також відоме як глибоке структуроване навчання або ієрархічне навчання) є частиною широкого сімейства методів машинного навчання, заснованого на штучних нейронних мережах. Навчання може здійснюватися під наглядом, напівконтролем або без нагляду.
Архітектури глибокого навчання, такі як глибокі нейронні мережі, мережі глибоких переконань, періодичні нейронні мережі та конволюційні нейронні мережі, застосовуються до полів, включаючи комп'ютерний зір, розпізнавання мови, природну обробку мови, аудіо розпізнавання, фільтрацію соціальної мережі, машинний переклад, біоінформатику, дизайн наркотиків аналіз медичних зображень, огляд матеріалів та програми настільних ігор, де вони дають результати, порівнянні з експертами людини, а в деяких випадках і вище.
Штучні нейронні мережі (АНН) були натхнені обробкою інформації та розподіленими вузлами зв'язку в біологічних системах. ANN мають різні відмінності від біологічних мозків. Зокрема, нейронні мережі мають тенденцію статичного та символічного характеру, тоді як біологічний мозок більшості живих організмів динамічний (пластичний) та аналоговий.
Глибоке навчання - це клас алгоритмів машинного навчання, який (pp199 – 200) використовує декілька шарів, щоб поступово витягувати функції вищого рівня з вихідних даних. Наприклад, при обробці зображення нижчі шари можуть ідентифікувати краї, тоді як більш високі шари можуть ідентифікувати такі поняття, які стосуються людини, як цифри, літери чи обличчя.
Більшість сучасних моделей глибокого навчання ґрунтуються на штучних нейронних мережах, зокрема, конволюційних нейронних мережах (CNN), хоча вони також можуть включати пропозиції формул або прихованих змінних, організованих пошарово, в глибоких генеративних моделях, таких як вузли в мережах глибокої віри і глибокі Машини Больцмана.
У процесі глибокого навчання кожен рівень вчиться перетворювати свої вхідні дані у дещо більш абстрактне та складене уявлення. У програмі розпізнавання зображень необроблений вхід може бути матрицею пікселів; перший репрезентативний шар може абстрагувати пікселі та кодувати краї; другий шар може складати і кодувати розташування ребер; третій шар може кодувати ніс і очі; і четвертий шар може визнати, що зображення містить обличчя. Важливо, що в процесі глибокого навчання можна дізнатися, які особливості оптимально розміщувати на якому рівні. (Звичайно, це не повністю усуває необхідність ручної настройки; наприклад, різні кількості шарів та розмірів шарів можуть забезпечити різний ступінь абстрагування.)
Слово "глибокий" у "глибокому навчанні" позначає кількість шарів, через які дані перетворюються. Точніше, системи глибокого навчання мають значну глибину шляху призначення кредиту (CAP). CAP - це ланцюг перетворень від входу до виходу. CAP описують потенційно причинно-наслідкові зв'язки між входом і виходом. Для нейронної мережі, що подається, глибина CAP є глибиною мережі і є кількістю прихованих шарів плюс один (оскільки параметр вихідного шару також параметризований). Для періодичних нейронних мереж, в яких сигнал може поширюватися через шар не один раз, глибина CAP потенційно необмежена. Жоден загальновизнаний поріг глибини не розділяє поглиблене навчання від глибокого навчання, але більшість дослідників погоджуються, що глибоке навчання передбачає глибину CAP вище, ніж 2. Показано, що CAP глибини 2 є універсальним наближенням, оскільки він може імітувати будь-яку функцію. Крім того, більше шарів не додають до можливості адаптації функції мережі. Глибокі моделі (CAP> 2) здатні отримувати кращі функції, ніж дрібні моделі, а отже, додаткові шари допомагають ефективно вивчати функції.
Архітектури глибокого навчання можуть бути побудовані жадібним методом шару за шаром. Глибоке навчання допомагає роз'єднати ці абстракції та вибрати, які функції покращують продуктивність.
Для контрольованих навчальних завдань методи глибокого навчання усувають інженерію функцій, переводячи дані в компактні проміжні подання, схожі на основні компоненти, і отримують шаруваті структури, які видаляють надмірність представлення.
Алгоритми глибокого навчання можуть бути застосовані до завдань без нагляду. Це важлива перевага, тому що даних, що не позначаються міткою, є більш рясними, ніж мічені дані. Прикладами глибоких структур, які можна навчити без нагляду, є компресори нейронної історії та мережі глибокої віри.
Глибокі нейронні мережі, як правило, інтерпретуються через теорему універсального наближення або ймовірнісний висновок.
Класична теорема універсального наближення стосується здатності нейронних мереж, що подаються вперед, з одним прихованим шаром кінцевого розміру для наближення безперервних функцій. У 1989 перший доказ був опублікований Георгієм Цибенком щодо функцій активації сигмоїдів і був узагальнений для подачі багатошарових архітектур у 1991 від Курта Горника. Недавня робота також показала, що універсальне наближення також має місце для не обмежених функцій активації, таких як випрямлена лінійна одиниця.
Універсальна теорема наближення для глибоких нейронних мереж стосується ємності мереж з обмеженою шириною, але глибина дозволяється зростати. Лу та ін. доведено, що якщо ширина глибокої нейронної мережі з активацією ReLU суворо більша, ніж вхідний вимір, то мережа може наближати будь-яку інтегрувану функцію Лебега; Якщо ширина менша або дорівнює вхідному розміру, то глибока нейронна мережа не є універсальним наближенням.
Імовірнісна інтерпретація походить із галузі машинного навчання. У ньому представлені умовиводи, а також оптимізаційні концепції навчання та тестування, пов'язані відповідно з підгонкою та узагальненням. Більш конкретно, імовірнісна інтерпретація розглядає нелінійність активації як кумулятивну функцію розподілу. Імовірнісна інтерпретація призвела до впровадження відсіву як регуляризатора в нейронних мережах. Імовірнісна інтерпретація була введена дослідниками, включаючи Хопфілда, Відроу та Нарендру, і популяризувалася в таких дослідженнях, як те, яке проводило Єпископ.
Повернутися до початку