퍼셉트론
- 인공 뉴런을 수학적으로 모델링한 개념
- 딥러닝의 기초가 되는 알고리즘
- 단순한 이진 분류 문제 해결 알고리즘
- 가장 기본적인 인공신경망 모델
- 여러 개의 입력을 받아 하나의 출력으로 만드는 모델
가설식
- 입력 x (Input): 여러 개의 입력값
- 가중치 W (Weight): 각각의 입력에 적용되는 가중치
- 바이어스 b (Bias): 모델이 더 유연하게 학습할 수 있도록 추가된 값
- 활성화 함수 f (Activation Function): 입력과 가중치의 선형 결합 결과를 변환하는 함수
- 단순 퍼셉트론에서는 계단 함수를 사용하여 출력이 0 또는 1이 되도록 함
연산 과정
- 여러 개의 입력을 받아 가중치를 곱하고 더한 후
- 특정 조건을 만족하면 1, 그렇지 않으면 0을 출력
한계
단일 퍼셉트론은 선형 분리가 가능한 문제를 해결할 수 있지만, 하나의 직선으로 구분할 수 없는 비선형 문제에서 해결하지 못합니다.
- AND: 두 입력이 모두 1일 때만 출력이 1 → 선형으로 구분 가능
- OR: 하나라도 1이면 출력이 1 → 선형으로 구분 가능
- XOR: 두 입력이 다를 때만 출력이 1 → 비선형적으로 두 개 이상의 선이 필요 (하나의 선으로 구분 불가능)
다층 퍼셉트론
- MLP (Multi-Layer Perceptron)
- 퍼셉트론을 여러 층으로 쌓은 은닉층(Hidden Layer)을 추가한 신경망 모델
- 입력층 (Input Layer): 원본 데이터를 입력 받는 층
- 은닉층 (Hidden Layer): 하나의 은닉층에 여러 개의 뉴런을 포함하며, 특징을 추출하는 역할을 함
- 출력층 (Output Layer): 최종 예측값을 출력하는 층
은닉층
- 각 뉴런은 입력값을 받아 독립적인 연산을 수행, 이 뉴런들의 조합이 최종적으로 하나의 가설식(모델 가설)을 만듦
- 입력층 → 은닉층 1 (5개 뉴런) → 출력층
- 은닉층 1에 있는 각 뉴런마다 하나씩 5개의 가설식 존재
- 은닉층이 많아질수록, 데이터가 여러 번 변형되면서 점점 더 복잡한 패턴을 학습
- XOR과 같은 단순한 선형 모델로 풀 수 없는 문제를 해결할 수 있음
- 너무 깊어지면 기울기 소실 문제(Vanishing Gradient) 가 발생할 수 있음
- 비선형 활성화 함수 필요
- ReLU(Rectified Linear Unit)
- Sigmoid
- Tanh
- 비선형 활성화 함수 필요