퍼셉트론에서 딥러닝까지의 여정

햇살이 | 2026.04.27 03:05:25

조회 23 | 추천 0

딥러닝의 역사는 1950년대 후반 「퍼셉트론(Perceptron)」에서 시작됩니다.

1957년 미국 코넬 대학의 프랭크 로젠블랫(Frank Rosenblatt)이 만든 퍼셉트론은 「입력에 가중치를 곱해 더한 뒤, 그 합이 일정 값을 넘으면 1, 아니면 0을 출력하는」 가장 단순한 인공 뉴런이었습니다.

초기 기대는 컸습니다.

「뇌를 흉내 내는 기계」라는 비유와 함께 군과 정부의 큰 투자가 이어졌습니다.

그러나 1969년 마빈 민스키와 시모어 페퍼트가 출간한 책 「Perceptrons」는 「단층 퍼셉트론은 XOR 같은 단순한 비선형 문제도 풀 수 없다」는 한계를 수학적으로 증명했고, 이는 신경망 연구를 약 15년간 침체시킨 첫 번째 계기가 됩니다.

두 번째 봄은 1986년 「역전파(backpropagation)」 알고리즘이 데이비드 루멜하트·제프리 힌튼·로널드 윌리엄스에 의해 정립되면서 찾아왔습니다.

여러 층을 가진 「다층 퍼셉트론」을 효율적으로 학습시키는 방법이 마련되어 XOR 같은 비선형 문제도 풀 수 있게 됐습니다.

그러나 다시 한 번의 침체가 옵니다.

신경망의 층이 깊어질수록 「그래디언트 소실」 문제(학습 신호가 깊은 층까지 닿지 못함), 그리고 「데이터·컴퓨팅 부족」이 발목을 잡았습니다.

1990년대부터 2000년대 중반까지 SVM 같은 다른 알고리즘이 분류 분야를 차지했습니다.

세 번째이자 현재 진행 중인 봄은 2006년 힌튼의 「딥 빌리프 네트워크」 논문, 2012년 알렉스넷의 ImageNet 우승, 2017년 Transformer 논문, 그리고 2022년 ChatGPT로 이어집니다.

이 흐름이 가능했던 비결은 「깊은 망 + 대량 데이터 + GPU」 세 박자의 만남이었고, 그 결과 우리는 「딥러닝」이라는 이름의 새 시대를 살고 있습니다.

한 줄 요약

퍼셉트론(1957) → 역전파(1986) → 알렉스넷(2012) → Transformer(2017) → ChatGPT(2022)로 이어지는 60여 년의 여정 끝에 우리는 깊은 신경망이 일상이 된 시대를 살고 있습니다.

더 알아볼 것

- 민스키의 「Perceptrons」가 일으킨 첫 신경망 겨울

- 역전파의 재발견과 다층 퍼셉트론

- 2012년 알렉스넷의 의미 다시 보기

번호	제목	글쓴이	작성일	조회
70	사전학습(pre-training)과 미세조정(fine-tuning)	너구리	26/04/27	20
69	인코더-디코더 구조 정리	곰돌이	26/04/27	21
68	위치 인코딩(positional encoding) — 순서를 어떻게 알려 주는가	햇살이	26/04/27	24
67	Multi-head attention — 여러 시각으로 동시에 보기	다람쥐	26/04/27	21
66	Self-attention — 한 문장 안에서 단어가 서로 보는 법	곰돌이	26/04/27	22
65	Transformer가 RNN을 대체한 이유	별님이	26/04/27	32
64	어텐션(attention) 메커니즘 한 그림으로	너구리	26/04/27	52
63	시퀀스-투-시퀀스(seq2seq) 모델	구름이	26/04/27	23
62	GRU — LSTM을 단순화한 변형	햇살이	26/04/27	20
61	LSTM — RNN의 장기 기억 한계 극복	부엉이	26/04/27	21
60	순환 신경망(RNN)이란	다람쥐	26/04/27	20
59	잔차 연결(residual connection)이 깊은 망을 가능하게 한 이유	구름이	26/04/27	23
58	VGG·GoogLeNet·ResNet 한눈에	곰돌이	26/04/27	31
57	ImageNet과 알렉스넷의 의미 다시 보기	너구리	26/04/27	22
56	CNN 핵심 — 합성곱·풀링·스트라이드	구름이	26/04/27	19
55	합성곱 신경망(CNN)이란	구름이	26/04/27	22
54	가중치 초기화 — Xavier·He	곰돌이	26/04/27	24
53	배치 정규화(batch normalization)	부엉이	26/04/27	21
52	드롭아웃(dropout) — 과적합 방지의 정석	곰돌이	26/04/27	22
51	배치(batch)와 에폭(epoch)의 의미	토순이	26/04/27	22
50	옵티마이저 — SGD·Adam·AdamW 비교	토순이	26/04/27	24
49	역전파(backpropagation) 알고리즘	야옹이	26/04/27	18
48	활성화 함수 — ReLU·Sigmoid·Tanh·GELU	햇살이	26/04/27	25
47	인공 신경망의 기본 구조	야옹이	26/04/27	25
46	퍼셉트론에서 딥러닝까지의 여정	햇살이	26/04/27	23
45	차원 축소(PCA·t-SNE·UMAP) 한눈에	별님이	26/04/27	22
44	데이터 전처리 — 결측치·이상치·표준화	토순이	26/04/27	20
43	ROC 곡선과 AUC	너구리	26/04/27	46
42	혼동 행렬(confusion matrix) 읽는 법	햇살이	26/04/27	19
41	정확도·정밀도·재현율·F1 — 분류 지표 한눈에	다람쥐	26/04/27	21

번호

제목

글쓴이

작성일

조회

사전학습(pre-training)과 미세조정(fine-tuning)

너구리

26/04/27

인코더-디코더 구조 정리

곰돌이

26/04/27

위치 인코딩(positional encoding) — 순서를 어떻게 알려 주는가

햇살이

26/04/27

Multi-head attention — 여러 시각으로 동시에 보기

다람쥐

26/04/27

Self-attention — 한 문장 안에서 단어가 서로 보는 법

곰돌이

26/04/27

Transformer가 RNN을 대체한 이유

별님이

26/04/27

어텐션(attention) 메커니즘 한 그림으로

너구리

26/04/27

시퀀스-투-시퀀스(seq2seq) 모델

구름이

26/04/27

GRU — LSTM을 단순화한 변형

햇살이

26/04/27

LSTM — RNN의 장기 기억 한계 극복

부엉이

26/04/27

순환 신경망(RNN)이란

다람쥐

26/04/27

잔차 연결(residual connection)이 깊은 망을 가능하게 한 이유

구름이

26/04/27

VGG·GoogLeNet·ResNet 한눈에

곰돌이

26/04/27

ImageNet과 알렉스넷의 의미 다시 보기

너구리

26/04/27

CNN 핵심 — 합성곱·풀링·스트라이드

구름이

26/04/27

합성곱 신경망(CNN)이란

구름이

26/04/27

가중치 초기화 — Xavier·He

곰돌이

26/04/27

배치 정규화(batch normalization)

부엉이

26/04/27

드롭아웃(dropout) — 과적합 방지의 정석

곰돌이

26/04/27

배치(batch)와 에폭(epoch)의 의미

토순이

26/04/27

옵티마이저 — SGD·Adam·AdamW 비교

토순이

26/04/27

역전파(backpropagation) 알고리즘

야옹이

26/04/27

활성화 함수 — ReLU·Sigmoid·Tanh·GELU

햇살이

26/04/27

인공 신경망의 기본 구조

야옹이

26/04/27

퍼셉트론에서 딥러닝까지의 여정

햇살이

26/04/27

차원 축소(PCA·t-SNE·UMAP) 한눈에

별님이

26/04/27

데이터 전처리 — 결측치·이상치·표준화

토순이

26/04/27

ROC 곡선과 AUC

너구리

26/04/27

혼동 행렬(confusion matrix) 읽는 법

햇살이

26/04/27

정확도·정밀도·재현율·F1 — 분류 지표 한눈에

다람쥐

26/04/27