4. 딥러닝의 여러 종류

4-0

왜 종류가 나뉘나

3장의 기본 신경망(MLP)은 입력을 그냥 숫자 목록으로 봐요. 그런데 데이터마다 "구조"가 있어요. 이미지는 옆 픽셀끼리 관련이 깊고, 문장은 단어 순서가 중요하고, 소셜 네트워크는 누가 누구와 연결됐는지가 핵심이죠. 이 구조를 모델이 활용하도록 설계한 게 아래 네 가지예요.

구조	잘 다루는 데이터	핵심 아이디어	예시
CNN	이미지(격자)	작은 필터로 지역 패턴 찾기	사진 분류, YOLO
RNN	순서(시계열·문장)	기억(hidden state)을 다음으로 전달	음성 인식, 옛 번역기
GNN	그래프(관계망)	이웃끼리 메시지 주고받기	추천, 신약 분자 분석
Transformer	문장·이미지 등 거의 전부	어텐션으로 중요한 것끼리 직접 연결	ChatGPT, 번역, 최신 비전

4-1 · 직접 해보기

CNN — 합성곱 신경망

이미지의 핵심은 "옆 픽셀끼리 뭉쳐 의미를 만든다"예요(경계선, 무늬, 모양). CNN은 작은 필터(filter/kernel)를 이미지 위로 훑으며 "여기 이런 무늬가 있나?"를 확인해요. 필터가 만든 반응 지도를 특징맵(feature map)이라고 하고요.

합성곱 직접 보기 — 필터를 바꾸면 다른 무늬가 드러나요

입력 이미지

필터 통과 결과(특징맵)

필터(kernel)

윤곽선 필터를 고르면 물체의 경계만 환하게 살아나죠. 실제 CNN은 이런 필터를 사람이 정하지 않고 학습으로 스스로 찾아내요. 그리고 층을 쌓을수록 점·선 → 눈·귀 → 얼굴처럼 이해가 커져요. 풀링(pooling)은 특징맵을 줄여(요약) 계산을 가볍게 하고 위치 변화에 둔감하게 만드는 단계예요. YOLO도 이런 CNN을 "눈"으로 씁니다.

4-2 · 직접 해보기

RNN — 순환 신경망 (순서가 있는 데이터)

문장이나 시계열은 순서가 중요해요. "개가 사람을 물었다"와 "사람이 개를 물었다"는 단어는 같아도 뜻이 다르죠. RNN은 입력을 하나씩 순서대로 읽으면서, 지금까지의 요약(기억, hidden state)을 다음 단계로 넘겨요. 사람이 글을 왼쪽부터 읽으며 맥락을 쌓아가는 것과 비슷해요.

기억이 흘러가는 모습 — 한 단계씩 진행

장점은 순서를 자연스럽게 다룬다는 것, 단점은 문장이 길면 앞쪽 기억이 희미해진다는 거예요(장기 의존성 문제). 이를 보완한 게 LSTM·GRU 같은 변형이고요. 다만 요즘은 이 자리를 대부분 Transformer가 차지했어요(4-4).

4-3 · 직접 해보기

GNN — 그래프 신경망 (관계망 데이터)

친구 관계, 분자 구조, 도로망처럼 점(노드)과 연결(엣지)로 된 데이터를 그래프라고 해요. 격자도 순서도 아니라 MLP·CNN으로 다루기 어렵죠. GNN의 핵심은 메시지 전달(message passing)이에요. 각 노드가 이웃들의 정보를 모아 자기 상태를 갱신하고, 이를 여러 번 반복해 점점 더 넓은 범위의 맥락을 담아요.

메시지 전달 — 노드가 이웃 정보를 흡수해요

한 번 전달하면 바로 옆 이웃의 영향을, 두 번이면 이웃의 이웃까지 영향을 받아요. 색(값)이 점점 비슷해지는 게 보이죠? 실제 GNN은 이렇게 모은 정보로 "이 분자가 독성이 있을까", "이 사용자에게 뭘 추천할까" 같은 걸 예측해요.

4-4 · 직접 해보기

Transformer — 어텐션 (지금 시대의 주역)

RNN은 순서대로 읽느라 멀리 떨어진 단어를 연결하기 어려웠어요. Transformer는 발상을 바꿔, 모든 단어가 모든 단어를 한 번에 쳐다보고, 그중 중요한 것에 더 집중해요. 이 "누구에게 얼마나 집중할지"가 어텐션(attention)이에요.

어텐션 — 단어를 누르면 어디에 집중하는지 보여요

위 문장에서 단어 하나를 눌러보세요.

예: "그것은"을 누르면, 그게 가리키는 "동물"에 강하게 집중하는 걸 볼 수 있어요.

이 단순한 아이디어가 어마어마하게 강력해서, 번역·요약은 물론 ChatGPT 같은 거대 언어모델, 그리고 최신 이미지 모델까지 거의 다 Transformer 기반이에요. 순서대로 안 읽고 한꺼번에 보기 때문에 병렬 계산도 잘 돼서 아주 큰 모델을 학습할 수 있게 됐죠.

4-5

정리

핵심은 "데이터의 구조에 맞는 도구를 쓴다"예요. 격자 모양 이미지엔 지역 패턴을 보는 CNN, 순서엔 기억을 넘기는 RNN, 관계망엔 이웃과 대화하는 GNN, 그리고 무엇이든 중요한 것끼리 직접 연결하는 Transformer. 전부 2~3장에서 배운 같은 학습 사이클(예측→손실→역전파)로 훈련돼요. 구조만 다를 뿐, 배우는 방식은 똑같습니다.