5. 고전 ML과 비지도학습

5-0

왜 아직도 고전 ML인가

딥러닝이 강력하지만, 데이터가 적거나 표(엑셀) 형태일 때, 또는 "왜 그렇게 판단했는지" 설명이 중요할 때는 고전 머신러닝이 더 낫거나 충분한 경우가 많아요. 실무에서 표 데이터는 지금도 결정트리 계열이 신경망을 이기는 일이 흔해요. 게다가 단순해서 직관을 기르기에도 좋아요.

5-1 · 직접 해보기

k-최근접이웃 (k-NN) — "끼리끼리"로 판단

가장 직관적인 분류기예요. 새 점이 들어오면, 가장 가까운 이웃 k개를 보고 다수결로 정해요. "주변에 빨강이 많으면 너도 빨강"인 거죠. 따로 학습 과정이 없고, 그냥 데이터를 외워뒀다가 거리만 재요(게으른 학습).

회색 점을 끌어보세요 — 가까운 이웃 k개로 분류

이웃 수 k: 3

k가 작으면(1) 노이즈에 민감하고, 크면 경계가 부드러워지지만 너무 키우면 뭉뚱그려져요. 2장의 과적합/과소적합과 같은 균형 문제예요.

5-2

결정트리 — 스무고개로 나누기

결정트리(decision tree)는 "예/아니오" 질문을 던지며 데이터를 점점 잘게 나눠요. "키가 170 이상? → 몸무게가 70 이상?" 식으로요. 각 질문이 공간을 직사각형으로 쪼개고, 잎(끝마디)에 도달하면 답을 내요.

트리가 공간을 직사각형으로 나누는 모습

각 경계선이 하나의 "예/아니오" 질문이에요. 영역마다 다수 색으로 예측해요.

장점은 사람이 따라 읽기 쉽다는 것(설명 가능). 단점은 혼자 쓰면 과적합되기 쉬운 건데, 그래서 트리 수백 개를 모아 평균내는 랜덤 포레스트(Random Forest)나 순차적으로 보완하는 그래디언트 부스팅(XGBoost, LightGBM)을 많이 써요. 표 데이터의 강자들이에요.

5-3

SVM — 가장 넉넉한 경계선 긋기

두 무리를 가르는 직선은 무수히 많아요. SVM(Support Vector Machine)은 그중 양쪽 무리에서 가장 멀리 떨어진(여백이 가장 넓은) 경계를 골라요. 여백이 넓을수록 새 데이터에도 안정적이거든요. 경계를 결정하는 가장자리 점들을 서포트 벡터라고 해요.

최대 여백(margin) 경계

경계선 여백 폭 노란 테두리 = 서포트 벡터

커널(kernel)이라는 기법을 쓰면 직선으로 못 가르는 데이터도 휘어진 경계로 가를 수 있어요. 데이터가 중간 규모이고 특징이 잘 정리돼 있을 때 강력해요.

5-4 · 직접 해보기

k-평균 군집화 (k-means) — 정답 없이 무리 짓기

여기서부터는 비지도학습이에요. 정답(label)이 없어요. k-평균은 "비슷한 것끼리 k개의 무리로 묶기"를 해요. 절차가 아주 우아해요. ① 중심점 k개를 아무 데나 두고 → ② 각 점을 가장 가까운 중심에 배정 → ③ 각 무리의 평균으로 중심을 옮김 → ②~③ 반복. 중심이 더 안 움직이면 끝.

k-평균 한 단계씩 — 중심이 무리의 중앙을 찾아가요

무리 수 k: 3

활용 예: 고객을 행동별로 묶기, 비슷한 문서 모으기, 이미지 색 줄이기. 단점은 k를 미리 정해야 하고, 시작 위치에 따라 결과가 달라질 수 있다는 점이에요(여러 번 돌려 가장 좋은 걸 고름).

5-5

차원 축소 (PCA) — 핵심만 남기고 압축

특징이 수십~수백 개면 보기도, 다루기도 어려워요. PCA(주성분 분석)는 데이터가 가장 많이 퍼진 방향을 찾아, 그 방향들만 남겨 차원을 줄여요. 정보를 최대한 보존하면서 압축하는 거죠. 시각화(고차원을 2D로)나 잡음 제거에 써요.

가장 많이 퍼진 방향(주성분) 찾기

화살표 = 데이터가 가장 길게 퍼진 방향(제1주성분). 이 축 하나로도 데이터를 꽤 설명할 수 있어요.

5-6

전체 지도 — 무엇을 언제 쓰나

상황	추천
표(엑셀) 데이터, 적당한 양	랜덤 포레스트 / 그래디언트 부스팅
간단·직관, 작은 데이터	k-NN, 결정트리, SVM
이미지·음성·텍스트, 큰 데이터	딥러닝(CNN/RNN/Transformer)
정답이 없다, 구조를 보고 싶다	k-평균, PCA (비지도)

머신러닝의 전부는 결국 1~2장의 한 문장으로 돌아와요. "데이터로부터 규칙을 찾고, 처음 보는 데이터에도 잘 맞게(일반화) 만든다." 모델 종류는 그 방법의 차이일 뿐이에요.