티스토리 뷰

https://dacon.io/forum/406086

 

[BASIC, TIP] 피처 스케일링이란? 정규화 vs 표준화?

 

dacon.io

 

머신러닝에서 높은 정확도를 위해 필수적으로 거치는 단계는 스케일링이다.

스케일링은 데이터 셋의 단위가 압도적으로 차이가 나(어떤건 1000, 다른건 0.1) 구분이 어려운 경우에 단위를 비슷하게 재조정하는 과정이다.

그런데 알고리즘마다 표준화를 사용한다, 정규화를 사용한다, 스케일링한다. 다르게 표현한다.

세개가 어떻게 다른지 알아본다.

 

먼저 스케일링이란 통상적으로 단위를 조정할 때 쓰이는 말이다. 정규화를 이용해 스케일링한다, 표준화를 이용해 스케일링한다.

 

정규화(min-max scailing)

정규화란 데이터 셋의 값들을 0과 1 사이의 범위로 이동하고 재조정하는 스케일링 기법이다.

위 공식을 이용해 구할 수 있다.

 

표준화

표준편차와 평균을 중심으로 하는 스케일링 기법이다. 평균을 0으로 하고 결과 분포에 단위 표준편차를 사용한다.

 

사용처

정규화는 KNN,Neural Network처럼 데이터의 분포를 가정하지 않는 알고리즘에서 사용한다.

표준화는 정규분포(=가우스 분포)를 따르는 경우에 사용하면 좋다.

 

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함