반응형
레이블인코딩 -> 숫자로 바뀌기 때문에 크기의 차이가 가중되어 학습될수도 있기 때문에, 선형회귀와 같은 ml알고리즘에는 적용하면 안된다 .
=> 하지만 트리계열의 ML알고리즘은 숫자의 이러한 특성을 반영하지 않으므로 레이블 인코딩도 문제 없다.
레이블 인코딩의 문제점을 해결하기 위하여 원핫 인코딩을 사용한다.
## 전처리
표준화와 정규화
표준화는 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업을 피처 스케일링이라고 한다.
정규화는 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념이다
ex) 거리변수 A -> 0~ 1,000,000km
금액을 나타내는 변수 B ->0~100,000,000,000원
이 두 변수를 정규화를 통하여 최소 0~최대 1의 값으로 변경하는것.
반응형
'work > 개인공부' 카테고리의 다른 글
centos7 ->고정 ip 설정 / static ip addr setting(linux virtualbox) (0) | 2022.11.09 |
---|