1장. 데이터 다루기 Last updated: 2023-03-04 15:49:57

데이터 다루기 요약

1. 결측값 처리

1.1 값 채우기

(1) 이전 값으로 채우기 (fill by previous value)

(2) 다음 값으로 채우기 (fill by Next Value)

(3) 0 값으로 채우기 (fill by zero)

(4) 최소 값으로 채우기 (fill by minimum value)

(5) 최대 값으로 채우기 (fill by maximum value)

(6) 평균 값으로 채우기 (fill by mean value)

(7) 중간 값으로 채우기 (fill by median value)

(8) 앞뒤 값으로 보간 (fill by interpolation value)

1.2 값 삭제

(1) 결측 값이 존재하는 열 삭제

(2) 결측 값이 존재하는 행 삭제

2. Data Imbalance 문제 해결

2.1 Down-sampling

2.2. Up-sampling

(1) Transposed convolution

3. Data Augmentation

3.1 Geometric Transformation

이미지 crop, Rotate, contrast, Invert, Flip, cut

3.2 Color space Transformation

이미지 색 조정

3.3 Mixing Image

서로다른 이미지를 결합

3.4 Random Erase

이미지의 특정 영역을 제거

3.5 CutMix

Mix image와 Random Erase를 결합한 방법


임의로 삭제한 영역에 다른 이미지를 붙임

3.6 PuzzleMix

CutMix를 개량하여 두 이미지 중에서 중요한 feature를 보존하면서 합친다.


[논문]

3.7 Gan Data Augmentation

Image Classification 문제에서 클래스별 데이터 수가 불균형 하거나 특정 클래스의 데이터가 매우 적은 경우, 혹은 Image Segemntation 문제에서 의료 데이터와 같이 라벨 데이터가 매우 부족한 경우 GAN을 이용해 데이터를 증가시켜 성능을 높이려는 연구들이 최근 몇년간 이어져 오고 있다.


[논문]

3.8 AutoAugmentation

Google이 사용한 방법으로 16가지 자주사용하는 Augmentation 방법들 중에서 최적의 방법을 자동으로 찾는 방법이다. 시간과 자원이 많이 소요되는 단점이 있다.