머신러닝 또는 딥러닝 시 고려해야 할 사항 중 데이터 전처리 내 Feature 선택에 대한 방법들
Feature란?
모델 학습 시 사용되는 입력 값. 즉 일반적으로 말하는 머신러닝 또는 딥러닝에서 사용되는 '독립변수들'이라고 보면 된다.
*이 글에서는 Feature라는 단어 대신 독립변수라는 단어를 사용.
학습시 어떤 독립변수를 사용할 지에 따라 학습 시간, 성능에 많은 영향을 끼친다.
크게 독립변수들은 숫자형과 문자형 두가지로 분류한다.
python3 pandas dataframe 예시 코드
import pandas as pd
sample = pd.read_csv(...) #샘플 데이터 파일을 읽는다.
print(sample.dtypes[sample.dtypes == "object"].index) #문자형 독립변수들
print(sample.dtypes[sample.dtypes != "object"].index) #숫자형 독립변수들
print(sample.info()) # 각 컬럼의 데이터 타입을 알 수 있다