반응형
머신 러닝 및 딥 러닝을 배우기 위해 kaggle 사이트에서 연습하며 개인 메모 용도로 작성
첫 과제로 일반적으로 많이 알려진 집값 예측 문제를 풀기로 하였다.
ML/DL 관련 강의는 몇개 수강하였지만 실질적으로 문제를 풀어본 적이 없어
해당 내용을 참고하여 배웠던 내용이랑 몰랐던 부분을 학습하는 목적으로 시작한다.
참고 URL : https://www.kaggle.com/munmun2004/house-prices-for-begginers#II.-EDA-&-FE-
머신러닝 또는 딥러닝은 아래 4단계로 진행한다.
1. 데이터 수집
2. 데이터 가공
3. 모델 학습
4. 예측 또는 분류
머신러닝 또는 딥러닝은 위 4단계로 진행이 되지만 프로젝트를 하기 위해서는 아래 순서로 생각하며 설계를 한다.
- 목적설정 (가설) : 어떤 일을 할 것인가
- 자료수집 : 선택한 일에 대해 어떤 학습을 할 것이며 필요한 데이터가 어떤것이 있는지 확인
- 모델 생성 : 수집된 데이터로 모델 생성
- 평가 : 생성된 모델을 사용하여 실제 적용
- 피드백
*** 개인 정리 ***
- 이상치 제거 (극단값 제거) : 모델 학습에 성능 저하를 가져올 수 있는 데이터를 찾아 제거한다.
- 다중공선성 문제 : 회귀분석에서 발생하는 문제. 특정 변수들 간의 상관관계가 높을 경우 발생. 회귀분석은 독립된 변수들 간에 변화를 학습하여 예측하는 모델이다. 특정 변수들의 상관도가 높으면 해당 변수의 변화값이 모델에 부정적 영향을 미치게 된다.
참고 사이트 : https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=vnf3751&logNo=220833952857 - 결측치 확인 및 처리 : 손실데이터 즉 값이 없는 데이터를 의미한다. 처리 방법은 데이터 케이스별 및 결측량에 따라 다르게 처리.
- 수치(순서)형 데이터 : 연속 또는 이산형 데이터. 예) 키 / 몸무게 / 출생아 수 / 주가 등
- 범주(명목)형 데이터 : 몇개의 범주로 나누어진 데이터. 예) 성별 / 혈액형 등
*** 분석 ***
- Linear Regression, Lasso, Lidge, Elastic Net 등 여러개의 선형 모델을 이용하여 테스트 해봤을 때 각 모델별로 큰 성능 향상은 없었다.
- 성능 항샹에 가장 큰 영향을 미친것은 EDA 부분이다.
반응형
'Machine learning Deep learning' 카테고리의 다른 글
[ML] 머신러닝 모델 정확성 증가 방법 (0) | 2022.01.18 |
---|---|
[ML/DL] Feature Selection Method (0) | 2022.01.16 |
[DL] 딥러닝 인공신경망 종류 (0) | 2022.01.06 |
기계 학습 알고리즘 (Machine Learning Algorithm) (0) | 2019.03.12 |
Machine Learning 이란 (0) | 2019.03.12 |