반응형

머신 러닝 및 딥 러닝을 배우기 위해 kaggle 사이트에서 연습하며 개인 메모 용도로 작성

첫 과제로 일반적으로 많이 알려진 집값 예측 문제를 풀기로 하였다.

ML/DL 관련 강의는 몇개 수강하였지만 실질적으로 문제를 풀어본 적이 없어

해당 내용을 참고하여 배웠던 내용이랑 몰랐던 부분을 학습하는 목적으로 시작한다.

참고 URL : https://www.kaggle.com/munmun2004/house-prices-for-begginers#II.-EDA-&-FE-

 

[한글커널][House Prices]보스턴 집값 예측 for Begginers

Explore and run machine learning code with Kaggle Notebooks | Using data from House Prices - Advanced Regression Techniques

www.kaggle.com

 

머신러닝 또는 딥러닝은 아래 4단계로 진행한다.

1. 데이터 수집

2. 데이터 가공

3. 모델 학습

4. 예측 또는 분류

 

머신러닝 또는 딥러닝은 위 4단계로 진행이 되지만 프로젝트를 하기 위해서는 아래 순서로 생각하며 설계를 한다.

  1. 목적설정 (가설) : 어떤 일을 할 것인가
  2. 자료수집 : 선택한 일에 대해 어떤 학습을 할 것이며 필요한 데이터가 어떤것이 있는지 확인
  3. 모델 생성 : 수집된 데이터로 모델 생성
  4. 평가 : 생성된 모델을 사용하여 실제 적용
  5. 피드백

 

*** 개인 정리 ***

  • 이상치 제거 (극단값 제거) : 모델 학습에 성능 저하를 가져올 수 있는 데이터를 찾아 제거한다.
  • 다중공선성 문제 : 회귀분석에서 발생하는 문제. 특정 변수들 간의 상관관계가 높을 경우 발생. 회귀분석은 독립된 변수들 간에 변화를 학습하여 예측하는 모델이다. 특정 변수들의 상관도가 높으면 해당 변수의 변화값이 모델에 부정적 영향을 미치게 된다.
    참고 사이트 : https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=vnf3751&logNo=220833952857
  • 결측치 확인 및 처리 : 손실데이터 즉 값이 없는 데이터를 의미한다. 처리 방법은 데이터 케이스별 및 결측량에 따라 다르게 처리.
  • 수치(순서)형 데이터 : 연속 또는 이산형 데이터. 예) 키 / 몸무게 / 출생아 수 / 주가 등
  • 범주(명목)형 데이터 : 몇개의 범주로 나누어진 데이터. 예) 성별 / 혈액형 등

 

*** 분석 ***

 

Stacked Regressions : Top 4% on LeaderBoard

Explore and run machine learning code with Kaggle Notebooks | Using data from House Prices - Advanced Regression Techniques

www.kaggle.com

반응형
반응형

Azure web app service를 통해 Python Flask api 앱 배포 시 발생한 문제

웹 페이지에서 해당 api 첫 호출 시 Load 시간이 너무 오래 걸리는 문제가 있었다.

 

해당 원인에 대해 검색하여 찾아보니 Windows Azure 웹 사이트 또는 앱의 경우 설정 된 어느 정도의 시간 동안 호출이 없을 시

비활성 상태로 전환되어지며 해당 상태에서 호출 시 다시 리소스 할당 및 구성을 진행하기 때문에 첫 연결 시간이 엄청 오래 걸릴수 있다고 한다.

 

해당 현상 해결방법

1. Azure portal > 앱 서비스 > 설정 > 구성 > 일반 설정 > 항상 설정됨 (Always On) 설정

https://stackoverflow.com/questions/51391197/azure-web-app-very-slow-after-publish-or-restart

 

Azure web app very slow after publish or restart

When I publish or restart my web app it loads very slowly the first time, then when I refresh with F5 it is ok again. what could it be?

stackoverflow.com

2. 특정 시간 간격으로 해당 앱 서비스를 호출하는 배치를 만든다.

 

위 문제를 처음 직면했을 때 어떤 이유인지 몰라 앱 로직을 다시 확인하고 DB 연결 시간 또는 검색 시간 등 여러가지 원인을 파악했을 때 정확한 원인 파악이 안되었다. 구글 검색을 성능 문제가 아닌 첫 연결에 대한 검색으로 해결법을 찾을 수 있었다..ㅠㅠ

다시보면 별거 아니였지만 꽤 고생한 문제

반응형

'Azure' 카테고리의 다른 글

[Azure] Resource group could not be found  (0) 2021.05.18
반응형

Python Flask api 앱을 만드는 도중 marshal_with 와 fields 라이브러를 이용해

output 데이터 타입을 설정할 떄 찾은 팁 공유

 

아래와 같이 사용하면 특정한 타입으로 응답필드 값을 설정하여 사용할 수 있다.

from flask_restful import fields

class MyDateFormat(fields.Raw):
    def format(self, value):
        return value.strftime('%Y-%m-%d')

resource_fields = {
    'id': fields.Integer,
    'date': MyDateFormat
}

참조

https://stackoverflow.com/questions/65982519/custom-date-format-for-flask-restful-fields-datetime-for-marshal-with

 

Custom date format for flask_restful fields.DateTime for marshal_with

I am using flask_restful's fields and marshal_with to serialize my APIs output data. But I am having problems with my date format. I am storing the date as an SQLAlchemy DateTime type, for example,...

stackoverflow.com

https://flask-restplus.readthedocs.io/en/stable/marshalling.html

 

Response marshalling — Flask-RESTPlus 0.13.0 documentation

Response marshalling Flask-RESTPlus provides an easy way to control what data you actually render in your response or expect as in input payload. With the fields module, you can use whatever objects (ORM models/custom classes/etc.) you want in your resourc

flask-restplus.readthedocs.io

 

반응형

'프로그래밍 > Python' 카테고리의 다른 글

[Python]sqlalchemy 사용법  (0) 2022.12.07
[PYTHON] 파이썬 함수 매개변수  (0) 2022.08.11
Single Linked list 구현  (0) 2018.03.22
창원시 버스 API 사용하기  (1) 2016.02.22

+ Recent posts