Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

1, 2등 팀의 솔루션 중 핵심인 catboost를 현재 레포에서 cat_features 인자 추가하여 반영 #31

Open
hwanseung2 opened this issue Nov 5, 2022 · 0 comments
Assignees
Labels
enhancement New feature or request

Comments

@hwanseung2
Copy link
Contributor

목표

솔루션 발표에서 1, 2위를 기록한 팀의 공통점은 catboost를 활용하여 모델링을 진행했다는 점이다. 우리 팀의 경우 catboost를 제대로 확인하지 않고 넘겼는데 판단한 근거는 다음과 같다.

  1. pd.get_dummies를 활용해 categorical data type feature를 one-hot으로 변경하여야 한다고 알았다. 이 경우 dimension이 categorical data가 가지는 개수만큼 증가하게 되므로 필요 이상의 메모리를 차지하게 된다.
  2. 모델의 인풋으로 categorical data type이 들어갈 때, 이에 대해 모델이 continuous value로 인지하는지 categorical value로 인지하는 지에 대한 이해가 부족했다.

대회가 끝난 후, 노트북 파일을 통해 문제점을 파악했는데, catboost의 학습 인자 중 cat_features를 활용해 categorical data의 타입을 모델에 명시해줄 수 있는 점을 확인했다.
이를 반영하도록 수정한다.

세부사항

  • xgboost와 lightgbm에도 비슷한 인자가 있는지 체크해야한다.
  • catboost의 fit 함수를 변경한다.
@hwanseung2 hwanseung2 added the enhancement New feature or request label Nov 5, 2022
@hwanseung2 hwanseung2 self-assigned this Nov 5, 2022
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

1 participant