- NumPy, Pandas, Matplotlib, Scikit-learn, Keras, Torch, MySql
- 24.07.24 - 24.08.21, 24.09.27 - 24.12.31
- Libraries : huggingface, langchain, peft, faiss, trl, pymupdf, gmft
- ์ฃผ์ด์ง ์ฌ์ ์ ๋ณด pdf ๋ฌธ์๋ฅผ ๋ฐํ์ผ๋ก ์ง๋ฌธ์ ๋ต๋ณํ๋ gemma2 ๊ธฐ๋ฐ LLM ๋ชจ๋ธ์ RAG, LoRA๋ฅผ ํ์ฉํ์ฌ ํ์ต.
- ๋ํ ์ฑ์
- metric : ๋ฌธ์ฅ์์ ๋ฌธ์ ๋จ์์ F1 score
- Public 0.666, Private 0.673, ์ต์ข ์์ 38/359 (์์ 10.58%)
- ๊ฒฝ์ง๋ํ ๋ง๊ฐ ์ดํ, ์ฑ๋ฅ ๊ฐ์ ์ ์ํ ์คํ ์ค๊ณ ๋ฐ ์คํ ์งํ
- ํ์ฌ ์ฑ์ | Public 0.751 : ํ์ฌ 3/359, Private 0.7411 : ๋ํ ์ข ๋ฃ ์์ ์ 1๋ฑ ๋ณด๋ค ๋์ ์ฑ์
- pymupdf์ gmft๋ฅผ ๊ฒฐํฉํ ํ ์ ์ฒ๋ฆฌ, ์ฝ๋ ๋ฆฌํฉํ ๋ง ๋ฑ์ ๊ธฐ์ฌ
- 24.07.10 - 24.07.22, 25.03.03 - 25.03.06
- Libraries : NumPy, Pandas, Beautifulsoup, re
- ์๋ผ๋ 00๋
1์ 1์ฃผ์ฐจ ~ 24๋
7์ 2์ฃผ์ฐจ์ ๋ฒ ์คํธ์
๋ฌ ๋ชฉ๋ก์ ํฌ๋กค๋งํ์ฌ 141.5๋ง ํ์ Dataset ๊ตฌ์ถ
- 15.8๋ง ์ฌ์ข ์ ๋์์ ๋ํ์ฌ, ํด๋น ์ฃผ ์ฐจ์์์ ์์ ๋ฐ ๋์ ๊ด๋ จ ์ ๋ณด๋ฅผ ํฌํจ
- ์ฃผ๊ฐ ๋ฒ ์คํธ ์
๋ฌ DB๋ฅผ ๋ฐํ์ผ๋ก, 78๋ง ํ์ ์๋ผ๋ ์ค๊ณ ๋งค์ฅ์ ์ค๊ณ ๋์ Dataset ๊ตฌ์ถ
- 10.3๋ง ์ฌ์ข ์ ์ญ๋ ๋ฒ ์คํธ์ ๋ฌ ๋์์ ๋ํ ์ค๊ณ ๋์ ๋งค๋ฌผ ๋ฐ์ดํฐ
- ์กฐ์ฅ์ผ๋ก์ ํ๋ก์ ํธ ๊ธฐํ ๋ฐ ์งํ
- ํฌ๋กค๋ง ์ฝ๋ ๊ฐ๋ฐ, dataset ๋ฐ model์ prototype ๊ฐ๋ฐ, ์คํ ์ค๊ณ, ์งํ ๋ฐ ํ๊ฐ ๋ฑ์ ๊ธฐ์ฌ
- ๋ฐ์ดํฐ์ ์ ๋ฆฌ ๋ฐ ๋ฐฐํฌ
-
24.07.10 - 24.07.22, 24.10.19~24.10.23
-
Libraries : NumPy, Pandas, Matplotlib, re, Scikit-learn, xgboost, Mecab, cupy
-
์์ ์๋ผ๋ ์ค๊ณ ๋งค์ฅ ๋์ Dataset์ผ๋ก ์๋ผ๋ ์ค๊ณ ๋์ ๊ฐ๊ฒฉ ์์ธก ๋ชจ๋ธ ๊ฐ๋ฐ
- 10.3๋ง ์ฌ์ข ์ ์ญ๋ ๋ฒ ์คํธ์ ๋ฌ ๋์์ ๋ํ 78๋ง ํ์ ์ค๊ณ ๋์ ๋งค๋ฌผ ๋ฐ์ดํฐ
-
XGBoost Regressor๋ฅผ ์ด์ฉ
- cross validation๊ณผ grid search๋ฅผ ์ด์ฉํ์ฌ 486๊ฐ์ ์กฐํฉ ์ค ์ฐ์ hyperparameter 14๊ฐ๋ฅผ ์ถ๋ฆผ
- XGBoost Python API ๋ฐ cupy๋ฅผ ์ด์ฉํ๋ grid search & cross validation ํจ์๋ฅผ ๋ง๋ค์ด ์ฐ์ฐ ์๋ ๊ฐ์
- ์ฐ์ hyperparameter๋ก ํ์ตํ ๋ชจ๋ธ๋ค์ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก ํ๊ฐ
- test 1 : ์ด๊ธฐ์ test set์ผ๋ก ๋๋ ๋ฐ์ดํฐ๋ก ํ๊ฐ
- test 2 : test set ์ค train set์ ํฌํจ๋ ์ ์๋ ์ข ๋ฅ์ ๋์์ ํํด์ ํ๊ฐ
- cross validation๊ณผ grid search๋ฅผ ์ด์ฉํ์ฌ 486๊ฐ์ ์กฐํฉ ์ค ์ฐ์ hyperparameter 14๊ฐ๋ฅผ ์ถ๋ฆผ
-
Best model
- ๋ ๋ฆฝ๋ณ์ : ์ค๊ณ ํ์ง, ์ทจ๊ธ์ง์ , ๋์๋ช , ๋์๋ช ์ ํฌํจ๋ ๋ถ๊ฐ์ ๋ฌธ๊ตฌ(์์ฅ๋ณธ, ํ์ ํ ๋ฑ), ์ ์, ๊ธฐํ ์ ์, ์ถํ์ฌ, ์ถ๊ฐ์ผ, ์ ๊ฐ, ๋๋ถ๋ฅ
- hyperparameter
- num_boost_round : 2500
- learning_rate : 0.3
- max_depth : 6
- min_child_weight : 4
- colsample_bytree : 1
- subsample : 1
๋ํ.1 best model์ feature importance
RMSE R2 score N test 1 610.7 0.973 156,843 test 2 1,440 0.914 5,968 ๋ํ.2 test๋ณ ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ ๋ฐ XGBoost Regressor์์์ ์ต๊ณ ์ฑ์
- ์กฐ์ฅ์ผ๋ก์ ํ๋ก์ ํธ ๊ธฐํ ๋ฐ ์งํ
- ํฌ๋กค๋ง ์ฝ๋ ๊ฐ๋ฐ, dataset ๋ฐ model์ prototype ๊ฐ๋ฐ, ์คํ ์ค๊ณ, ์งํ ๋ฐ ํ๊ฐ ๋ฑ์ ๊ธฐ์ฌ
- ์ ์ ํ ๋ชจ๋ํ๊ฐ ๊ฐ๋ฐ์ ํจ์จ์ฑ ๋ฐ ์ฝ๋์ ๊ฐ๋ ์ฑ์ ์ฃผ๋ ์ํฅ๋ ฅ์ ์ฒด๊ฐ
- ์์์ ์ํ๋ก ๋น ๋ฅธ ๊ฐ๋ฐ์ ์งํํ์ฌ, ํ์ฌ์ ๋ฐฉ๋ฒ๋ก ์ด ๊ฐ๋ฅํ์ง ํน์ ์ ์ ํ์ง ํ๊ฐํ๋ ๊ฒ์ ์ ๋ต์ ์ผ๋ก ์ ํจ
- ํ๋ก์ ํธ์ ๋ฐฉํฅ์ฑ์ ์ก๋๋ฐ ๋์์ด ๋๊ณ , ์ข์ baseline์ ๊ธฐ์ค์ด ๋ ์ ์์
- ๋๋ฉ์ธ ์ง์ ๋ฑ์ ์ด์ฉํด ํด๋ฆฌ์คํฑํ ํ๋จ์ ํ๋ ๊ฒ์ ๋น ๋ฅด๊ฒ prototype๋ฅผ ๊ฐ๋ฐํ๋๋ฐ ์ ํจํ ๋์์ด ๋ ์ ์์
- ๋ชจ๋ธ์ด ์ ํ์ ์๋ ์ข
๋ฅ์ ๋ฐ์ดํฐ๋ก ์ ํ๋ test๋ฅผ ์ฌ์งํํ์ฌ ๋ชจ๋ธ์ ํ์ต ์ ๋์ ๋ํด์ ์ ๊ทน์ ์ผ๋ก ํ๊ฐ
- train set์ ํฌํจ ๋ ์ ์๋ ์ข ๋ฅ์ ๋์์ ๋ํด์๋ง ์ถ๊ฐ๋ก ํ๊ฐ. ๋์ ๋ณ ๊ฐ๊ฒฉ์ ๋ชจ๋ธ์ด ์ธ์ด ๊ฒ์ด ์๋๋ผ ์์ฐ์ด ์ฒ๋ฆฌ ๊ฒฐ๊ณผ๋ฅผ ๋ชจ๋ธ์ด ๋ฐ์ํ๊ณ ์์์ ํ์ธ
- ๋ฐ์ดํฐ ์
์ column ์ค ๋ถ๋ช
ํํ ๊ฒ์ ์ฌ์ฉํ์ง ์์๋, ๋ชจ๋ธ์ ๋ณต์ก๋๋ฅผ ๋ํ์ ์ฑ๋ฅ์ด ์ข๊ณ ๋ ๊ฐ๊ฑดํ ๋ชจ๋ธ์ ๊ฐ๋ฐํ ์๋ ์์์ ํ์ธ
- best model์ ์ฐ์ธ hyperparamter๋ฅผ ํฌํจํ์ฌ, ๋์ผํ hyperparameter๋ก SalesPoint๋ฅผ ์ ์ธํ๊ณ ํ์ต์์ผฐ์ ๋ ์ฑ๋ฅ์ด ๋ ์ข๊ณ ๋ ๊ฐ๊ฑดํ ๊ฒฝ์ฐ๊ฐ ์๋ ๊ฒ์ ํ์ธ.
- ๊ฐ๋จํ ๋ชจ๋ธ๋ก ๋ฆฌ๋ฒ์ค ์์ง๋์ด๋ง์ ์งํํ์ฌ, ์๋ผ๋ ์ค๊ณ ๋งค์ฅ ๋์ ๊ฐ๊ฒฉ ์ฐ์ ์์คํ ์ด ๋ง์ด ๋ณต์กํ์ง๋ ์์ ๊ฒ์ด๋ผ ์ ์ถํ ์ ์์์
- ์ฐ์ฐ๋์ ๊ด์ ์์ grid search๋ hyperparameter ํ์์ ๋งค์ฐ ๋นํจ์จ์
- ๋ชจ๋ธ์ ๋ง๊ฒ hyperparameter์ ํ์ ์์๋ฅผ ์ค์ ํ๊ฑฐ๋, Bayesian search ๋ฑ์ ํ์ฉํ๋ฉด ์ฐ์ฐ์ ๋๋ ์์ ๋ฑ์ ํจ์จ์ ์ผ๋ก ์ฌ์ฉํ ์ ์์์ ๊ฒ์ด๋ผ ๊ธฐ๋
- ๋ช ์ญ๋ง ๊ฐ ๋จ์์ ๋ฐ์ดํฐ๋ฅผ XGBoost๋ก ๋ค๋ฃฐ ๋, Sci-kit API ๋ณด๋ค Python API๋ฅผ ์ด์ฉํ๊ณ , ํนํ cupy๋ฅผ ํตํด gpu๋ฅผ ์ฌ์ฉํ๋ฉด ์ฐ์ฐ์๋๋ฅผ ๋น ๋ฅด๊ฒ ํ ์ ์์
2. Encoder only transformer ๊ธฐ๋ฐ ๋์ ์ ๊ฐ ์์ธก ๋ชจ๋ธ ๊ฐ๋ฐ ๋ฐ initial learning rate์ best epoch์ ๋ถํฌ ์ฌ์ด ๊ด๊ณ ์กฐ์ฌ
-
24.10.23 - 24.11.19, 25.01.04 - 25.02.26
-
Libraries : PyTorch, Scikit-learn, xgboost, NumPy, Pandas, Matplotlib, re, Mecab
-
์์์ ๊ตฌ์ถํ ์๋ผ๋ ๋ฒ ์คํธ์ ๋ฌ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ, ์ ์, ์ฑ ์ด๋ฆ, ์ถ๊ฐ๋ ์ง ๋ฑ์ ์ ๋ณด๋ก ์ ๊ฐ๋ฅผ ์์ธก
-
encoder only transformer ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๊ฐ๋ฐํ ๋ค, ์ฑ์ ์ ํ๊ฐํ๊ณ initial learning rate(์ดํ init_lr)์ best_epoch์ ๋ถํฌ ์ฌ์ด ๊ด๊ณ ์กฐ์ฌ
-
์ฑ์ : RMSE, R2 Score์์ Random Forest๋ XGBoost ๋ฑ ๋ณด๋ค ์ข์ ์ฑ์ ์ ๊ธฐ๋ก
Encoder Based Model RFR XGB MLP RMSE 8337.54 9079.71 9544.35 10034.56 MAPE 0.359422 0.30136 0.36642 0.39802 R2 SCORE 0.4744 0.37666 0.31123 0.23795 ๋ํ.3 ๊ฐ ์คํ ๋ณ best model๊ณผ ์ฑ๋ฅ
๋ํ.4 test set์ ์ ๊ฐ, encoder based model์ ์ค์ฐจ ๋ฐ ์๋์ค์ฐจ histogram. ์ ๋ชจ๋ ๊ฐ๋ ์ฑ์ ์ํด plot์์ X์ถ์ ๋ฒ์๋ฅผ ์ ํํ์ฌ, ์ต๋๊ฐ ๋ฐ ์ต์๊ฐ์ X์ถ์ ๋ฒ์ ๋ฐ๊นฅ์ ์์ ์ ์์
-
ReduceLROnPlateau scheduler๋ฅผ ์ฌ์ฉํ ๋ init_lr์ ๋ฐ๋ฅธ best_epoch์ ๋ถํฌ๋ฅผ ๋ณด๊ธฐ ์ํด 7๊ฐ init_lr์ ๋ํด ์ด 200๋ฒ์ ํ์ต ์งํ
-
best_epoch์ ๋ถํฌ์ init_lr ์ฌ์ด ๊ด๊ณ์์ ๊ฒฐ์ ํ๊ธฐ์ ๋ถ์กฑํ์ง๋ง, ์ถ๊ฐ์ ์ธ ์กฐ์ฌ๋ฅผ ํ์ ๋ ์ ์๋ฏธํ ๊ฒฐ๊ณผ๊ฐ ๋์ฌ ๊ฐ๋ฅ์ฑ์ ์์ฌํจ
- 6๊ฐ์ init_lr์ ๋ํด, best_epochd์ median ํ๊ท ์ R2 Score 0.96 ์ด๊ณผํ๊ณ , ํด๋น ๋ชจ๋ธ๋ก best_epoch์ median์ ํ๊ทํ์ ๋ RMSE 10 ๋ฏธ๋ง์ธ ์ ํํ๊ท ๋ชจ๋ธ์
$-0.75\leq d \leq 0.75, d\neq0$ ๊ตฌ๊ฐ์$d$ ์ ๋ํด ๋ชจ๋ ์ฐพ์ ์ ์์ - ์์์ ์ซ์๋ค๋ก ์ ์ฌํ ์กฐ๊ฑด์์ ์๋ฎฌ๋ ์ด์ (Monte Carlo Method) ํ์๋, ๋น์ทํ ์์ค์ ์ฑ์ ์ด ๋์ฌ ํต๊ณ์ ํ๋ฅ ์ 0.054 ์ ๋
- ๋๋จธ์ง ํ๋์ init_lr์์์ best_epoch์ median์ ์ค์ฐจ 8 ๋ฏธ๋ง์ผ๋ก ์์ธก
- 6๊ฐ์ init_lr์ ๋ํด, best_epochd์ median ํ๊ท ์ R2 Score 0.96 ์ด๊ณผํ๊ณ , ํด๋น ๋ชจ๋ธ๋ก best_epoch์ median์ ํ๊ทํ์ ๋ RMSE 10 ๋ฏธ๋ง์ธ ์ ํํ๊ท ๋ชจ๋ธ์
๋ํ.5 init_lr ๋ณ best_epoch์ ์ฐํฌ๋ ๋ฐ ํ๊ท์ . reg_whole : ์ ์ฒด ๋ฐ์ดํฐ๋ก ํ๊ท, reg_median : best_epoch์ median์ ๋ํ ํ๊ท, reg_mean : best_epoch์ mean์ ๋ํ ํ๊ท
- ํ๋ก์ ํธ ๋ฐฉํฅ ์ค์ , ์งํ ๋ฑ ์ ๋ฐ. (ํผ์์ ์งํ)
- ์คํ์ ๋ณธ๊ฒฉ์ ์ผ๋ก ์งํํ๊ธฐ ์ ์ sample test๋ฅผ ๋ ๊ตฌ์ฒด์ ์ผ๋ก ์งํํ๊ณ ์ ๊ทน์ ์ผ๋ก ์กฐ์ฌํ์ผ๋ฉด, ๋ ์๋ฏธ์๋ ๋ฐฉํฅ์ผ๋ก ํ๋ก์ ํธ๋ฅผ ์งํํ ์ ์์ง ์์์๊น ์ถ์
- ๊ณ ์ ๋ init_lr์ ๋ํด์ best_epoch์ median ๊ฐ ๋ฑ ๋ํ๊ฐ์ ์ถ์ ํ๋ ๊ฒ์ผ๋ก ๋ฐฉํฅ์ ๋น ๋ฅด๊ฒ ์ ํ์ผ๋ฉด, ๊ณ์ฐ์์์ ๋ ๊ฒฝ์ ์ ์ผ๋ก ์ฌ์ฉํ ์ ์์์ ๊ฒ ๊ฐ์
- median๊ฐ์ ์ฌ์ฉํ์ ๋ best_epoch-0.5์ ๋ํ ์ ํํ๊ท ๋ชจ๋ธ์ ์ฐพ์ ์ ์๋ ๊ฒ์ ํ์ธํ์์
- ํ์ง๋ง ๊ธฐ์กด ๋
ผ๋ฌธ์์์ ๋ค๋ฅธ scheduler๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์,
$d$ ๋ฅผ ํน์ ํ๋ ค๋ฉด ์ถ๊ฐ์ ์ธ ๊ทผ๊ฑฐ๊ฐ ๋ง์ด ํ์ํจ์ ๋ค๋ฆ๊ฒ ์์์
- ๋ฐ์ํ ์ํฉ์ด ์ด๋ ์ ๋ ํฌ๊ทํ์ง ํ๋จํ๋๋ฐ, Monte Carlo Method์ผ๋ก ๊ตฌํ ํต๊ณ์ ํ๋ฅ ์ด ๋์์ ์ค ์ ์์
- ๋ฐ์ดํฐ๊ฐ y๊ฐ์ ๋ํด ๋งค์ฐ ๊ท ์งํ์ง ์๊ฒ ๋ถํฌํ ๊ฒฝ์ฐ, ๋ชจ๋ธ ๋ณ๋ก MAPE์ R2 Score์์ ์๋ฐ๋ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ๊ธฐ๋ ํ๋ ๊ฒ์ ํ์ธ
- 80%์ด์์ ๋ฐ์ดํฐ์์ ์ ๋์ค์ฐจ๊ฐ 6000 ๋ฏธ๋ง์์๋ ๋๋จธ์ง ๋ฐ์ดํฐ์์ ์ ๋ ์ค์ฐจ๊ฐ ๋งค์ฐ ํฌ๋ฉด ์ ์ฒด RMSE๋ 8000์ ๋์ด๊ฐ ์ ์๋ ๊ฒ์ ์ฒด๊ฐ
๋ฏธ๊ตญ ๋๋์ ๋ณด๊ฑด ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก ํ ์ง๋ณ ๋ฐ๋ณ ๋ฐ ์ฌ๋ง ํต๊ณ ์์ธก AI ๋ชจ๋ธ
- 24.06.14 - 24.06.24
- Libraries : NumPy, Pandas, Matplotlib, Scikit-learn, PyTorch, Jit
- ๋ฏธ๊ตญ ๋๋์ ๋ณด๊ฑด ๋ฐ์ดํฐ์
(BCHI Dataset)์ 35๊ฐ ๋๋์์ 16์ข
์ผ๋ก ์ธตํ๋ ์ธ์ข
ยท ์ฑ๋ณ ์ธ๊ตฌ ์ง๋จ ๋ณ๋ก ๋ค์ํ ํต๊ณํญ๋ชฉ์ 2010-2022 ๋์ ์ง๊ณํ ๋ฐ์ดํฐ ์
.
- ํต๊ณ ํญ๋ชฉ์ All Cancer Death, Lung Cancer Death, Diabetes Death, Drug Overdose Death ๋ฑ ์ด 118 ์ข
์ผ๋ก ๊ตฌ์ฑ.
- e.g. "Minneapolis์์ 2015๋ ์ ์ธ์ข ์๊ด์์ด ์ฌ์ฑ์ ๋ํด All Cancer Death๋ฅผ ์กฐ์ฌํ ๊ฒฐ๊ณผ, ์ญ๋ง๋ช ๋น 157๋ช "
- ๊ฐ ๋๋์๋ '์ง์ญ'/ '๊ฒฝ์ ์ ๋น๊ณค'/ '์ธ๊ตฌ'/ '์ธ๊ตฌ๋ฐ๋'/ '์ธ์ข
๋ณ ๊ฑฐ์ฃผ์ง ๋ถ๋ฆฌ ์ ๋' 5๊ฐ์ง ํน์ฑ์ ๊ธฐ์ค์ผ๋ก ๋ถ๋ฅ ๋์ด ์์.
- 35๊ฐ ๋์๊ฐ ์ด 19์ข ์ ๋์ ์ ํ์ผ๋ก ๋ถ๋ฅ๋จ.
- e.g. "Minneapolis์ ๋์ ์ ํ : ์ค์๋ถ, ๋ ๋น๊ณคํ, ์ธ๊ตฌ๊ท๋ชจ๊ฐ ์์, ๋ฎ์ ์ธ๊ตฌ๋ฐ๋, ์ธ์ข ๋ณ ๊ฑฐ์ฃผ์ง ๋ถ๋ฆฌ ์ ๋๊ฐ ๋ฎ์ ๋์"
- ํต๊ณ ํญ๋ชฉ์ All Cancer Death, Lung Cancer Death, Diabetes Death, Drug Overdose Death ๋ฑ ์ด 118 ์ข
์ผ๋ก ๊ตฌ์ฑ.
- BCHI Dataset์ ๋ค์ํ ํต๊ณ ํญ๋ชฉ๊ณผ ์ธ์ข
, ์ฑ๋ณ, ๋์์ ํ์ ์ธตํ ์ ๋ณด๋ฅผ ์ด์ฉํ์ฌ ํด๋น ์ง๋จ์ ํน์ ํต๊ณ ํญ๋ชฉ์ ๊ฐ์ ํ๊ท ์์ธกํ๋ ํ๋ก์ ํธ ์งํ.
- All Cancer Deaths, Lung Cancer Deathes ๋ฑ ์ด 14๊ฐ์ง ํต๊ณ ํญ๋ชฉ์ ๋ํ์ฌ ํ๊ท ์์ธก ์งํ.
- e.g. ๋์์ ํน์ฑ,์ธ์ข ,์ฑ๋ณ๋ก ์ธตํ๋ ์ธ๊ตฌ์ง๋จ์ ๋ํ์ฌ, ์ธตํ๋ ์ ๋ณด ๋ฐ Adult Physical Inactivity, Diabetes, Teen Obesity, Adult Obesity, Population : Seniors, Income : Poverty in All Ages ๋ฑ์ ํต๊ณ๊ฐ๋ฅผ ์ด์ฉํ์ฌ, All Cancer Deaths ํต๊ณ๊ฐ์ ์์ธก
- ์์ธก ๋ฐฉ๋ฒ์ผ๋ก XGBoost Regressor, Random Forest Regressor, Multilayer Perceptron, k-NN Regressor์ ์ฌ์ฉ.
- k-NN์ ๊ฒฝ์ฐ๋ ์ธตํ ํญ๋ชฉ์ ๋ํด
$L_p$ norm์ ์์ฉํ custom metric์ ์ด์ฉํด ์์ธกํ๊ณ , ๋ค๋ฅธ ์ฐธ๊ณ ํญ๋ชฉ์ ์ฌ์ฉํ์ง ์์. - ๊ธฐํ ๋ชจ๋ธ์ ๊ฒฝ์ฐ, ๊ฒฐ์ธก ๊ฐ๋ค์ ์ ์ธํ๊ณ ํ์ต์ ์งํํ ๊ฒฝ์ฐ์ ๊ฒฐ์ธก๊ฐ์ k-NN์ ์ด์ฉํ ์์ธก๊ฐ์ผ๋ก ๋ณด๊ฐํ ๋ค ์งํํ ๊ฒฝ์ฐ์ ์ฑ๋ฅ์ ๋น๊ตํจ.
- k-NN์ ๊ฒฝ์ฐ๋ ์ธตํ ํญ๋ชฉ์ ๋ํด
- ํต๊ณ ํญ๋ชฉ ๋ณ๋ก ์ฐจ์ด๊ฐ ์์ง๋ง, k-NN, k-NN์ผ๋ก ๊ฒฐ์ธก์ ๋ณด๊ฐํ XGBoost, k-NN์ผ๋ก ๊ฒฐ์ธก์ ๋ณด๊ฐํ์ง ์์ XGBoost ์ธ ๋ชจ๋ธ์์ ์ฑ๋ฅ์ด ์ ์ผ ๋๊ฒ ๋์ด.
- ํ๊ฐ metric์ผ๋ก RMSE, MAPE, R2 score ๋ฑ์ ์ฌ์ฉ.
์์ธก ๋ชฉํ ํญ๋ชฉ | ์ฐธ๊ณ ํญ๋ชฉ |
---|---|
All Cancer Deaths | Adult Physical Inactivity, Diabetes, Teen Obesity, Adult Obesity, Population : Seniors, Income : Poverty in All Ages, e.t.c. |
Colorectal Cancer Deaths | Teen Obesity, Adult Obesity, Health Insurance : Uninsured in All Ages, Births : Low Birthweight, Dietary Quality : Teen Soda, e.t.c. |
- ์กฐ์ฅ์ผ๋ก์ ํ๋ก์ ํธ ๋ฐฉํฅ ์ ์.
- ํ๋ก์ ํธ ๋ฐฉํฅ ๊ฒฐ์ ์ ์ํ EDA, k-NN์์ ์ฌ์ฉํ custom metric ์ ์ ๋ฐ ๊ตฌํ, k-NN์ ํ์ฉํ ๊ฒฐ์ธก์น ๋ณด๊ฐ ์ ์, ์ฝ๋ ๋ฆฌํฉํ ๋ง ๋ฑ์ ๊ธฐ์ฌ.
- ํ๊ท ์์ธก์ ํ๊ฐํ ๋, ํ๊ท ์ค์ฐจ์ ๊ดํ score(RMSE,MAPE ๋ฑ)์ r2 score๋ฅผ ๋ณตํฉ์ ์ผ๋ก ์ด์ฉํด์ผ ํจ์ ์ตํ.
- ๋ฐ์ดํฐ์
์ ๋ฐ๋ผ, k-NN์ ์ ์ฉํ์ฌ ๊ฒฐ์ธก ๋ณด๊ฐ์ ํ๋ ๊ฒ์ด ์ ํจํ ์ ์์.
- ๋ค๋ง, ๋ค๋ฅธ ๋ณด๊ฐ ๋ฐฉ๋ฒ ํน์ ๋ฐ์ดํฐ๋ฅผ dropํ๋ ๊ฒ์ ๋นํด ํญ์ ์๋์ ์ผ๋ก ์ข์ง๋ ์์.
- ํ๊ท ์ค์ฐจ์ ๊ด๋ จ๋ score๋ ๋๊ฐ ์ข์์ก์ง๋ง, r2 score๋ ๋๋น ์ง๋ ๊ฒฝ์ฐ๋ค์ด ์์์.
- ๋๋ฉ์ธ ์ง์์ ๋ฐํ์ผ๋ก custom metric์ ์ค๊ณํ๋ ๊ฒ์ด ์ ํจํ ์ ์์.
- numpy ๋ฐ cython์ ๋ง๊ฒ ์ต์ ํ๋ฅผ ์ํค์ง ์์ ๊ฒฝ์ฐ, custom metric์ scikit-learn ์ k-NN์ ์ฌ์ฉํ๋ฉด ์๋๊ฐ ๋งค์ฐ ๋๋ฆผ.
- ์ฝ 4์ฒ ~ 5์ฒ ์ฌ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด 3์ฒ ~ 2์ฒ ์ฌ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์์ธกํ๋๋ฐ ๋ถ ๋จ์์ ์๊ฐ์ด ๊ฑธ๋ฆผ.
- ๋ค๋ง, ๋ค๋ฅธ ๋ณด๊ฐ ๋ฐฉ๋ฒ ํน์ ๋ฐ์ดํฐ๋ฅผ dropํ๋ ๊ฒ์ ๋นํด ํญ์ ์๋์ ์ผ๋ก ์ข์ง๋ ์์.
- c๋ฅผ ์ด์ฉํ ์ ์๋๋ก ๋ฆฌํฉํ ๋งํ์ฌ, Jit์ ์ ์ฉ์ํฌ ๊ฒฝ์ฐ ์๋๊ฐ ๋น์ฝ์ ์ผ๋ก ๋นจ๋ผ์ง.
- custom metric์ Jit์ ์ ์ฉํ์, ๋ถ ๋จ์์์ ์ด ๋จ์๋ก ๋นจ๋ผ์ง.
- baseline์ ์ก๊ธฐ ์ํด XGBoost ๋ฑ์ machine learning์ ์ฌ์ฉํ๋ ๊ฒ์ด ๊ฐ๋ฐ ์๋ ๋ฑ์ ์ธก๋ฉด์์ ๋งค์ฐ ์ ์ฉํ ์ ์์.
- Cucker-Smale ๋ชจ๋ธ์ ๋น์ ํ ODE system์ผ๋ก, ์ด๋ํ๋ ๋ฌผ์ฒด๋ค์ด ์๋์๋ ์ ๋ณด๋ฅผ ์ฃผ๊ณ ๋ฐ์์ผ๋ก์จ ๊ฐ์ ์๋๋ก ๋๊ธฐํ ๋์ด ์๋ ดํ ์ ์๋ ๋ชจ๋ธ.
- Cucker-Smale ๋ชจ๋ธ ๋ฐ ๊ทธ ํ์ฅ๋ค์ ์์น์ ํด๋ฅผ ๊ตฌํ๋ ์๋ฎฌ๋ ์ด์
์ ์งํ.
- NumPy๋ฅผ ์ด์ฉํด ODE์ ์์น์ ํด๋ฅผ ๊ตฌํ๋ ์๊ณ ๋ฆฌ์ฆ(Runge-Kutta 4th order) ๋ฐ SDE์ ์์น์ ํด๋ฅผ ๊ตฌํ๋ ์๊ณ ๋ฆฌ์ฆ(Improved Euler-Maruyama Method)๋ฅผ ๊ตฌํํจ.
- Matplotlib์ ์ด์ฉํด ์ด๋ก ๊ณผ ์๋ฎฌ๋ ์ด์ ์ด ๋ถํฉํจ์ ์๊ฐํํ๊ณ , ์ค๊ณ์ ๋ง๊ฒ ์ด๋์ด ๋๊ธฐํ ๋๋ ๊ฒ์ ํ์ธํ๊ธฐ ์ํ ์์ฐ ์ ๋๋ฉ์ด์ ์ ์.
- ์์ฌ ํ์ ๋
ผ๋ฌธ : "Flocking Behavior in Stochastic Cucker-Smale Model with Formation Control on Symmetric Digraphs" (๊ฐ๋ช
์ ์ด๋ฆ์ผ๋ก ํ๊ธฐ๋จ)
- ์ด๋ํ๋ ๋ฌผ์ฒด๋ค์ด ์๋๋ ๋ชจ์์ ๊ตฐ์ง์ ์ด๋ฃจ๋๋ก ๋๊ธฐํ ์ํฌ ์ ์๋ ์ํธ์์ฉ์ ์์๊ฐ ๋ ์ ์๋ ๋ชจ๋ธ์ ์ ์.
- ์๋์์น ๋ฐ ์๋์๋์ ๋ํ ํจ์๋ก ํํ๋๋ ํ์ ๋ ธ์ด์ฆ๊ฐ ์์ธ ํํ๋ก ๋ฌผ์ฒด๋ค ๊ฐ์ ์ฃผ๊ณ ๋ฐ๋ ์์คํ .
- Cucker-Smale์ ํ๋ฅ ๋ฏธ๋ถ๋ฐฉ์ ์์ผ๋ก ํ์ฅํ ๋ชจ๋ธ๋ก, ์๋์ง ๊ด๋ จ ์งํ๋ฅผ ์ ์ํด ํน์ ์กฐ๊ฑด์์ ํด์ ์กด์ฌ์ฑ๊ณผ ์๋ ด์ฑ์ ๋ณด์.
- ํ์ ์ฐ๊ตฌ ๋
ผ๋ฌธ : "Controlled pattern formation of stochastic Cucker-Smale systems with network structures"
- ์ ๋ชจ๋ธ์์์ ์๋ ด ์๋์ ๋ํ ์ด๋ก ์ ยท ์์น์ ์ถ์ ์ ์งํ.
- SCIE๊ธ ์ ๋์ด์ SCOPUS ๋ฑ์ฌ์ง์ธ "Communications in Nonlinear Science and Numerical Simulation"์ ๊ฒ์ฌ.
- ๊ธฐ์ฌ : ๋ชจ๋ธ ์ ์, ํด์ ์กด์ฌ์ฑ ๋ฐ ์๋ ด์ฑ ์ฆ๋ช , ์์น์ ์๋ฎฌ๋ ์ด์ ๊ตฌํ, ์งํ ๋ฐ ์ด๋ก ์ ๋ถํฉ๋๋์ง ๊ฒํ ๋ฑ์ ๊ธฐ์ฌ
- Researcher / 22.06 - 23.05
- ์์ธ๋๋ณ์ ์ธ๊ณตํธํก๊ธฐ AI ํ๋ก์ ํธ ๋ฐ ๋ถ๋น ์์ธ๋ ๋ณ์ ์ธ๊ณตํธํก๊ธฐ AI ํ๋ก์ ํธ ์ฐธ์ฌ
- ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ํ๋ก์ธ์ค ๊ตฌ์ถ, ์ ์ง๋ณด์ ๋ฐ ๊ฐ์ ์ ์ฐธ์ฌ
- ๊ณตํ์ํ ์กฐ๊ต (์ฐ์ธ๋ํ๊ต)
- 2018-2020 (4ํ๊ธฐ)
- ์ํ ์ด๋ก ์ค๋ช
๋ฐ ๋ฌธ์ ํ์ด
- ๋ฏธ์ ๋ถํ, ์ ํ๋์, ์๋ฏธ๋ถ๋ฐฉ์ ์ ๋ฐ ํธ๋ฏธ๋ถ๋ฐฉ์ ์, ๋ณต์ํด์ ๋ฑ.
- M.S in Mathematics, 2021 (Yonsei University, Seoul)
- B.S in Mathematics & Philosophy, 2018 (Yonsei University,Seoul)