Skip to content

YoungAndJin96/Regression_LifeExpectancy

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

70 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Fast Campus Data Science School 17th Regression project

Regression for factors affecting Life Expectancy🧬

📝 개요

1️⃣ 주제 선정 동기

  • Covid 19로 건강에 대한 관심 ↑
  • 100세 시대를 코 앞에 두고 있는 요즘, 어떤 요인이 장수에 영향을 미치는지 탐구해보자

2️⃣ 프로젝트 목적

  • 기대 수명과 연관된 요인 분석
  • 다중 선형 회귀 기반 회귀 모델 공식화
  • 개발도상국 등 기대 수명이 낮은 국가 대상, 기대 수명이 낮은 이유 및 수명 제고 방안 분석

3️⃣ Dataset

  • Kaggle "Life-Expextancy (WHO)
    • 2000~2015년 193개국의 기대수명 및 관련 요인 데이터셋
    • 종속변수(Target): Life expactancy
    • 독립변수(Features): 경제, 사회 (예방접종, 교육 등), 사망률 등 19개 요인
  • THE WORLD BANK
    • GDP per capita, Death rates, Population 등 결측치 처리 및 추가용 자료 수집

📈 Modeling

  • Pipeline & GridSearchCV

    model_result
  • Predict

    • 2019년 한국 기대수명: 83세
    • Linear Regression Predicted: 81.35세
  • Results visualization

    linear_results randomforest_results

🔎 EDA

Life expectancy와 높은 상관관계를 가지는 Features

  • 양의 상관관계: 교육 정도(Schooling) 0.8, 자원의 소득 구성(Income composition of resources) 0.8
  • 음의 상관관계: 영아 사망률(Infant deaths) -0.9, 성인 사망률(Adult mortality) -0.7 heatmap_new

Status에 따른 국가별 Features 분포

  • Developed(Status 1 - Deep color) / Developing (Status 0 - Light color)
  • Life expectancy
  • Life expectancy 상위/하위 10% 국가들 비교
    • Life expectancy와 양의 상관관계를 가진 Features: Developed 국가가 상위권을 차지
    • Life expectancy와 음의 상관관계를 가진 Features: Developing 국가가 상위권을 차지

👩🏻‍🤝‍🧑🏻 Contributors

About

Regression for factors affecting Life Expectancy

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •