Skip to content

TimeSeriesAnalysisFrameWork/The-Framework-for-Clustering-Time-Series-Data

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

20 Commits
 
 
 
 
 
 

Repository files navigation

시계열 데이터 분석 프레임워크


목표

데이터를 활용한 솔루션 개발은 현장 데이터를 수집하고, 데이터 분석 엔지니어들은 의뢰 받은 데이터를 분석해, 그 결과를 토대로 솔루션을 제작해 배포하는 과정으로 진행된다. 이 단계에서 데이터 분석 단계에서 도움을 주는 프레임워크를 제작하고자 한다. 분석 초기에 필요한 일련의 과정들을 보여주어 데이터의 수치, 패턴, 군집까지 파악할 수 있어 데이터의 이해도를 높이고 이후 분석의 방향성을 제공하는 것을 목표로 하였다.


Flow

image

본 프레임워크는 사용자에게 데이터셋을 입력 받은 후, 데이터 전처리, 데이터 임베딩, 데이터 군집화를 통해 분석이 진행된다. 데이터 전처리 알고리즘으로는 Truncation, Padding, 동적 시간 왜곡법 기반의 시계열 길이 변환 알고리즘, Sliding window가 제공된다. 데이터 임베딩 알고리즘으로는 AutoEncoder, PCA, UMAP 이 있으며, 데이터 군집화 알고리즘으로는 K-Means, K-Shape, DBSCAN이 제공된다. 이러한 알고리즘들은 총 36가지의 조합이 가능하며, 사용자는 다양한 조합을 통해 데이터를 분석할 수 있다.

또한, Dash를 통해 시각적으로 데이터를 쉽게 파악할 수 있도록 하였으며, DBSCAN 알고리즘을 통해 측정된 이상치 데이터 또한 추적할 수 있도록 하였다.


기능

  • 전처리

image

데이터 전처리 탭에서는 왼쪽 박스에서 ‘데이터 불러오기’, ‘전처리 알고리즘 선택’, 오른쪽 상단에 제공된 column 명을 확인해 value column 과 process column 을 입력하는 ‘인자 값 입력’, ‘데이터 수치 및 길이 정보’, ‘전처리 데이터 다운로드’의 기능을 제공한다. 오른쪽 박스에서는 ‘전체 데이터 표’, ‘전체 데이터 Plot’을 제공한다. 이를 통해 사용자는 정제되지 않은 데이터에 대한 정보를 확인할 수 있다.

  • 임베딩

    image image

    데이터 임베딩 탭의 경우, 왼쪽 박스에서 ‘임베딩 알고리즘 선택’, ‘인자 값 입력’ ‘임베딩 데이터 다운로드’ 기능을 제공하며, 오른쪽 박스에서는 ‘임베딩된 2차원 데이터 그래프’, ‘임베딩된 3차원 데이터 그래프’, 각 주성분의 영향도를 확인할 수 있는 ‘주성분 분석 막대 그래프’가 제공된다. (‘주성분 분석 막대 그래프’ 는 PCA 알고리즘에서만 제공하며 ‘임베딩된 3차원 데이터 그래프’ 는 PCA 와 UAMP 에서 제공) 이를 통해 사용자는 임베딩 결과를 다양한 그래프를 통해 확인할 수 있으며, 만약 원하지 않은 결과가 나왔더라도 해당 탭에서 결과 값을 확인하고 다시 임베딩 할 수 있도록 하였다.

  • 군집화

    image image

    데이터 군집화 탭의 경우, 왼쪽 박스에서는 앞선 단계와 동일하게 ‘군집화 알고리즘 선택’, ‘인자 값 입력’ 기능을 제공한다. 오른쪽 박스에서는 ‘군집 중심 그래프’, ‘군집화된 2차원 그래프’, ‘hover 를 통해 역추적된 원본 데이터 Plot’, ‘아웃 라이어 (이상치) Plot’의 기능이 제공된다.

    ‘군집 중심 그래프’란, 군집화된 2차원 그래프에서 중심점과 거리가 가장 가까운 데이터를 찾아서 원본 데이터 Plot 을 보여준다. 그리고 ‘군집화된 2차원 그래프’ 에서는 사용자가 선택한 알고리즘으로 군집화된 데이터를 2차원 그래프로 보여준다. 또한, 사용자가 해당 2차원 그래프에 마우스를 올리면, 이에 해당하는 원본 데이터를 역추적하여 오른쪽에서 출력한다. 마지막으로, ‘아웃 라이어 Plot’ 는 DBSCAN 을 통해 측정된 아웃 라이어 (이상치) 의 원본 값을 역추적하여 보여준다.

    이를 통해 사용자는 다양한 알고리즘을 군집화해볼 수 있으며, 더 정확한 분석을 위해 해당 결과를 2차원의 그래프로만 확인하는 것이 아닌, 원본 데이터 값 또한 확인할 수 있도록 하였다.


About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published