데이터를 활용한 솔루션 개발은 현장 데이터를 수집하고, 데이터 분석 엔지니어들은 의뢰 받은 데이터를 분석해, 그 결과를 토대로 솔루션을 제작해 배포하는 과정으로 진행된다. 이 단계에서 데이터 분석 단계에서 도움을 주는 프레임워크를 제작하고자 한다. 분석 초기에 필요한 일련의 과정들을 보여주어 데이터의 수치, 패턴, 군집까지 파악할 수 있어 데이터의 이해도를 높이고 이후 분석의 방향성을 제공하는 것을 목표로 하였다.
본 프레임워크는 사용자에게 데이터셋을 입력 받은 후, 데이터 전처리, 데이터 임베딩, 데이터 군집화를 통해 분석이 진행된다. 데이터 전처리 알고리즘으로는 Truncation, Padding, 동적 시간 왜곡법 기반의 시계열 길이 변환 알고리즘, Sliding window가 제공된다. 데이터 임베딩 알고리즘으로는 AutoEncoder, PCA, UMAP 이 있으며, 데이터 군집화 알고리즘으로는 K-Means, K-Shape, DBSCAN이 제공된다. 이러한 알고리즘들은 총 36가지의 조합이 가능하며, 사용자는 다양한 조합을 통해 데이터를 분석할 수 있다.
또한, Dash를 통해 시각적으로 데이터를 쉽게 파악할 수 있도록 하였으며, DBSCAN 알고리즘을 통해 측정된 이상치 데이터 또한 추적할 수 있도록 하였다.
데이터 전처리 탭에서는 왼쪽 박스에서 ‘데이터 불러오기’, ‘전처리 알고리즘 선택’, 오른쪽 상단에 제공된 column 명을 확인해 value column 과 process column 을 입력하는 ‘인자 값 입력’, ‘데이터 수치 및 길이 정보’, ‘전처리 데이터 다운로드’의 기능을 제공한다. 오른쪽 박스에서는 ‘전체 데이터 표’, ‘전체 데이터 Plot’을 제공한다. 이를 통해 사용자는 정제되지 않은 데이터에 대한 정보를 확인할 수 있다.
-
데이터 임베딩 탭의 경우, 왼쪽 박스에서 ‘임베딩 알고리즘 선택’, ‘인자 값 입력’ ‘임베딩 데이터 다운로드’ 기능을 제공하며, 오른쪽 박스에서는 ‘임베딩된 2차원 데이터 그래프’, ‘임베딩된 3차원 데이터 그래프’, 각 주성분의 영향도를 확인할 수 있는 ‘주성분 분석 막대 그래프’가 제공된다. (‘주성분 분석 막대 그래프’ 는 PCA 알고리즘에서만 제공하며 ‘임베딩된 3차원 데이터 그래프’ 는 PCA 와 UAMP 에서 제공) 이를 통해 사용자는 임베딩 결과를 다양한 그래프를 통해 확인할 수 있으며, 만약 원하지 않은 결과가 나왔더라도 해당 탭에서 결과 값을 확인하고 다시 임베딩 할 수 있도록 하였다.
-
데이터 군집화 탭의 경우, 왼쪽 박스에서는 앞선 단계와 동일하게 ‘군집화 알고리즘 선택’, ‘인자 값 입력’ 기능을 제공한다. 오른쪽 박스에서는 ‘군집 중심 그래프’, ‘군집화된 2차원 그래프’, ‘hover 를 통해 역추적된 원본 데이터 Plot’, ‘아웃 라이어 (이상치) Plot’의 기능이 제공된다.
‘군집 중심 그래프’란, 군집화된 2차원 그래프에서 중심점과 거리가 가장 가까운 데이터를 찾아서 원본 데이터 Plot 을 보여준다. 그리고 ‘군집화된 2차원 그래프’ 에서는 사용자가 선택한 알고리즘으로 군집화된 데이터를 2차원 그래프로 보여준다. 또한, 사용자가 해당 2차원 그래프에 마우스를 올리면, 이에 해당하는 원본 데이터를 역추적하여 오른쪽에서 출력한다. 마지막으로, ‘아웃 라이어 Plot’ 는 DBSCAN 을 통해 측정된 아웃 라이어 (이상치) 의 원본 값을 역추적하여 보여준다.
이를 통해 사용자는 다양한 알고리즘을 군집화해볼 수 있으며, 더 정확한 분석을 위해 해당 결과를 2차원의 그래프로만 확인하는 것이 아닌, 원본 데이터 값 또한 확인할 수 있도록 하였다.