데이터 랭글링.
원시 데이터(raw data)를 정리, 구조화, 변환하여 분석이나
다른 목적에 활용할 수 있는 형식으로 가공하는 과정
- 시각적 접근법에 의한 데이터 랭글링(Data Wrangling) 절차 지원
솔루션 개요
- 데이터 랭글링(Data Wrangling)은 원시 데이터(raw data)를 정리, 구조화, 변환하여 분석이나 다른 목적에 활용할 수 있는 형식으로 가공하는 과정을 말합니다. 이는 데이터를 다른 분석 목적에 적합하게 만들기 위한 여러 단계를 포함하며, 이 과정은 원시 데이터가 종종 지저분하거나 불완전하며 일관성이 없기 때문에 직접적인 분석이나 해석에 적합하지 않은 경우가 많기 때문에 중요합니다.
- SSBI제품에서 제공되는 데이터 랭글링 기능의 목표는 대용량의 CDP/DBMS데이터를 정제/표준화하여 시각화를 위한 데이터 전처리 그리고 R 또는 파이썬 분석을 위한 데이터 전처리 과정을 지원하는 것입니다.
솔루션 특징
사용자 친화적 인터페이스
- 데이터 랭글링 도구는 직관적이고 사용자 친화적인 인터페이스를 가지고 있어 프로그래밍 지식이 제한된 사용자도 쉽게 데이터 정리, 변환 및 준비 작업을 수행할 수 있습니다.
대용량 데이터를 위한 데이터 랭글링
- 기업의 데이터는 레거시 데이터베이스에 존재하는 것이 일반적입니다. 또한 데이터는 대용량을 보유하고 있습니다. 고객에 대한 인사이트를 분석하기 위하여 대용량의 데이터를 있는 그대로 전처리/변환하는 과정이 필요합니다. 이는 불필요한 데이터의 이동을 방지할 수 있습니다.
SQL기반의 데이터 랭글링 기능
- SSBI-Family제품군에서 제공되는 “데이터 랭글링“ 기능은 데이터시각화, 머신러닝 분석가를 위한 기능 제공이 목표입니다.제공되는 데이터 랭글링 기능은 SQL기반으로 기업 DBMS에 존재하는 대용량을 처리하는 것입니다. 이기종의 데이터를 병합하고 분석하기 위하여 고성능의 내장 데이터베이스를 활용하는 특징이 있습니다.
자동화 및 일괄처리
- SSBI 데이터 랭글링 도구는 자동화 기능과 일괄 처리 기능을 제공하여 사용자가 동일한 정리 및 변환 작업을 여러 데이터셋에 적용하거나 예약된 작업을 수행할 수 있습니다.
사용목적에 맞는 타겟 데이터셋 생성
- 데이터의 변환/전처리를 통하여 생성된 최종 데이터셋은 R데이터프레임 또는 PANDAS 데이터프레임으로 변환되어 제공되거나, CSV 또는 이기종 데이터베이스 테이블로 전송될 수 있습니다.
시각화 기능 연계
- 데이터 랭글링 /전처리 과정을 지원하는 방법으로 시각화를 활용한 기능이 제공됩니다. 분석가는 제공되는 다차원분석/차트을 통하여 표현된 정보를 이용하여 이상값 발견, 복잡한 신규필드 생성 등을 용이하게 진행 할 수 있습니다.
솔루션 주요기능
SSBI-POWER 데이터랭글링 주요기능
주요기능 | 내용 | 참고사항 |
---|---|---|
멀티플 데이터소스 결합 | 데이터캐싱 후 > 데이터시트 조인 | |
신규필드생성 | 계산값생성 | 계산값빌더/계산값lookup빌더/계산값설정/계산값목록 관리 |
복합변수 생성(Pick) | 시각화>Pick 기능 | |
세그먼트 변수 생성 | 세그먼트목록 기능 | |
타겟리스트변수 생성 | 타겟리스트 관리 | |
리모트세그먼트 변수 생성 | 리모트 세그먼트 관리 | |
탭(가상)데이터시트의 조인을 통한 변수생성 | ||
필드값포맷에 의한 자동생성 | AUTO_FIELD_FORMAT | |
조건필터링 | 차트필터링 | |
필드팝업 > 필드컨디션 설정 | ||
집계결과 필터링(having) | ||
WHERE 필터 입력 | ||
디폴트필터 (Default_filter) 기능 | ||
다이나믹 필드 필터링 | ||
탭(가상)데이터시트 조인의 의한 필터링 | INNER 조인 | |
테이블조인 | 탭(가상)데이터시트의 조인기능 | INNER, LEFT 조인 |
유효성 검사 및 품질체크 | 필드값 일반 통계 | |
TOP-N | ||
분포 | ||
사분위 , 10분위 | 지원되는 DBMS : mariadb ,clickkhouse,mssql | |
아웃라이어 | ||
중복값체크 | ||
커스텀 데이터 현황 | 엑셀 다운로드 | 대량의 데이터 다운로드 후 엑셀에서 분석 |
애플리케이션 어댑터 기반 | QuadMax-캠페인타겟팅- 필터링 | 캠페인 대상자를 필터링 |
데이터 페더레이션 | 원격 또는 이기종 DB에 존재하는 항목을 불러와 결합 | GET_REMOTE_SEGMENT_API |