CS
데이터 ETL
soohykim
2025. 4. 18. 13:19
728x90
반응형
📂 ETL 개념
📌 ETL이란?
- 기업이 다양한 소스의 구조화된 데이터 + 구조화 되지 않은 데이터를 실질적으로 유용한 상태로 변환하는 과정
- 데이터 분석을 위한 데이터 처리 접근 방식
📌 추출 (Extract) - 변환 (Transform) - 적재 (Load)
- 다양한 소스에서 데이터를 가져옴 (추출)
- 데이터를 사용할 수 있는 형식으로 바꿈 (변환)
- 데이터 베이스 또는 데이터 웨이하우스에 저장 (적재)
📌 ETL vs ELT
- ETL
- 비즈니스 규칙을 사용하여 여러 소스의 데이터를 처리한 후 중앙 집중식 통합 진행
- 데이터 유형, 구조 및 관계를 정의하려는 분석을 요구하므로 초반에 더 많은 정의와 프로세스 필요함
- ELT
- 데이터를 먼저 그대로 적재하고 사용 사례 및 분석 요구 사항에 따라 전환
- 모든 데이터를 저장하고 관리하는 측며에서 유연성과 확장성을 내재하고 있음
📂 ETL 과정
📌 데이터 정리
- 어떤 데이터를 다룰지 파악 (데이터가 어디서 오는지, 구조화된 데이터(SQL)인지, 비구조화된 데이터(email, social media content) 인지 파악
- 데이터에 중복이나 오류, 불일치가 없는지 확인
- 측정 단위를 표준화하거나 날짜 형식을 통일하는 작업 필요
📌 데이터 결합
- 다양한 소스의 데이터를 결합함
- 데이터 정리를 바탕으로 데이터 변환 방법에 따라 전환
📌 관계 분석
- 데이터를 결합한 후 데이터세트가 서로 어떻게 연관되어 있는지 관계를 파악함
728x90
반응형