CS

데이터 ETL

soohykim 2025. 4. 18. 13:19
728x90
반응형

📂 ETL  개념

 

📌 ETL이란?

  • 기업이 다양한 소스의 구조화된 데이터 + 구조화 되지 않은 데이터를 실질적으로 유용한 상태로 변환하는 과정
  • 데이터 분석을 위한 데이터 처리 접근 방식

📌 추출 (Extract) - 변환 (Transform) - 적재 (Load)

  • 다양한 소스에서 데이터를 가져옴 (추출)
  • 데이터를 사용할 수 있는 형식으로 바꿈 (변환)
  • 데이터 베이스 또는 데이터 웨이하우스에 저장 (적재)

📌 ETL vs ELT

  • ETL
    • 비즈니스 규칙을 사용하여 여러 소스의 데이터를 처리한 후 중앙 집중식 통합 진행
    • 데이터 유형, 구조 및 관계를 정의하려는 분석을 요구하므로 초반에 더 많은 정의와 프로세스 필요함
  • ELT
    • 데이터를 먼저 그대로 적재하고 사용 사례 및 분석 요구 사항에 따라 전환
    • 모든 데이터를 저장하고 관리하는 측며에서 유연성과 확장성을 내재하고 있음

 

📂 ETL  과정

 

📌 데이터 정리

  • 어떤 데이터를 다룰지 파악 (데이터가 어디서 오는지, 구조화된 데이터(SQL)인지, 비구조화된 데이터(email, social media content) 인지 파악
  • 데이터에 중복이나 오류, 불일치가 없는지 확인
  • 측정 단위를 표준화하거나 날짜 형식을 통일하는 작업 필요

📌 데이터 결합

  • 다양한 소스의 데이터를 결합함
  • 데이터 정리를 바탕으로 데이터 변환 방법에 따라 전환

📌 관계 분석

  • 데이터를 결합한 후 데이터세트가 서로 어떻게 연관되어 있는지 관계를 파악함

 

 

728x90
반응형