준비하는 대학생

[데이터 마이닝] 데이터 마이닝 전처리(Data Mining Preprocessing) 본문

Programming/DataMining

[데이터 마이닝] 데이터 마이닝 전처리(Data Mining Preprocessing)

Bangii 2023. 11. 8. 16:24

데이터 마이닝에서 전처리 과정은 데이터를 분석하기 위해 준비하는 중요한 단계입니다. 이 과정은 데이터의 품질을 향상시키고, 분석 알고리즘의 효율성을 높이며, 더 정확한 결과를 얻기 위해 필수적입니다. 전처리 과정은 다음과 같은 주요 단계를 포함합니다:

집계(Aggregation)

집계는 두 개 이상의 속성이나 객체를 하나의 속성이나 객체로 결합하는 과정입니다. 이는 데이터의 차원을 축소하고, 고가의 데이터 알고리즘을 사용할 수 있게 합니다.

목적

  • 데이터 축소: 속성이나 객체의 수를 줄입니다.
  • 규모 변화: 도시를 지역, 주, 국가 등으로 묶거나, 날짜를 주, 월, 년 등으로 묶을 수 있습니다.
  • 더 안정적인 데이터: 집계된 데이터는 일반적으로 변동성이 적습니다.

예시: 호주의 강수량

1982년부터 1993년까지 호주의 강수량 데이터를 기반으로 한 예시입니다. 연평균 강수량은 월평균 강수량보다 변동성이 적습니다.

표본 추출(Sampling)

표본 추출은 데이터 축소를 위한 주요 기술입니다. 통계학자와 데이터 마이너 모두 전체 데이터 세트를 처리하는 것이 비용이 많이 들거나 시간이 오래 걸리기 때문에 표본 추출을 사용합니다.

표본 추출 방법

  • 단순 임의 표본 추출: 모든 항목을 선택할 확률이 동일합니다.
  • 무대체 표본 추출: 선택된 항목은 모집단에서 제거됩니다.
  • 대체 표본 추출: 선택된 객체가 샘플에 여러 번 포함될 수 있습니다.
  • 층화 표본추출: 데이터를 여러 파티션으로 나누고 각 파티션에서 임의 추출을 합니다.

표본 크기

표본의 크기가 클수록 대표성이 높아지지만, 너무 크면 샘플링의 장점을 잃게 됩니다. 너무 작으면 모집단의 특징이 누락될 수 있습니다.

이산화(Discretization)

이산화는 연속형 속성을 순서형 속성으로 변환하는 과정입니다. 이는 비지도 및 지도 학습 설정에서 사용됩니다.

이산화 방법

  • 동일 간격 폭 접근법: 간격을 동일하게 나눕니다.
  • 동일 주파수 접근법: 데이터의 개수를 동일하게 나눕니다.
  • K-평균 접근법: 성능이 가장 좋습니다.

이진화(Binarization)

이진화는 연속형 또는 범주형 속성을 하나 이상의 이진 변수로 매핑합니다.

속성 변환(Attribute Transformation)

속성 변환은 주어진 속성의 전체 값 집합을 새로운 대체 값 집합에 매핑하는 함수입니다.

차원의 저주(Curse of Dimensionality)

차원이 증가함에 따라 데이터가 차지하는 공간에서 점점 더 희박해집니다. 이는 클러스터링 및 이상값 탐지에 중요한 밀도와 거리의 정의를 무의미하게 만듭니다.

차원 축소(Dimensionality Reduction)

차원 축소의 목적은 차원의 저주를 피하고, 데이터 마이닝 알고리즘에 필요한 시간과 메모리를 줄이며, 데이터를 더 쉽게 시각화하는 것입니다.

차원 축소 기법

  • 주성분 분석(PCA)
  • 선형 판별 분석(LDA)
  • 다차원 스케일링(MDS)
  • t-분포 확률적 임베딩(t-SNE)

결측치 처리(Missing Values)

데이터에 결측치가 있는 경우, 이를 처리하는 것이 중요합니다. 결측치 처리 방법에는 다음과 같은 것들이 있습니다:

  • 결측치 삭제: 결측치가 있는 레코드를 삭제합니다.
  • 평균값 대체: 결측치를 해당 속성의 평균값으로 대체합니다.
  • 중앙값 대체: 결측치를 중앙값으로 대체합니다.
  • 최빈값 대체: 결측치를 최빈값으로 대체합니다.
  • 예측 모델: 결측치를 예측 모델을 사용하여 추정합니다.

이상치 탐지(Outlier Detection)

이상치는 데이터의 나머지 부분과 크게 다른 값을 가진 데이터 포인트입니다. 이상치 탐지는 데이터 마이닝에서 중요한 단계입니다.

이상치 탐지 방법

  • 통계적 테스트: z-점수, IQR 등을 사용합니다.
  • 군집 기반 방법: DBSCAN, OPTICS 등을 사용합니다.
  • 밀도 기반 방법: LOF(Local Outlier Factor) 등을 사용합니다.

데이터 정제(Data Cleaning)

데이터 정제는 불완전하거나 부정확하거나 관련 없는 부분을 수정하거나 삭제하는 과정입니다. 데이터 정제는 데이터의 품질을 향상시키는 데 중요합니다.

데이터 통합(Data Integration)

데이터 통합은 여러 소스에서 데이터를 결합하고 일관된 데이터 저장소를 만드는 과정입니다.

데이터 변환(Data Transformation)

데이터 변환은 데이터를 적절한 형태로 변환하여 데이터 마이닝 알고리즘에 적합하게 만듭니다.

데이터 축소(Data Reduction)

데이터 축소는 데이터의 양을 줄이면서 데이터의 무결성을 유지하는 과정입니다.

데이터 변환 및 인코딩(Data Transformation and Encoding)

데이터 변환 및 인코딩은 데이터를 분석하기 위해 적절한 형태로 변환하는 과정입니다.

이러한 전처리 단계는 데이터 마이닝 프로젝트의 성공에 매우 중요합니다. 데이터의 품질이 결과의 품질을 결정하기 때문에, 전처리는 데이터 마이닝 프로세스에서 중요한 역할을 합니다.

Comments