준비하는 대학생

[데이터 마이닝] 데이터 마이닝 모델링 절차와 방법론 본문

Programming/DataMining

[데이터 마이닝] 데이터 마이닝 모델링 절차와 방법론

Bangii 2023. 9. 17. 22:19

데이터 마이닝은 많은 데이터 속에서 유용한 정보나 패턴을 찾아내는 과정입니다. 이 포스트에서는 데이터 마이닝 모델링의 주요 절차와 방법론인 CRISP-DM에 대해 알아보겠습니다.

CRISP-DM

Process diagram showing the relationship between the different phases of CRISP-DM (Wikipedia)

CRISP-DM은 데이터 마이닝 프로젝트를 수행하는 표준적인 방법론입니다. 여섯 가지 주요 단계로 구성되어 있습니다.

  1. 비즈니스 이해
    • 목적 및 목표의 이해
    • 상황 평가 및 데이터 마이닝 목표 설정
    • 프로젝트 계획 수립
  2. 데이터 이해
    • 초기 데이터 수집
    • 데이터 탐색 및 품질 검증
  3. 데이터 준비 (전 처리)
    • 데이터 설정 및 선택
    • 데이터 정제와 생성
    • 데이터 형식 적용
  4. 모델링
    • 모델링 기법 선택
    • 모델 생성 및 평가
  5. 평가
    • 결과 평가 및 프로세스 재 검토
    • 향후 단계 결정
  6. 전개
    • 모델 전개 계획 및 유지보수 계획 수립
    • 최종 보고서 작성 및 프로젝트 재 검토

데이터와 비즈니스 이해 단계는 서로 상호보완적입니다. 마찬가지로 모델링과 데이터 준비 단계도 서로 상호 보완적인 관계에 있습니다.

Modeler를 이용한 모델링

Modeler는 원천 데이터를 직접 받아 내부적으로 각종 변환과 정제 작업을 GUI로 수행합니다. 분석 결과를 데이터베이스, 파일, HTML, XML, C 코드 등 다양한 형식으로 내보낼 수 있습니다.

데이터 마이닝 작업 방법

  1. 수동적 방법 (Passive support)
    :  분석가가 데이터를 기반으로 초기 가설을 설정하고, 다양한 통계적 도구나 그래프를 사용하여 해당 가설을 검증하거나 데이터의 패턴을 탐색하는 방식입니다. 이 방법은 분석가의 전문성과 경험에 크게 의존하게 됩니다.
  2. 능동적 방법 (Active support)
    데이터 마이닝 툴이나 알고리즘이 주도적으로 데이터에서 패턴을 찾아내는 방식입니다. 이 방법은 데이터의 크기가 크거나 패턴이 복잡할 경우 유용하며, 컴퓨터의 연산 능력을 최대한 활용하여 데이터에서 정보를 추출합니다.

기계학습과 모델링 기법

  • Supervised Modeling (지도학습)
    : 데이터 마이닝 툴이나 알고리즘이 주도적으로 데이터에서 패턴을 찾아내는 방식입니다. 이 방법은 데이터의 크기가 크거나 패턴이 복잡할 경우 유용하며, 컴퓨터의 연산 능력을 최대한 활용하여 데이터에서 정보를 추출합니다.
    • 분류 (Classification): 스팸 메일 분류, 이미지 분류 등
    • 회귀 (Regression): 주택 가격 예측, 주식 가격 예측 등
  • Unsupervised Modeling (비지도학습)
    : 비지도학습은 라벨이 없는 데이터를 사용하여 모델을 학습하는 방식입니다. 주로 데이터의 숨겨진 패턴이나 구조를 찾는 데 사용됩니다.
    • 군집화 (Clustering): 고객 세분화, 유전자 분류 등
    • 차원 축소 (Dimensionality Reduction): PCA (주성분 분석), t-SNE 등

예측 모델의 개념

예측 모델은 과거의 데이터와 관련된 결과(혹은 라벨)를 바탕으로 미래의 결과를 예측하는데 사용되는 통계적, 수학적 도구입니다. 이를 통해 비즈니스, 과학, 의학 등 다양한 분야에서 미래에 일어날 이벤트나 트렌드를 예측합니다.

예측모델 생성 및 활용 과정

  1. 데이터 웨어하우스에서 데이터 추출: 데이터 웨어하우스는 조직 내 다양한 소스에서 수집된 데이터를 통합 저장하는 시스템입니다. 이를 통해 필요한 데이터를 추출합니다.
  2. 데이터 탐색: 데이터의 특징, 결측치, 이상치 등을 파악하며 데이터의 전반적인 구조와 패턴을 이해합니다.
  3. 데이터 정제: 결측치 처리, 이상치 제거 등의 방법으로 데이터의 품질을 향상시킵니다.
  4. 파생 변수 생성: 기존의 변수들을 활용해 새로운 변수를 생성합니다. 이를 통해 모델의 성능을 향상시킬 수 있습니다.
  5. 모델링 마트 구성: 모델 학습에 사용할 데이터 셋을 구성합니다. 주로 SQL, 데이터 마이닝 툴 등을 사용합니다.
  6. 데이터 분할: 학습 데이터와 검증 데이터로 나누어 모델의 성능을 평가합니다.
  7. 모델 학습 및 평가: 학습 데이터를 통해 모델을 학습시키고 검증 데이터를 통해 그 성능을 평가합니다.
  8. 최종 모델 선택: 여러 모델 중 가장 성능이 좋은 모델을 선택합니다.
  9. 실제 데이터 예측 및 제공: 선택된 모델을 사용하여 실제 데이터의 예측을 수행하고, 예측 결과를 다른 시스템(CRM 등)에 제공합니다.

데이터 분할 (Data Partitioning)

데이터 분할은 모델을 학습하고 검증하기 위해 전체 데이터를 여러 부분으로 나누는 과정입니다.

  • 학습 데이터 (Training Data): 모델 학습에 사용되는 데이터.
  • 검증 데이터 (Test Data): 학습된 모델의 성능을 평가하는데 사용되는 데이터.

데이터 분할 비율은 데이터의 크기, 모델의 종류, 문제의 특성 등에 따라 달라질 수 있습니다. 일반적인 분할 비율로는 50% - 50%, 60% - 40%, 75% - 25% 등이 있습니다.

Comments