준비하는 대학생

[데이터 마이닝] 데이터 마이닝 - 데이터 본문

Programming/DataMining

[데이터 마이닝] 데이터 마이닝 - 데이터

Bangii 2023. 10. 1. 18:32

속성 (Attribute)

  • 객체의 속성 또는 특성입니다.
  • 예: 사람의 눈 색깔, 온도 등.
  • 속성은 variable, field, characteristic, dimension, feature 이라고도 합니다. (변수, 필드, 특성, 차원 등)

객체 (Object)

  • 객체는 레코드, 포인트, 케이스, 샘플, 엔티티 또는 인스턴스라고도 합니다.

Attribute Values

  • 할당된 숫자나 기호를 의미
  • 속성과 속성의 값 구분
  • 동일한 속성을 다른 속성과 매핑
    • 예 : 높이나 피트나 미터로 매핑할 수 있다.
  • 동일한 값들의 셋이 있을 때 다른 속성과 매핑될 수 있다.
    • 예 : 아이디와 나이 값이 있을 때 정수형이라는 하나의 셋으로 매핑될 수 있다. ( 각 속성의 정의와 값의 대한 종류랑은 구분된다. )

속성의 타입

  • Nominal (명사)
    • ID numbers. eye color, zip codes
    • 사람이 정해놓은 값으로 정의
  • Ordinal (순서적인 의미)
    • rankings, grades, height
  • Interval (간격)
    • calendar dates
    • temperatures
  • Ratio (비율)
    • 온도, 길이, 횟수, 경과 시간

Attribute Value 의 operations 속성

Attrubute Type Operation
Distinctness(구별) = ≠ (같다, 같지 않다.)
Order < > (작다, 크다)
Differences are meaningful(차이) + -
Ratios are meaningful (비율) * /
Attrubute Type  
Nominal attribute distinctness
Ordinal attribute distinctness, order
Interval attribute distinctness, order , meaningful difference
Ratio attribute all 4 properties(operations)
 
Attribute Type Transformation Comments
Nominal Any permutation of values If all employee ID numbers were reassigned, would it make any difference?
Ordinal An order preserving change of values, i.e.,new_value = f(old_value) where f is a monotonic function An attribute encompassing the notion of good, better best can be represented equally well by the values {1, 2, 3} or by { 0.5, 1, 10}.
Interval new_value = a * old_value + b where a and b are constants Thus, the Fahrenheit and Celsius temperature scales differ in terms of where their zero value is and the size of a unit (degree).
Ratio new_value = a * old_value Length can be measured in meters or feet.

Discrete Attribute 와 Continuous Attribute

Discrete Attribute

  • 유한하거난 무한한 값을 가짐
  • zipcodes, count, 단어들의 개수
  • binary attribute (0,1로 이루어진 데이터)

Continuous Attribute

  • 실제 값을 가지고 있음
  • 대부분의 데이터가 여기에 해당
  • 실제 값들은 유한자료로만 측정하고 표현할 수 있다.
  • 부동소수점으로 일반적으로 표현합니다.

데이터의 집합

  • Dimensionality (number of attributes) - 차원
    • High dimensional data brings a number of challenges
    • Attribute가 많으면 차원이 많아짐
  • Sparsity (희소성)
    • Only presence counts
    • 대부분이 0인 데이터의 집합 → 특정한 값만 표현하여 저장해 처리할 수 있다.
  • Resolution (해상도)
    • Patterns depend on the scale
    • 해수의 변화를 1년마다 측정하게 된다면 계절에 대한 값을 찾을 수 없다.
  • Size
    • Type of analysis may depend on size of data

데이터 타입

  • Record (가장 많이 사용)
    • Data Matrix
    • Document Data
    • Transaction Data
  • Graph
    • World Wide Web
    • Molecular Structures (분자구조)
  • Ordered
    • Spatial Data (공간)
    • Temporal Data (시간)
    • Sequential Data (순차적)
    • Genetic Sequence Data (유전자 서열 데이터)

Data Matrix

  • 속성들이 수치 형태로 표현되어있는 경우 (갖고 있는 경우) 데이터 개체는 뚜렷하게 구별되는 공간안에 포인트로 표현할 수 있습니다.
  • m x n 행렬을 만들 수 있고 m은 객체의 수, n은 속성의 수를 나타냅니다. 행렬 안에는 numeric한 값들을 가지고 있습니다. ← 따라서 포인트로 생각할 수 있다.

Document Data

  • 각 Document는 term 벡터가 됩니다.
    • 각 구성 요소의 값은 해당 용어가 문서에서 발생하는 횟수입니다.
    • 각 용어는 벡터의 구성 요소(속성)입니다.

Transaction Data

다음과 같은 특수한 유형의 데이터입니다. (지금은 일반적)

  • 각 트랜잭션에는 일련의 항목이 포함됩니다.
  • 예를 들어 식료품점을 생각해 보겠습니다. 고객이 한 번의 쇼핑 여행 동안 구매한 제품 세트는 트랜잭션을 구성하고, 구매한 개별 제품은 품목을 구성합니다.
  • 트랜잭션 데이터를 레코드 데이터로 표현할 수 있습니다.

Graph Data

  • Generic graph
  • molecule (분자식)
  • webpage

Ordered Data

  • 공간이나 시간 순서가 연관된 데이터의 집합
  • 트랜잭션 시퀀스
    • transaction도 events와 같이 연관된 아이템과 그룹화하여 사용할 수 있음
    • Time, Customer, Items 속성이 주로 사용됨
  • 유전자 염기서열
    • 유전자 메트릭스를 만들어서 알고리즘 으로 매칭하고 분석하고 구성한다.
  • 시간, 공간 데이터
    • 해양과 대륙의 온도를 시공간 데이터로 표현

Data Quality(데이터 품질)

  • 열악한 데이터 품질은 많은 데이터 처리 노력에 부정적인 영향을 미칩니다.
    • 국가에서 보건 위반 정책을 처리하기 위해 건강검진 자료, 성장기 청소년의 신체 사이즈를 측정한다.
  • 데이터 마이닝 예시: 불량 데이터를 사용된 대출 위험에 처한 사람을 감지하는 분류 모델
    • 일부 신용 가치가 있는 후보자에게 대출이 거절됨
    • 채무 불이행 개인에게 더 많은 대출 제공

품질 요인

  • Noise
    • 사람의 음성은 시퀀스 특성을 가지고 있는 order 데이터 이다.
      • 이 경우 noise가 품질에 큰 영향을 미친다. → 전처리를 통해 노이즈를 처리(전처리)해주어야 한다.
      • noise가 있는 경우 원래 정보가 흐려지게 되어 잘못된 정보가 만들어 질 수 있다.
  • outliers
    • 특이값(이상치)
    • 다른 특성을 보이는 데이터 object
    • 데이터 분석을 방해하는 노이즈 특이값
    • 분석하는 대상이 이상치인 경우가 있음 → 평소와 다른 데이터
      • 신용카드 사기
      • 네트워크 침입 감지
  • Missing values (결측치)
    • 입력받을 때는 일반적으로 발생하지 않는다. (입력 받아야만 넘어갈 수 있게 설계된 경우가 있어서)
    • 설문조사 같은 경우에는 많이 발생할 수 있다.
    • 모든 속성이 모든 객체에 적용되는 것은 아니다.
      • 연간수입은 아이들에게는 해당되지 않을 것이다. → 의도적이지 않은 데이터가 들어갈 수 있다.
    • 결측치 해결방법
      • 결측값 제거
        • 결측치있는 Attribute 제거 (속성 제거)
          • 다른 객체에 속성을 제거하므로 잘못된 모델을 만드는 요인이 되는 경우가 있음
        • 결측치있는 object를 제거
        • 제거하는 방법은 잘 사용하지 않는다.
      • 결측값 추정
        • 같은 성별이나 같은 나이대의 평균값을 결측된 값에 넣어줌
        • 유용하고 많이 사용되는 방법
      • 결측값을 무시하고 진행
        • 결측값이 모델에 큰 요인을 안 줄 수 있다.
        • 알고리즘에 따라서 사용되지 않는 속성일 수 있다.
        • 알고리즘 자체에서도 해당 값을 제외하고 처리하게 할 수도 있다.
  • Duplicate data (중복된 데이터)
    • 일반적으로 많이 발생(수집할 때)
    • 속성의 값이 중복되거나 거의 유사한 경우가 있다.
    • 이기종의 데이터를 명확하게 할 때 문제가 발생한다.
      • Email Address를 갱신하는 경우 ← A 사용자가 사용자 데이터 베이스에 있어도 이메일 데이터가 다를 수 있다.
    • 중복된 데이터는 지우는게 아니라 합쳐서 하나의 데이터를 만들거나 , 처리에 적합한 속성을 가지는 데이터를 선택을 하는 추가 프로세스가 필요하다.
  • Wrong data
  • Fake data
Comments