[데이터 마이닝] 데이터 마이닝

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

준비하는 대학생

[데이터 마이닝] 데이터 마이닝 - 데이터 본문

Programming/DataMining

[데이터 마이닝] 데이터 마이닝 - 데이터

Bangii 2023. 10. 1. 18:32

속성 (Attribute)

객체의 속성 또는 특성입니다.
예: 사람의 눈 색깔, 온도 등.
속성은 variable, field, characteristic, dimension, feature 이라고도 합니다. (변수, 필드, 특성, 차원 등)

객체 (Object)

객체는 레코드, 포인트, 케이스, 샘플, 엔티티 또는 인스턴스라고도 합니다.

Attribute Values

할당된 숫자나 기호를 의미
속성과 속성의 값 구분
동일한 속성을 다른 속성과 매핑
- 예 : 높이나 피트나 미터로 매핑할 수 있다.
동일한 값들의 셋이 있을 때 다른 속성과 매핑될 수 있다.
- 예 : 아이디와 나이 값이 있을 때 정수형이라는 하나의 셋으로 매핑될 수 있다. ( 각 속성의 정의와 값의 대한 종류랑은 구분된다. )

속성의 타입

Nominal (명사)
- ID numbers. eye color, zip codes
- 사람이 정해놓은 값으로 정의
Ordinal (순서적인 의미)
- rankings, grades, height
Interval (간격)
- calendar dates
- temperatures
Ratio (비율)
- 온도, 길이, 횟수, 경과 시간

Attribute Value 의 operations 속성

Attrubute Type	Operation
Distinctness(구별)	= ≠ (같다, 같지 않다.)
Order	< > (작다, 크다)
Differences are meaningful(차이)	+ -
Ratios are meaningful (비율)	* /

Attrubute Type
Nominal attribute	distinctness
Ordinal attribute	distinctness, order
Interval attribute	distinctness, order , meaningful difference
Ratio attribute	all 4 properties(operations)

Attribute Type	Transformation	Comments
Nominal	Any permutation of values	If all employee ID numbers were reassigned, would it make any difference?
Ordinal	An order preserving change of values, i.e.,new_value = f(old_value) where f is a monotonic function	An attribute encompassing the notion of good, better best can be represented equally well by the values {1, 2, 3} or by { 0.5, 1, 10}.
Interval	new_value = a * old_value + b where a and b are constants	Thus, the Fahrenheit and Celsius temperature scales differ in terms of where their zero value is and the size of a unit (degree).
Ratio	new_value = a * old_value	Length can be measured in meters or feet.

Discrete Attribute 와 Continuous Attribute

Discrete Attribute

유한하거난 무한한 값을 가짐
zipcodes, count, 단어들의 개수
binary attribute (0,1로 이루어진 데이터)

Continuous Attribute

실제 값을 가지고 있음
대부분의 데이터가 여기에 해당
실제 값들은 유한자료로만 측정하고 표현할 수 있다.
부동소수점으로 일반적으로 표현합니다.

데이터의 집합

Dimensionality (number of attributes) - 차원
- High dimensional data brings a number of challenges
- Attribute가 많으면 차원이 많아짐
Sparsity (희소성)
- Only presence counts
- 대부분이 0인 데이터의 집합 → 특정한 값만 표현하여 저장해 처리할 수 있다.
Resolution (해상도)
- Patterns depend on the scale
- 해수의 변화를 1년마다 측정하게 된다면 계절에 대한 값을 찾을 수 없다.
Size
- Type of analysis may depend on size of data

데이터 타입

Record (가장 많이 사용)
- Data Matrix
- Document Data
- Transaction Data
Graph
- World Wide Web
- Molecular Structures (분자구조)
Ordered
- Spatial Data (공간)
- Temporal Data (시간)
- Sequential Data (순차적)
- Genetic Sequence Data (유전자 서열 데이터)

Data Matrix

속성들이 수치 형태로 표현되어있는 경우 (갖고 있는 경우) 데이터 개체는 뚜렷하게 구별되는 공간안에 포인트로 표현할 수 있습니다.
m x n 행렬을 만들 수 있고 m은 객체의 수, n은 속성의 수를 나타냅니다. 행렬 안에는 numeric한 값들을 가지고 있습니다. ← 따라서 포인트로 생각할 수 있다.

Document Data

각 Document는 term 벡터가 됩니다.
- 각 구성 요소의 값은 해당 용어가 문서에서 발생하는 횟수입니다.
- 각 용어는 벡터의 구성 요소(속성)입니다.

Transaction Data

다음과 같은 특수한 유형의 데이터입니다. (지금은 일반적)

각 트랜잭션에는 일련의 항목이 포함됩니다.
예를 들어 식료품점을 생각해 보겠습니다. 고객이 한 번의 쇼핑 여행 동안 구매한 제품 세트는 트랜잭션을 구성하고, 구매한 개별 제품은 품목을 구성합니다.
트랜잭션 데이터를 레코드 데이터로 표현할 수 있습니다.

Graph Data

Generic graph
molecule (분자식)

webpage

Ordered Data

공간이나 시간 순서가 연관된 데이터의 집합
트랜잭션 시퀀스
- transaction도 events와 같이 연관된 아이템과 그룹화하여 사용할 수 있음
- Time, Customer, Items 속성이 주로 사용됨
유전자 염기서열
- 유전자 메트릭스를 만들어서 알고리즘 으로 매칭하고 분석하고 구성한다.
시간, 공간 데이터
- 해양과 대륙의 온도를 시공간 데이터로 표현

Data Quality(데이터 품질)

열악한 데이터 품질은 많은 데이터 처리 노력에 부정적인 영향을 미칩니다.
- 국가에서 보건 위반 정책을 처리하기 위해 건강검진 자료, 성장기 청소년의 신체 사이즈를 측정한다.
데이터 마이닝 예시: 불량 데이터를 사용된 대출 위험에 처한 사람을 감지하는 분류 모델
- 일부 신용 가치가 있는 후보자에게 대출이 거절됨
- 채무 불이행 개인에게 더 많은 대출 제공

품질 요인

Noise
- 사람의 음성은 시퀀스 특성을 가지고 있는 order 데이터 이다.
  - 이 경우 noise가 품질에 큰 영향을 미친다. → 전처리를 통해 노이즈를 처리(전처리)해주어야 한다.
  - noise가 있는 경우 원래 정보가 흐려지게 되어 잘못된 정보가 만들어 질 수 있다.
outliers
- 특이값(이상치)
- 다른 특성을 보이는 데이터 object
- 데이터 분석을 방해하는 노이즈 특이값
- 분석하는 대상이 이상치인 경우가 있음 → 평소와 다른 데이터
  - 신용카드 사기
  - 네트워크 침입 감지
Missing values (결측치)
- 입력받을 때는 일반적으로 발생하지 않는다. (입력 받아야만 넘어갈 수 있게 설계된 경우가 있어서)
- 설문조사 같은 경우에는 많이 발생할 수 있다.
- 모든 속성이 모든 객체에 적용되는 것은 아니다.
  - 연간수입은 아이들에게는 해당되지 않을 것이다. → 의도적이지 않은 데이터가 들어갈 수 있다.
- 결측치 해결방법
  - 결측값 제거
    - 결측치있는 Attribute 제거 (속성 제거)
      - 다른 객체에 속성을 제거하므로 잘못된 모델을 만드는 요인이 되는 경우가 있음
    - 결측치있는 object를 제거
    - 제거하는 방법은 잘 사용하지 않는다.
  - 결측값 추정
    - 같은 성별이나 같은 나이대의 평균값을 결측된 값에 넣어줌
    - 유용하고 많이 사용되는 방법
  - 결측값을 무시하고 진행
    - 결측값이 모델에 큰 요인을 안 줄 수 있다.
    - 알고리즘에 따라서 사용되지 않는 속성일 수 있다.
    - 알고리즘 자체에서도 해당 값을 제외하고 처리하게 할 수도 있다.
Duplicate data (중복된 데이터)
- 일반적으로 많이 발생(수집할 때)
- 속성의 값이 중복되거나 거의 유사한 경우가 있다.
- 이기종의 데이터를 명확하게 할 때 문제가 발생한다.
  - Email Address를 갱신하는 경우 ← A 사용자가 사용자 데이터 베이스에 있어도 이메일 데이터가 다를 수 있다.
- 중복된 데이터는 지우는게 아니라 합쳐서 하나의 데이터를 만들거나 , 처리에 적합한 속성을 가지는 데이터를 선택을 하는 추가 프로세스가 필요하다.
Wrong data
Fake data

저작자표시 (새창열림)

'Programming > DataMining' 카테고리의 다른 글

[데이터 마이닝] 근접도 측정 (0)	2023.11.09
[데이터 마이닝] 데이터 마이닝 전처리(Data Mining Preprocessing) (1)	2023.11.08
[데이터 마이닝] 데이터 마이닝 모델링 절차와 방법론 (0)	2023.09.17
[데이터 마이닝] 데이터 마이닝 - 기본 개념 및 주요 기술 (0)	2023.09.12
[데이터 마이닝] 데이터 마이닝이란 무엇인가? (0)	2023.09.12

'Programming/DataMining' Related Articles

Comments