Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- cpp
- 기계학습
- Design Pattern
- 데이터 마이닝
- lambda
- 코테
- 머신러닝
- Machine Learning
- 자바
- numpy 기초
- 네트워크 기초
- 코딩테스트
- 코드트리
- python
- 디자인 패턴
- ack
- 합성곱 신경망
- 파이썬
- 차원축소
- 넘파이 배열
- cpp class
- 클러스터링
- 넘파이
- NumPy
- c++
- java
- OOP
- 데이터 분석
- 코딩테스트실력진단
- 넘파이 기초
Archives
- Today
- Total
준비하는 대학생
[데이터 마이닝] 데이터 마이닝 - 데이터 본문
속성 (Attribute)
- 객체의 속성 또는 특성입니다.
- 예: 사람의 눈 색깔, 온도 등.
- 속성은 variable, field, characteristic, dimension, feature 이라고도 합니다. (변수, 필드, 특성, 차원 등)
객체 (Object)
- 객체는 레코드, 포인트, 케이스, 샘플, 엔티티 또는 인스턴스라고도 합니다.
Attribute Values
- 할당된 숫자나 기호를 의미
- 속성과 속성의 값 구분
- 동일한 속성을 다른 속성과 매핑
- 예 : 높이나 피트나 미터로 매핑할 수 있다.
- 동일한 값들의 셋이 있을 때 다른 속성과 매핑될 수 있다.
- 예 : 아이디와 나이 값이 있을 때 정수형이라는 하나의 셋으로 매핑될 수 있다. ( 각 속성의 정의와 값의 대한 종류랑은 구분된다. )
속성의 타입
- Nominal (명사)
- ID numbers. eye color, zip codes
- 사람이 정해놓은 값으로 정의
- Ordinal (순서적인 의미)
- rankings, grades, height
- Interval (간격)
- calendar dates
- temperatures
- Ratio (비율)
- 온도, 길이, 횟수, 경과 시간
Attribute Value 의 operations 속성
Attrubute Type | Operation |
Distinctness(구별) | = ≠ (같다, 같지 않다.) |
Order | < > (작다, 크다) |
Differences are meaningful(차이) | + - |
Ratios are meaningful (비율) | * / |
Attrubute Type | |
Nominal attribute | distinctness |
Ordinal attribute | distinctness, order |
Interval attribute | distinctness, order , meaningful difference |
Ratio attribute | all 4 properties(operations) |
Attribute Type | Transformation | Comments |
Nominal | Any permutation of values | If all employee ID numbers were reassigned, would it make any difference? |
Ordinal | An order preserving change of values, i.e.,new_value = f(old_value) where f is a monotonic function | An attribute encompassing the notion of good, better best can be represented equally well by the values {1, 2, 3} or by { 0.5, 1, 10}. |
Interval | new_value = a * old_value + b where a and b are constants | Thus, the Fahrenheit and Celsius temperature scales differ in terms of where their zero value is and the size of a unit (degree). |
Ratio | new_value = a * old_value | Length can be measured in meters or feet. |
Discrete Attribute 와 Continuous Attribute
Discrete Attribute
- 유한하거난 무한한 값을 가짐
- zipcodes, count, 단어들의 개수
- binary attribute (0,1로 이루어진 데이터)
Continuous Attribute
- 실제 값을 가지고 있음
- 대부분의 데이터가 여기에 해당
- 실제 값들은 유한자료로만 측정하고 표현할 수 있다.
- 부동소수점으로 일반적으로 표현합니다.
데이터의 집합
- Dimensionality (number of attributes) - 차원
- High dimensional data brings a number of challenges
- Attribute가 많으면 차원이 많아짐
- Sparsity (희소성)
- Only presence counts
- 대부분이 0인 데이터의 집합 → 특정한 값만 표현하여 저장해 처리할 수 있다.
- Resolution (해상도)
- Patterns depend on the scale
- 해수의 변화를 1년마다 측정하게 된다면 계절에 대한 값을 찾을 수 없다.
- Size
- Type of analysis may depend on size of data
데이터 타입
- Record (가장 많이 사용)
- Data Matrix
- Document Data
- Transaction Data
- Graph
- World Wide Web
- Molecular Structures (분자구조)
- Ordered
- Spatial Data (공간)
- Temporal Data (시간)
- Sequential Data (순차적)
- Genetic Sequence Data (유전자 서열 데이터)
Data Matrix
- 속성들이 수치 형태로 표현되어있는 경우 (갖고 있는 경우) 데이터 개체는 뚜렷하게 구별되는 공간안에 포인트로 표현할 수 있습니다.
- m x n 행렬을 만들 수 있고 m은 객체의 수, n은 속성의 수를 나타냅니다. 행렬 안에는 numeric한 값들을 가지고 있습니다. ← 따라서 포인트로 생각할 수 있다.
Document Data
- 각 Document는 term 벡터가 됩니다.
- 각 구성 요소의 값은 해당 용어가 문서에서 발생하는 횟수입니다.
- 각 용어는 벡터의 구성 요소(속성)입니다.
Transaction Data
다음과 같은 특수한 유형의 데이터입니다. (지금은 일반적)
- 각 트랜잭션에는 일련의 항목이 포함됩니다.
- 예를 들어 식료품점을 생각해 보겠습니다. 고객이 한 번의 쇼핑 여행 동안 구매한 제품 세트는 트랜잭션을 구성하고, 구매한 개별 제품은 품목을 구성합니다.
- 트랜잭션 데이터를 레코드 데이터로 표현할 수 있습니다.
Graph Data
- Generic graph
- molecule (분자식)
- webpage
Ordered Data
- 공간이나 시간 순서가 연관된 데이터의 집합
- 트랜잭션 시퀀스
- transaction도 events와 같이 연관된 아이템과 그룹화하여 사용할 수 있음
- Time, Customer, Items 속성이 주로 사용됨
- 유전자 염기서열
- 유전자 메트릭스를 만들어서 알고리즘 으로 매칭하고 분석하고 구성한다.
- 시간, 공간 데이터
- 해양과 대륙의 온도를 시공간 데이터로 표현
Data Quality(데이터 품질)
- 열악한 데이터 품질은 많은 데이터 처리 노력에 부정적인 영향을 미칩니다.
- 국가에서 보건 위반 정책을 처리하기 위해 건강검진 자료, 성장기 청소년의 신체 사이즈를 측정한다.
- 데이터 마이닝 예시: 불량 데이터를 사용된 대출 위험에 처한 사람을 감지하는 분류 모델
- 일부 신용 가치가 있는 후보자에게 대출이 거절됨
- 채무 불이행 개인에게 더 많은 대출 제공
품질 요인
- Noise
- 사람의 음성은 시퀀스 특성을 가지고 있는 order 데이터 이다.
- 이 경우 noise가 품질에 큰 영향을 미친다. → 전처리를 통해 노이즈를 처리(전처리)해주어야 한다.
- noise가 있는 경우 원래 정보가 흐려지게 되어 잘못된 정보가 만들어 질 수 있다.
- 사람의 음성은 시퀀스 특성을 가지고 있는 order 데이터 이다.
- outliers
- 특이값(이상치)
- 다른 특성을 보이는 데이터 object
- 데이터 분석을 방해하는 노이즈 특이값
- 분석하는 대상이 이상치인 경우가 있음 → 평소와 다른 데이터
- 신용카드 사기
- 네트워크 침입 감지
- Missing values (결측치)
- 입력받을 때는 일반적으로 발생하지 않는다. (입력 받아야만 넘어갈 수 있게 설계된 경우가 있어서)
- 설문조사 같은 경우에는 많이 발생할 수 있다.
- 모든 속성이 모든 객체에 적용되는 것은 아니다.
- 연간수입은 아이들에게는 해당되지 않을 것이다. → 의도적이지 않은 데이터가 들어갈 수 있다.
- 결측치 해결방법
- 결측값 제거
- 결측치있는 Attribute 제거 (속성 제거)
- 다른 객체에 속성을 제거하므로 잘못된 모델을 만드는 요인이 되는 경우가 있음
- 결측치있는 object를 제거
- 제거하는 방법은 잘 사용하지 않는다.
- 결측치있는 Attribute 제거 (속성 제거)
- 결측값 추정
- 같은 성별이나 같은 나이대의 평균값을 결측된 값에 넣어줌
- 유용하고 많이 사용되는 방법
- 결측값을 무시하고 진행
- 결측값이 모델에 큰 요인을 안 줄 수 있다.
- 알고리즘에 따라서 사용되지 않는 속성일 수 있다.
- 알고리즘 자체에서도 해당 값을 제외하고 처리하게 할 수도 있다.
- 결측값 제거
- Duplicate data (중복된 데이터)
- 일반적으로 많이 발생(수집할 때)
- 속성의 값이 중복되거나 거의 유사한 경우가 있다.
- 이기종의 데이터를 명확하게 할 때 문제가 발생한다.
- Email Address를 갱신하는 경우 ← A 사용자가 사용자 데이터 베이스에 있어도 이메일 데이터가 다를 수 있다.
- 중복된 데이터는 지우는게 아니라 합쳐서 하나의 데이터를 만들거나 , 처리에 적합한 속성을 가지는 데이터를 선택을 하는 추가 프로세스가 필요하다.
- Wrong data
- Fake data
'Programming > DataMining' 카테고리의 다른 글
[데이터 마이닝] 근접도 측정 (0) | 2023.11.09 |
---|---|
[데이터 마이닝] 데이터 마이닝 전처리(Data Mining Preprocessing) (1) | 2023.11.08 |
[데이터 마이닝] 데이터 마이닝 모델링 절차와 방법론 (0) | 2023.09.17 |
[데이터 마이닝] 데이터 마이닝 - 기본 개념 및 주요 기술 (0) | 2023.09.12 |
[데이터 마이닝] 데이터 마이닝이란 무엇인가? (0) | 2023.09.12 |
Comments