일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 머신러닝
- python
- 코드트리
- Machine Learning
- 파이썬
- 넘파이 배열
- numpy 기초
- 기계학습
- 디자인 패턴
- lambda
- 코딩테스트
- 코딩테스트실력진단
- c++
- cpp
- java
- 차원축소
- cpp class
- 네트워크 기초
- 코테
- 데이터 분석
- 클러스터링
- 넘파이
- 데이터 마이닝
- OOP
- ack
- 합성곱 신경망
- NumPy
- 자바
- Design Pattern
- 넘파이 기초
- Today
- Total
목록Programming/DataMining (6)
준비하는 대학생
데이터 마이닝의 다양한 영역에서 유사성과 비유사성의 개념은 데이터 포인트 간의 유사함 또는 불일치를 정량화하는 기본적인 척도로 자리 잡고 있습니다. 이러한 척도들은 클러스터링, 분류, 추천 시스템과 같은 다양한 데이터 마이닝 작업에서 중요한 역할을 합니다. 유사성(Similarity)과 비유사성(Dissimilarity)이란 무엇인가? 유사성은 두 데이터 객체가 얼마나 비슷한지를 수치적으로 측정하는 것입니다. 객체가 더 비슷할수록 값이 높으며, 일반적으로 0에서 1 사이의 범위에 있습니다. 여기서 1에 가까운 값은 높은 유사성을, 0에 가까운 값은 낮은 유사성을 나타냅니다. 반면, 비유사성은 두 데이터 객체가 얼마나 다른지를 측정합니다. 객체가 더 유사할수록 비유사성 측정값은 낮으며, 종종 0에서 시작합..
데이터 마이닝에서 전처리 과정은 데이터를 분석하기 위해 준비하는 중요한 단계입니다. 이 과정은 데이터의 품질을 향상시키고, 분석 알고리즘의 효율성을 높이며, 더 정확한 결과를 얻기 위해 필수적입니다. 전처리 과정은 다음과 같은 주요 단계를 포함합니다: 집계(Aggregation) 집계는 두 개 이상의 속성이나 객체를 하나의 속성이나 객체로 결합하는 과정입니다. 이는 데이터의 차원을 축소하고, 고가의 데이터 알고리즘을 사용할 수 있게 합니다. 목적 데이터 축소: 속성이나 객체의 수를 줄입니다. 규모 변화: 도시를 지역, 주, 국가 등으로 묶거나, 날짜를 주, 월, 년 등으로 묶을 수 있습니다. 더 안정적인 데이터: 집계된 데이터는 일반적으로 변동성이 적습니다. 예시: 호주의 강수량 1982년부터 1993년..
속성 (Attribute) 객체의 속성 또는 특성입니다. 예: 사람의 눈 색깔, 온도 등. 속성은 variable, field, characteristic, dimension, feature 이라고도 합니다. (변수, 필드, 특성, 차원 등) 객체 (Object) 객체는 레코드, 포인트, 케이스, 샘플, 엔티티 또는 인스턴스라고도 합니다. Attribute Values 할당된 숫자나 기호를 의미 속성과 속성의 값 구분 동일한 속성을 다른 속성과 매핑 예 : 높이나 피트나 미터로 매핑할 수 있다. 동일한 값들의 셋이 있을 때 다른 속성과 매핑될 수 있다. 예 : 아이디와 나이 값이 있을 때 정수형이라는 하나의 셋으로 매핑될 수 있다. ( 각 속성의 정의와 값의 대한 종류랑은 구분된다. ) 속성의 타입 No..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bRuWbG/btst9aAhV1c/ithMj1YDntUTMainmlAKBK/img.png)
데이터 마이닝은 많은 데이터 속에서 유용한 정보나 패턴을 찾아내는 과정입니다. 이 포스트에서는 데이터 마이닝 모델링의 주요 절차와 방법론인 CRISP-DM에 대해 알아보겠습니다. CRISP-DM CRISP-DM은 데이터 마이닝 프로젝트를 수행하는 표준적인 방법론입니다. 여섯 가지 주요 단계로 구성되어 있습니다. 비즈니스 이해 목적 및 목표의 이해 상황 평가 및 데이터 마이닝 목표 설정 프로젝트 계획 수립 데이터 이해 초기 데이터 수집 데이터 탐색 및 품질 검증 데이터 준비 (전 처리) 데이터 설정 및 선택 데이터 정제와 생성 데이터 형식 적용 모델링 모델링 기법 선택 모델 생성 및 평가 평가 결과 평가 및 프로세스 재 검토 향후 단계 결정 전개 모델 전개 계획 및 유지보수 계획 수립 최종 보고서 작성 및..
데이터 마이닝은 막대한 양의 데이터에서 숨겨진 패턴, 관계 및 정보를 찾아내는 과정입니다. 이 기술은 다양한 분야에서 활용되며, 비즈니스, 의학, 과학, 금융 등에서 중요한 역할을 합니다.1. 데이터 마이닝의 주요 방법예측 방법(Prediction Methods): 알려진 변수를 사용하여 알 수 없는 다른 변수나 미래 값을 예측합니다. 예를 들어, 과거의 판매 데이터를 기반으로 미래의 판매량을 예측할 수 있습니다.설명 방법(Description Methods): 데이터 내의 패턴을 찾아 데이터를 설명하려는 방법입니다. 이는 데이터의 구조와 관계를 이해하는 데 도움이 됩니다.2. 대표적인 데이터 마이닝 기술분류(Classification): 데이터를 특정 카테고리로 분류하는 기술입니다. 예를 들어, 고객 ..
데이터 마이닝이란 무엇이며, 왜 중요한가? 데이터 마이닝은 현대의 디지털 시대에서 핵심적인 역할을 하는 기술입니다. 그렇다면 데이터 마이닝이란 무엇이며, 왜 중요한지 알아보겠습니다. 왜 데이터를 마이닝해야 할까요? 상업적 관점: 우리 주변에는 웹 데이터, e-commerce, 스마트폰 데이터 등 방대한 양의 데이터가 끊임없이 생성되고 있습니다. 컴퓨터 기술의 발전으로 데이터 처리가 더욱 저렴하고 강력해졌습니다. 경쟁이 치열해진 시대에, 데이터를 통해 고객에게 더 나은 맞춤형 서비스를 제공하는 것은 필수가 되었습니다. 과학적 관점: 위성, 전파 망원경, 마이크로 어레이 등 다양한 기기와 시뮬레이션을 통해 테라바이트 단위의 데이터가 생성됩니다. 이런 방대한 데이터를 처리하고 분석하기 위해서는 전통적인 방법만..