일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- c++
- 넘파이 기초
- 네트워크 기초
- 코테
- OOP
- ack
- 넘파이
- 차원축소
- 클러스터링
- 코딩테스트실력진단
- cpp class
- cpp
- 데이터 분석
- 디자인 패턴
- lambda
- 코드트리
- numpy 기초
- 코딩테스트
- 자바
- 머신러닝
- python
- 데이터 마이닝
- Machine Learning
- NumPy
- Design Pattern
- 합성곱 신경망
- 넘파이 배열
- 기계학습
- java
- 파이썬
- Today
- Total
목록기계학습 (10)
준비하는 대학생

데이터 마이닝은 많은 데이터 속에서 유용한 정보나 패턴을 찾아내는 과정입니다. 이 포스트에서는 데이터 마이닝 모델링의 주요 절차와 방법론인 CRISP-DM에 대해 알아보겠습니다. CRISP-DM CRISP-DM은 데이터 마이닝 프로젝트를 수행하는 표준적인 방법론입니다. 여섯 가지 주요 단계로 구성되어 있습니다. 비즈니스 이해 목적 및 목표의 이해 상황 평가 및 데이터 마이닝 목표 설정 프로젝트 계획 수립 데이터 이해 초기 데이터 수집 데이터 탐색 및 품질 검증 데이터 준비 (전 처리) 데이터 설정 및 선택 데이터 정제와 생성 데이터 형식 적용 모델링 모델링 기법 선택 모델 생성 및 평가 평가 결과 평가 및 프로세스 재 검토 향후 단계 결정 전개 모델 전개 계획 및 유지보수 계획 수립 최종 보고서 작성 및..
에이다부스트(AdaBoost) 에이다부스트는 Adaptive Boosting의 줄임말로, 약한 학습기를 순차적으로 학습시키면서 이전 모델들이 잘못 분류한 데이터에 대해 가중치를 조정해 나가는 방법입니다. 가중치 부여: 처음에는 모든 데이터 샘플에 동일한 가중치가 부여됩니다. 학습 및 가중치 업데이트: 각 학습기가 순차적으로 학습하면서, 잘못 분류된 데이터 샘플들의 가중치를 높이고, 올바르게 분류된 데이터 샘플들의 가중치를 낮춥니다. 최종 예측: 모든 학습기가 학습을 마친 후, 학습기들의 예측을 가중합하여 최종 예측을 만듭니다. 에이다부스트(AdaBoost) 동작 원리 AdaBoost는 아래와 같은 순서로 동작합니다: 데이터셋의 각 샘플에 동일한 가중치가 부여됩니다. 초기 가중치는 1/N으로 설정되며, N..

의사결정 나무란? 의사결정 나무(Decision Tree)는 예측 모델 중 하나로, 독립 변수의 조건에 따라 종속 변수의 값을 예측하는 데 사용됩니다. 이 모델은 '나무'라는 이름처럼, 뿌리에서 시작해 각 분기점(node)에서 특정 기준에 따라 데이터를 나누고, 마지막에는 각각의 잎 노드(leaf node)로 데이터를 분류합니다. 의사결정 나무는 분류와 회귀 모두에 사용될 수 있으며, 간단하고 해석하기 쉬운 모델로 많이 사용됩니다. 작동 원리 의사결정 나무의 핵심 원리는 '불순도(impurity)'를 최소화하는 방향으로 데이터를 분할하는 것입니다. 불순도는 일반적으로 지니 계수(Gini Index), 엔트로피(Entropy), 정보 이득(Information Gain) 등을 사용해 측정합니다. 분류 기준..
나이브 베이즈(Naive Bayes) 분류기는 지도 학습의 한 종류로, 베이즈 정리(Bayes' theorem)에 기반한 분류 알고리즘입니다. 특히 텍스트 분류, 스팸 메일 필터링, 감성 분석 등 다양한 분야에서 활용되며, 간단하고 빠르게 구현할 수 있다는 장점이 있습니다. 이 글에서는 나이브 베이즈 분류기의 원리와 활용에 대해 자세히 알아보겠습니다. 1. 베이즈 정리란? 나이브 베이즈 분류기의 기반이 되는 베이즈 정리는 확률 이론에서 가장 중요한 개념 중 하나입니다. 베이즈 정리는 사전 확률(prior probability)을 조건부 확률(conditional probability)을 사용하여 사후 확률(posterior probability)로 업데이트하는 방법을 제공합니다. 수식으로 나타내면 다음과..

KNN(K-Nearest Neighbors) 이란? KNN 알고리즘은 이름에서도 알 수 있듯이 가장 가까운 이웃을 찾아 분류하는 방법입니다. KNN은 새로운 데이터 포인트를 가장 가까운 'K개'의 이웃에 따라 분류하는데, 이웃의 범주 중 가장 많은 수를 가진 범주로 새로운 데이터 포인트를 분류합니다. KNN 알고리즘의 주요 단계는 다음과 같습니다. K값 설정 데이터 포인트 간 거리 측정 새로운 데이터 포인트와 가장 가까운 K개의 이웃 찾기 다수결로 새로운 데이터 포인트의 클래스 결정 Python을 사용한 KNN 분류 먼저 필요한 라이브러리를 설치하고 가져옵니다. !pip install numpy pandas matplotlib scikit-learn import numpy as np import pand..

PCA(주성분 분석) 개요 PCA는 다변량 데이터의 차원을 축소하면서 정보 손실을 최소화하는 방법으로, 데이터의 분산을 최대한 보존하는 새로운 축(주성분)을 찾아 원래 데이터를 이 주성분에 투영함으로써 차원을 축소합니다. 이를 통해 데이터의 중요한 정보를 유지하면서 차원을 줄이고, 시각화 및 기계 학습 알고리즘의 성능을 향상할 수 있습니다. PCA의 과정은 다음과 같습니다. 데이터 전처리: 데이터를 표준화(평균 0, 표준편차 1)하거나 정규화(최소값 0, 최댓값 1)하여 스케일을 조정합니다. 공분산 행렬 계산: 데이터의 공분산 행렬을 계산합니다. 공분산 행렬은 변수 간의 선형 관계를 나타내며, 이를 통해 데이터의 분포와 구조를 파악할 수 있습니다. 고윳값 및 고유벡터 계산: 공분산 행렬의 고윳값과 고유벡..

K-means 알고리즘 K-means 알고리즘은 가장 간단하면서도 널리 사용되는 클러스터링 알고리즘 중 하나입니다. 이 알고리즘은 데이터를 K개의 클러스터로 나누는 방법으로 동작합니다. K-means 알고리즘의 동작 과정은 다음과 같습니다. K개의 클러스터 중심점(centroid)을 임의로 선택합니다. 각 데이터 포인트들을 가장 가까운 클러스터 중심점에 할당합니다. 할당된 데이터 포인트들의 평균값을 계산하여 새로운 클러스터 중심점을 업데이트합니다. 2-3단계를 반복합니다. 클러스터 할당이 변하지 않거나, 미리 정한 반복 횟수에 도달하면 알고리즘이 종료됩니다. K-means 알고리즘의 단점 중 하나는, 초기 클러스터 중심점의 위치가 무작위로 결정되기 때문에, 다른 결과를 도출할 수 있다는 것입니다. 따라서..

1. K-means 클러스터링이란? K-means 클러스터링은 군집분석의 한 방법으로, 데이터를 비슷한 특징을 가진 그룹으로 나누는 기법입니다. K-means 클러스터링은 각 데이터 포인트와 그룹의 중심 간의 거리를 측정하여 가장 가까운 그룹에 할당하는 방식으로 동작합니다. 이를 반복하여 그룹의 중심을 업데이트하고, 그룹 간의 거리를 줄여나가며 클러스터를 형성합니다. K-means 클러스터링은 비계층적인 방식으로 동작하며, 클러스터의 개수를 미리 지정해주어야 합니다. 클러스터의 개수는 사용자가 정해주어야 하며, 적절한 클러스터 개수를 선택하는 것이 중요합니다. 2. K-means 클러스터링 예시 K-means 클러스터링 예시를 보겠습니다. 먼저, 필요한 라이브러리들을 import합니다. import nu..