일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- cpp class
- Machine Learning
- 코테
- ack
- Design Pattern
- 넘파이 배열
- 데이터 마이닝
- python
- 코딩테스트실력진단
- 코딩테스트
- c++
- NumPy
- 디자인 패턴
- OOP
- 넘파이 기초
- java
- 코드트리
- 데이터 분석
- 네트워크 기초
- 머신러닝
- 기계학습
- 파이썬
- 자바
- 넘파이
- lambda
- 합성곱 신경망
- 차원축소
- 클러스터링
- cpp
- numpy 기초
- Today
- Total
목록Programming (53)
준비하는 대학생
합성곱 신경망(CNN)은 딥러닝에서 이미지 인식, 음성 인식 등 다양한 분야에서 성공적으로 활용되고 있습니다. 풀링 (Pooling) 풀링은 CNN에서 중요한 역할을 합니다. 특성 맵에서 중요한 정보를 보존하면서 크기를 줄여 계산 부하를 감소시키고, 과적합을 방지합니다. 최대 풀링 (Max Pooling): 윈도우 내에서 가장 큰 값을 선택하여 특성을 요약합니다. 중요한 정보를 강조하고, 더 뚜렷한 특징을 추출합니다. 평균 풀링 (Average Pooling): 윈도우 내 모든 값의 평균을 계산하여 정보를 압축합니다. 더 부드러운 특성 맵을 생성합니다. CNN의 핵심 요소 중 하나는 풀링(pooling)입니다. 풀링은 CNN의 합성곱 층에서 생성된 특성 맵의 차원을 줄여주는 다운샘플링 과정입니다. 이는 ..
피드 포워드 신경망, 특히 다층 퍼셉트론(MLP)은 기계 학습 분야에서 분류와 회귀 문제를 해결하기 위해 널리 사용되고 있습니다. 이러한 신경망은 입력 벡터를 받아 여러 개의 숨겨진 층을 거치면서 변환을 수행하고, 마지막으로 출력 층을 통해 예측을 수행합니다. 각 층은 일련의 노드(또는 뉴런)로 구성되며, 각 노드는 가중치와 활성화 함수를 통해 이전 층으로부터의 신호를 변환합니다. 다층 퍼셉트론의 기본 구조 MLP의 기본 구성 요소는 다음과 같습니다. 입력 층: 실제 데이터를 네트워크에 주입하는 레이어입니다. 숨겨진 층: 하나 이상의 층으로 구성되며, 각 층은 여러 노드로 구성됩니다. 이 노드들은 가중치와 함께 활성화 함수를 통해 입력을 처리합니다. 출력 층: 최종 예측을 수행합니다. 분류 문제의 경우,..

활성화 함수는 인공신경망에서 비선형성을 도입하여 복잡한 함수를 모델링하는 데 필수적인 요소입니다. 여기서는 널리 사용되는 몇 가지 활성화 함수들을 살펴보고, 이들의 특징과 수학적 표현, 코드 구현 및 그래프를 통해 각각을 자세히 이해할 수 있도록 하겠습니다. 계단 함수(Step Function) 계단 함수는 가장 단순한 형태의 활성화 함수입니다. 입력값이 0보다 작으면 0을, 그렇지 않으면 1을 출력합니다. 하지만 이 함수는 동일한 출력을 가질 수 있는 다양한 입력값들에 대해 구분을 할 수 없다는 단점이 있습니다. 예를 들어, 시험 점수가 60점 이상이면 합격, 그렇지 않으면 불합격으로 처리하는 경우, 59점과 0점은 차이가 있음에도 불구하고 둘 다 불합격으로 분류됩니다. import torch impo..
데이터 마이닝의 다양한 영역에서 유사성과 비유사성의 개념은 데이터 포인트 간의 유사함 또는 불일치를 정량화하는 기본적인 척도로 자리 잡고 있습니다. 이러한 척도들은 클러스터링, 분류, 추천 시스템과 같은 다양한 데이터 마이닝 작업에서 중요한 역할을 합니다. 유사성(Similarity)과 비유사성(Dissimilarity)이란 무엇인가? 유사성은 두 데이터 객체가 얼마나 비슷한지를 수치적으로 측정하는 것입니다. 객체가 더 비슷할수록 값이 높으며, 일반적으로 0에서 1 사이의 범위에 있습니다. 여기서 1에 가까운 값은 높은 유사성을, 0에 가까운 값은 낮은 유사성을 나타냅니다. 반면, 비유사성은 두 데이터 객체가 얼마나 다른지를 측정합니다. 객체가 더 유사할수록 비유사성 측정값은 낮으며, 종종 0에서 시작합..
데이터 마이닝에서 전처리 과정은 데이터를 분석하기 위해 준비하는 중요한 단계입니다. 이 과정은 데이터의 품질을 향상시키고, 분석 알고리즘의 효율성을 높이며, 더 정확한 결과를 얻기 위해 필수적입니다. 전처리 과정은 다음과 같은 주요 단계를 포함합니다: 집계(Aggregation) 집계는 두 개 이상의 속성이나 객체를 하나의 속성이나 객체로 결합하는 과정입니다. 이는 데이터의 차원을 축소하고, 고가의 데이터 알고리즘을 사용할 수 있게 합니다. 목적 데이터 축소: 속성이나 객체의 수를 줄입니다. 규모 변화: 도시를 지역, 주, 국가 등으로 묶거나, 날짜를 주, 월, 년 등으로 묶을 수 있습니다. 더 안정적인 데이터: 집계된 데이터는 일반적으로 변동성이 적습니다. 예시: 호주의 강수량 1982년부터 1993년..
속성 (Attribute) 객체의 속성 또는 특성입니다. 예: 사람의 눈 색깔, 온도 등. 속성은 variable, field, characteristic, dimension, feature 이라고도 합니다. (변수, 필드, 특성, 차원 등) 객체 (Object) 객체는 레코드, 포인트, 케이스, 샘플, 엔티티 또는 인스턴스라고도 합니다. Attribute Values 할당된 숫자나 기호를 의미 속성과 속성의 값 구분 동일한 속성을 다른 속성과 매핑 예 : 높이나 피트나 미터로 매핑할 수 있다. 동일한 값들의 셋이 있을 때 다른 속성과 매핑될 수 있다. 예 : 아이디와 나이 값이 있을 때 정수형이라는 하나의 셋으로 매핑될 수 있다. ( 각 속성의 정의와 값의 대한 종류랑은 구분된다. ) 속성의 타입 No..

데이터 마이닝은 많은 데이터 속에서 유용한 정보나 패턴을 찾아내는 과정입니다. 이 포스트에서는 데이터 마이닝 모델링의 주요 절차와 방법론인 CRISP-DM에 대해 알아보겠습니다. CRISP-DM CRISP-DM은 데이터 마이닝 프로젝트를 수행하는 표준적인 방법론입니다. 여섯 가지 주요 단계로 구성되어 있습니다. 비즈니스 이해 목적 및 목표의 이해 상황 평가 및 데이터 마이닝 목표 설정 프로젝트 계획 수립 데이터 이해 초기 데이터 수집 데이터 탐색 및 품질 검증 데이터 준비 (전 처리) 데이터 설정 및 선택 데이터 정제와 생성 데이터 형식 적용 모델링 모델링 기법 선택 모델 생성 및 평가 평가 결과 평가 및 프로세스 재 검토 향후 단계 결정 전개 모델 전개 계획 및 유지보수 계획 수립 최종 보고서 작성 및..
웹 스크레이핑과 웹 크롤링 웹에서 데이터를 수집하는 방법에는 크게 웹 스크레이핑과 웹 크롤링이 있습니다. 이 두 용어는 종종 혼용되어 사용되지만, 명확한 차이점이 있습니다. 웹 스크레이핑은 특정 웹사이트에서 원하는 정보를 직접 추출하는 것을 의미합니다. 예를 들어, 영화 리뷰, 뉴스 기사, SNS 데이터 등을 수집할 때 사용합니다. 반면, 웹 크롤링은 웹 스크레이핑보다 넓은 범위의 데이터를 시스템적으로 수집하는 것을 말합니다. 이는 주로 검색 엔진에서 사용되며, 연결 구조를 파악하고 인덱싱 하는 데 사용됩니다. 다양한 데이터 수집 방법 RSS 피드: 웹 사이트의 업데이트를 XML 형식으로 제공합니다. OCR: 이미지나 PDF 내의 문자를 인식합니다. 개인화된 데이터: 사용자 동의 하에 개인화된 텍스트 데..