준비하는 대학생

[데이터 마이닝] 근접도 측정 본문

Programming/DataMining

[데이터 마이닝] 근접도 측정

Bangii 2023. 11. 9. 16:36

데이터 마이닝의 다양한 영역에서 유사성과 비유사성의 개념은 데이터 포인트 간의 유사함 또는 불일치를 정량화하는 기본적인 척도로 자리 잡고 있습니다. 이러한 척도들은 클러스터링, 분류, 추천 시스템과 같은 다양한 데이터 마이닝 작업에서 중요한 역할을 합니다.

유사성(Similarity)과 비유사성(Dissimilarity)이란 무엇인가?

유사성은 두 데이터 객체가 얼마나 비슷한지를 수치적으로 측정하는 것입니다. 객체가 더 비슷할수록 값이 높으며, 일반적으로 0에서 1 사이의 범위에 있습니다. 여기서 1에 가까운 값은 높은 유사성을, 0에 가까운 값은 낮은 유사성을 나타냅니다.

반면, 비유사성은 두 데이터 객체가 얼마나 다른지를 측정합니다. 객체가 더 유사할수록 비유사성 측정값은 낮으며, 종종 0에서 시작합니다. 상한은 다양할 수 있으며, 높은 값은 더 큰 차이를 나타냅니다.

근접도는 유사성과 비유사성을 모두 나타내는 용어입니다.

단순 속성에 대한 측정

데이터 객체를 평가할 때, 각 속성의 유사성과 비유사성을 고려해야 합니다. 단일 간단한 속성의 경우, x와 y라는 두 객체 간의 이러한 측정값을 나타내기 위해 표를 사용할 수 있습니다. 여기서 d는 비유사성, s는 유사성을 의미합니다.

유클리드 거리 (Euclidean Distance)

유클리드 거리는 다차원 데이터에 대해 일반적으로 사용되는 비유사성 측정법으로, 다음과 같은 공식에 의해 주어집니다:

$$d(x,y)=∑_{k=1}^{n}(x_k−y_k)^2$$

여기서 n은 차원의 수이며, x_k와 y_k는 각각 객체 x와 y의 k번째 속성입니다. 이 측정법은 다차원 공간에서 두 점 사이의 "직선" 거리를 효과적으로 나타냅니다.

민코프스키 거리 (Minkowski Distance)

민코프스키 거리는 유클리드 거리를 일반화한 것으로 다음과 같이 표현됩니다:

$$d(x,y)=(∑_{k=1}^{n}∣x_k−y_k∣^r)^{1/r}$$

여기서 r은 거리 측정 유형을 결정하는 매개변수입니다. r이 1일 때는 맨해튼 거리가 되고, 2일 때는 유클리드 거리가 됩니다.

마할라노비스 거리 (Mahalanobis Distance)

마할라노비스 거리는 속성 간의 상관관계를 고려하여, 공분산 행렬을 사용하여 변수를 조정하는 측정법입니다. 이는 다른 스케일과 분산에서 오는 편향을 줄이지만 계산이 더 복잡합니다.

거리와 유사성의 특성

유클리드 거리와 같은 거리 측정은 다음과 같은 잘 알려진 속성을 가집니다:

  1. 비음수성: 모든 x와 y에 대해 d(x,y)≥0, d(x,y)=0은 x = y일 때만 성립합니다.
  2. 대칭성: 모든 x와 y에 대해 d(x,y)=d(y,x).
  3. 삼각부등식: 모든 x, y, z에 대해 d(x,z)≤d(x,y)+d(y,z).

이러한 속성을 만족하는 거리를 메트릭이라고 합니다.

마찬가지로, 유사성 측정도 그들만의 속성을 가지고 있습니다:

  1. s(x,y)=1 (최대 유사성)은 x = y일 때만 성립합니다. 그러나 이는 코사인 유사성과 같은 측정법에서는 항상 유지되지 않습니다.
  2. 대칭성: 모든 x와 y에 대해 s(x,y)=s(y,x).

이진 벡터 간의 유사성

객체가 이진 속성만 가지고 있는 경우에는 단순 매칭 계수(SMC)와 자카드 계수 같은 측정법이 사용됩니다.

코사인 유사성 (Cosine Similarity)

코사인 유사성은 두 벡터 간의 각도의 코사인을 측정하여, 크기에 상관없이 방향성을 포착합니다. 이는 용어의 빈도가 중요한 텍스트 분석에서 유용합니다.

상관관계 (Correlation)

상관관계는 객체 간의 선형 관계를 측정합니다. 예를 들어, 피어슨 상관 계수는 선형 패턴을 감지하는 데 가치가 있지만, 이상치에 민감할 수 있습니다.

적절한 측정법 선택하기

근접 측정법의 선택은 크게 도메인과 데이터의 성질에 따라 달라집니다:

  • 문서 비교에서는 용어 빈도 벡터의 방향성을 고려하는 코사인 유사성이 선호됩니다.
  • 온도나 다른 크기 기반 메트릭을 비교할 때는 유클리드 거리가 적합합니다.
  • 데이터의 패턴 또는 "형태"가 관심사인 경우, 시계열 분석처럼 상관관계가 더 적절할 수 있습니다.

결론

데이터 마이닝에서 근접 측정법은 모두에게 적합한 해결책이 아닙니다. 측정법의 선택은 분석되는 데이터의 도메인과 특정 성질에 관련되어야 합니다. 문서를 비교하든 시계열 데이터를 분석하든, 올바른 근접 측정법을 이해하고 선택하는 것은 의미 있는 통찰력을 얻기 위해 중요합니다.

데이터 유형과 원하는 결과를 고려하여 가장 적절한 유사성 또는 비유사성 측정법을 선택함으로써, 데이터 마이닝 프로세스를 향상시킬 수 있습니다.

Comments