데이터 마이닝

음…

그냥 하루에 하나씩 정리해 보려고 합니다. ㅇㅅㅇ

순서는 내맘! (…)

우선 데이터 마이닝부터..

데이터베이스에서부터 과거에는 알지 못했지만 데이터 속에서 유도된 새로운 데이터 모델을 발견하여 미래에 실행 가능한 정보를 추출해 내고 그 정보를 통해 의사 결정에 이용하는 과정을 말합니다. 즉, 데이터에 숨겨진 패턴과 관계를 찾아내어 새로운 정보를 발견해 내는 것이죠. 정보를 발견한다는 것이란 데이터에 고급 통계 분석과 모델링 기법을 적용하여 유용한 패턴과 관계를 찾아내는 과정을 말합니다. 데이터베이스를 이용한 마케팅의 핵심이라고 할 수 있죠. (그래서 인문학부에서도 데이터베이스를 기초적인 것이나마 배우는 겁니다)

예를 들면, 백화점에서 물건을 진열할 때 고객의 움직임을 줄이는 데 활용하는 것이나 고객의 구매 패턴을 예측해 소비자가 살 무건의 쿠폰을 발행해 준다던가 해서 판매 유도를 하는 데 사용하는 것도 이런 정보를 분석함으로써 가능해 지는 것입니다. 따라서 데이터마이닝의 필수 요소는 신뢰도가 높은 충분한 자료가 필수적인 요소가 되겠습니다. 신뢰도가 높은 자료가 정확한 예견을 할 수 있도록 해주기 때문이죠. 단, 너무 많은 자료는 오히려 데이터마이닝의 예견 능력을 떨어뜨릴 수 있으므로 데이터가 그냥 많다고 해서 좋은 것은 아닙니다. 최적의 결과를 산출할 수 있는 의미 있는 자료의 확보가 우선적으로 실행되어야 하죠.

이런 데이터마이닝의 목적은 사용자에게 유용하고 새로운 지식을 생성하는 것입니다. 그리고 현실세계에 적합한 모형의 수립이 전제되어야 하죠. 위에서 들었던 백화점을 예로 본다면, 모형 수립 과정에서는 기업의 거래처리 자료, 고객 이력 및 신상 자료, 신용정보기관에 의해 제공되는 고객 신용정보와 같은 외부 자료 등 다양한 자료들이 사용됩니다. (백화점마다 신용도를 확인하여 고객 등급을 지정해서 서비스 해주고 하는 곳도 있습니다) 수집된 모형은 데이터에 내제된 패턴이나 관계를 설명하기 위해 다음의 2가지를 사용합니다.

  • 묘사: 데이터베이스에 내제된 패턴이나 관계를 묘사한 것만으로도 의사결정에 필요한 정보를 제공할 수 있다. 군집화, 연관규칙 및 순차패턴 탐사 등이 이용됨.
  • 예측: 발견된 패턴들은 예측에 이용될 수 있다. 회기 분석이나 시계열 분석이 이용됨.

데이터마이닝 프로세스의 6단계 활용법은 다음과 같이 볼 수 있습니다.

  1. 문제 정의
  2. 데이터 선별 및 통계
  3. 변환
  4. 데이터마이닝
  5. 해석 및 평가
  6. 통합

데이터 마이닝 기술은 데이터 웨어하우스, OLAP (OnLine Analytic Processing), 통계학, 인공지능, 데이터 Visualization, 연관성 분석, 웹 서비스 등에서도 많이 이용되고 있으므로 관련 분야에 관심이 있다면 알아보는 것이 좋을 것입니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.