※ 출처
하향식 접근방식
- 분석 과제가 정해져 있음 → 해결방안 탐색
- 문제 탐색 → 문제 정의 → 해결방안 탐색 → 타당성 검토 → 선택
1. 문제 탐색
- 비즈니스 모델기반 문제 탐색
- 분석기회 발굴범위 확장
- 외부참조 모델기반 문제 탐색
- 유스케이스 정의
2. 문제 정의
- 사용자 관점에서 정의
- 필요 데이터 및 기법 정의
3. 해결방안 탐색
- 분석기법, 역량에 따라 다양하게 탐색
- 기존 시스템 | 교육 및 채용 | 시스템 고도화 | 아웃소싱
4. 타당성 검토
- 경제적, 데이터, 기술적, 운영적 타당성 평가
5. 선택
- 최적 대안을 선택하여 프로젝트화
분석 방법론 5단계 프로세스
- 분석 기획(Planning) → 데이터 준비(Preparing) → 데이터 분석(Analyzing) → 시스템 구현(Developing) → 평가 및 전개(Deploying)
1. 분석 기획(Planning)
- 비즈니스 이해 및 범위 설정
- 프로젝트 정의 및 계획 수립
- 프로젝트 위험 계획 수립
※ 위험 대응 방법 : 회피, 전이, 완화, 수용
2. 데이터 준비(Preparing)
- 필요 데이터 정의 : 데이터 정의서 작성
- 데이터 스토어 설계
- 데이터 수집 및 정합성 점검
3. 데이터 분석(Analyzing)
- 분석 데이터 준비
- 텍스트 분석
- 탐색적 분석(EDA)
- 모델링
- 모델 평가 및 검증
4. 시스템 구현(Developing)
- 설계 및 구현
- 시스템 테스트 및 운영
5. 평가 및 전개(Deploying)
- 모델 발전 계획 수립
- 프로젝트 평가 및 보고
계층적 프로세스 모델
- 분석 방법론은 "단계"-"태스크"-"스텝" 3 계층의 계층적 프로세스 모델 형태로 구성
1. 최상위 계층 : 단계(Phase)
- 프로세스 그룹을 통하여 완성된 단계별 산출물 생성
- 각 단계는 기준선으로 설정되어 관리되며, 버전관리를 통해 통제됨
2. 중간 계층 : 태스크(Task)
- 각 태스크는 단계를 구성하는 단위 활동
- 물리적/논리적 단위로 품질검토 가능
3. 최하위 계층 : 스텝(Step)
- WBS (Work Breakdown Structure)의 워크패키지
- 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스
CRISP-DM (CRoss Industry Standard Process for Data Mining) 분석 방법론
- "비즈니스 이해" - "데이터 이해" - "데이터 준비" - "모델링" - "평가" - "전개"의 6단계로 구성
1. 비즈니스 이해
- 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해
- 도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획을 수립
- 주요 task : 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
2. 데이터 이해
- 분석을 위한 데이터를 수집하고 데이터 속성을 이해
- 데이터 품질에 대한 문제점을 식별하고 숨겨져있는 인사이트를 발견
- 주요 task : 초기 데이터 수집, 데이터 기술분석, 데이터 탐색, 데이터 품질 확인
3. 데이터 준비
- 분석을 위해 수집된 데이터에서 분석기법에 적합한 데이터셋을 편성
- 주요 task : 분석용 데이터셋 선택, 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포맷팅
4. 모델링
- 다양한 모델링 기법과 알고리즘을 선택하고 파라미터를 최적화
- 학습 데이터셋과 평가 데이터셋으로 모델성능 평가
- 주요 task : 모델링 기법 선택, 모델테스트 계획 설계, 모델 작성, 모델 평가
5. 평가
- 모델이 프로젝트 목적에 부합하는지 평가
- 데이터마이닝 결과를 수용할 것인지에 대해 최종적으로 판단
- 주요 task : 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
6. 전개 (Deployment)
- 완성된 모델을 실제 업무에 적용하기 위한 계획을 수립
- 주요 task : 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰
KDD (Knowledge Discovery in Database) 분석 방법론
- "데이터셋 선택(Selection)" - "데이터 전처리(Preprocessing)" - "데이터 변환(Transformation)" - "데이터 마이닝(Data Mining)" - "평가(Interpretation / Evaluation)"의 5단계로 구성
1. 데이터셋 선택(Selection)
- 비즈니스 도메인 이해 및 프로젝트 목표 설정
- 분석에 필요한 데이터 선택
- 목표 데이터 구성
- 데이터 전처리 단계에서 추가로 데이터가 요구되는 경우, "데이터셋 선택" 과정을 반복
2. 데이터 전처리(Preprocessing)
- 노이즈, 이상값, 결측치 식별 및 필요 시 제거
3. 데이터 변환(Transformation)
- 분석 목적에 맞는 변수 선택 및 데이터 차원 축소
4. 데이터 마이닝(Data Mining)
- 분석 목적에 맞는 마이닝 기법을 선택하고 데이터 마이닝 알고리즘 선택
- 데이터의 패턴을 찾거나 데이터를 분류/예측하는 마이닝 작업 수행
- 필요에 따라 "데이터 전처리", "데이터 변환" 절차를 병행하여 수행
5. 평가(Interpretation / Evaluation)
- 데이터 마이닝 결과에 대한 해석과 평가
- 분석 목적과의 일치성 확인
- 데이터 마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안 모색