반응형
※ 출처
반응형
비즈니스 도메인 정보
- 비즈니스 모델, 비즈니스 용어집, 비즈니스 프로세스로부터 관련 정보 습득
- 도메인 전문가 인터뷰를 통해 데이터의 종류, 유형, 특징 정보 습득
원천데이터 정보
데이터의 수집 가능성
- 원천데이터 수집의 용이성과 데이터 발생빈도를 탐색
- 데이터 활용에 있어서 전처리 및 후처리 비용을 산정
데이터의 보안
- 수집 대상 데이터의 개인정보 포함 여부, 지적재산권 존재 여부를 판단하여 데이터 분석 시 발생할 수 있는 문제 예방
데이터의 정확성
- 분석 목적에 맞는 적절한 데이터 항목이 존재하고 적절한 데이터 품질이 확보되는지 탐색
정형데이터의 품질진단 기법
- 메타데이터 수집 및 분석
- 값의 허용 범위 분석
- 문자열 패턴 분석
데이터 속성에 대한 측정 척도
명목 척도
- 분류의 수치화 : 임의의 범주로 분류하여 기호나 숫자를 부여
- 같다, 다르다만 비교 가능
- 예 : 혈액형, 지역번호, 출신국가, 직업구분
서열(순위) 척도
- 기준에 따라 상대적인 비교 및 순위화
- 척도 값이 분류와 서열 순서를 가짐
- 수치의 크기나 차이는 의미가 없음
- 대소관계만 비교 가능
- 예 : 맛집 별점, 선호도 조사, 이용자 등급
등간(간격, 거리) 척도
- 비계량적인 변수를 정량적인 방법으로 측정
- 각 대상을 별도로 평가
- 동일 간격화로 크기 간 차이를 비교 가능
- 순서뿐만 아니라 간격도 의미가 있음
- 예 : 온도, 미세먼지 수치, 당뇨 수치, 5점 척도
비율 척도
- 균등 간격으로 간격이 의미 있음
- 절대 영점 있음
- 순서 의미 있음
- 비율 계산, 사칙연산 가능
- 예 : 나이, 키, 금액, 거리, 넓이, 소득, 부피, 질량
반응형