인공지능/빅데이터 SQL

데이터 수집

백관구 2023. 9. 18. 17:24
반응형

※ 출처

 

[빅데이터 분석기사] [1-5]데이터 수집 및 저장 계획 - 데이터 수집 및 전환

▶데이터 수집 :데이터 처리 시스템에 들어갈 데이터를 모으는 과정으로 여러 장소에 있는 데이터를 한 곳으로 모으는 것이다. 1)비즈니스 도메인과 원천 데이터 정보 수집 비즈니스 도메인 정

ssonj11.tistory.com

 

[빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획 (2)

빅데이터분석기사 필기 요약 🔑 데이터 속성/ 데이터 측정 척도/ 명목척도/ 순서척도/ 등간척도/ 비율척도/ 데이터 변환/ 평활화/ 집계/ 일반화/ 정규화 I. 빅데이터 분석 기획 03. 데이터 수집 및

sy-log.tistory.com

반응형

 


 

비즈니스 도메인 정보

- 비즈니스 모델, 비즈니스 용어집, 비즈니스 프로세스로부터 관련 정보 습득
- 도메인 전문가 인터뷰를 통해 데이터의 종류, 유형, 특징 정보 습득

 


 

원천데이터 정보

데이터의 수집 가능성

- 원천데이터 수집의 용이성과 데이터 발생빈도를 탐색
- 데이터 활용에 있어서 전처리 및 후처리 비용을 산정

데이터의 보안

- 수집 대상 데이터의 개인정보 포함 여부, 지적재산권 존재 여부를 판단하여 데이터 분석 시 발생할 수 있는 문제 예방

데이터의 정확성

- 분석 목적에 맞는 적절한 데이터 항목이 존재하고 적절한 데이터 품질이 확보되는지 탐색

 


 

정형데이터의 품질진단 기법

- 메타데이터 수집 및 분석
- 값의 허용 범위 분석
- 문자열 패턴 분석

 


 

데이터 속성에 대한 측정 척도

명목 척도

- 분류의 수치화 : 임의의 범주로 분류하여 기호나 숫자를 부여
- 같다, 다르다만 비교 가능
- 예 : 혈액형, 지역번호, 출신국가, 직업구분

서열(순위) 척도

- 기준에 따라 상대적인 비교 및 순위화
- 척도 값이 분류와 서열 순서를 가짐
- 수치의 크기나 차이는 의미가 없음
- 대소관계만 비교 가능
- 예 : 맛집 별점, 선호도 조사, 이용자 등급

등간(간격, 거리) 척도

- 비계량적인 변수를 정량적인 방법으로 측정
- 각 대상을 별도로 평가
- 동일 간격화로 크기 간 차이를 비교 가능
- 순서뿐만 아니라 간격도 의미가 있음
- 예 : 온도, 미세먼지 수치, 당뇨 수치, 5점 척도

비율 척도

- 균등 간격으로 간격이 의미 있음
- 절대 영점 있음
- 순서 의미 있음
- 비율 계산, 사칙연산 가능
- 예 : 나이, 키, 금액, 거리, 넓이, 소득, 부피, 질량

반응형

'인공지능 > 빅데이터 SQL' 카테고리의 다른 글

데이터 저장  (0) 2023.09.18
분석 방법론  (0) 2023.09.18
분석 과제  (0) 2023.09.18
데이터 산업  (0) 2023.09.18
Dask #6. 파이썬 Dask DataFrame (데이터프레임)  (1) 2023.08.28