과학/통계

1. 데이터

백관구 2020. 7. 29. 18:15
반응형

1.1. 데이터의 크기

  • 데이터의 수 (샘플 수)

  • 변수의 수 (차원): 어떤 데이터에 변수가 5개 있으면 5차원

 

1.2. 변수의 종류

1.2.1. 질적 변수와 양적 변수

  • 질적 변수

    • 예: 만족도 설문조사, 혈액형

    • 이진 변수: 값이 2개뿐인 변수 (예: 성별, 흡연 여부)

    • 명의 척도

      • 단순 분류를 위한 변수 (예: 전화번호, 성별)

      • 변수의 동일성 여부에만 의미가 있음: 대소 관계, 사칙연산 의미 X

    • 순서 척도

      • 순서 관계나 대소 관계에 의미가 있는 변수 (예: 성적 순위, 만족도)

      • 대소 관계에 의미는 있으나, 사칙연산 의미 X

  • 양적 변수

    • 양을 표현 (예: 시험 점수, 키)

    • 간격 척도

      • 대소 관계와 함께 차이도 의미를 갖는 변수 (예: 연도, 온도)

      • 섭씨 60도와 섭씨 30도의 대소 관계, 차이는 의미가 있으나, 섭씨 60도가 섭씨 30도의 두 배 높은 온도 X

    • 비례 척도

      • 대소 관계, 사칙 연산에 의미가 있는 변수 (예: 길이, 무게)

    • 간격 척도와 비례 척도를 구분하는 팁!

      • "0" 값이 "없음"을 나타내는지 여부를 판단하면 됨

      • 간격 척도는 "0"이 "없다"는 뜻 X

      • 비례 척도는 "0"이 "없다"는 뜻

척도 대소 관계 차이
명의 척도 X X X
순서 척도 O X X
간격 척도 O O X
비례 척도 O O O

 

1.2.2. 이산형 변수와 연속형 변수

  • 이산형 변수

    • 0, 1, 2, ... 와 같이 하나하나의 값을 취하는 변수

    • 인접한 숫자 사이에 값이 존재하지 않음 (예: 학생 수)

  • 연속형 변수

    • 연속적인 값을 취할 수 있는 변수

    • 두 숫자 사이에도 값이 존재 (예: 길이, 무게, 시간)

    • 일반적으로 측정 정밀도의 문제로 이산형이 되는 경우 연속형 변수로 취급

 

 

참고자료: 누구나 파이썬 통계분석 (타니아이 히로키)

반응형