전체 글 88

LightGBM: A Highly Efficient Gradient Boosting Decision Tree

논문 명: LightGBM: A Highly Efficient Gradient Boosting Decision Tree 저자 명: Guolin Ke, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye, Tie-Yan Liu 게재 저널: NIPS 2017 (31st Conference on Neural Information Processing Systems) 게재 날짜: 2017년 URL: http://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient-gradient-boosting-decision LightGBM: A Highly Efficient Gradient Boosting Dec..

1. 데이터

1.1. 데이터의 크기 데이터의 수 (샘플 수) 변수의 수 (차원): 어떤 데이터에 변수가 5개 있으면 5차원 1.2. 변수의 종류 1.2.1. 질적 변수와 양적 변수 질적 변수 예: 만족도 설문조사, 혈액형 이진 변수: 값이 2개뿐인 변수 (예: 성별, 흡연 여부) 명의 척도 단순 분류를 위한 변수 (예: 전화번호, 성별) 변수의 동일성 여부에만 의미가 있음: 대소 관계, 사칙연산 의미 X 순서 척도 순서 관계나 대소 관계에 의미가 있는 변수 (예: 성적 순위, 만족도) 대소 관계에 의미는 있으나, 사칙연산 의미 X 양적 변수 양을 표현 (예: 시험 점수, 키) 간격 척도 대소 관계와 함께 차이도 의미를 갖는 변수 (예: 연도, 온도) 섭씨 60도와 섭씨 30도의 대소 관계, 차이는 의미가 있으나, 섭..

과학/통계 2020.07.29

1. 데이터베이스란?

요즘 세상에는 빅데이터(Big data)라 불릴만큼 1초에도 방대한 양의 데이터가 생성되고 어딘가에 저장되고 있다. 무수히 많은 데이터를 하나하나 확인하고, 계산하고, 처리하기에는 인간의 뇌로는 한계가 있기 때문에 우리는 소프트웨어의 힘을 빌려 데이터(Data)를 처리(Process)해 우리에게 유용한 정보(Information)를 만들어낸다. 여기서 사용되는 소프트웨어를 DBMS (DataBase Management System; 데이터베이스 관리 시스템)라 한다. DBMS는 이름 그대로 데이터베이스(DB)를 관리하는 소프트웨어다. 정보사회가 도래하면서 데이터베이스와 데이터베이스 관리 시스템은 기업뿐만 아니라 국가 차원에서도 정보를 관리하고 구축하는 필수 도구가 되었다. 데이터베이스는 크게 3가지 개념..

Kaggle 타이타닉(문제 정의~데이터 전처리)

데이터 분석 코드 필사 (2020.07.22)¶- 원본: Titanic Data Science Solutions (by Manav Sehgal)¶- 순서¶1. 문제 정의¶2. 훈련, 테스트 자료 정의¶3. 데이터 분석¶4. 데이터 전처리¶ 문제 정의¶1912년 4월 15일 타이타닉 호가 북대서양 해상에서 유빙과 충돌해 가라앉는 사고가 발생전체 2224 명의 승객들 중 1502 명의 사망자를 기록 (32% 생존율)높은 사망율은 부족한 구명선 때문특정 그룹(예: 어린이, 상류층)의 생존율이 비교적 높았음문제: 타이타닉 승객 정보를 이용해 타이타닉 사고로 인한 생존/사망 여부를 예측하는 것이 목적훈련 자료: 타이타닉에 승선한 승객 정보와 사고로 인한 생존/사망 여부의 정보테스트 자료: 오직 승객 정보만 훈련,..

파이썬으로 .wav 파일 읽기

안녕하세요 :) 데이콘 대회를 준비하던 중 음성 데이터(.wav)를 처리해야 해서 이것저것 시도해보다가 가장 간단한 방법을 찾았습니다. scipy 패키지를 사용하면 손쉽게 wav 파일을 읽을 수 있습니다. from scipy.io import wavfile path = "음성 자료 경로" fname = "음성 파일명.wav" fs, data = wavfile.read(path + fname) # Sample rate of wav file, Data read from wav file scipy.io 패키지에서 wavfile이라는 모듈을 임포트 해오면 wavfile.read("파일 이름") 함수를 통해 쉽게 .wav 파일을 수치화한 형태로 읽을 수 있습니다. 여기서 저장되는 fs와 data는 각각 해당 음성..

반응형