파이썬 21

Dask #2. 파이썬 Dask 설치 방법

이전 포스팅에서 다루었듯이, Dask는 파이썬 기반의 대규모 데이터 처리를 위한 병렬 컴퓨팅 라이브러리 입니다. 파이썬으로 분석 또는 개발을 하시면서, Pandas나 NumPy에 익숙한 데이터 분석가 및 엔지니어 분들이 쉽게 사용할 수 있도록 구현되어 있습니다. 이번 포스팅에서는 Dask를 사용하기 위해 Dask를 설치하는 방법에 대해 알아보겠습니다. Dask 설치 Dask는 현재 Linux, macOS 및 Windows에서 사용 가능합니다. Dask를 설치하기 위해 여러 방법이 있지만, 여기서는 pip를 사용하여 설치해보도록 하겠습니다. Dask Installation — Dask documentation .rst .pdf to have style consistency --> docs.dask.org ..

Dask #1. 파이썬 대규모 데이터 처리 Dask란?

파이썬에서 대규모 데이터 처리 및 분석을 하기 위한 Dask 라이브러리를 소개하려 합니다. Dask — Dask documentation .rst .pdf to have style consistency --> docs.dask.org Dask Dask는 Python의 병렬 연산을 위한 라이브러리입니다. 즉, 대규모 데이터의 처리·연산에 필요한 분산 환경을 사용자들이 쉽게 사용할 수 있도록 해주는 라이브러리로 보시면 됩니다. 이러한 Dask는 크게 두 파트 "동적 작업 스케줄링"과 "빅데이터 컬렉션"이라는 파트로 나누어 구성됩니다. 동적 작업 스케줄링은 실제 작업을 배정하고 실행하는 부분이고, 빅데이터 컬렉션은 스케줄링에서 실행할 작업을 구성하기 위해 필요한 분산 환경에 최적화된 여러 기능들을 제공하는 부..

파이썬 Matplotlib 한글 폰트 설정 방법 (한글 깨짐 에러)

파이썬으로 데이터를 시각화 한다면 한번쯤은 사용하게 되는 라이브러리가 Matplotlib 입니다. 만약 Seaborn, Geopandas와 같은 다른 시각화 라이브러리를 사용한다 하더라도, 그 기반은 Matplotlib인 경우가 많습니다. Matplotlib — Visualization with Python seaborn seaborn is a high level interface for drawing statistical graphics with Matplotlib. It aims to make visualization a central part of exploring and understanding complex datasets. statistical data visualization Cartopy ..

OpenCV를 사용한 이미지 이진화 (cv2.threshold, cv2.adaptiveThreshold)

안녕하세요:) 이번 포스팅에서는 OpenCV의 이미지 이진화에 대해 알아보겠습니다. 이진화 이진(Binary) 이미지는 모든 픽셀이 검정과 흰색으로만 표현된 이미지를 가리키며, 이렇게 이미지를 변환하는 과정을 이진화(Binarization)이라고 합니다. 컬러 이미지나 그레이 이미지를 검정과 흰색만 갖고 표현한다고 보시면 됩니다. 위 그림을 예시로 들어보겠습니다. 왼쪽 그림은 원본 컬러 이미지 입니다. 일반적으로 볼 수 있는 빨강(Red), 초록(Green), 파랑(Blue)의 3 채널로 구성되어 있습니다. 빨강, 초록, 파랑의 조합으로 모든 색을 표현하게 됩니다. 각 채널이 0부터 255까지 범위의 값을 갖는다고 하면, 검정색은 빨강 0 / 초록 0 / 파랑 0의 조합으로 만들고 흰색은 빨강 255 /..

파이썬으로 .csv 파일 읽기

안녕하세요 :) 저번 포스팅은 파이썬으로 소리 파일 중 하나인 .wav 포맷의 파일을 읽는 방법에 대해 알아봤습니다. 이번 포스팅에서는 데이터 분석에서 가장 자주 사용되는 .csv 포맷 파일을 읽는 방법을 다루겠습니다. 파이썬으로 .wav 파일 읽기 안녕하세요 :) 데이콘 대회를 준비하던 중 음성 데이터(.wav)를 처리해야 해서 이것저것 시도해보다가 가장 간단한 방법을 찾았습니다. scipy 패키지를 사용하면 손쉽게 wav 파일을 읽을 수 있습니 data-science-note.tistory.com 파이썬에서 CSV 파일을 다루기 위해 일반적으로 사용되는 API는 Pandas 입니다. Pandas (판다스)는 DataFrame 또는 Series 라는 형태의 객체를 생성하는데 주로 사용되며, 우리가 접하..

OpenCV를 사용한 이미지 처리 - 블러링 (cv2.blur, cv2.GaussianBlur)

안녕하세요 :) 지난 포스팅에서 OpenCV 패키지를 사용해 이미지 파일을 읽어 오는 방법과 이미지 처리 중 더하기(cv2.add, cv2.addWeighted)에 대해 알아봤습니다. 이번 포스팅에서는 이미지 처리 중 필터링 기법 중 하나인 블러링에 대해서 다뤄보겠습니다. OpenCV를 사용한 이미지 처리 지난 포스팅은 프로젝트의 전반적인 주제인 이미지의 의미적 분할에 대해서 알아봤습니다. 이번 포스팅은 의미적 분할을 하기 위해 필요한 이미지를 어떻게 읽어오고, 그리고 적절하게 전처리 data-science-note.tistory.com 필터링 이미지를 구성하고 있는 픽셀(pixel)들의 조합으로 이미지를 변형하는 방법 이미지를 부드럽게(흐리게) 변형하는 블러링(blurring)과 선명하게(뚜렷하게) 변..

파이썬 vim 설정 (.vimrc)

리눅스 OS에서 작업할 때, 편집기로 사용하는 vim vim의 설정을 조금만 바꿔주면 훨씬 편리한 코딩을 경험할 수 있다. 1단계. 설정파일(.vimrc) 생성 사용자 폴더(예를 들어 /home/사용자명)로 이동한 후 .vimrc 파일을 만들어준다. $ vim .vimrc 2단계. 설정 입력 위 명령어 입력 후 파일이 열릴텐데, 아래 내용들을 입력해준다. if has("syntax") syntax on endif filetype plugin indent on set autoindent set expandtab set ts=4 set shiftwidth=4 set bg=dark set nu set cursorline 각 설정에 대한 설명은 다음과 같다. syntax on : 구문(문법) 색상 강조 file..

9-1. 독립동일분포(독립성, 합의 분포)

소개¶ 이 장에서 살펴볼 확률변수는 서로 독립인 다차원 확률변수. 독립: 확률변수가 다른 확률변수에 영향을 끼치지 않음. 독립동일분포(i.i.d.; independently and identically distributed): 서로 독립이고 각각 동일한 확률분포를 따르는 다차원 확률변수. 동일한 조건 아래에서 수행되는 실험이나 관측을 여러 번 반복하여 데이터를 얻는 것. 예: 우연히 만난 20명의 학생에게 시험 점수를 물어본 경우, 학생 한 명의 점수 각각은 전교생의 점수 분포를 따르는 1차원 확률변수, 어떤 학생을 만나기 직전에 만났던 학생과 전혀 관계없이 만난 학생이므로, 우연히 만난 20명의 점수는 서로 독립인 20차원의 확률변수 (독립동일분포). 확률분포 $F$: $X_1, X_2, ..., X_..

과학/통계 2020.09.15
반응형