Python 21

Dask #6. 파이썬 Dask DataFrame (데이터프레임)

이번 포스팅에서는 파이썬 Dask DataFrame을 활용한 간단한 예제를 다뤄보도록 하겠습니다. 목차¶ Dask DataFrame Dask 클라이언트 난수 데이터프레임 생성 Dask에서 Pandas 기능 사용하기 메모리에 데이터 유지 시계열 작업 인덱스 설정 그룹별 함수 적용하기 Dask DataFrame¶ Dask DataFrame은 위의 그림처럼 인덱스를 따라 분할된 여러 Pandas 데이터프레임으로 구성되어 있습니다. 따라서, Dask DataFrame은 Pandas API가 갖고있는 기능들을 지원합니다. Dask 클라이언트¶ Dask 클라이언트(client)는 필요에 따라 실행해도 되고, 실행하지 않아도 됩니다. Dask 클라이언트는 연산 작업 현황에 대한 정보를 얻는데 유용한 대시보드(dash..

Dask #5. 파이썬 Dask Bag

이번 포스팅에서는 파이썬 Dask Bag를 활용한 간단한 예제를 다뤄보도록 하겠습니다. 목차¶ Dask Bag Dask 클라이언트 JSON 데이터 읽기 Map, Filter, Aggregate 변환 및 저장 Dask Bag¶ Dask Bag은 map, filter, groupby, 그 외 집계 작업처럼 파이썬 컬렉션 객체에 대해 수행할 수 있는 여러 작업들을 구현해놓았습니다. 이 작업들을 수행하기 위해 Python 반복자(iterators)를 사용하여, 적은 메모리에서도 병렬 작업을 수행합니다. 이러한 점은 병렬 버전의 Itertools 또는 PySpark RDD와 유사합니다. 특히 로그 파일, JSON records, 사용자 정의 Python 객체에 대해 간단한 전처리를 수행하는 데에 이 Dask Ba..

Dask #4. 파이썬 Dask Array

이번 포스팅에서는 파이썬 Dask Array를 활용한 간단한 예제를 다뤄보도록 하겠습니다. 목차¶ Dask Array Dask 클라이언트 난수 배열 생성 메모리에 데이터 유지 Dask Array¶ Dask array는 위 그림과 같이 NumPy array 덩어리(chunk)가 격자 형태로 배열된 것으로 볼 수 있습니다. Dask array는 Numpy API의 대부분을 지원합니다. Dask 클라이언트¶ Dask 클라이언트(client)는 필요에 따라 실행해도 되고, 실행하지 않아도 됩니다. Dask 클라이언트는 연산 작업 현황에 대한 정보를 얻는데 유용한 대시보드(dashboard)를 제공합니다. 아래 코드와 같이 클라이언트를 생성하면 대시보드에 대한 링크가 표시됩니다. 이 링크를 클릭해, 작업을 실행하..

Dask #3. 파이썬 Dask 간단하게 사용해보기

목차¶ Dask DataFrame Dask Array Dask Bag Low-Level 인터페이스 : Dask Delayed 스케줄링 Client 진단 Dashboard 일반적으로 다음과 같이 Dask를 import 합니다. 작업 중인 데이터 유형(DataFrame, array, list)에 따라 이들 중 일부가 필요하지 않을 수도 있습니다. In [2]: import numpy as np import pandas as pd import dask.dataframe as dd import dask.array as da import dask.bag as db Dask DataFrame¶ Dask 객체 생성¶ 먼저, Dask DataFrame을 활용해 Pandas DataFrame 유형의 데이터를 작업해보도록..

Dask #2. 파이썬 Dask 설치 방법

이전 포스팅에서 다루었듯이, Dask는 파이썬 기반의 대규모 데이터 처리를 위한 병렬 컴퓨팅 라이브러리 입니다. 파이썬으로 분석 또는 개발을 하시면서, Pandas나 NumPy에 익숙한 데이터 분석가 및 엔지니어 분들이 쉽게 사용할 수 있도록 구현되어 있습니다. 이번 포스팅에서는 Dask를 사용하기 위해 Dask를 설치하는 방법에 대해 알아보겠습니다. Dask 설치 Dask는 현재 Linux, macOS 및 Windows에서 사용 가능합니다. Dask를 설치하기 위해 여러 방법이 있지만, 여기서는 pip를 사용하여 설치해보도록 하겠습니다. Dask Installation — Dask documentation .rst .pdf to have style consistency --> docs.dask.org ..

Dask #1. 파이썬 대규모 데이터 처리 Dask란?

파이썬에서 대규모 데이터 처리 및 분석을 하기 위한 Dask 라이브러리를 소개하려 합니다. Dask — Dask documentation .rst .pdf to have style consistency --> docs.dask.org Dask Dask는 Python의 병렬 연산을 위한 라이브러리입니다. 즉, 대규모 데이터의 처리·연산에 필요한 분산 환경을 사용자들이 쉽게 사용할 수 있도록 해주는 라이브러리로 보시면 됩니다. 이러한 Dask는 크게 두 파트 "동적 작업 스케줄링"과 "빅데이터 컬렉션"이라는 파트로 나누어 구성됩니다. 동적 작업 스케줄링은 실제 작업을 배정하고 실행하는 부분이고, 빅데이터 컬렉션은 스케줄링에서 실행할 작업을 구성하기 위해 필요한 분산 환경에 최적화된 여러 기능들을 제공하는 부..

파이썬 Matplotlib 한글 폰트 설정 방법 (한글 깨짐 에러)

파이썬으로 데이터를 시각화 한다면 한번쯤은 사용하게 되는 라이브러리가 Matplotlib 입니다. 만약 Seaborn, Geopandas와 같은 다른 시각화 라이브러리를 사용한다 하더라도, 그 기반은 Matplotlib인 경우가 많습니다. Matplotlib — Visualization with Python seaborn seaborn is a high level interface for drawing statistical graphics with Matplotlib. It aims to make visualization a central part of exploring and understanding complex datasets. statistical data visualization Cartopy ..

OpenCV를 사용한 이미지 이진화 (cv2.threshold, cv2.adaptiveThreshold)

안녕하세요:) 이번 포스팅에서는 OpenCV의 이미지 이진화에 대해 알아보겠습니다. 이진화 이진(Binary) 이미지는 모든 픽셀이 검정과 흰색으로만 표현된 이미지를 가리키며, 이렇게 이미지를 변환하는 과정을 이진화(Binarization)이라고 합니다. 컬러 이미지나 그레이 이미지를 검정과 흰색만 갖고 표현한다고 보시면 됩니다. 위 그림을 예시로 들어보겠습니다. 왼쪽 그림은 원본 컬러 이미지 입니다. 일반적으로 볼 수 있는 빨강(Red), 초록(Green), 파랑(Blue)의 3 채널로 구성되어 있습니다. 빨강, 초록, 파랑의 조합으로 모든 색을 표현하게 됩니다. 각 채널이 0부터 255까지 범위의 값을 갖는다고 하면, 검정색은 빨강 0 / 초록 0 / 파랑 0의 조합으로 만들고 흰색은 빨강 255 /..

파이썬으로 .csv 파일 읽기

안녕하세요 :) 저번 포스팅은 파이썬으로 소리 파일 중 하나인 .wav 포맷의 파일을 읽는 방법에 대해 알아봤습니다. 이번 포스팅에서는 데이터 분석에서 가장 자주 사용되는 .csv 포맷 파일을 읽는 방법을 다루겠습니다. 파이썬으로 .wav 파일 읽기 안녕하세요 :) 데이콘 대회를 준비하던 중 음성 데이터(.wav)를 처리해야 해서 이것저것 시도해보다가 가장 간단한 방법을 찾았습니다. scipy 패키지를 사용하면 손쉽게 wav 파일을 읽을 수 있습니 data-science-note.tistory.com 파이썬에서 CSV 파일을 다루기 위해 일반적으로 사용되는 API는 Pandas 입니다. Pandas (판다스)는 DataFrame 또는 Series 라는 형태의 객체를 생성하는데 주로 사용되며, 우리가 접하..

OpenCV를 사용한 이미지 처리 (설치, 읽기, 시각화)

지난 포스팅은 프로젝트의 전반적인 주제인 이미지의 의미적 분할에 대해서 알아봤습니다. 이번 포스팅에서는 의미적 분할을 하기 위해 필요한 이미지를 어떻게 읽어오고, 적절하게 전처리를 할지 OpenCV라는 패키지를 통해 알아보도록 하겠습니다. Semantic Segmentation (의미적 분할) 이미지 분할(Image Segmentation)이란? - 컴퓨터 비전(Computer vision)의 한 분야 - 이미지를 몇 개의 영역으로 구분하는 작업 - 이미지의 공간 영역, 객체들을 픽셀 수준에서 구분하여 라벨을 지정하는 작 data-science-note.tistory.com OpenCV 소개 영상 또는 이미지 처리 소스들을 모아 놓은 패키지 (링크 : https://github.com/opencv/ope..

반응형