Dask 6

Dask #6. 파이썬 Dask DataFrame (데이터프레임)

이번 포스팅에서는 파이썬 Dask DataFrame을 활용한 간단한 예제를 다뤄보도록 하겠습니다. 목차¶ Dask DataFrame Dask 클라이언트 난수 데이터프레임 생성 Dask에서 Pandas 기능 사용하기 메모리에 데이터 유지 시계열 작업 인덱스 설정 그룹별 함수 적용하기 Dask DataFrame¶ Dask DataFrame은 위의 그림처럼 인덱스를 따라 분할된 여러 Pandas 데이터프레임으로 구성되어 있습니다. 따라서, Dask DataFrame은 Pandas API가 갖고있는 기능들을 지원합니다. Dask 클라이언트¶ Dask 클라이언트(client)는 필요에 따라 실행해도 되고, 실행하지 않아도 됩니다. Dask 클라이언트는 연산 작업 현황에 대한 정보를 얻는데 유용한 대시보드(dash..

Dask #5. 파이썬 Dask Bag

이번 포스팅에서는 파이썬 Dask Bag를 활용한 간단한 예제를 다뤄보도록 하겠습니다. 목차¶ Dask Bag Dask 클라이언트 JSON 데이터 읽기 Map, Filter, Aggregate 변환 및 저장 Dask Bag¶ Dask Bag은 map, filter, groupby, 그 외 집계 작업처럼 파이썬 컬렉션 객체에 대해 수행할 수 있는 여러 작업들을 구현해놓았습니다. 이 작업들을 수행하기 위해 Python 반복자(iterators)를 사용하여, 적은 메모리에서도 병렬 작업을 수행합니다. 이러한 점은 병렬 버전의 Itertools 또는 PySpark RDD와 유사합니다. 특히 로그 파일, JSON records, 사용자 정의 Python 객체에 대해 간단한 전처리를 수행하는 데에 이 Dask Ba..

Dask #4. 파이썬 Dask Array

이번 포스팅에서는 파이썬 Dask Array를 활용한 간단한 예제를 다뤄보도록 하겠습니다. 목차¶ Dask Array Dask 클라이언트 난수 배열 생성 메모리에 데이터 유지 Dask Array¶ Dask array는 위 그림과 같이 NumPy array 덩어리(chunk)가 격자 형태로 배열된 것으로 볼 수 있습니다. Dask array는 Numpy API의 대부분을 지원합니다. Dask 클라이언트¶ Dask 클라이언트(client)는 필요에 따라 실행해도 되고, 실행하지 않아도 됩니다. Dask 클라이언트는 연산 작업 현황에 대한 정보를 얻는데 유용한 대시보드(dashboard)를 제공합니다. 아래 코드와 같이 클라이언트를 생성하면 대시보드에 대한 링크가 표시됩니다. 이 링크를 클릭해, 작업을 실행하..

Dask #3. 파이썬 Dask 간단하게 사용해보기

목차¶ Dask DataFrame Dask Array Dask Bag Low-Level 인터페이스 : Dask Delayed 스케줄링 Client 진단 Dashboard 일반적으로 다음과 같이 Dask를 import 합니다. 작업 중인 데이터 유형(DataFrame, array, list)에 따라 이들 중 일부가 필요하지 않을 수도 있습니다. In [2]: import numpy as np import pandas as pd import dask.dataframe as dd import dask.array as da import dask.bag as db Dask DataFrame¶ Dask 객체 생성¶ 먼저, Dask DataFrame을 활용해 Pandas DataFrame 유형의 데이터를 작업해보도록..

Dask #2. 파이썬 Dask 설치 방법

이전 포스팅에서 다루었듯이, Dask는 파이썬 기반의 대규모 데이터 처리를 위한 병렬 컴퓨팅 라이브러리 입니다. 파이썬으로 분석 또는 개발을 하시면서, Pandas나 NumPy에 익숙한 데이터 분석가 및 엔지니어 분들이 쉽게 사용할 수 있도록 구현되어 있습니다. 이번 포스팅에서는 Dask를 사용하기 위해 Dask를 설치하는 방법에 대해 알아보겠습니다. Dask 설치 Dask는 현재 Linux, macOS 및 Windows에서 사용 가능합니다. Dask를 설치하기 위해 여러 방법이 있지만, 여기서는 pip를 사용하여 설치해보도록 하겠습니다. Dask Installation — Dask documentation .rst .pdf to have style consistency --> docs.dask.org ..

Dask #1. 파이썬 대규모 데이터 처리 Dask란?

파이썬에서 대규모 데이터 처리 및 분석을 하기 위한 Dask 라이브러리를 소개하려 합니다. Dask — Dask documentation .rst .pdf to have style consistency --> docs.dask.org Dask Dask는 Python의 병렬 연산을 위한 라이브러리입니다. 즉, 대규모 데이터의 처리·연산에 필요한 분산 환경을 사용자들이 쉽게 사용할 수 있도록 해주는 라이브러리로 보시면 됩니다. 이러한 Dask는 크게 두 파트 "동적 작업 스케줄링"과 "빅데이터 컬렉션"이라는 파트로 나누어 구성됩니다. 동적 작업 스케줄링은 실제 작업을 배정하고 실행하는 부분이고, 빅데이터 컬렉션은 스케줄링에서 실행할 작업을 구성하기 위해 필요한 분산 환경에 최적화된 여러 기능들을 제공하는 부..

반응형