인공지능/빅데이터 SQL

Dask #2. 파이썬 Dask 설치 방법

백관구 2023. 8. 17. 17:56
반응형

    이전 포스팅에서 다루었듯이, Dask는 파이썬 기반의 대규모 데이터 처리를 위한 병렬 컴퓨팅 라이브러리 입니다. 파이썬으로 분석 또는 개발을 하시면서, Pandas나 NumPy에 익숙한 데이터 분석가 및 엔지니어 분들이 쉽게 사용할 수 있도록 구현되어 있습니다.

    이번 포스팅에서는 Dask를 사용하기 위해 Dask를 설치하는 방법에 대해 알아보겠습니다.

반응형

 


 

Dask 설치

    Dask는 현재 Linux, macOS 및 Windows에서 사용 가능합니다. Dask를 설치하기 위해 여러 방법이 있지만, 여기서는 pip를 사용하여 설치해보도록 하겠습니다.

 

Dask Installation — Dask documentation

.rst .pdf to have style consistency -->

docs.dask.org

 


 

일반적인 설치 (Dask 전체 설치)

    pip를 사용하여 Dask를 설치하면, Dask Array 및 Dask DataFrame 등 Dask 빅데이터 컬렉션에 필요한 NumPy, Pandas와 같은 종속 라이브러리와 Dask 모두 간단하게 설치됩니다.

python -m pip install "dask[complete]"    # Dask 전체 설치

 

Dask core만 설치

    Dask core만 설치할 수도 있습니다. 이 경우 dask.array, dask.dataframe, dask.distributed와 같은 모듈은 각각 NumPy, pandas, Tornado를 따로 설치해주어야 제대로 작동합니다.

python -m pip install dask                # Dask core만 설치

 

Dask 컬렉션별 설치

    Dask의 여러 하위 모듈에 대해 필요한 부분만 설치할 수도 있습니다. 이는 Dask core 사용자가 Dask 컬렉션 중 필요로 하는 컬렉션 외에 불필요한 컬렉션의 종속 라이브러리(Numpy, pandas, Tornado 등)를 다운로드하지 않도록 해줍니다. 그럼으로써, 적은 리소스만 사용해 Dask 라이브러리를 사용할 수 있습니다.

python -m pip install "dask[array]"       # Dask array 설치
python -m pip install "dask[dataframe]"   # Dask dataframe 설치
python -m pip install "dask[diagnostics]" # Dask diagnostics 설치
python -m pip install "dask[distributed]" # distributed Dask 설치

 


 

Graphviz 설치 (작업 그래프 시각화)

Dask 그래프 (그림 출처 : https://docs.dask.org/en/stable/custom-graphs.html)

    Dask는 유향 비순환 그래프(Directed Acyclic Graph; DAG) 개념(※ DAG에 대해서는 링크를 참고)을 사용하는데, 작업 그래프 및 데이터의 흐름을 시각화할 수 있습니다. 이를 위해서는 graphviz 라이브러리를 설치해야 합니다.

 

Dask #0. 대스크 시작하기

1. Dask 설치 Dask는 파이썬을 기반으로, Pandas를 사용하는 데이터 분석가, 엔지니어는 쉽게 사용할 수 있도록 구현되어 있으며 대량의 데이터를 다루는데 특화되어있습니다. # 전체 설치 pip install "d

dataiger.tistory.com

 

    윈도우 운영체제 기준으로, 아래 링크의 페이지에서 해당하는 bit(32-bit 또는 64-bit)의 설치파일을 다운받으시면 됩니다.

 

Download

Graph Visualization Software

graphviz.org

    다운로드 받은 파일을 실행해 graphviz의 설치가 진행되는 과정 중 아래와 같은 화면에서, 꼭!!! "Add Graphviz to the system PATH for current user"를 체크해주셔야 추후에 번거로운 작업이 줄어듭니다.

    설치가 완료되었다면, 마지막 과정으로 파이썬과 연결해주기 위해 pip를 사용하여 설치를 진행합니다.

pip install graphviz

 

반응형