이전 포스팅에서 다루었듯이, Dask는 파이썬 기반의 대규모 데이터 처리를 위한 병렬 컴퓨팅 라이브러리 입니다. 파이썬으로 분석 또는 개발을 하시면서, Pandas나 NumPy에 익숙한 데이터 분석가 및 엔지니어 분들이 쉽게 사용할 수 있도록 구현되어 있습니다.
이번 포스팅에서는 Dask를 사용하기 위해 Dask를 설치하는 방법에 대해 알아보겠습니다.
Dask 설치
Dask는 현재 Linux, macOS 및 Windows에서 사용 가능합니다. Dask를 설치하기 위해 여러 방법이 있지만, 여기서는 pip
를 사용하여 설치해보도록 하겠습니다.
Dask Installation — Dask documentation
.rst .pdf to have style consistency -->
docs.dask.org
일반적인 설치 (Dask 전체 설치)
pip
를 사용하여 Dask를 설치하면, Dask Array 및 Dask DataFrame 등 Dask 빅데이터 컬렉션에 필요한 NumPy, Pandas와 같은 종속 라이브러리와 Dask 모두 간단하게 설치됩니다.
python -m pip install "dask[complete]" # Dask 전체 설치
Dask core만 설치
Dask core만 설치할 수도 있습니다. 이 경우 dask.array
, dask.dataframe
, dask.distributed
와 같은 모듈은 각각 NumPy, pandas, Tornado를 따로 설치해주어야 제대로 작동합니다.
python -m pip install dask # Dask core만 설치
Dask 컬렉션별 설치
Dask의 여러 하위 모듈에 대해 필요한 부분만 설치할 수도 있습니다. 이는 Dask core 사용자가 Dask 컬렉션 중 필요로 하는 컬렉션 외에 불필요한 컬렉션의 종속 라이브러리(Numpy, pandas, Tornado 등)를 다운로드하지 않도록 해줍니다. 그럼으로써, 적은 리소스만 사용해 Dask 라이브러리를 사용할 수 있습니다.
python -m pip install "dask[array]" # Dask array 설치
python -m pip install "dask[dataframe]" # Dask dataframe 설치
python -m pip install "dask[diagnostics]" # Dask diagnostics 설치
python -m pip install "dask[distributed]" # distributed Dask 설치
Graphviz 설치 (작업 그래프 시각화)
Dask는 유향 비순환 그래프(Directed Acyclic Graph; DAG) 개념(※ DAG에 대해서는 링크를 참고)을 사용하는데, 작업 그래프 및 데이터의 흐름을 시각화할 수 있습니다. 이를 위해서는 graphviz 라이브러리를 설치해야 합니다.
Dask #0. 대스크 시작하기
1. Dask 설치 Dask는 파이썬을 기반으로, Pandas를 사용하는 데이터 분석가, 엔지니어는 쉽게 사용할 수 있도록 구현되어 있으며 대량의 데이터를 다루는데 특화되어있습니다. # 전체 설치 pip install "d
dataiger.tistory.com
윈도우 운영체제 기준으로, 아래 링크의 페이지에서 해당하는 bit(32-bit 또는 64-bit)의 설치파일을 다운받으시면 됩니다.
Download
Graph Visualization Software
graphviz.org
다운로드 받은 파일을 실행해 graphviz의 설치가 진행되는 과정 중 아래와 같은 화면에서, 꼭!!! "Add Graphviz to the system PATH for current user"를 체크해주셔야 추후에 번거로운 작업이 줄어듭니다.
설치가 완료되었다면, 마지막 과정으로 파이썬과 연결해주기 위해 pip
를 사용하여 설치를 진행합니다.
pip install graphviz
'인공지능 > 빅데이터 SQL' 카테고리의 다른 글
Dask #4. 파이썬 Dask Array (0) | 2023.08.18 |
---|---|
Dask #3. 파이썬 Dask 간단하게 사용해보기 (0) | 2023.08.18 |
Dask #1. 파이썬 대규모 데이터 처리 Dask란? (0) | 2023.08.17 |
데이터 제공 사이트 (0) | 2023.07.31 |
2. 데이터 모델링이란? (0) | 2022.07.05 |