인공지능/빅데이터 SQL 16

Dask #3. 파이썬 Dask 간단하게 사용해보기

목차¶ Dask DataFrame Dask Array Dask Bag Low-Level 인터페이스 : Dask Delayed 스케줄링 Client 진단 Dashboard 일반적으로 다음과 같이 Dask를 import 합니다. 작업 중인 데이터 유형(DataFrame, array, list)에 따라 이들 중 일부가 필요하지 않을 수도 있습니다. In [2]: import numpy as np import pandas as pd import dask.dataframe as dd import dask.array as da import dask.bag as db Dask DataFrame¶ Dask 객체 생성¶ 먼저, Dask DataFrame을 활용해 Pandas DataFrame 유형의 데이터를 작업해보도록..

Dask #2. 파이썬 Dask 설치 방법

이전 포스팅에서 다루었듯이, Dask는 파이썬 기반의 대규모 데이터 처리를 위한 병렬 컴퓨팅 라이브러리 입니다. 파이썬으로 분석 또는 개발을 하시면서, Pandas나 NumPy에 익숙한 데이터 분석가 및 엔지니어 분들이 쉽게 사용할 수 있도록 구현되어 있습니다. 이번 포스팅에서는 Dask를 사용하기 위해 Dask를 설치하는 방법에 대해 알아보겠습니다. Dask 설치 Dask는 현재 Linux, macOS 및 Windows에서 사용 가능합니다. Dask를 설치하기 위해 여러 방법이 있지만, 여기서는 pip를 사용하여 설치해보도록 하겠습니다. Dask Installation — Dask documentation .rst .pdf to have style consistency --> docs.dask.org ..

Dask #1. 파이썬 대규모 데이터 처리 Dask란?

파이썬에서 대규모 데이터 처리 및 분석을 하기 위한 Dask 라이브러리를 소개하려 합니다. Dask — Dask documentation .rst .pdf to have style consistency --> docs.dask.org Dask Dask는 Python의 병렬 연산을 위한 라이브러리입니다. 즉, 대규모 데이터의 처리·연산에 필요한 분산 환경을 사용자들이 쉽게 사용할 수 있도록 해주는 라이브러리로 보시면 됩니다. 이러한 Dask는 크게 두 파트 "동적 작업 스케줄링"과 "빅데이터 컬렉션"이라는 파트로 나누어 구성됩니다. 동적 작업 스케줄링은 실제 작업을 배정하고 실행하는 부분이고, 빅데이터 컬렉션은 스케줄링에서 실행할 작업을 구성하기 위해 필요한 분산 환경에 최적화된 여러 기능들을 제공하는 부..

데이터 제공 사이트

[국내] AI 허브 (AI Hub) AI-Hub 자세히보기 AI 허브가 추천하는 검색어입니다. 태그를 클릭하여 검색결과를 확인하세요. aihub.or.kr 공간정보 오픈플랫폼 (브이월드) - 국가가 보유하고 있는 공개 가능한 공간정보를 모든 국민이 자유롭게 활용할 수 있도록 다양한 방법을 제공 공간정보 오픈플랫폼 국가가 보유하고 있는 공개 가능한 공간정보를 모든 국민이 자유롭게 활용할 수 있도록 다양한 방법을 제공합니다. www.vworld.kr 국가공간정보포털 국가공간정보포털 국가는 다양한 방법으로 공간정보 서비스를 제공하기 위해 노력해왔으나, 산재된 서비스 체계로 인해 공간정보 활용에 어려움이 있었습니다. 그래서 국가·공공·민간에서 생산한 공간정보를 www.nsdi.go.kr 국토정보플랫폼 국토정보플..

2. 데이터 모델링이란?

모델링의 특징 추상화(= 모형화) 현실세계를 일정한 형식에 맞추어 표현을 함. 단순화 현실세계를 약속된 규약에 의해 제한된 표기법이나 언어로 표현하여 쉽게 이해할 수 있도록 함. 명확화 대상에 대한 애매모호함을 제거하고 정확하게 현상을 기술함. 데이터 모델링의 이유 정보들을 일정한 표기법에 의해 표현함으로써 정보시스템 구축의 대상이 되는 업무 내용을 정확하게 분석하기 위함. 분석된 모델을 가지고 실제 데이터베이스를 생성하여 개발 및 데이터 관리에 사용하기 위함. 데이터 모델링의 유의점 중복 중복을 최소화 해야 함. 데이터베이스가 여러 장소에 같은 정보를 저장하지 않도록 함. 비유연성 데이터의 정의와 사용 프로세스를 분리하여 유연성을 높여야 함. 데이터 혹은 프로세스의 변화가 애플리케이션과 데이터베이스에 ..

1. 데이터베이스란?

요즘 세상에는 빅데이터(Big data)라 불릴만큼 1초에도 방대한 양의 데이터가 생성되고 어딘가에 저장되고 있다. 무수히 많은 데이터를 하나하나 확인하고, 계산하고, 처리하기에는 인간의 뇌로는 한계가 있기 때문에 우리는 소프트웨어의 힘을 빌려 데이터(Data)를 처리(Process)해 우리에게 유용한 정보(Information)를 만들어낸다. 여기서 사용되는 소프트웨어를 DBMS (DataBase Management System; 데이터베이스 관리 시스템)라 한다. DBMS는 이름 그대로 데이터베이스(DB)를 관리하는 소프트웨어다. 정보사회가 도래하면서 데이터베이스와 데이터베이스 관리 시스템은 기업뿐만 아니라 국가 차원에서도 정보를 관리하고 구축하는 필수 도구가 되었다. 데이터베이스는 크게 3가지 개념..

반응형