[Python] Pandas를 이용한 데이터 분석 및 데이터 조작기초

  • CloneCoding
  • 2023년 2월 12일

파이썬 Pandas는 데이터를 효율적으로 처리하고 분석할 수 있는 강력한 데이터 구조를 제공하는 오픈소스 데이터 조작 및 데이터 분석 라이브러리이다. 데이터 과학, 머신 러닝, 데이터 분석 분야에서 널리 사용되며 데이터 과학자와 데이터 분석가 모두에게 필수적인 도구이다.

이번 글에서는 파이썬 Pandas의 기초를 알아보고, 이를 활용해 다양한 데이터 분석 및 데이터 조작 작업을 수행하는 방법에 대해 알아보겠다.

Pandas 설치

파이썬 프로젝트에서 Pandas를 사용하려면 먼저 Pandas를 설치해야 한다. Pandas는 pip 패키지 관리자를 사용하여 설치할 수 있다. 터미널을 열고 다음 명령을 실행하여 Pandas를 설치한다.

pip install pandas

 

Dataframes 만들기

데이터프레임은 Pandas에서 사용되는 기본 데이터 구조이다. 데이터프레임은 기본적으로 잠재적으로 다른 유형의 열을 가진 2차원 레이블이 지정된 데이터 구조이다.

Pandas에서 데이터프레임 생성자에 사전을 전달하여 데이터프레임을 생성할 수 있다.

import pandas as pd

data = {
    'Name': ['John', 'Jane', 'Jim', 'Jessica'],
    'Age': [32, 28, 40, 36],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']
}

df = pd.DataFrame(data)
print(df)

이 코드는 다음과 같은 출력으로 Pandas 데이터 프레임을 생성한다.

   Name    Age   City
0  John    32    New York
1  Jane    28    Los Angeles
2   Jim    40    Chicago
3 Jessica  36    Houston

 

데이터 조작

Pandas 사용의 주요 장점 중 하나는 다양한 데이터 조작 작업을 수행할 수 있다는 점이다. 예를 들어, 데이터 프레임에서 데이터를 정렬하거나, 행이나 열을 삭제하거나, 새 행이나 열을 추가할 수 있다.

다음은 특정 열을 기준으로 데이터 프레임을 정렬하는 방법의 예이다.

df.sort_values(by='Age', ascending=False, inplace=True)
print(df)

이 코드는 Age 열을 기준으로 데이터 프레임을 내림차순으로 정렬하여 다음과 같은 출력을 생성한다.

   Name  Age         City
2   Jim   40      Chicago
0  John   32     New York
3 Jessica   36     Houston
1  Jane   28  Los Angeles

 

데이터 분석

Pandas 사용의 또 다른 장점은 다양한 데이터 분석 작업을 수행할 수 있다는 점이다. 예를 들어 요약 통계를 계산하고, 집계를 수행하고, 데이터를 피벗할 수 있다.

다음은 데이터 프레임에서 Age 열의 평균을 계산하는 방법의 예이다.

mean = df['Age'].mean()
print(mean)

이 코드는 Age 열의 평균을 계산하여 다음과 같은 출력을 반환한다.

34.25

결론

이 글에서는 파이썬 Pandas의 기본 사항을 살펴보고 이를 사용하여 다양한 데이터 분석 및 데이터 조작 작업을 수행하는 방법을 알아 보았다. Pandas는 데이터 조작과 분석을 훨씬 쉽고 효율적으로 해주는 강력한 라이브러리이다. 데이터 과학자, 머신 러닝 엔지니어, 데이터 분석가 등 데이터 분석 워크플로우를 위한 필수 도구이다.

© Copyright 2023 CLONE CODING