Python/Data Science

[데이터 시각화] colab에 seaborn 설치/시작하기

nock_ji 2024. 4. 3. 00:58

 

구글 Colab에서 Seaborn을 설치하고 시작하는 방법

 

Installing and getting started — seaborn 0.13.2 documentation

Installing and getting started Official releases of seaborn can be installed from PyPI: The basic invocation of pip will install seaborn and, if necessary, its mandatory dependencies. It is possible to include optional dependencies that give access to a fe

seaborn.pydata.org

 

  1. 먼저 구글 Colab을 열고 새 Python 노트북을 만든다.
  2. 다음 코드를 사용하여 Seaborn을 설치한다.
!pip install seaborn

 

 

3. Seaborn을 import하여 사용할 준비한다.

(Seaborn 라이브러리를 가져올 때 sns는 Seaborn 라이브러리의 별칭(alias)이다)

import seaborn as sns

 

 

4. 구글 Colab에서 구글 드라이브를 사용하여 데이터를 불러오고 저장하려면 다음 단계를 따르면 된다.

5. 먼저 구글 Colab에서 다음 코드를 실행하여 구글 드라이브를 마운트한다.

from google.colab import drive
drive.mount('/content/drive')

 

 

6. 드라이브 내의 파일에 접근할 수 있다.

7. 예를 들어, 다음과 같은 코드를 사용하여 구글 드라이브에 있는 CSV 파일을 불러올 수 있다.

8. 파일 마운트 후에 드라이브 내에 있는 파일 경로를 가져온다.

 

9. import pandas as pd
먼저, pandas 라이브러리를 가져와서 pd로 별칭을 붙인다.
(pandas는 데이터를 다루는데 유용한 라이브러리)

 

10. file_path = "/content/drive/My Drive/path/to/your/file.csv"
이 부분은 구글 드라이브에서 CSV 파일의 경로를 지정하는 부분이다. 실제 파일이 위치한 경로를 정확히 입력해야 한다.

 

11. data = pd.read_csv(file_path)
pandas의 read_csv() 함수를 사용하여 CSV 파일을 읽어온다.
이 함수는 지정된 파일 경로에서 CSV 파일을 읽고, 데이터를 DataFrame 형태로 불러온다. (DataFrame은 표 형태의 데이터 구조)

이제 이 데이터를 활용하여 분석하거나 시각화하는 등의 작업을 할 수 있다.

import pandas as pd

# CSV 파일 경로 설정
file_path = "/content/drive/My Drive/path/to/your/file.csv"

# CSV 파일 불러오기
# df = data frame
df = pd.read_csv(file_path)

 

 

@ Data frame

  • feature / attribute = 변인
  • 변인의 종류
    • numerical data 수치형 자료
      • continuous
      • 수치로 측정되는 자료
      • 키, 몸무게, 시험 성적, 자동차 사고 건수
    • categorical data 범주형 자료
      • grouping, string
      • 관측 결과가 몇 개의 범주 또는 항목의 형태로 나타나는 자료
      • 성별 (남/여), 선호도(좋다/그저그렇다/싫다), 혈액형(A/B/O/AB), 지역(서울/부산/대구/광주)
      • 주의할 점: 범주형 자료를 수치형 자료처럼 표현할 수 있으므로 numerical data와 잘 구분해야한다.
  • string(categorical) = grouping , numeric(continuous)

categorical 변인

각 변인(feature)별로 grouping 해줘

 

 

#normalize : 정규화를 True로 설정하면 전체합이 1인 상태에서 모든 값을 비중으로 나누어서 반환을 해준다.

기본 default는 normalize = False로 되어있음

 


 

BarChart 막대 그래프

 

위에서 sns를 설치했으니, sns가 갖고 있는 함수 사용

기본 그래프 출력 

sns.countplot(x = 'genre_1', data = df)

결과값

 

다른 라이브러리를 설치하여 다양한 함수를 활용해 데이터 시각화를 할 수 있다.

'Python > Data Science' 카테고리의 다른 글

[데이터 시각화] 연속형 변수 시각화  (0) 2024.04.08
[데이터 시각화] Seaborn에 대하여  (0) 2024.04.02