Python/Data Science

[데이터 시각화] 연속형 변수 시각화

nock_ji 2024. 4. 8. 18:46

 

데이터 시각화 기본 그래프

 

chat gpt에게 기본 코드를 기반으로 요청사항을 이야기 한다.




Central Tendencies (중심성)
1. Mean (평균): Sum of all observed values / N

2. Median (중앙값): Split "sorted data" into half
3. Mode (최빈값): Most frequently occuring value. Mode는 Median보다 작다.

4. Skew (left, right), shape


outlier

데이터 이상점

이상점은 다른 자료와는 극단적으로 다른 값, 즉 유달리 높거나 낮은 값을 보이는 것을 일컫는다.

import numpy as np

#compute mean 평균값
mean_budget = np.mean(df['budget'])
print("Mean Budget($) =", mean_budget)
#Mean Budget($) = 78384000.0

#compute median 중앙값
median_budget = np.median(df['budget'])
print("median Budget($) =", median_budget)
#Median Budget($) = 42250000.0

right skew

 

#compute mode 최빈값
import statistics as stat
mode_budget = stat.mode(df['budget'])
print("Mode Budget ($) =", mode_budget)
#Mode Budget ($) =12000000

{"originWidth":839,"originHeight":275,"style":"alignLeft","width":503,"height":165,"caption":"Mode

 

Spread

1. Sum of Squares (SS, 제곱합): 변인에 포함된 각 값이 평균으로 부터 떨어진 거리를 제곱해서 더한 것
2. Variance (분산) = SS / N
3. Standard Deviation (표준편차) = sqrt(SS / N), sqrt = square root

var_budget = np.var(df["budget"])
print("Variance of Budget ($) = ", var_budget)
#Variance of Budget ($) =  5487808944000000.0

std_budget = np.std(df["budget"])
print("Standard Deviation of Budget ($) = ", std_budget)
#Standard Deviation of Budget ($) =  74079747.19179325

 

 

Visualizing Continuous Variables (연속형 변수 시각화)

(1) Histogram

히스토그램: 동일한 간격의 설정된 빈 수에 데이터를 할당한다. 

sns.histplot(df["budget"], bins = 20, kde = True) #kde = kernel density estimate

 

(2) Box Plots

sns.boxplot(x = "budget", data = df)
#df["budget"] = [y = "budget", data = df]

 

sns.pairplot(df[["Gross", "budget", "genre_1"]], hue = "genre_1") 
#hue: use different color per category