데이터 시각화 기본 그래프
chat gpt에게 기본 코드를 기반으로 요청사항을 이야기 한다.
Central Tendencies (중심성)
1. Mean (평균): Sum of all observed values / N
2. Median (중앙값): Split "sorted data" into half
3. Mode (최빈값): Most frequently occuring value. Mode는 Median보다 작다.
4. Skew (left, right), shape
outlier
데이터 이상점
이상점은 다른 자료와는 극단적으로 다른 값, 즉 유달리 높거나 낮은 값을 보이는 것을 일컫는다.
import numpy as np
#compute mean 평균값
mean_budget = np.mean(df['budget'])
print("Mean Budget($) =", mean_budget)
#Mean Budget($) = 78384000.0
#compute median 중앙값
median_budget = np.median(df['budget'])
print("median Budget($) =", median_budget)
#Median Budget($) = 42250000.0
#compute mode 최빈값
import statistics as stat
mode_budget = stat.mode(df['budget'])
print("Mode Budget ($) =", mode_budget)
#Mode Budget ($) =12000000
Spread
1. Sum of Squares (SS, 제곱합): 변인에 포함된 각 값이 평균으로 부터 떨어진 거리를 제곱해서 더한 것
2. Variance (분산) = SS / N
3. Standard Deviation (표준편차) = sqrt(SS / N), sqrt = square root
var_budget = np.var(df["budget"])
print("Variance of Budget ($) = ", var_budget)
#Variance of Budget ($) = 5487808944000000.0
std_budget = np.std(df["budget"])
print("Standard Deviation of Budget ($) = ", std_budget)
#Standard Deviation of Budget ($) = 74079747.19179325
Visualizing Continuous Variables (연속형 변수 시각화)
(1) Histogram
히스토그램: 동일한 간격의 설정된 빈 수에 데이터를 할당한다.
sns.histplot(df["budget"], bins = 20, kde = True) #kde = kernel density estimate
(2) Box Plots
sns.boxplot(x = "budget", data = df)
#df["budget"] = [y = "budget", data = df]
sns.pairplot(df[["Gross", "budget", "genre_1"]], hue = "genre_1")
#hue: use different color per category
'Python > Data Science' 카테고리의 다른 글
[데이터 시각화] colab에 seaborn 설치/시작하기 (1) | 2024.04.03 |
---|---|
[데이터 시각화] Seaborn에 대하여 (0) | 2024.04.02 |