본문 바로가기

반응형

Data Analysis/visualization

(6)
[번역] 모든 데이터 과학자가 시각화 툴킷에 추가해야 하는 8가지 대안 안녕하세요! 먼저, 이 글은 다음 링크의 글을 참고하여 작성되었습니다. 자세한 내용은 아래 링크를 참고해주세요. 출처 : https://open.substack.com/pub/avichawla/p/8-classic-alternatives-to-traditional?r=2vemqb&utm_campaign=post&utm_medium=email 8 Classic Alternatives to Traditional Plots That Every Data Scientist Must Add in Their Visualisation Toolkit A consolidated guide on best plotting ideas discussed here. www.blog.dailydoseofds.com 산점도, 막대 그..
[python] 데이터프레임에서 수치형 컬럼 자동 선택 후 그룹별 박스플롯 그리기! (feat. seaborn) [소스코드] # libraries & dataset import seaborn as sns import matplotlib.pyplot as plt import pandas as pd tmp_df = sns.load_dataset('mpg') print(tmp_df.head(3)) # Select numerical columns from dataset numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64'] num_df = tmp_df.select_dtypes(include=numerics) # fig setting sns.set(rc = {'figure.figsize':(5, 3)}) sns.set(style="whitegrid")..
[python] 데이터프레임에서 수치형 컬럼 자동 선택 후 히스토그램 한 판에 그리기! (feat. seaborn) 안녕하세요, 오늘은 데이터프레임이 주어졌을 때 1. 히스토그램을 그릴 수 있는 수치형 컬럼을 자동으로 선택하고, 2. 변수 갯수에 따라 선택한 컬럼을 사용자가 설정한 배열(ex> (3 by 2) 형태의 그리드) 형태 히스토그램 으로 그릴 수 있는 코드를 공유하고자 합니다. [소스코드] # libraries & dataset import seaborn as sns import matplotlib.pyplot as plt import pandas as pd # input df : 여기서는 mpg dataset을 선택해서 그려보았어요 tmp_df = sns.load_dataset('mpg') tmp_df.head() # select numerical columns numerics = ['int16', 'int..
[Python] y축 2개를 이용한 산점도 + 추세선 그리기(그룹별 색상 옵션 추가) 이번 포스팅에서는 지난 포스팅에 이어서 x축과 y축 2개(2개 변수) 를 기준으로 산점도를 그리고, 산점도 위에 변수 별로 추세선을 그리는 스크립트를 공유하고자 합니다. 사실 지난 글에서 그룹별 색상을 표현하는 코드를 먼저 만든 후에 그룹별로 모두 색깔을 나눠서 볼 경우 그래프 가독성이 떨어지는 문제가 생기더라구요. 그래서 이제 그룹별 색깔 구분을 없애고, y축 2개에 표현되는 변수만 2개의 색깔로 구분하도록 스크립트를 수정해서 다시 공유해요~! https://woomii.tistory.com/18 [Python] y축 2개를 이용한 산점도 + 추세선 그리기(&그룹별 색상) 이번 코드는 위의 산점도와 같이 X축을 중심으로 좌측에 y1, 우측에 y2 2개의 y축을 그리고, 각 그룹별로 색상을 다르게 해서 ..
[Python] y축 2개를 이용한 산점도 + 추세선 그리기(&그룹별 색상) 이번 코드는 위의 산점도와 같이 X축을 중심으로 좌측에 y1, 우측에 y2 2개의 y축을 그리고, 각 그룹별로 색상을 다르게 해서 산점도를 그린 후 산점도 위에 그룹+변수별 추세선을 그리고, 가독성을 위해 그래프 바깥에 범례를 반영한 그래프를 그리기 위한 코드입니다. 이번에도 샘플 데이터로 iris 데이터셋을 사용합니다. iris 데이터셋을 불러오고 전처리 하는 과정은 아래 링크와 같습니다. https://woomii.tistory.com/19 [Python] iris dataset load & pre-processing 이번 글에서는 iris dataset을 sklearn 라이브러리를 이용해 불러오고, 데이터 분석에 사용하기 적절한 형태인 판다스 데이터 프레임형태로 바꾸어 주는 코드에 대해 소개합니다...
[Python] 산점도 : 2개의 변수 간 분포 확인을 위한 시각화 방법(한눈에 들어오는 예제 코드 포함) [Example Output] [Library Load] import pandas as pd import numpy as np import os import matplotlib import matplotlib.pyplot as plt # 파이플롯 사용 import seaborn as sns import pylab sns.set_style('whitegrid') 먼저, 필요한 라이브러리를 불러온다. 일반적으로 2개의 변수 간 분포를 확인하기에 가장 직관적이며 자주 사용하는 시각화 도구가 산점도이다 보니 사용자 함수로 만들어 놓고, 옵션을 조절해가며 사용하는 편이다. 색상은 수십차례의 시행착오 끝에 파란색 점과 붉은 색 점선으로 정했다. [User function] 다음 코드는 ScatterPlotting ..

반응형