Data Analysis (15) 썸네일형 리스트형 [Python] y축 2개를 이용한 산점도 + 추세선 그리기(그룹별 색상 옵션 추가) 이번 포스팅에서는 지난 포스팅에 이어서 x축과 y축 2개(2개 변수) 를 기준으로 산점도를 그리고, 산점도 위에 변수 별로 추세선을 그리는 스크립트를 공유하고자 합니다. 사실 지난 글에서 그룹별 색상을 표현하는 코드를 먼저 만든 후에 그룹별로 모두 색깔을 나눠서 볼 경우 그래프 가독성이 떨어지는 문제가 생기더라구요. 그래서 이제 그룹별 색깔 구분을 없애고, y축 2개에 표현되는 변수만 2개의 색깔로 구분하도록 스크립트를 수정해서 다시 공유해요~! https://woomii.tistory.com/18 [Python] y축 2개를 이용한 산점도 + 추세선 그리기(&그룹별 색상) 이번 코드는 위의 산점도와 같이 X축을 중심으로 좌측에 y1, 우측에 y2 2개의 y축을 그리고, 각 그룹별로 색상을 다르게 해서 .. 프로세스 마이닝이란? 프로세스 마이닝 (Process Mining) : 프로세스 마이닝이란 말 그대로 프로세스에 대한 데이터 마이닝, 즉 프로세스를 대상으로 데이터를 수집하고 분석하여 분석 대상이 되는 프로세스에 대해 잘 이해하고, 파악하며 개선을 수행하는 일련의 활동을 의미한다. 정의 : 정보시스템을 이용하는 과정에서 기록된 데이터 중 특히 프로세스 수행 과정에서 기록되는 데이터(이벤트 로그 데이터)에 초점을 맞추어 이를 바탕으로 프로세스에 대한 의미 있는 정보를 찾아내는 분석 기법 프로세스 : 제품과 서비스를 전달함으로써 가치를 창출할 수 있는 활동들을 조직화한 구성체 목적 시스템 상에서 일어난 현상과 발생 원인 파악 미래의 시스템에는 어떤 일이 일어날 것인지 예측 프로세스를 보다 더 잘 제어하기 위한 방안 탐색 프로세스.. [Python] iris dataset load & pre-processing 이번 글에서는 iris dataset을 sklearn 라이브러리를 이용해 불러오고, 데이터 분석에 사용하기 적절한 형태인 판다스 데이터 프레임형태로 바꾸어 주는 코드에 대해 소개합니다. iris 는 붓꽃인데요 iris dataset은 이 150 송이의 꽃받침과 꽃잎의 길이를 정리한 데이터입니다. 자세한 설명은 다음과 같습니다. 아이리스는 통계학자인 피셔 Fisher 가 소개한 데이터로, 붓꽃의 3가지 종(setosa, versicolor, virginica)에 대해 꽃받침 sepal과 꽃잎 petal의 길이를 정리한 데이터다. (중략) 이 데이터는 이해하기 쉬우며 크기가 작고 기계 학습에서 인기 있는 분야 중 하나인 분류 Classification에 적합한 데이터다. 출처 : R을 이용한 데이터 처리 &.. [Python] y축 2개를 이용한 산점도 + 추세선 그리기(&그룹별 색상) 이번 코드는 위의 산점도와 같이 X축을 중심으로 좌측에 y1, 우측에 y2 2개의 y축을 그리고, 각 그룹별로 색상을 다르게 해서 산점도를 그린 후 산점도 위에 그룹+변수별 추세선을 그리고, 가독성을 위해 그래프 바깥에 범례를 반영한 그래프를 그리기 위한 코드입니다. 이번에도 샘플 데이터로 iris 데이터셋을 사용합니다. iris 데이터셋을 불러오고 전처리 하는 과정은 아래 링크와 같습니다. https://woomii.tistory.com/19 [Python] iris dataset load & pre-processing 이번 글에서는 iris dataset을 sklearn 라이브러리를 이용해 불러오고, 데이터 분석에 사용하기 적절한 형태인 판다스 데이터 프레임형태로 바꾸어 주는 코드에 대해 소개합니다... [Python] 산점도 : 2개의 변수 간 분포 확인을 위한 시각화 방법(한눈에 들어오는 예제 코드 포함) [Example Output] [Library Load] import pandas as pd import numpy as np import os import matplotlib import matplotlib.pyplot as plt # 파이플롯 사용 import seaborn as sns import pylab sns.set_style('whitegrid') 먼저, 필요한 라이브러리를 불러온다. 일반적으로 2개의 변수 간 분포를 확인하기에 가장 직관적이며 자주 사용하는 시각화 도구가 산점도이다 보니 사용자 함수로 만들어 놓고, 옵션을 조절해가며 사용하는 편이다. 색상은 수십차례의 시행착오 끝에 파란색 점과 붉은 색 점선으로 정했다. [User function] 다음 코드는 ScatterPlotting .. 이전 1 2 다음