Data Analysis (15) 썸네일형 리스트형 [번역] 교차 검증 테크닉에 대한 가이드(5가지 방법 소개) (참고) 이 글을 읽기 전에 혹시 교차 검증이 무엇인지, 그리고 왜 필요한지? Train / Test / Validation set이 무엇인지부터 궁금하시다면 다음 링크를 참고해주세요! [번역] 당신은 Train, Validation & Test Set을 올바르게 사용하고 있습니까? (tistory.com) [번역] 당신은 Train, Validation & Test Set을 올바르게 사용하고 있습니까? 안녕하세요. 오늘은 데이터 분석 및 모델링 시 매우 익숙한 개념이지만, 그 차이를 명확히 하고 저도 복습하는 의미에서 Training Set, Test Set 그리고 Validation Set의 개념과 사용 방법에 대해서 알아 woomii.tistory.com 단일 검증 세트에서 기계 학습 모델을 조정하.. [번역] 당신은 Train, Validation & Test Set을 올바르게 사용하고 있습니까? 안녕하세요. 오늘은 데이터 분석 및 모델링 시 매우 익숙한 개념이지만, 그 차이를 명확히 하고 저도 복습하는 의미에서 Training Set, Test Set 그리고 Validation Set의 개념과 사용 방법에 대해서 알아보고자 해요. 글의 내용은 다음 링크의 원문을 참고로 작성되었음을 밝힙니다! 출처 : https://www.blog.dailydoseofds.com/p/are-you-sure-you-are-using-the-train?utm_source=substack&publication_id=1119889&post_id=138733052&utm_medium=email&utm_content=share&utm_campaign=email-share&triggerShare=true&isFreemail=.. [번역] 모든 데이터 과학자가 시각화 툴킷에 추가해야 하는 8가지 대안 안녕하세요! 먼저, 이 글은 다음 링크의 글을 참고하여 작성되었습니다. 자세한 내용은 아래 링크를 참고해주세요. 출처 : https://open.substack.com/pub/avichawla/p/8-classic-alternatives-to-traditional?r=2vemqb&utm_campaign=post&utm_medium=email 8 Classic Alternatives to Traditional Plots That Every Data Scientist Must Add in Their Visualisation Toolkit A consolidated guide on best plotting ideas discussed here. www.blog.dailydoseofds.com 산점도, 막대 그.. Over Sampling for Regression 출처 : https://towardsdatascience.com/strategies-and-tactics-for-regression-on-imbalanced-data-61eeb0921fca 0. Data Imbalance(데이터 불균형) 데이터 불균형은 현실 세계의 데이터에서 자주 일어나는 문제입니다. 데이터는 종종 편향된 분포를 보여주지만 현재 사용되는 대부분의 머신러닝 알고리즘은 각 대상 범주(분류)에 대해 균일한 분포를 가정하여 설계되었습니다. 한편으로, 많은 작업들이 타겟 값(변수)이 연속적인 값을 갖거나 무한한 값을 갖는 경우를 포함하여 (회귀), 클래스 간에 엄격한 경계가 존재하지 않는다는 것을 유념해야 합니다. (예: 나이 예측, 깊이 추정 등). 실생활에서 소수 클래스(minority cl.. [Python] Lambda 함수 사용법(for 데이터분석가) 안녕하세요! 오늘은 파이썬을 사용할 때 유용한 람다 함수에 대해 설명한 글을 간단히 소개드리려 해요! Lambda 함수는 익명 함수라고도 하며 이름 없이 정의됩니다. 이러한 함수는 완전한 함수 정의를 작성할 필요 없이 함수를 신속하게 정의해야 하는 상황에서 특히 유용합니다. 일반적인 파이썬 함수는 아래와 같이 정의됩니다. 아래 예시는 x와 y 2개 값을 입력받아 두 값을 더해주는 add라는 함수를 정의하고 사용해 본 예시예요. def add(x, y): return x + y ''' add(10, 7) 17 ''' 이때 반드시 함수에는 이름과 입력값, 그리고 출력값(반환값, 리턴값)이 있어야 합니다. 람다 함수를 살펴보기 전에 위의 구조를 한번 다시 기억해 주세요! 람다 함수는 익명함수라는 이름답게 이름.. PCA(주성분분석) vs LDA(선형판별분석) 비교 안녕하세요! 오늘도 링크드인을 보다 다시 한번 복습하기 좋은 글이 있어서 정리하여 공유드립니다. 작게나마 도움이 되었으면 좋겠습니다! 주성분 분석과 선형 판별 분석은 차원 축소할 때마다 가장 먼저 떠오르는 용어들입니다. 하지만, 각각이 무엇인지 배우고 듣지만 계속 까먹게 되더라구요. 그래서 먼저 요즘 핫한 ChatGPT에 질문해 보았습니다. 내용을 요약하자면, 주성분 분석(Principal Component Analysis) 차원 축소를 위해 데이터 분석과 머신러닝 분야서 쓰이는 기법으로, 비지도 방법(데이터에 클래스 레이블이 주어지지 않은 경우)입니다. PCA는 데이터에서 가장 큰 분산(변동)을 설명하는 주성분(Principal Component)이라고 하는 선형적으로 상관관계가 없는 새로운 변수 세트.. [python] 데이터프레임에서 수치형 컬럼 자동 선택 후 그룹별 박스플롯 그리기! (feat. seaborn) [소스코드] # libraries & dataset import seaborn as sns import matplotlib.pyplot as plt import pandas as pd tmp_df = sns.load_dataset('mpg') print(tmp_df.head(3)) # Select numerical columns from dataset numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64'] num_df = tmp_df.select_dtypes(include=numerics) # fig setting sns.set(rc = {'figure.figsize':(5, 3)}) sns.set(style="whitegrid").. [python] 데이터프레임에서 수치형 컬럼 자동 선택 후 히스토그램 한 판에 그리기! (feat. seaborn) 안녕하세요, 오늘은 데이터프레임이 주어졌을 때 1. 히스토그램을 그릴 수 있는 수치형 컬럼을 자동으로 선택하고, 2. 변수 갯수에 따라 선택한 컬럼을 사용자가 설정한 배열(ex> (3 by 2) 형태의 그리드) 형태 히스토그램 으로 그릴 수 있는 코드를 공유하고자 합니다. [소스코드] # libraries & dataset import seaborn as sns import matplotlib.pyplot as plt import pandas as pd # input df : 여기서는 mpg dataset을 선택해서 그려보았어요 tmp_df = sns.load_dataset('mpg') tmp_df.head() # select numerical columns numerics = ['int16', 'int.. 분류 문제의 평가지표 (PRECISION, RECALL, ACCURACY 등) 분류 문제의 정의와 종류 많은 머신러닝(기계학습) 문제는 분류에 해당합니다. 분류 문제는 입력 데이터가 주어졌을 때 이산 범주(discrite category)를 예측하는 작업입니다. 분류를 수행하는 분류기는 예측하고자 하는 범주의 수에 따라 이진 분류와 다중 분류로 나눌 수 있습니다. 이진 분류(binary classification) : 휴대전화 카메라 앞에 있는 항목이 핫도그인지 아닌지 여부(yes or no) 결정 다중 클래스 분류(multi-class classification) : Amazon 패키지가 일찍, 늦게 또는 정시에 도착할지 예측(2개 이상의 카테고리를 예측하는 것) Confusion Matrix (혼동 행렬) 분류 모델 평가지표(metric)의 중요성을 확인하는 데 도움이 되도록 .. 유전자 프로세스 마이닝 알고리즘(Genetic Process Mining, GPM) 앞에서 살펴본 것과 같이 프로세스에 대한 데이터 마이닝을 수행하는 프로세스 마이닝에서 3가지 방식의 분석이 이루어지는데, 그 중 모델 발견은 모든 분석의 시작이 되는 프로세스 모델 도출에 사용되고, 다른 분석의 기초가 되므로 가장 중요한 의미를 갖는 것을 확인할 수 있었습니다. ○ 프로세스 모델 도출 분석의 중요성 좋은 프로세스 모델은 프로세스를 이해하는 바탕이 됨 프로세스 모델을 통해 현실 세계의 프로세스에 대한 정량적 분석 가능 도출된 프로세스 모델은 모든 프로세스 마이닝 분석의 기초가 됨 이전 글 보기 : https://woomii.tistory.com/24 프로세스 마이닝이란? 프로세스 마이닝 (Process Mining) : 프로세스 마이닝이란 말 그대로 프로세스에 대한 데이터 마이닝, 즉 프로.. 이전 1 2 다음