본문 바로가기

Life/Books

[서평] 데이터 과학자의 가설 사고 (비제이퍼블릭)

728x90
반응형

 

도서 정보

기본 정보

저자 고추 다이스케,가와치 아키오,고노 슌스케,스즈키 가이리,나가키 사키,나카노 준이치 (지은이) / 김지윤 (옮긴이)
출판사 비제이퍼블릭
쪽수/판형 272쪽 / 152*225mm
독서기간 2024년 3월
매체 단행본

 
[알라딘 링크]

https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=333018576

 

저자 소개

 
이 책의 저자는 고추 다이스케 외 5인인데, 모두 '일본 전기 주식회사 AI·애널리틱스 사업통괄부' 소속 데이터과학자들이다. 같은 회사에서 이렇게 모여서 책을 썼다는 점이 인상 깊었고, 모두 짧게는 수년 길게는 수십년의 경력을 가진 데이터 분석가 분들이라 그런지 설명이나 내용이 전문적이면서도 최대한 이해하기 쉽게 적혀 있다는 인상을 받았습니다.



고추 다이스케 (지은이) 일본 전기 주식회사 AI·애널리틱스 사업통괄부 수석 데이터 과학자.
2003년 4월 일본 전기 주식회사 입사. 유통·서비스업을 중심으로 분석 컨설팅을 제시하였고, 2016년 NEC프로페셔널 인정 제도 ‘시니어 데이터 애널리스트’ 초대 인정자가 되었다. 2018년 NEC그룹의 AI인재 육성을 통괄하는 AI 인재 육성 센터의 센터장으로 취임하여 AI인재 육성에 힘썼다. 2019년 AI인재를 육성하기 위한 NEC아카데미 for AI를 개설해 학장을 지냈다. 저서로는 『AI 인재를 기르는 방법』, 『교양으로서의 데이터 과학』, 『데이터 과학자 검정공식 레퍼런스북』이 있다.

가와치 아키오 (지은이) 일본 전기 주식회사 AI·애널리틱스 사업통괄부 리드 데이터 과학자.
2009년 4월 일본 전기 주식회사 입사. 통신 사업자를 위한 SE로 활동하다가 2015년 10월부터 데이터 과학자로 활동하기 시작했다. 지금까지 유통, 제조, 전력, 부동산, 관공서 등 폭넓은 업계에서 분석에 종사했다. 현재는 주로 분석을 제안하거나 인재를 육성하며 분석 어드바이저로 일한다.

고노 슌스케 (지은이) 일본 전기 주식회사 AI·애널리틱스 사업통괄부 데이터 과학자.
2014년 4월 일본 전기 주식회사 입사. 업무 개선을 위한 과제·요건 분석 기술연구 개발에 종사하다가 철도·제조 영역의 고객을 중심으로 데이터 분석 프로젝트에 관여하고 있다. 분석 검증부터 적용까지 폭넓은 단계를 담당한다. 또, 고객 기업의 데이터 분석팀 설립과 육성 지원도 하고 있다.

스즈키 가이리 (지은이) 일본 전기 주식회사 AI·애널리틱스 사업통괄부 데이터 과학자.
2020년 4월 일본 전기 주식회사 입사. 데이터 과학자로서 데이터 분석 업무와 기술 검증 업무에 종사. 현재는 주로 관공서의 고객 데이터 분석 지원에 관여하고 있으며 요건 정의와 분석 검증, 적용을 담당한다.

나가키 사키 (지은이) 일본 전기 주식회사 AI·애널리틱스 사업통괄부 데이터 과학자.
2018년 4월 일본 전기 주식회사 입사. 입사 이래로 데이터 과학자로서 여러업계의 AI기술을 활용한 데이터 분석 업무에 종사하였고, 현재는 제조업·에너지업·철도업 고객을 중심으로 한 AI 활용 안건 제안부터 고객 데이터를 이용한 검증, AI를 활용한 시스템 제안, AI 인재 육성 지원 등 폭넓게 활동하고 있다. 일본 데이터베이스 학회 회원이다.

나카노 준이치 (지은이) 일본 전기 주식회사 AI·애널리틱스 사업통괄부 데이터 과학자.
2007년 4월 일본 전기 주식회사 입사. 데이터웨어 하우스 시스템 설계·개발·보수 경험을 거쳐서 데이터 과학자로서 CRM 영역의 데이터 해석을 담당하고 있다. 현재는 NEC의 AI사업 확대에 공헌하는 한편, 데이터 분석을 이용한Well-Being 향상 연구 등에도 몰두하고 있다. 2022년 3월 게이오대학 대학원 경영 관리 연구과 수료, 경영학 석사를 취득하였다.

김지윤 (옮긴이) 
가톨릭대학교 졸업. 세이신여자대학교에서 교환 유학 후 와세다대학교 대학원에서 공부한 뒤, 글밥아카데미를 수료하고 바른번역 소속 번역가로 활동하고 있다. 비 온 뒤 맑게 갠 하늘처럼 개운한 번역을 하고 싶다는 의미에서 번역가 이름을 순우리말인 ‘해밀’로 지었다. 한 문장 한 문장 저자의 마음으로 공들여 번역하는 번역가, 원작을 통해 받은 느낌과 감동을 한국 독자들에게도 전달하는 번역가이다. 데이터 사이언스를 포함한 다양한 학문에 관심이 있다.

 

책 소개

데이터를 읽고 분석하는 능력은 누구나 익혀야 할 기본 소양이 되었다.
하지만 파이썬, R과 같은 프로그래밍 언어 때문에 공부를 포기하기도 한다.
이 책은 복잡한 계산, 엑셀, 프로그래밍 언어를 사용하지 않고, 종이와 연필만으로 데이터 과학자의 사고를 알려준다.
데이터 기본 개념을 쉽게 이해하고, 40개의 퀴즈를 풀면서 데이터 과학자 사고 과정을 직접 체험해 보자.

 

감상

이 책을 살펴보고 느낀 점을 요약하자면 수식 없이 데이터 분석 전반에 대해 알고 싶은 분들을 위한 책이라는 점이에요!

 

 

[Point 1] 각 장의 시작과 끝 부분을 잘 읽어보세요!

이 책의 구성에서 가장 먼저 눈에 띄는 부분은 각 장의 시작과 끝부분이었어요.

바로 시작 부분에는 이 장에서 다루고자 하는 내용이 무엇인지 설명해주고, 마지막 부분에는 앞에서 다루었던 내용을 요약/정리해서 다시 언급해주니까 전체적인 내용을 이해하는데 큰 도움이 되었어요.
 

각 장 말미에 있는 정리 부분

 

[Point 2] 친절한 개념 설명과, 깔끔한 편집

두 번째로 이 책에서 인상 깊었던 부분은 평소 데이터 분석을 하면서 책에서 접해보지 못헀던 지식들이 책에 가득 담겨있다는 점이었어요.

처음 예측 모델링 프로젝트를 할 때 데이터를 보며 내삽 영역과 외삽영역이라는 얘기를 들었었는데, 처음 듣는 용어다 보니 당황스러웠었던 기억이 났어요.

그 때는 챗 GPT처럼 답을 얻을 수 있는 방법이 흔치 않아 맥락으로 추측해서 알아들었었는데, 이 책에서는 내삽이나 외삽 말고도 데이터 분석을 수행하면서 맞딱뜨리게 되는 질문들에 대해 자세한 설명이 있어서 도움이 될 것 같아요!

 

 

외삽과 내삽 설명 (191페이지)

 

 

[Point 3] 내용 이해를 확인할 수 있는 퀴즈들

문제들은 프로그래밍이나 수학적 지식 없이도 눈으로 보고 손으로 풀면 풀 수 있는 내용들로 이루어져있는데요.

문제도 한 장마다 여러개씩 제시되어 있어 학습에 충분한 도움이 되었고, 해설도 자세하게 되어 있어 내용을 파악하는데 유용했습니다.

 

 

 

총평

  • 추천 대상 : 데이터 분석에 대해 알고자 하는 모든 분들(현직 데이터 분석가 분들 까지도 어렴풋이 알고 있는 지식들을 다시금 확인하고, 리마인드 하는 차원에서 읽기도 좋은 책이에요)
  • 비추천 대상 : 데이터 분석에 대한 깊이있는 수학적 이론이나 수식, 원리에 대해 궁금하신 분들 (이런 경우에는 이 책보다는 다른 자료를 추가로 참고하면 좋을 것 같아요)

 
 

목차

이 책에서 다루는 주제는 다음과 같이 크게 7가지인데요, 데이터 분석의 기초 부터 시각화 하는 방법, 비슷한 데이터를 묶어서 분석하는 방법, 모델링하는 방법 등 다양반 범위를 다루고 있어서 분석을 업으로 하시는 분들 뿐만아니라 현업에 계신 분들도 데이터 분석 전반적인 흐름을 이해하는데 도움이 되도록 구성되어 있어요.

제1장 디지털 시대에 필요한 데이터 리터러시
제2장 데이터를 읽는 힘을 기른다
제3장 데이터를 설명하는 힘을 기른다
제4장 데이터를 분류하는 힘을 기른다
제5장 데이터에서 법칙을 발견하는 힘을 기른다
제6장 데이터를 보고 예측하는 힘을 기른다
제7장 업무에서 데이터 리터러시를 활용한다

 

각 장별 상세 목차는 다음과 같은데, 앞에서도 언급드린 것처럼

이 책에서 좋았던 점은 각 장이 시작할 때 어떤 내용을 다루게 될지, 그리고 각 장이 끝날 때 어떤 내용을 다루었었는지 요약해주는 <정리> 챕터가 있어서 내용을 파악하는데 큰 도움이 되었습니다.

 

 

제1장 디지털 시대에 필요한 데이터 리터러시
1-1. 디지털 시대의 도래
DX 시대의 빅데이터의 역할
Society 5.0의 실현

1-2. 데이터 리터러시는 미래의 직장인에게 필수 스킬
디지털 시대의 「읽기·쓰기·셈하기」 같은 소양
모든 대학생·고등학생이 배우는 데이터 리터러시
신입사원이 더 뛰어난 데이터 리터러시
column: 모든 직장인이 익혀야 할 DX 리터러시

1-3. 데이터 리터러시를 익히자
직장인이 익혀야 할 데이터 리터러시
column: 데이터 과학자란?

제2장 데이터를 읽는 힘을 기른다
2-1. 생각하면서 데이터를 읽자!
퀴즈1 : 데이터를 목적에 맞게 보는 방법을 배운다
퀴즈2 : 데이터의 특징과 경향을 파악하는 방법을 배운다
퀴즈3 : 데이터에서 착안점을 찾는 방법을 배운다

2-2. 전체의 경향을 파악하자!
데이터의 대푯값 : 평균값·최빈값·중앙값
퀴즈4 : 평균값·최빈값·중앙값 산출 방법을 배운다
퀴즈5 : 대푯값과 데이터 분포의 관계를 배운다
데이터 분포를 확인한다
column: 히스토그램의 폭
실제 사회에서는 평균값=최빈값이 아닌 경우가 많다
일본 국민의 대부분은 552만 3천 엔의 소득이 있다?
대부분의 세대는 1,791만 엔을 저축해 놓았다?

2-3. 데이터의 세부 내용을 확인하자!
퀴즈6 : 상이값·이상값을 배운다
존재하지 않는 데이터(결측값)

2-4. 데이터의 관계성을 파악하자!
퀴즈7 : 두 개의 데이터의 관계성을 배운다
두 데이터의 관계성 : 상관
상관관계와 인과관계
퀴즈8 : 상관과 인과를 배운다
상관관계를 어떻게 볼 것인가?

제3장 데이터를 설명하는 힘을 기른다
3-1. 데이터를 시각화해보자!
퀴즈1 : 적절한 그래프 표현을 배운다
적절한 그래프 표현
column: 시계열 데이터를 시각화할 때는 꺾은선 그래프?
column: 데이터 과학자는 원 그래프를 쓰지 않는다?
퀴즈2 : 부적절한 그래프 표현을 배운다

3-2. 데이터를 비교한다는 것은?
퀴즈3 : 적절한 비교 대상 설정 방법을 배운다
적절한 비교 대상 설정
데이터를 비교하는 4가지 시점
퀴즈4 : 어떤 시점과의 비교 방법을 배운다
퀴즈5 : 타자와의 비교 방법을 배운다
곱셈에 의한 분해
덧셈에 의한 분해

3-3. 데이터에서 과제를 찾아낸다
퀴즈6~9 : 데이터에서 과제를 찾아내는 순서를 배운다
매출 데이터에서 과제를 찾아내는 순서
포인트 3배 DAY의 매출 증가 효과
운동회의 매출 증가 효과

제4장 데이터를 분류하는 힘을 기른다
4-1. 특징이 비슷한 데이터를 그룹으로 만들자!
퀴즈1 : 데이터를 그룹으로 나누는 의미를 배운다
데이터를 그룹으로 나누는 의미
그룹별 해결 방안을 생각한다
column: 고객의 잠재적인 니즈를 파악한다
데이터의 특징이 비슷하다는 판단
퀴즈2 : 데이터 사이의 거리를 배운다
퀴즈3 : 거리를 계산할 때의 주의사항을 배운다
column: 스케일이 다른 데이터

4-2. 목적에 맞게 데이터를 분류하자!
퀴즈4 : 데이터를 분류하기 위한 관점을 배운다
데이터 분류의 어려움

4-3. 데이터를 기계적으로 분류하자!
퀴즈5 : 그룹의 중심을 배운다
데이터를 분류하는 방법 : k-means법
column: k-means법의 초깃값 문제

4-4. 데이터 분류를 체험하자!
퀴즈6~8 : 데이터를 분류하는 순서를 배운다
제5장 데이터에서 법칙을 발견하는 힘을 기른다
5-1. 데이터에서 법칙을 발견한다!
퀴즈1 : 데이터에서 법칙을 발견하는 방법을 배운다
퀴즈2 : 발견한 법칙을 적용하는 방법을 배운다
판별 문제의 특징

5-2. 판별 문제를 푸는 의사결정 트리 모델
퀴즈3 : 의사결정 트리 모델을 만드는 방법을 배운다
의사결정 트리 모델을 성장시킨다
퀴즈4 : 의사결정 트리 모델을 이용해 결과를 추측하는 방법을 배운다

5-3. 판별 문제의 정밀도를 평가해보자!
퀴즈5 : 판별 문제의 평가 방법을 배운다
2×2칸 크로스 표로 정리한다
판별 문제의 정밀도를 평가하는
적합률과 재현율 가운데 어느 쪽이 중요할까?

5-4. 의사결정 트리 모델을 활용해보자!
퀴즈6 : 데이터에서 법칙을 발견해서 판별 문제를 푸는 순서를 배운다

제6장 데이터를 보고 예측하는 힘을 기른다
6-1. 수치 데이터의 관계성을 확인하자!
퀴즈1 : 수치 데이터의 관계성을 확인하는 방법을 배운다
퀴즈2 : 수치 데이터의 관계성이 좁혀지지 않을 때의 대처 방법을 배운다
수치 이외의 데이터와의 관계성을 확인한다
퀴즈3 : 수치 이외의 데이터와의 관계성을 확인하는 방법을 배운다

6-2. 내삽과 외삽에 주의하자!
퀴즈4 : 데이터를 보고 예측할 때 주의해야 할 내삽과 외삽을 배운다
데이터를 보고 찾아낸 관계성을 적용할 수 있는 경우와 적용할 수 없는 경우
외삽에 의한 예측 예

6-3. 데이터의 치우침에 주의하자!
퀴즈5 : 데이터에 치우침이 있을 때의 주의사항을 배운다
데이터에 치우침이 없는지 확인한다
식료품점의 캠페인 실패

6-4. 시간 변화에 주목하자!
퀴즈6 : 시계열 데이터의 트렌드와 주기성을 배운다
시계열 데이터에서는 다양한 변동을 발견할 수 있다

6-5. 데이터를 보고 예측하자!
퀴즈7~9 : 데이터를 보고 예측하는 순서를 배운다

제7장 업무에서 데이터 리터러시를 활용한다
7-1. 데이터를 읽는 힘을 활용한다
데이터를 읽는 힘을 활용한 사례 : 앙케트 조사
데이터를 읽는 힘을 활용한 사례 : 상권 분석

7-2. 데이터를 설명하는 힘을 활용한다
데이터를 설명하는 힘을 활용한 사례 : 매출 분석
데이터를 설명하는 힘을 활용한 사례 : 품질 관리

7-3. 데이터를 분류하는 힘을 활용한다
데이터를 분류하는 힘을 활용한 사례 : 고객 세그먼테이션
데이터를 분류하는 힘을 활용한 사례 : 점포 뭉치기

7-4. 데이터에서 법칙을 발견하는 힘을 활용한다
데이터에서 법칙을 발견하는 힘을 활용한 사례 : 설비 이상
데이터에서 법칙을 발견하는 힘을 활용한 사례 : 고객 이탈

7-5. 데이터를 보고 예측하는 힘을 활용한다
데이터를 보고 예측하는 힘을 활용한 사례 : 상품 수요 예측
데이터를 보고 예측하는 힘을 활용한 사례 : 이용객 수 예측

맺는 말
참고문헌

 

 
 

본 리뷰는 출판사(비제이퍼블릭)로부터 서평단 체험에 선정되어 도서를 제공받아 작성된 리뷰입니다

 
 
 

반응형