안녕하세요,
데이터에 관심있거나 근무하고 계신 분들에게 이 책을 추천해드리고 싶어 글을 남겨봅니다. 😃
빅데이터 시대, 성과를 이끌어 내는
데이터 문해력
이 책을 읽으며,
'데이터 분석가'라는 직무가 되기 위해 대다수의 취업 준비생들은 프로젝트를 경험했을 것입니다. 문제 정의-가설 설정-실험 설계 및 검증/결과의 과정을 거치며 가장 먼저 '문제 정의' 단계에서 많은 시간을 보내고 시간이 급해 데이터를 가지고 여러 화려한 스킬을 통한 분석으로 결과를 보면 문제 정의로부터 해결 방안과 결론이 일치하지 않아 낙심한 경험들도 있을 것입니다. 이 책을 보기 전까지 저 또한 '데이터 분석 방법에서 잘못됐을 것이다', '데이터가 부족해서,,'라는 잘못된 편향적인 생각을 가지며 프로젝트를 마무리 한 경험이 있습니다. 올바른 시니어 데이터 분석가가 되기 위해 주니어부터 차근차근 성장해야 한다고 생각합니다. 빅데이터의 데이터 기술은 이미 기계와 AI 기술의 도움으로 해결할 수 있는 문제들이 충분히 많지만, 아직은 어떤 프로젝트에서도 가장 중요한 단계인 '문제 정의'에서는 인간의 생각과 판단으로 진행되어야 하므로 데이터 리터러시, 즉 데이터 문해력을 기르는 것이 중요하다고 생각합니다.
목차
.
데이터 문해력이란, '데이터에서 무언가를 읽어내는 능력'이 아니라
'스스로 정답에 대해 고민하고 데이터를 무기 삼아 합리적으로 논할 수 있는 능력'이라고 생각합니다.
카시와기 요시키 「데이터 문해력」 p.225 7장 '데이터로 문제를 해결할 수 있다'는 착각
1. 앞으로 필요한 건 데이터 문해력 : 분석보다 활용
데이터 활용을 못 하는 사람들의 공통적인 과제, 문제점
▶ 데이터와 [분석을 위한 기술과 지식] 작업을 선행한다.
자주 겪는 문제점
① 데이터를 적절하게 분석하려면 문제와 목적, 결론이 나올 것으로 생각한다.(이것은 본래 분석자 스스로가 생각해야 하는 것)
② 눈앞의 데이터를 적절히 가공하면 뭔가 유용한 정보를 얻을 수 있을 것으로 생각한다. 아무것도 안 나오게 되면, 분석 방법에 문제가 있다고 생각한다.
2. 올바른 데이터로 올바른 문제를 풀고 있는가?
데이터 활용에 실패하는 두 가지 이유 !
- 주요 원인 1 : 풀고자 하는 문제가 명확하지 않다.
- Are you solving the right problem ?
- 주요 원인 2 : 정의한 문제와 사용하는 데이터가 일치하지 않는다.
- Are you using the right data ?
데이터 활용에서 먼저 해야 하는 작업은 '목적과 문제를 정의하는' 것입니다.
- 나는 무엇을 알고 싶은가
- 나는 무엇을 해결하고자 하는가
포인트 1 : 사용된 언어가 구체적이고 명확한가?
무엇이 문제이며 구체적으로는 어디 사는 누가 어떤 식으로 곤란에 처해 '문제'가 발생한 것인지, 이점을 명확하게 해야 합니다.
포인트 2 : '문제', '원인', '해결 방안'을 구분하고 있는가?
- '문제'가 무엇인가
- 그 문제를 일으키는 '원인'은 무엇인가
- 그 원인에 대한 '해결 방안'은 무엇인가
3. '이것이 문제다' 데이터로 말하는 방법
현상 파악 및 평가력 : 문제를 표현하는 힘
▶ 가치 있는 정보란 무엇인가?
- 구체적인 행동을 특정할 수 있다.(누가 언제 무엇을 했는지)
- 구체적인 판단을 내릴 재료가 된다.
사실 및 결과 표시 ≠ 평가
사실과 결과의 데이터를 그래프나 표, 지표 등으로 표시하는 것과 내용을 평가해서 구체적인 행동과 판단으로 연결하는 것
이 둘을 구분한 후, 후자에 필요한 평가를 준비하는 것이 바로 데이터 활용의 중요한 단계입니다.
비교할 때는 관점이 중요하다.
'평가'를 하기 위해 필요한 것은 바로 '비교' 입니다.
결론이 데이터와 일치하는가?
데이터를 활용해서 결과물을 만들 때, 자기 생각과 주관을 전하면 안 됩니다. 더욱 엄밀하고 객관적으로, 논리적으로 주장을 전달해서 상대방이 이해할 수 있도록 해야 합니다.
결론을 심정적으로 정해놓고 데이터로 평가하려다 보면, 그 결론과 다른 결과가 나올 경우 결론 자체를 바꿔야 할 수도 있습니다. 만일 데이터를 결론에 억지로 짜 맞추게 되면 본말전도이기 때문에 더더욱 주의가 필요합니다.
비교할 때 체크 포인트
① 결론으로 이어지는 결과가 나올 것인가(반드시 결론으로 부합하는 결과가 나온다는 보증은 없습니다.) ?
▶ 데이터 중심으로 접근하는 사람의 결과물은 대체로 '결과'로 끝납니다. 하지만 그렇지 않고 '목적 중심'으로 접근하는 사람은 '결론'까지 말합니다.
'데이터를 활용한다'란, 결과가 아니라, 결론을 도출하는 것입니다.
② 비교를 통해 '차이'를 찾을 수 있는가?
데이터 평가 기준과 대표적인 지표
데이터 평가 기준 | 대표적인 지표 |
값의 크기 | 평균값, 합계 |
추이 | 선형 그래프, 막대 그래프, 변화율 |
등락 폭 | 표준 편차, 도수 분포도 |
비율 | 분수, 퍼센트 |
당신이 현재 직면하고 있는 문제나 그 배경에 대해 전혀 모르는 제 3자가
바로 앞에 있다고 상상하세요. 그 사람에게 당신이 다루는 문제를 데이터로 설명하려면
무슨 데이터를 어떻게 보여주면 될까요?
카시와기 요시키 「데이터 문해력」 p.129.3장 '이것이 문제다'데이터로 말하는 방법
4. 결과가 나왔다고 끝난 것은 아니다
해결 방안은 원인에 실행되어야 한다는 것을 알고 있나요?
원인 후보를 이끌어 내는 방법과 지표를 특정하는 방식
문제와 원인, 그 관련성 유무를 확인하는 방법
1단계 : 시각적으로 관련성을 확인한다.
2단계 : 통계 지표를 확인하다 ~ 상관계수 ~
- 상관분석 : 가로축과 세로축이 선형 관계를 보일 경우, 그 관련 정도를 나타내는 통계 방식
- 상관계수 : 가로측과 세로축의 관련도(얼마나 직선에 가까운 형태인지)를 나타냄
중요 포인트
- 실적과 결과 표시만 하고 끝낸 것은 아닌지,
- 이 결과를 통해 구체적인 판단이나 행동으로 연결될 것인지
- 문제와 결과에 대한 원인을 충분히 고려했는지.
알아두어야 할 주의사항
상관관계는 인과관계를 나타내는 것은 아니다.
▶ 상관분석 결과는 '인과관계'를 나타내는 것이 아닙니다. 선형 관계성 여부만 파악하는 것은 주의해야 합니다. '상관관계가 있다.'라는 결과가 분석을 통해 도출되지만, 양자 간 '인과관계'가 있는지 어떤지, 그리고 어느 쪽이 결과이고 어느 쪽이 원인인지는 분석자의 '해석'이라는 것을 염두에 두어야 합니다.
5. 기법에 집착하지 마라
전체 구성력 : 스토리(논리)를 만드는 힘
데이터를 활용하려면 본질적으로 논리적인 사고가 반드시 기반이 되어야 한다.
문제 해결 프로세스 재확인
결과와 유효성에 차이가 생기는 '원인' 파악 유무
'해결 방안'으로 가기 전에 '원인'을 분석하는 것입니다.
'해결 방안'은 '문제'에 직접적으로 적용하는 것이 아니라, '문제'를 일으키고 있는 '원인'에 적용하는 것입니다.
아쉬운 결과가 나오는 것은 데이터 활용이나 분석 내용에 문제가 있어서가 아니라, 적절한 사고 과정을 밟지 않았기 때문이다.
당신도 '방법맨'이 되어 있지 않습니까?
- 어째서 (다른 수단이 아니라) 그것이 필요한지?
- 그로 인해 어떤 것을 실현 또는 해결 가능한가?
프로세스를 잊어버리기 쉽상
'무엇을 해결, 실현하고자 하는가'(목적 및 문제)와
'무엇이 결정적 요인인가'(원인)
위 두 가지를 확실히 한 다음에,
'무엇을 해야 하는가'(해결 방안)
라는 순서로 사고를 진행해야 합니다.
6. '결론은 이것이다' 정보를 요약하라
정보 집약력 : 정보를 수집하고 결론을 이끌어내는 힘
결과와 결론은 다르다
계산과 분석을 해서 나온 결과물은 어디까지나 '결과'이며,
그 결과가 목적에 대해 어떤 의미가 있는지 설명하는 것이 '결론'입니다.
결과와 결론에 이르는 과정은 본질적으로 같습니다. 결론이란 결과를 기반으로 도출하는 것이기 때문입니다. 하지만 표현 방식은 다릅니다. 그리고 그 작은 차이가 상대방에게 전달되는 방식이나 이해도에 큰 영향을 미칩니다. 이 차이를 이해하는 것 또한 데이터 문해력에 있어서 중요한 요소입니다.
7. '데이터로 문제를 해결할 수 있다'는 착각
시야 확대력 : 데이터로부터 시야를 넓히는 힘
분석 범위와 이용해야 할 데이터를 적절히 논리적으로 검토한 프로세스
- 어떤 범위, 어느 시점의 정보(데이터)가 필요한가?
- 어떻게 처리, 가공해야 할 것인가?
이 프로세스가 가설 수립에 필요하다.
데이터 → 가설(데이터에 기반한 가설 수립)'이 아니라,
'가설 → 데이터'
최선의 접근 방식은 '논리적 사고(로지컬 씽킹)' 입니다. 여기서 말하는 '논리적 사고'란 문제를 구조화하고 정리하면서 생각하는 것을 가리킵니다.
논리적 사고 습득 방법
- 짝짓기
- 개인 - 조직
- 방법론(하는 법) - 의식(의욕)
- 있다(그렇지만 할 수 없다) - 없다
- 자기 부정
8. 개인과 조직의 데이터 활용 능력을 높이는 방법
실행력 : 문해력을 실행하는 힘
잘 나가는 개인과 조직은 무엇이 다른가
공통점 1: 선생님과 팀장, 파트장 등의 리더십, 책무로 확립되다.
- 제도나 평가게 '데이터 활용'을 도입하고 업무 시스템으로 '반드시 해야 할 일'로 명시하고 있는 조직 또한 실제 존재합니다. 그런 조직은 '앞으로 나아가고 있습니다.'
공통점 2: 목적이 명확하다.
- 데이터를 사용하는 목적은 무엇인가? 데이터를 분석해서 실현하고 싶은 것이 무엇인가, 어떤 행동으로 이어지게 하고 싶은가? 앞으로 나아가는 조직은 그런 명확하고 구체적인 목표와 목적을 제시하고 현장에서 공유하고 있습니다.
공통점 3 : '생각'과 '작업'의 차이와 가치를 이해한다
- '생각'과 중요성과 이를 위해 필요한 환경을 이해한다면, 충분한 시간과 환경의 칠요성을 검토하고 준비할 수 있을 것입니다.
공통점 4 : 결과물을 적절하게 평가할 수 있는 사람이 있다.
- 상급자(선생님, 직장 상사)는 결과물에 대해 어느 정도 평가를 하고 피드백을 줄 수 있는 능력을 갖추어야 합니다.
책에는 예시와 함께 친절하게 설명해주셨다.
항상 고민해왔던 부분을 다양한 예시와 함께 설명해주셔서 실무에 접근했을 때
저자가 말씀해주신 부분들을 생각하며 가치 있는 성과를 창출하는 데이터 분석가가 되어야겠다.
다음에는 「그로스 해킹 」 책 리뷰에 대해 작성하도록 하겠습니다.
'Life > Book' 카테고리의 다른 글
[책 리뷰] 그로스 해킹 (0) | 2023.11.18 |
---|