CJ REMOTE Internship/데이터 리터러시

데이터 기반 의사결정 2 (질문속도가 분석속도다.)

똔똔똔 2022. 6. 8. 23:20
벤쿠버 동계 올림픽 '스키 활강' 종목을 시청 중인 A와 B
A는 스키 활강에 대해 잘 모르고, B는 잘 알고 있다.
두 친구의 대화

A: 우와 저것 봐! 엄청난 스피드로 내리 꽂는데?

B: 아~ 저건 스키의 꽃 활강 경기야. 남자의 경우 최고속도가 130km/h가 넘어

 

A: 아 그렇구나, 근데 어떻게 진행되는 건지 알아?

B: 일단 기록 경기야. 주어진 슬로프를 누가 먼저 내려오는가가 관건이지. 이번 대회에도 출전 선수가 60명이나 돼.

 

A: 그렇게나 많이?

B:  출전 선수가 많긴 한데, 경기는 금방 끝나.

단 한번의 시도로 승부를 가리고 속도가 워낙 빨라 한 선수당 약 1분 50초 정도면 진행이 가능해

그래서 1등과 2등의 차이가 0.01초 차이로 갈리는 경우도 다반사래

저것봐! 코너에서는 스키의 바닥면으로 타는 것이 아니라

거의 스키의 양쪽 엣지 부분을 이용해서 눈을 두부 썰듯이 가르면서 내려와. 대단해!

 

A: 눈을 두부 썰듯이? ㅋㅋㅋ 근데 말이야... 궁금한게 있어.

B: 뭔데

 

A: 약 60명의 선수가 2분 간격으로 똑같은 슬로프를 두부 썰듯이 질주하면

출전 순서가 뒤쪽인 선수들이 더 유리하지 않아?

B: 응. 왜?

 

A: 승부가 0.01초로 갈리는데, 앞 선수들이 질주하면서 생긴 스키자국이 뒤 선수들에게 영향을 줄 것 같은데?

만약에 대부분의 선수들이 기록을 조금이라도 단축하려고 최단 경로만을 선택할 것을 가정한다면 말이야.

그러면 당연히 그 최단거리에 스키 자국이 많이 남게 될꺼고. 그로 인해 뒤 선수들이 좋은 영향을 받을 것 같은데?

B: 음... 글쎄...

 

2. 데이터 분석은 질문력

3개의 데이터가 있다고 가정

1. 밴쿠버 올림픽 출전 순서

2. 밴쿠버 올림픽 기록

3. 선수별 종전 최고 기록

 

문제의 목적: 경기 운영 상 문제가 있는지 없는지 확인하는 것 (자국이 경기에 영향을 주는가)

먼저, 분석을 하기 위해서는

일상생활에서 맞닥드리는 모든 질문(Business Questions)을 분석이 가능한 형태로 다시 전환해야 함.

 

자국에 대한 데이터가 없으므로 순서로 전환

 

전환한 문제의 목적: 경기 순서가 결과에 영향을 주는가

D1: 밴쿠버 올림픽 출전 순서
D2: 밴쿠버 올림픽 기록
D3: 선수별 종전 최고 기록
데이터 분석은 이치(개념)과 수치를 연결하는 과정

D1이 '순서'를 대표할 자격이 있는가?

 

Q. D1이 '순서'라는 개념을 대표할 수 없는 경우는?

- 순서가 실력순으로 결정되었는가? (D1과 D3의 관계 확인 - 엑셀 스캐터 차트)

 

스캐터 차트 결과 D1과 D3의 관련이 없음 (R^2 = 0.14...)

= D1은 순서를 대표할 수 있다.

 

 

 

D2가 결과라는 개념을 대표할 자격이 있는가?

Q. D2가 이변의 산물이라면? (D2와 D3의 관계 확인)

 

확인 결과, 관련이 없음.

=D2는 결과를 대표할 수 있다.

(단, D2는 당일 데이터이므로 샘플 크기가 작다)

 

 

 

D2가 이변의 산물일지라도 경기 순서가 경기 결과에 영향을 미쳤는가?

이변을 수치로 표현: D3와 D2의 차이값

(원래 잘하던 선수가 올림픽에서 못한 경우 and 원래 못하던 선수가 올림픽에서 잘한 경우)

 

최종 분석 결과

- 밴쿠버 올림픽 경기 자체는 이변이 많은 경기였다.

- 그래서 밴쿠버 올림픽 경기 출전 순서와 경기 결과 그 자체를 비교할 수는 없다.

- 또한, 이러한 이변의 산물이 순서에 의해 영향을 받지는 않았다.