데이터 획득(필요데이터 지목과 조작적 정의)

CJ REMOTE Internship/데이터 리터러시

데이터 획득(필요데이터 지목과 조작적 정의)

똔똔똔 2022. 6. 8. 22:29

1. 데이터 지목 역량

데이터 지목의 2가지 요건

데이터 지목의 사례

사례1: 무한도전 피겨 판매중단

주장1: 무한도전에서 제일 인기가 좋은 건 유재석이 아닌, 정형돈이다.

이때, 단 하나의 데이터를 피겨 제작사에게 요청하여 이 주장의 사실 여부를 점검하고자 할때,
어떤 데이터를 요청해야 할까?

-> '피겨별 생산량'

"품절되었다"는 의미는 적은 생산량 혹은 많은 판매량을 의미
애초에 정형돈 피겨의 생산량이 적다면, 가장 인기가 없는 것은 정형돈일 수 있음.

사례2: 데이터를 통해 국내 자동판매기 시장의 성장 유무 파악

주장1: 필요한 데이터는 생산 단가 데이터이다.

주장2: 필요한 데이터는 자판기 종류별 생산량 데이터이다.

둘 중 더 좋은 지목은?

좋은 지목은 가설을 검증하기 위한 지목

주장1은 주장의 기저에 '세상에 자판기의 종류를 하나로만 본' 강한 가정이 존재

이 경우, 강한 가정 자체를 해석하기 위해 또 다른 데이터가 필요하다.

주장2는 '시장에 큰 자판기는 감소하고 작은 자판기는 증가한다는 가능성'을 유추

자신의 가설에 대한 검증을 위해 데이터를 요청할 수 있음

물론, 가설은 틀릴 수 있지만 문제 해결을 위해 생각하는 힘에 기반한 데이터 요청이 좋은 요청이다.

위의 예시2 속 생산량 증가와 생산 금액 하락의 원인

2001년, 자영업자가 크게 증가

1. 편의점이 전국적으로 크게 늘어났다.

-> 길거리의 큰 자판기가 사라진 원인

2. 식당이 전국적으로 크게 늘어났다.

-> 식당용 작은 자판기가 증가한 원인.

2. 데이터 판단 역량

데이터 판단의 중요성

수많은 데이터와 수많은 종류의 주장들 속 데이터가 무엇인지 판명하는 것이 중요.

사례1.

분만의 경향성은 소득에 의해 결정된다는 주장이 담긴 뉴스

이 데이터들 중 '소득이 분만을 결정한다'는 주장을 뒷받침할 수 있는 것은?

1: 분만 시기 보험료 분위 -> 소득이 분만을 결정

2: 계층별 가구주 평균 연령 변화 -> '분만'이라는 단어가 빠져있어 소득이 분만을 결정하는지 알 수 없음

3: 전체 출산 중 각 소득분위 점유율 변화 -> 소득이 분만을 결정

4: 엄마의 평균 출산 연령 -> 연령이 출산을 결정, 약화관계 (제 3의 요소가 영향을 주므로)

5: 임금수준별 기혼자 비율 -> 소득이 분만을 결정하는 지는 알 수 없음 (기혼과 분만은 관련있지만 같은 것은 아님)

6: 소득분위별 출생아 수 -> (데이터를 어떻게 읽는가에 따라 강화와 약화가 둘 다 가능함)

부자로 갈수록 출생아 수는 늘었지만, 가장 최상위 분의로 갈수록은 출생아가 줄었기 때문. (구간에 따라 결과가 다름)

7: 10년간 가임기 여성 임신 및 분만 경향 -> (데이터를 어떻게 읽는가에 따라 강화와 약화가 둘 다 가능함)

연령이 출산을 결정한다는 의미가 더 강함 (잉크 레이시오)

8: 소득 하위 40% 대비 소득 상위 40% 출산 배수 -> 소득이 분만을 결정

'데이터가 많아 주장이 맞다'라고 이야기할 수 있지만
'데이터가 많아 주장이 틀렸다'고 이야기 할 수도 있음

중요한 것은 맞다, 틀리다가 아닌
강화, 약화관계