CJ REMOTE Internship/빅데이터

빅데이터가 별건가, 알고 보면 쉬운 통계상식

똔똔똔 2022. 6. 22. 16:02

1. 빅데이터 시대의 현재와 미래

빅데이터란 무엇인가

기존의 IT기술로는 처리하기가 상당히 어려운 데이터

빅데이터를 활용하기 위해서는 정보를 담고 있는 데이터에서 고객과 시장에 대한 통찰력(Insight)이 필요함

클라우딩 컴퓨터를 활용하여 적절한 기계학습으로 자동적으로 인사이트를 추출하여 현명한 의사결정에 활용함

빅데이터를 통한 경쟁우위 달성

빅데이터, 인공지능, 제4차 산업혁명은 데이터에 바탕을 둔(Data-Driven), 사실에 근거한(Fact-based)의사결정에 깊게 뿌리를 내리고 있음

데이터분석을 통하여 고객과 시장에 대한 인사이트를 추출하여 현명한 의사결정을 할 때만이 지속가능한 경쟁우위를 창출할 수 있음

기업 경쟁력의 3가지 원천: 남들보다 낮은 비용, 남들이 무관심한 틈새시장, 남들이 쉽게 모방할 수 없는 차별성

빅데이터 시대 대응 방안

디지타이징 비즈니스(Digitizing Business)로 사업 전반을 디지털로 혁신해야 함

기업의 경영진은 분석지향 리더십으로 무장해야 함

 

2. 분석능력: 빅데이터 시대에 필요한 개인의 경쟁력

문제인식의 6단계

1) 문제인식: 문제를 인식하고 그것을 해결하려는 것에서 시작하는 단계

2) 관련 연구 조사: 문제와 직접적, 간접적으로 관련된 지식을 잡지, 책, 보고서, 논문 등을 통해 문제와 관련된 주요 변수들을 파악하는 단계

3) 모형화: 문제와 관련된 내용을 정리해 관련 변수를 뽑아내는 단계

4) 자료수집: 모형화를 통해 주요 변수로 재구성되고 측정이라는 과정을 거쳐 자료를 수집하는 단계

5) 자료분석: 나열된 숫자에서 변수 사이의 규칙적인 패턴, 즉 변수 간 관련성을 파악하는 단계

6) 결과제시: 다양한 차트나 그래프를 활용하여 결과를 제시하는 단계

3. 평균의 함정

* 심프슨의 역설: 부분의 분석이 전체의 결과와 일치하지 않는 것

평균의 종류

산술평균: 모든 자료의 값을 다 더해서 전체 수로 나눈 것

대푯값: 평균이 전체 숫자의 중심을 나타내는 것

중앙값: 숫자들을 크기의 순서로 배열했을 때 정 가운데에 위치하는 값

최빈수: 가장 흔하게 나타나는 수

어떤 평균을 써야 하나?

평균을 선택 시 데이터의 특성에 알맞는 것을 선택해야 함

명명척도로 측정한 경우에는 최빈수만을, 서열척도인 경우에는 중앙값만을 사용하고, 그 외의 경우에는 세 가지 평균 모두를 사용할 수 있음

흩어져 있는 정도

흩어진 정도를 나타내는 가장 간단한 측정치는 범위(Range)로서 최소값과 최대값과의 차이임

최솟값과 최댓값의 차이가 클수록 많이 흩어져 있다고 할 수 있음

흩어진 정도의 측정치로 널리 쓰이는 것이 표준편차임

 

4. 퍼센트의 함정

퍼센트

'무엇에 대한' 퍼센트라고 표현할 때, 그 '무엇'이 언제나 기준이 되며, 이 기준은 퍼센트를 계산할 떄 분모가 됨

퍼센트는 2개 이상의 숫자의 상대적 크기를 명확하기 하기 위해 사용됨

퍼센트의 마술

퍼센트를 대할 때는 무엇에 대한 퍼센트인지, 기준이 제대로 적용되어 있는지를 항상 따져 보아야 함

어떻게 기준을 잡느냐에 따라 눈속임이 가능하기 때문에 주의해야 함

퍼센트 비교

퍼센트 비교 시 퍼센트를 계산한 기준의 크기가 비슷한가를 알아봐야 함

퍼센트 포인트

두 퍼센트의 기준이 같아 보통의 숫자와 같이 비교가 가능할 때, 퍼센트의 차이(혹은 변화)를 퍼센트 포인트라고 함

 

5. 시각화의 오용과 남용

시각화의 중요성

숫자가 나타내는 정보를 시각화하여 쉽게 이해할 수 있도록 전달해야 함

빅데이터 시대, 다양한 시각화 솔루션과 툴의 사용이 중시되고 있음

일반적으로 그래프를 많이 사용함

그래프의 함정

그래프를 그리는 사람이 강조하고자 하는 의도에 맞게 변화시킬 수 있으므로, 그래프 눈금 크기를 일관성 있게 유지해야 함

그림도표의 경우, 그리는 과정에서 일어날 수 있는 과장이나 축소에 주의해야 함

그래프의 공정성을 평가하기 위해서는 그래프가 전체 그림을 보여주고 있는지, 눈금이 과장되어 있는지 생각해 봐야 함

 

6. 생활 속의 확률 I

확률의 개념

확률은 불확실한 것을 재는 것. 0에서 1까지의 값을 갖는데 그 값이 커질수록 일어난 가능성이 높아짐

선험적 확률

경험하지 않고도 이론적으로 미리 알 수 있는 확률과 실제로 일어나는 확률을 비교하는 것

경험적 확률

오랜 기간에 걸쳐서 동일한 상황이나 조건 하에서 어떤 사건이 일어나는 상대적인 비율로서 확률을 해석하는 것

주관적 확률

한 개인이 어떤 사건이 일어날 것이라고 믿는 정로로, 주관적 확률의 객관성, 정확성이 의사결정의 성공여부를 좌우

7. 생활 속의 확률 II

확률의 함정

대부분의 사람들은 확률에 대한 이해가 매우 낮으므로, 정확한 의사결정을 위해서는 올바른 확률 계산이 필수

도박사의 오류

시도(혹은 실험)를 반복하면 반복할수록 원래의 이론적인 확률에 접근한다

-> 평균의 법칙(Law of Average) 혹은 대수의 법칙(Law of Large Numbers)

이로인해 독립적인 사건들을 어떤 관계가 있는 종속적인 사건으로 보는 도박사의 오류가 발생함

유용성의 오류

사람들이 확률 판단을 하는데 있어서 일어하는 것으로 쉽게 기억나는 사건들이 일어날 확률이 높다고 평가하는 것

 

8. 믿음과 불신 사이: 여론조사 올바로 이해하기

표본조사와 대표성

표본조사: 전체가 아닌 일부 표본을 조사하는 방법

대표성: 모집단에서 무작위로 추출한 표본은 모집단의 대표성을 띄어야 함

표본의 무작위 추출

모집단에 속한 대상들이 표본에 뽑힐 확률이 모두 동일한 것

표본을 뽑을 때 표본을 뽑는 사람의 판단이나 편리함이 전혀 고려되지 않음

뽑기에 편리한, 주로 가까이에 있는 대상을 표본으로 추출한 편의표본

질문과 응답항목

질문에 미리 어떤 가치 판단을 깔아놓고 답을 원하는 방향으로 유도할 수 있으므로, 질 좋은 질문을 하는 것이 중요함

어떤 응답할목에 대한 응답비율을 높이려는 조사자의 의도가 개입되어서는 안됨

조사결과의 해석

조사결과의 확대해석도 일반인들이 조사결과를 대할 때 경계해야 함

왜곡된 정보를 주고받지 않으려면 조사 겨로가에 대한 행간을 파악해야 함

표본이 적절한가에 대한 것도 생각해야 함

모집단의 정의, 표집방법, 응답률, 표본의 크기 등에 있어 표본의 대표성이 유지되는지 체크해야 함

 

9. 상관관계와 인과관계

인과관계

원인은 결과보다 시간적으로 앞서야 함

원인과 결과는 관련이 있어야 함

결과는 원인이 되는 변수만으로 설명이 되어야 하고 다른 변수에 의한 설명은 제거되어야 함

상관관계

어떤 변수가 증가할 때 다른 변수가 함께 증가하는지 혹은 감소하는지를 관찰하여 파악해야 함

어떤 것들 간의 관계가 밀접하다는 것을 나타낼 뿐, 어느 것이 원인이고 어느 것이 결과인지에 대해서는 아무런 증거도 제공하지 않음

단순한 상관관계를 인과관계로 해석하는 오류를 주의해야 함

우연한 상관관계

우연히 상관관계를 나타내는 경우가 흔하다는 것으로, 통계학에서는 허위(spurious)관련성이라고 함

A가 일어난 다음에 B가 일어났다고 해서 A가 B의 원인이라고 결론짓는 것을 전후인과의 오류(post hoc fallacy)라고 함

인과관계의 방향

상관관계가 있다고 할 때 흔히 생각하는 것과 반대방향으로 인과관계가 작용할 수 있음

성급하게 단순화하는 오류를 그대로 받아들이지 않도록 주의해야 함

 

10. 비교

비교의 함정

비교: 둘 이상의 사물을 견주어 서로 간의 유사점, 차이점, 일반 법칙 따위를 고찰하는 것

비교 대상을 계량화하기 어려운 경우에 남의 것이 더 커 보임

올바로 비교하는 법

정확한 비교가 되려면, 비교되는 특성에 대한 정의가 동일하고 비교되는 특성 이외의 것들에 대해서는 서로 비슷해야 함

 

11. 어림수의 허실

어림수의 마력

숫자는 과학적이라는 이미지와 설득력 있는 힘을 갖기 때문에 어림수를 사용하여 이야기하는 경우가 많음

여러 가지 한계 때문에 정확한 숫자의 계산이 어려워 어림수를 사용함

어림수의 대응

1) 상식적으로 생각함

2) 모든 숫자를 우선 의심하는 태도

3) 숫자가 중요한 의미를 가지려면 해당 주제나 문제와 직접적으로 관련있어야 함

4) 숫자가 정확한지 아닌지 판단함

5) 숫자에 대한 해석이 해결하려는 문제와 관련 지어서 적절한지를 판단함

12. 창의성과 분석능력 키우기

창의성은 패턴찾기

창의성이란 우리가 아직 파악하지 못한 변수간의 규칙적인 패턴을 찾아내어 이를 유용하게 활용하는 것