본문 바로가기

MACHINE LEARNING/Statistics

Dealing with Uncertainty

Table of List

 

  1. 의사결정?
  2. 의사결정 평가 프로세스
  3. 뉴스에서 말하는 불확실성
  4. 모델은 왜 필요할까

 

의사결정?

공부할까 말까? 투자할까 말까? 결혼할까 말까? 미래의 결과가 불확실한 상황에서 현재 내려져야 하는 판단.

  • Decisions have to be taken in the present, with uncertain future outcomes
  • Decision-making is a process when one is faced with a problem or decision having more than one possible outcome.

Data-driven decision making?

  • 대규모 데이터 수집 기술로 가능해진 "빅데이터"에 대한 계량적 분석에 근거해 의사결정을 내리는 것

내부 변수 vs. 외부 변수

  • The possible results from the decision are a function of both internal variables and external variables.
    • internal variables = 우리가 관여하거나 통제할 수 있음
    • external variables = 우리가 관여하거나 통제할 수 없음

 

의사결정 평가 프로세스

문제 시나리오: "신제품 가격은 얼마가 적당할까?"

1. 문제 구조화하기

  • 질적 분석 (qualitative analysis)
    • "신제품을 $2에 내놨더니 첫날 모두 매진되었어. 가격을 더 올려야 해."
  • 양적 분석 (quantitative analysis)
    • current market demand
    • competitive market factors
    • expected production cost
    • advertising expenditure
    • ...

2. 의사결정에 관여하는 영향력 요인(influencing factor) 결정하기

  • 내부 변수(internal) 또는 외부 변수(external) 모두를 포함하는 influencing factors?
    • demand and competitive supply
    • availability of labour and materials
    • ...

3. 예상 결과 도출하기

'2에서 결정한 각각의 영향력 요인에 얼마나 많은 가중치를 부여할 것인가'의 문제. 질적인 접근법은 아래와 같다.

 

(1) 경영부서에서 각 영향력 요인에 대해 "질적" 평가 수행 (optimistic /'conservative / pessimistic)

(2)의사결정권자가 경영부서의 평가 내용을 검토

(3) 최종 의사결정

 

그러나 질적인 접근법은 의사결정권자의 지식과 경험에 편향되기 쉽다. '직관'은 때로 좋은 결과로 이어질 수 있지만, 장기적으로 '최적' 의사결정과는 멀어진다. 양적 분석에서는, 잠재적인 영향력 요인을 특정한 다음에 다음과 같은 질문에 답해야 한다.

 

  1. 우리가 알고 있는 것은 무엇인가?
  2. 우리가 '수집'할 수 있는 데이터 중 무엇이 '각 요인의 영향력'을 수치화하는 데 도움울 줄 수 있는가?

 

양적 분석에서, 평가와 검증은 수리통계학적 기법으로 구성된 프로세스로 구성된다. 우리는 (1) 영향력 요인, (2) 발생가능한 결과, (3) 최종 의사결정 간의 상관성을 분석하고 예측하기 위해 수리통계를 사용한다. 양적 분석의 목표는 다음과 같다.

 

  1. 현실 세계에 존재하는 관계성을 수학적으로 정의한다.
  2. 정의한 요인-결과 간 관계성 수치(상관성)를 평가한다.
  3. 숫자로 표현된 상관성을 기반으로 의사결정을 수행한다.

 

뉴스에서 말하는 불확실성

  • 뉴스 보도 = 세계 곳곳에서 발생하는 "새로운" 사건들에 대한 정보
  • 의사결정 = 미래 결과가 불확실한 상태에서 지금 내려지는 판단
    • 따라서 뉴스 보도는 현존하는 불확실성을 "업데이트"한다

Black swan

  • low-probability, high-impact events
    • 일어날 확률은 적지만 일단 발생하면 파급력이 매우 큰 사건
    • (예시) Subprime Mortgage Crisis, Brexit

Flash Crash

  • Brexit 표결 이후 파운드 가치가 $1.1841까지 추락한 사건
  • 분석가들은 "자동화된 트레이딩 시스템이 뉴스 보도에 반응"했을 것으로 추정
    • 헤지펀드 및 자산관리 운용에서 알고리즘 트레이딩이 보편화되는 추세
    • 알고리즘 트레이딩은 인터넷 뉴스 기사로부터 "유용한 정보"를 탐색
    • 뉴스의 "유용한 정보"는 알고리즘의 "확률적 믿음"을 수정

'These days some algos trade on the back of news site, and even what is trending on social media sites such as Twitter, so a deluge of negative Brexit headlines could have led to an algo taking that as a major sell signal for the pound,'
_Kathleen Brooks, research director at City Index

 

모델은 왜 필요할까

  • real world = 'big, horrible and complicated'
  • 현실 세계는 거대한 복잡계로, 한 사건에 수많은 요인들이 개입하고 영향을 미침
  • 현실 세계를 잘 이해하기 위해 단순화해야 함 -> "모델"이 필요함

모델

  • A model is a deliberate simplification of reality.
  • 좋은 모델은 몇몇 중요 변수만으로 현실을 설명할 수 있으며, 덜 중요한 디테일은 무시한다.
  • Trade-off
    • 현실을 단순화할 수록 이해하기 쉽다.
    • 현실을 단순화할 수록 현실과 멀어진다.
    • 이해하기 쉬울 만큼 단순하면서, 실제를 반영할 만큼은 복잡해야 한다.

모델 예시: 런던 지하철 약도

Fit-for-purpose!

  • A지점에서 B지점으로 이동하는 데 필요한 정보를 제공하는 목적 하에서, 런던 지하철 정보를 모델링한 것
  • 중요한 정보
    • 역 이름, 노선 색깔
    • 각 노선의 역 이동 순서
    • 각 노선 별 환승역
  • 중요하지 않은 정보
    • 터널의 깊이, 꼬불꼬불한 정도
    • 역 간의 정확한 거리
  • Takeaway
    • 모델의 목적을 수행할 만큼"만" 현실을 반영할 것
    • 모델의 목적을 수행하는 데 필요하지 않은 현실은 배제할 것
    • 합목적적인 선에서 최대한 단순하면서 최대한 복잡할 것!