Book - 틀리지 않는 법
Book - 틀리지 않는 법
지금까지 읽었던 Data science 관련 교양서 중 가장 두꺼운 책입니다. (총 페이지가 무려 614p..)
블로그, 커뮤니티에서 추천하는 걸 보고 구매했는데 모든 내용을 다 이해하지는 못했지만 앞으로 업무하면서 충분히 도움이 될 만한 내용들이 많아서 만족했습니다. 책의 어떤 내용들은 읽었을 때에는 당연한 얘기일 수도 있어 보이지만 일을 하다보면 간과하기 쉬운 부분이기도 했습니다.
프롤로그
어떤 가정을 품고 있는가? 그 가정은 정당한가?
전쟁에서 총알구멍이 아군의 비행기에서 한 대당 두 개 이상 절대 발견되지 않는다면?
-> 조종사들이 적의 포화를 피하는 데 뛰어난 것이 아니라 두 번 이상 맞은 비행기는 돌아오지 못했다는 것
선형성
같은 계산을 다른 방식으로 여러 차례 반복했을 때, 다른 답이 나온다면 문제가 있다.
- 비례를 잘못사용해서 해석할 경우
- 어떤 술집이 문 닫을 시각까지 남아 있던 두 남자 중 한 명이 다른 한명을 폭행
- 이것이 곧 미국인 50%가 폭행을 당한 격이라고 말할 수 없는 것
- 어떤 술집이 문 닫을 시각까지 남아 있던 두 남자 중 한 명이 다른 한명을 폭행
- Volumn과 Ratio를 문제 상황에 맞게 활용
큰 수의 법칙
- 이미 벌어진 일에 대해서 균형을 맞추는 것이 아니라, 비율로 따져서 과거의 횟수가 무시해도 좋을 만큼 작아질 때까지 새로운 데이터를 더함으로써 이미 벌어진 일을 희석
추론
인간은 패턴이 없는 곳에서도 패턴을 읽어 내고 실제 패턴이 있을 때에는 그 힘을 과대평가하는 경향이 있다.
P-value 해킹
- 저널의 다양한 분야를 조사한 결과, P-value 그래프는 기준인 0.05로 다가갈수록 눈에 띄게 상승
- 발표 불가능한 실험 결과 중 다수가 저자의 의도로 경계선 너머 허용할 수준으로 넘어왔다는 추론 가능
판사가 아니라 탐정
- p-value와 더불어 신뢰 구간 같이 보기
- 신뢰 구간은 실제 관찰한 결과에 합리적으로 부합하는 가설들의 범위를 말함
- 신뢰 구간이 [3%, 17%]라면 효과가 양성이긴 하지만 그렇게 까지 크진 않다는 것
- But, [9%, 11%]라면 효과가 양성일 뿐 아니라 상당이 크다는 것을 암시
회귀
상관관계와 정보량간의 관계
- 측정 항목들 간의 상관관계가 더 클수록 분류된 데이터의 정보량은 작아짐
- 즉 Segment할 때에는 상관관계가 적은 변수로 해야 의미가 있음
상관관계가 없다고 해서 연관성이 없는 것이 아니다
- 골턴의 상관관계 개념은 한 변수가 증가하면 다른 변수도 그에 비례하여 증가하거나 감소하는 선형적 관계만 감지
- But, 모든 관계가 선형적 관계는 아님
- 수학적 도구는 특정 종류희 현상은 감지하지만 다른 종류는 감지하지 못함
- 상관관계가 없다는 말은 상관 계수가 감지할 수 있는 종류의 관계가 없다는 뜻일 뿐
에필로그
기대값
- 기대값은 우리가 기대하는 값이 아니라, 가능한 결과들에 대한 확률적 타협