데이터 분석 코드 필사 (2020.07.22)¶- 원본: Titanic Data Science Solutions (by Manav Sehgal)¶- 순서¶1. 문제 정의¶2. 훈련, 테스트 자료 정의¶3. 데이터 분석¶4. 데이터 전처리¶ 문제 정의¶1912년 4월 15일 타이타닉 호가 북대서양 해상에서 유빙과 충돌해 가라앉는 사고가 발생전체 2224 명의 승객들 중 1502 명의 사망자를 기록 (32% 생존율)높은 사망율은 부족한 구명선 때문특정 그룹(예: 어린이, 상류층)의 생존율이 비교적 높았음문제: 타이타닉 승객 정보를 이용해 타이타닉 사고로 인한 생존/사망 여부를 예측하는 것이 목적훈련 자료: 타이타닉에 승선한 승객 정보와 사고로 인한 생존/사망 여부의 정보테스트 자료: 오직 승객 정보만 훈련,..