P Stage 2 : Project Day 6
Day 6
- 역할분담
- EDA
역할분담
- 이전 대회에서 아쉬웠던 점을 회고하던 중 역할분담이 부족했다는 피드백이 있었음
- 이번에는 기간별, 역할 분담을 진행해서 어느정도 cross-check 방식으로 진행하기로 함
- 내가 맡은 역할은 EDA, Feature Engineering
- 이번주부터 분담될 역할은 아마 엔지니어링 파트일 것으로 생각
EDA
- 역할에 맞춰서 EDA 진행
- timestamp적인 부분보다 feature 하나하나의 특성을 분석하는 방향으로 진행
- 분석을 통해 얻은 인사이트
- 시험지 정보를 담고 있는 데이터인
testID
에서 앞부분 3자리는 난이도와 직접적인 영향을 미침 - 기존의 베이스라인에서는 문제의 정답률을 난이도 feature로 활용했는데, 너무 세분화된 정보보다는 분류기준이 명확한 순서형 자료로 feature engineering 하는 것이 효과적일 것으로 보임
- 난이도별로
KnowledgeTag
의 분포가 특이한 형태를 보이는 것을 확인함- 난이도가 낮은 문제일수록 태그의 군집을 이루는 형태를 볼 수 있으며 난이도가 높아질수록 태그가 골고루 분산된 형태를 보임
- 실제로 난이도 5는 군집이 크게 5개 정도로 형성되지만 난이도 6은 4개의 군집이 형성되는데, 난이도 6이 5보다 정답률이 높음
- user별
KnowledgeTag
의 정답률을 구분하고 각 태그끼리 정답률의 상관관계로KnowledgeTag
간의 상관성을 분석했음- diagonal element 부근에서 0.5이상의 상관성을 가진 경우가 많이 나타남
- 이는
KnowledgeTag
가 특정 범위끼리 군집을 이루거나 유사한 형태를 띈다는 것으로 해석할 수 있음
- 일반적으로 문항번호가 뒤로 갈수록 어려운 경향이 많음 (ex 수능)
- 따라서
assessmentID
의 하위 3비트 숫자에 따라 정답률을 확인함 - 전바적인 경향을 문항이 뒤로 갈수록 정답률이 낮아지는 경향을 보임
- 따라서
- 시험지 정보를 담고 있는 데이터인
Comments powered by Disqus.