Home [BoostCamp AI Tech / P Stage 3] Day66 - Project Day 6
Post
Cancel

[BoostCamp AI Tech / P Stage 3] Day66 - Project Day 6

P Stage 2 : Project Day 6


Day 6

  • 역할분담
  • EDA

역할분담

  • 이전 대회에서 아쉬웠던 점을 회고하던 중 역할분담이 부족했다는 피드백이 있었음
  • 이번에는 기간별, 역할 분담을 진행해서 어느정도 cross-check 방식으로 진행하기로 함
  • 내가 맡은 역할은 EDA, Feature Engineering
  • 이번주부터 분담될 역할은 아마 엔지니어링 파트일 것으로 생각

EDA

  • 역할에 맞춰서 EDA 진행
  • timestamp적인 부분보다 feature 하나하나의 특성을 분석하는 방향으로 진행
  • 분석을 통해 얻은 인사이트
    • 시험지 정보를 담고 있는 데이터인 testID에서 앞부분 3자리는 난이도와 직접적인 영향을 미침
    • 기존의 베이스라인에서는 문제의 정답률을 난이도 feature로 활용했는데, 너무 세분화된 정보보다는 분류기준이 명확한 순서형 자료로 feature engineering 하는 것이 효과적일 것으로 보임
    • 난이도별로 KnowledgeTag의 분포가 특이한 형태를 보이는 것을 확인함
      • 난이도가 낮은 문제일수록 태그의 군집을 이루는 형태를 볼 수 있으며 난이도가 높아질수록 태그가 골고루 분산된 형태를 보임
      • 실제로 난이도 5는 군집이 크게 5개 정도로 형성되지만 난이도 6은 4개의 군집이 형성되는데, 난이도 6이 5보다 정답률이 높음
    • user별 KnowledgeTag의 정답률을 구분하고 각 태그끼리 정답률의 상관관계로 KnowledgeTag간의 상관성을 분석했음
      • diagonal element 부근에서 0.5이상의 상관성을 가진 경우가 많이 나타남
      • 이는 KnowledgeTag가 특정 범위끼리 군집을 이루거나 유사한 형태를 띈다는 것으로 해석할 수 있음
    • 일반적으로 문항번호가 뒤로 갈수록 어려운 경향이 많음 (ex 수능)
      • 따라서 assessmentID의 하위 3비트 숫자에 따라 정답률을 확인함
      • 전바적인 경향을 문항이 뒤로 갈수록 정답률이 낮아지는 경향을 보임
This post is licensed under CC BY 4.0 by the author.

[BoostCamp AI Tech / Level 2 - DKT] Day62 - DKT 이해 및 DKT Trend

[BoostCamp AI Tech / Level 2 - DKT] Day67 - Sequence Modelling

Comments powered by Disqus.