Git Product home page Git Product logo

college-dropout-prediction's Introduction

title author date
대학 중도탈락자 예측 모델
baekduyong
2021년 12월

대학 중도탈락자 예측 프로젝트

  • columns info
    • ACADEMIC_STAT_CODE : 중도탈락 여부
    • ADMISSION : 입학 전형
    • AGE : 나이
    • ATTENDANCE : 출석률
    • DOUBLE_MAJOR : 복수전공 여부
    • GRADE : 평균학점
    • INCOME_QUINTILE: 소득분위(5분위)
    • OCCP_GRP_1 : 학과 계열
    • PREPARE_ATTENDANCE : 동일 나이 대비 출석률
    • PREPARE_GRADE : 동일 나이 대비 평균학점
    • PREPARE_join_1years_ago PREPARE_join_2years_ago PREPARE_join_3years_ago PREPARE_join_4years_ago PREPARE_join_this_year : 동일나이 대비 년도별 교내 프로그램 참가 횟수
    • STUDENT_ID : 학생 고유 번호
    • TOTAL_JOIN : 교내프로그램 총 참가 횟수
    • TOTAL_OFF : 총 휴학 횟수
    • UNI_DIST : 거주지와 대학간의 거리
    • join_1years_ago join_2years_ago join_3years_ago join_4years_ago join_this_year : 년도별 교내프로그램 참가 횟수
    • off_1years_ago off_2years_ago off_3years_ago off_4years_ago off_this_year : 년도별 휴학 여부

*** create data부분의 원본 데이터는 업로드 안함

01 Create Data

  • 대학 중도탈락자를 예측할만한 데이터를 쉽게 구할 수 없으므로 유사 데이터를 바탕으로 생성
  • 총 28개 컬럼(기본 변수 11개, 파생 변수 17개)의 데이터를 생성

02 Data Check

  • 파생변수를 제외하고는 변수간 상관관계는 크지 않음
  • 모든 데이터가 정규분포를 만족하지 않아서 정규화를 진행
  • 문자형 데이터는 원핫 인코딩을 진행

03 Test Model

  • 데이터를 8:1:1로 나눔.
  • 8은 테스트모델에 쓰일 학습데이터, 1은 테스트모델의 검증데이터
  • 마지막 1은 feature extraction 후, 학습시킨 최종 모델의 검증데이터
  • SMOTE를 이용해 label 불균형 해소
  • 앙상블 학습을 이용, VotingClassifier로 모델 생성

04 Feature Extarction

  • 테스트 모델의 의사결정 과정을 확인하기 위해 XAI 라이브러리인 LIME과 SHAP를 이용함
  • 시각화 결과로 주요변수를 분석하고 feature extraction을 진행
  • 인코딩과 정규화 진행 후 완성된 37개의 컬럼에서 25개로 축소

05 Result Model

  • 최종 완성된 학습데이터의 중도탈락 비율은 4.51%, 검증데이터의 중도탈락 비율은 4.03%
  • SMOTE를 통해 label 불균형 해소
  • 앙상블 학습인 VotingClassifier로 모델 생성

06 Explainable AI(XAI)

  • LIME과 SHAP의 결과가 조금씩 다르지만, 공통적인 요소를 확인함
  • 최종 모델은 공학계열여부, 평균학점, 복수전공여부, 입학전형 등을 토대로 중도탈락을 예측

License

Code

Text

college-dropout-prediction's People

Contributors

duyongbeak avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.