주차수요 예측 AI 경진대회

알고리즘 | 정형 | 회귀 | 교통 | MAE

  • moneyIcon 상금 : 총 1,300만원
  • 2,207명 마감

 

[장어, Private 1위, 점수 98.76] Pycaret 활용 주차 수요 예측

2021.08.03 21:53 6,969 조회 language

[장어, Private 1위] Pycaret 활용 주차 수요 예측

먼저 처음 참여한 대회나 마찬가지인 대회에서 1위를 하게 되서 너무 행복하고 기분이 좋습니다. 중간중간 포기하려고 했으나 끝까지 붙잡고 있었던게 좋은 결과물을 낸 것에 한 몫한 것 같습니다. 공부 목적으로 참여한 대회에서 많은 운이 따라주었고 많은 분들의 EDA와 해석들이 도움이 많이 되었습니다. 
물론, 데이터 오류나 심각한 순위변동에 대해서는 문제가 많았다고 봅니다. 하지만, 데이터 양으로 보나 cv값으로 확인해보나 어느정도 예측가능했다고 생각합니다. 10월에 다시 열리는 대회에서는 조금 더 잘 정제된 데이터와 좋은 예측이 나왔으면 하는 바램입니다. 
대회에 참여하신 모든 분들 수고하셨고 코드 공유 해주신 분들 모두 감사합니다. (게시할 수 있는 글 한계가 1000자여서 참고한 코드 공유 글은 code부분에 첨부합니다.)

개인적인 희망사항
아파트 건축년도에 따라 예측하고자 하는 값, 특성간의 관계성 등 더 다양한 특성과 모델, 더 높은 정확도를 만들 수 있었을 것이라 생각합니다. 다만 제가 찾아본 자료로는 데이터가 해당 대회에 활용하기 어려웠습니다. (오류 데이터인 단지들 많이 존재, 총세대수, 전용면적 등으로 비교 불가) 외부 데이터를 사용하신 분이 있으실 지는 모르겠지만 다음 대회가 열릴 때는 '아파트 건축 년도'도 포함되면 더 좋은 결과물이 나올 것 같다는 개인적인 생각입니다. 
------------------------------------------------------------------------------------------------------------------------------------------------
코드 중간에 train과 test 의 차이를 구하는 부분에서 data leakage가 있습니다. 코드 보시는 분들 참고해주세요. 관련 부분 조만간 수정하겠습니다. 

코드
로그인이 필요합니다
0 / 1000
건조한안구는싫어
2021.08.05 07:00

축하합니다.
코드가 정돈이 잘되어있네요.

장어
2021.08.05 08:43

감사합니다 :D

코딩기계
2021.08.06 14:07

안녕하세요. 깔끔한 코드 정리 감사합니다. 그런데 train-test로 test에 없는 값을 train에서 제거하는 것은 test data leakage에 해당하지 않나요? 궁금해서 여쭤봅니다.

장어
2021.08.06 18:10

그 부분에서 저도 정리하면서 의심이 갔고 예상대로 방금 전에 데이콘 측으로부터 data leakage가 맞다는 답변을 받았습니다. 초보자 입장에서 data leakage 매우 어렵네요.. 다음 대회부터는 더 준비해서 꼼꼼히 체크해야겠습니다. 언급 감사합니다. 

Q Branch
2021.08.14 22:21

이게 무슨 말인지 좀더 알수있을까요?
test 에 없는 값을 train 에서 제거가 무슨말인가요?
없는 값을 어떻게 제거하나요?

장어
2021.08.15 13:40

test와 train 같은 특성(지역, 자격유형과 같은)의 고유값을 확인했을 때 test에는 존재하지 않고 train에만 존재하는 경우를 말합니다. 예를 들어,  
print("train - test (지역 차집합) : ", set(train.지역).difference(set(test.지역))) 과 같이 고유값 차집합을 구해  제거를 하는 것입니다. test에는 존재하지 않는 값이지만 train에는 있는 값이기 때문에 train에서는 제거가 가능합니다. 

자몽허니블랙티
2021.08.06 15:52

삭제된 댓글입니다

이대권
2021.08.07 22:43

아쉽지만 수고하셨습니다. 👍🏻

장어
2021.08.08 16:53

감사합니다❕