분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
DAKER! 대회 관련 문의
안녕하세요. 참가자 여러분 대회 관련 자주 묻는 질문들을 모았습니다.
그 외 대회 관련 궁금하신 부분은 댓글로 남겨주세요. 즐거운 코딩 되세요.🧑💻🧑💻
[팀 구성]
Q) 팀 구성 기간이 지났는데 추가로 등록 가능한가요?
Q) 팀 원 초대는 어떻게 하나요?
Q) 최초 1회 제출의 의미가 무엇인가요?
Q) 팀 구성이 안돼요
Q) 팀 탈퇴 후 재구성하고 싶은데 방법이 있나요?
[제출 파일]
Q) 최종 파일은 어떤 걸 제출하면 되나요?
Q) 최종 파일 제출 방식은 어떻게 되나요?
Q) Baseline 코드에서 쓴 라이브러리만 사용해야 하나요?
Q) 제출 결과물을 삭제하고 싶어요
Q) 대회 종료 후에도 결과물 제출이 가능한가요?
Q) 제출 파일 점수 확인은 어떻게 하나요?
Q) 최종 파일 선택 개수는 몇개 인가요?
Q) csv파일 제출 시 에러가 발생합니다.
[리더보드 점수]
Q) 리더보드에서 점수가 삭제된 이유가 뭔가요?
Q) 리더보드 업데이트 시간이 어떻게 되나요?
Q) 동점인 경우 어떻게 하나요?
Q) 리더보드 점수에 문제가 있는 것 같습니다.
Q) Private점수 확인 가능한가요?
Q) Private, Public 차이가 뭔가요?
[2차 평가]
Q) 발표 자료에 어떤 내용이 포함되어야하나요?
Q) 발표 일정은 어떻게 되나요?
[규정]
Q) 코드 검증 과정에서 규정 위반이란 어떤 것 인가요?
Q) GPU로 인해 결과물 재현이 되지 않아도 괜찮나요?
Q) 어떤 경우가 Data leakage에 해당되나요?
: Test 데이터셋은 기본적으로 '아예 볼 수 없다' 라는 가정 하에 진행해야 합니다.
안녕하세요 즐겁게님,
해당 대회는 대학교 재학 또는 휴학 상태의 학생만 참가가 가능하기 때문에,
재학 또는 휴학 증명서 외에는 제출이 불가능합니다. (졸업생 대회 참여 불가)
(+추가) 단, 졸업 유예생의 경우에는 대학생 신분으로 인정되므로 수료 증명서를 제출해주시면 됩니다.
감사합니다.
안녕하세요 대회 운영 규칙에 대해 궁금한 점이 있어 문의드립니다. 대회 규칙 중 외부 데이터, 사전 학습 모델 사용 가능한 점과 model parameter 갯수의 제한이 없다는 점에서 Computing power와 데이터 수집에만 집중하게 되어 공정한 대회의 의도가 모호해지거나 개인 참가자에게 불리하게 적용될 수 있는 여지가 다수 존재한다고 생각합니다. 혹시 괜찮으시다면 해당 규칙이 정해지게 된 배경을 여쭙고 싶습니다.
안녕하세요 이학호님,
딥러닝에 있어 풍부한 GPU 자원이 유리하게 작용할 수 있지만, 이를 강제로 제한하는 것 또한 공정하다고 볼 수 없습니다.
모델의 크기 또한 본 대회는 '모델 경량화' 혹은 특정 디바이스에 탑재가 목적이 아니기 때문에 제한하지 않기로 결정하였습니다.
모든 조건을 동등하게 만들기 위해서 세부적인 규칙들을 적용하게 된다면 자칫 제약만 많고 선택의 다양성은 좁은 대회가 될 가능성도 있습니다.
사전학습모델 사용, 외부 데이터 사용을 허용해주는 이유는 참가자들의 다양한 접근 방식을 허용하기 위함입니다. 데이터 수집에만 집중하여 모델의 성능을 올리는 것 또한 하나의 전략으로 볼 수 있으며, 이를 공정한 대회의 의도가 모호해진다고 볼 수 없습니다.
감사합니다.
규칙에 궁금한 사항이 있어서 질문드립니다.
'사용에 문제가 없는 사전 학습 모델(Pre-trained Model) 사용 가능'이라는 부분에서, '사용 가능' 의 범위가 명확하지 않다고 생각됩니다.
이 대회의 목적이 OCR 모델 개발이라고 알고있는데,
사전학습모델만으로도 충분한 성능이 나온다면 다른 제약 사항이 없는지 궁금합니다.
예를 들어,
train data를 학습시키지 않더라도 기존 모델로만 성능이 충분히 나오는 경우,
'사용에 문제가 없는 사전 학습 모델(Pre-trained Model) 사용'의 범위에 해당되지만, 대회 주제와는 맞지 않는다고 생각됩니다.
이런 경우 어떻게 처리가 되는지 궁금합니다.
안녕하세요 CBHY님,
베이스라인의 방법과 같이, 사용에 문제 없는 사전 학습 모델을 사용 가능하며 반드시 Fine tuning의 단계를 요구하지 않으며,
직접 모델 아키텍쳐를 모델링하는 것에도 강제성을 부여하고 있지 않습니다.
여러 사전 학습 모델을 대회데이터 추론 파이프라인에 이식하며 테스트 해보는 것 또한 'OCR 모델 개발' 중 하나의 방법으로 볼 수 있으며,
이 과정에서 추가적으로 Fine tuning이 필요하다고 판단 시 진행하는 등 다양한 방법을 시도해볼 수 있을 것입니다.
감사합니다.
안녕하세요, 재학 증명서 제출 관련 문의드립니다.
개인 사정으로 인해 등록금 입금일이 늦어져 2차 등록 기간인 9월 19(월) ~ 9월 21(수)에 등록을 해야하는 상황입니다.
이로 인해 현재 재학 등록이 되어있지 않아 재학 증명서가 발급되지 않는다는 문제가 있습니다.
재학 및 휴학 증명서 제출 마감일인 16일보다 늦은 기간이라 해당 날짜에 맞추어 재학 증명서를 발급 받기 어려울 것 같습니다.
위와 같은 경우 본 대회에 참가할 수 있는 방법이 없는지에 대해 문의 드립니다!
안녕하세요 우카님,
먼저 마감일까지 현재 대학생 신분을 증명할 수 있는 서류를 제출해주시고,
재학 및 휴학 증명서가 발급 가능할 때 (19~21일) 재 제출 부탁드립니다.
감사합니다.
채점기준 관련 질문드립니다.
Accuracy같은 경우 모든 글자가 다 맞는 경우와 철자 한 개가 틀리는 경우가 똑같이 오답으로 측정 되는 지,
아니면 오답의 정도에 따라 차등한 점수가 매겨지는 지 궁금합니다.
안녕하세요 진현림님,
예측 결과가 답과 완전히 동일해야 정답으로 측정됩니다.
즉, 전자의 내용이 맞습니다.
감사합니다.
안녕하세요.
규칙에 궁금한 사항이 있어서 질문드립니다.
'비상업적 용도로 사용할 수 있는 외부 데이터 사용 가능' 이라는 말에서 '비상업적' 이라는 단어 자체가 너무 모호하다고 생각합니다. 비상업적 데이터에는 회사 내부에서 구축하거나, 공개되지는 않았지만 개인들이 보유하고 있는 연구 과제에서 만들어진 데이터들이 있을 수 있습니다. 그렇다면 애초에 기준선이 다른 것이라 봐야하지 않는 건가요?
또한, 그렇게 외부 데이터를 허용했을 때 주최 측에서 주어진 테스트 데이터와 겹치지 않을 것이라는 확신을 하시는 건가요? 만약 확신을 한다면 어떻게 확신을 하는 것인지와 확신을 못 한다면 겹치지 않았음을 비교할 수 있는 방법이 있는 것인지 궁금합니다.
이 부분을 해결할 수 없다면 데이터 자체는 외부 데이터 금지 대회로 열어야 하는 것이 아닌가라고 생각합니다.
감사합니다.
안녕하세요 장어님,
사용하는 외부 데이터의 라이센스를 확인해주시면 됩니다.
또한 테스트 데이터는 공개되지 않은 데이터입니다.
감사합니다.
질문 의도는 라이센스 확인이 아닌 개인이나 회사가 비공개적으로 가지고 있는 데이터에 대한 질문입니다. 대회 설명에 있는 '비상업적 용도로 사용할 수 있는 외부 데이터 사용 가능' 말에는 누구나 접근할 수 있는 오픈 데이터라는 제약이 포함되어 있지 않습니다. 만약, 비상업적으로 사용 가능한 오픈 데이터라면 규칙을 제대로 명시해줘야 하지 않나 생각합니다.
두번째 질문의 경우, 테스트 데이터가 독자적으로 구축해 겹칠 일 없는 비공개 데이터라고 해석을 해도 되는 것인가요?? 즉, 개인이 직접 만들어도 겹칠 일이 없는 데이터라는 것입니다.
1. 말그대로 비상업적으로 사용가능한 외부데이터라면 대회에 사용 가능합니다. 즉 본인이 직접 촬영하여 구축한 데이터를 제외하고, 명시된 라이센스가 불분명한 데이터는 사용하지 못합니다. 또한, 코드 검증 과정에서 동시에 외부 데이터에 대한 검증을 요구할 수 있으며, 사용한 외부 데이터는 '누구에게나 공개가 가능'해야합니다.
2. 맞습니다.
데이터 관련해서 질문드립니다.
데이터를 확인해 본 결과 주어진 train 데이터에 label이 xxx로 되어있는 경우와 label이 사진과 다르게 잘못되어있는 경우를 발견했는데 여기에 대해서 추가 설명 부탁드려도 될까요?
안녕하세요 stella0831님,
학습에 도움이 되지 않는다고 판단한다면 제외하거나, Label을 직접 변경하여 학습에 사용하는 등 자유롭게 활용하시면 됩니다.
감사합니다.
삭제된 댓글입니다
채점기준 관련 질문드립니다.
Accuracy는 위의 질문처럼 모든 글자가 다 맞는 경우로 확인하는데
Train 셋에서 text 중 띄어쓰기가 있던데 test셋에서도 예측한 데이터에서 띄어쓰기를 적용해야 하는지 문의합니다.
예를 들어 test데이터 셋의 test_02916.png 는"참을 외치는" 인지 아니면 "참을외치는인지" 궁금합니다.
또한 test_02926.png와 같이 떨어져 있는 단어의 띄어쓰기 적용 여부도 같이 문의하고 싶습니다.
안녕하세요 학점부도의날님,
단어의 띄어쓰기까지 모두 일치해야하며, 단어와 단어 사이에는 최대 한개의 띄어쓰기만 적용됩니다.
감사합니다.
ocr 관련 api 사용 질문드립니다.
api 사용시 dataleakage 혹은 기타 규정에 위반되는 지 궁금하여 문의드립니다.
안녕하세요 skrudgur님,
OCR API를 활용하여 추론하는 것 또한 사전학습모델의 활용으로 볼 수 있겠으나 사용에 법적 제약이 없어야 합니다.
또한 모든 테스트 데이터를 추론하는 과정에 있어서 끊김이 없이 추론할 수 있어야 하며, 추론에 제약이 있다면 평가 과정에서 불이익을 받을 수 있습니다.
즉, API를 이용하여 추론하는 과정에서 어떠한 상황에서도 추론에 대한 제약이 없어야합니다. (API 호출 횟수 제한 등)
감사합니다.
삭제된 댓글입니다
삭제된 댓글입니다
안녕하세요 일론머스크님,
모든 test 데이터의 label에는 앞 뒤에 공백이 존재하지 않습니다.
감사합니다.
삭제된 댓글입니다
안녕하세요 팀 본선 진출을 메일로 확인하고 재학 증명서 3명 제출 완료했는데 참여가 안되어 있다고 떠서 문의드립니다
안녕하세요 minseok-oh님,
'코스믹' 팀의 경우 재학 증명서 미제출로 인한 실격으로 확인됩니다.
감사합니다.
삭제된 댓글입니다
안녕하세요 스동님,
유료 API는 사용 불가능합니다.
감사합니다.
혹시 메일로 질문할 수 있나요?
안녕하세요 컴퓨터선수님,
대회 관련 문의는 가급적 'DAKER! 대회 관련 문의' 글의 댓글로 부탁드립니다.
감사합니다.
삭제된 댓글입니다
안녕하세요 zlzon님,
가상 데이터라는 것이 정확히 어떤 형식의 데이터를 말씀하시는 지는 알 수 없으나,
Train 데이터와 외부 데이터를 통해 새로운 데이터를 생성해내는 방식은 충분히 가능합니다.
단 이 과정에서 외부 데이터는 사용 규칙에 맞는 외부 데이터이어야 하며, Test 데이터가 데이터 생성 과정에 포함되지 않아야 합니다.
감사합니다.
안녕하세요, 담당자님.
모델 학습을 위한 GPU가 팀원들의 컴퓨터 자원으로는 부족하여, 본교 내에 사용할 수 있는 GPU를 알아보니 캡스톤디자인을 수행하는 학부생만이 학교 GPU서버를 대여할 수 있다고 합니다..
하여, 혹시 본 대회 모델학습을 목적으로 GPU서버를 대여할 수 있는지 문의드립니다.
감사합니다.
안녕하세요 chaeng123님,
해당 대회는 데이콘에서 별도로 GPU서버를 제공해드리지 않고 있습니다.
감사합니다.
삭제된 댓글입니다
안녕하세요. 제출 관련 문의 드립니다.
제출 파일 완성 후 예상했던 text 를 가지는 csv 파일을 만들어 제출했는데 제출결과가 0 점으로 채점됐습니다.
혹시 제출 파일 형식등에 문제가 있는지 문의드립니다.
감사합니다
안녕하세요 오용희님,
확인 결과 제출 파일 형식에 문제는 없으며, 예측 값을 확인 부탁드립니다.
true label이 '데이콘' 인 경우 예측 값도 '데이콘' 으로 정확히 예측해야 정답처리되며,
'데이콘 '으로 공백을 포함하여 예측하는 경우 오답처리됩니다.
감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
삭제된 댓글입니다