SW중심대학 공동 AI 경진대회 <본선>

SW중심대학 | 본선 | OCR | Accuracy

상금 : 총 950만원
365명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

DAKER! 대회 관련 문의

DACON.GM

2022.09.07 12:07 1,731 조회

안녕하세요. 참가자 여러분 대회 관련 자주 묻는 질문들을 모았습니다.

그 외 대회 관련 궁금하신 부분은 댓글로 남겨주세요. 즐거운 코딩 되세요.🧑‍💻🧑‍💻

[팀 구성]

Q) 팀 구성 기간이 지났는데 추가로 등록 가능한가요?

팀 구성 기간 이후에는 팀을 구성할 수 없습니다.

Q) 팀 원 초대는 어떻게 하나요?

대회 페이지의 팀 탭에서 팀원을 초대할 수 있습니다. 닉네임, 이메일, 팀 이름을 통해 팀원을 초대하고 해당 팀원이 팀 탭에서 초대를 수락하면 팀이 구성됩니다.

Q) 최초 1회 제출의 의미가 무엇인가요?

팀 구성을 하기 위해서는 대회 제출 탭에서 적어도 1회 제출을 해야 합니다.

Q) 팀 구성이 안돼요

팀 구성은 팀 구성 기간 내에 팀원을 초대해 진행할 수 있습니다. 팀 구성 기간과 팀원 초대 방법을 대회 팀 탭에서 확인해 주세요.

Q) 팀 탈퇴 후 재구성하고 싶은데 방법이 있나요?

아이디어 공유 방지를 위해 팀 탈퇴 후 재구성은 불가능합니다.

[제출 파일]

Q) 최종 파일은 어떤 걸 제출하면 되나요?

private 채점 결과가 가장 좋을 것으로 예상되는 파일을 선택하여 제출하시면 됩니다.

Q) 최종 파일 제출 방식은 어떻게 되나요?

해당 대회 페이지에서 제출 메뉴를 통해 진행할 수 있습니다. 제출할 파일을 선택 후 제출 버튼을 클릭하면 제출이 진행됩니다.

Q) Baseline 코드에서 쓴 라이브러리만 사용해야 하나요?

베이스라인은 참고 용 자료이며 참가자분들만의 코드를 작성해 주시면 됩니다.

Q) 제출 결과물을 삭제하고 싶어요

제출 결과물을 개별 삭제하는 것은 불가능합니다.

Q) 대회 종료 후에도 결과물 제출이 가능한가요?

연습이 가능한 대회는 제출이 가능합니다.

Q) 제출 파일 점수 확인은 어떻게 하나요?

최고 점수는 리더보드에 표시되며 각 파일의 점수는 제출 탭에서 확인하실 수 있습니다.

Q) 최종 파일 선택 개수는 몇개 인가요?

최종 파일 선택 개수는 대회 규칙에서 확인해 주시기 바랍니다.

Q) csv파일 제출 시 에러가 발생합니다.

제공된 sample_submission.csv 파일과 제출 파일의 행, 열 의 크기가 동일해야 하며, 만약 해당 부분이 일치하지 않을 경우 에러가 발생할 수 있습니다.

[리더보드 점수]

Q) 리더보드에서 점수가 삭제된 이유가 뭔가요?

대회 규정 위반이 의심되는 경우 치팅 처리되어 점수가 삭제됩니다. 점수 복구를 위해서는 코드를 제출하여 검증을 받아야 합니다.

Q) 리더보드 업데이트 시간이 어떻게 되나요?

Public Score는 실시간으로 최고 점수로 업데이트되며, Private Score는 대회 종료 후 점수 계산에 오류가 없으면 공개됩니다.

Q) 동점인 경우 어떻게 하나요?

동점의 경우 해당 점수를 먼저 기록한 팀이 높은 순위에 위치하게 됩니다.

Q) 리더보드 점수에 문제가 있는 것 같습니다.

리더보드 점수에 이상이 있다고 여겨지는 경우 데이콘 계정의 메일로 해당 제출물을 설명과 함께 전달해 주시면 확인하여 답변드립니다.

Q) Private점수 확인 가능한가요?

최종 선택한 파일 이외의 제출물에 대해서는 따로 Private Score를 계산하지 않습니다. 다만, 대회 종료 이후 연습 기간에는 정답 파일을 제출하면 제출 탭에서 Private Score를 확인하실 수 있습니다.

Q) Private, Public 차이가 뭔가요?

Test Data를 특정한 비율로 나누어 Private Score와 Public Score를 계산합니다. Public Score는 대회 기간 중에 리더보드에서 확인가능합니다. Private Score는 대회 종료 후 리더보드에서 확인 가능하며 Private Score를 통해 최종 순위가 결정됩니다.

[2차 평가]

Q) 발표 자료에 어떤 내용이 포함되어야하나요?

발표 자료 내용은 평가 지표를 바탕으로 중요하다고 여겨지는 내용을 위주로 담아주시면 됩니다.

Q) 발표 일정은 어떻게 되나요?

발표 일정은 대회 일정 페이지에서 확인하실 수 있으며, 변경사항이 있을 경우 따로 공지와 안내를 해드립니다.

[규정]

Q) 코드 검증 과정에서 규정 위반이란 어떤 것 인가요?

test 데이터를 모델 학습 시 활용하거나, 허가되지 않은 외부 데이터 및 사전 학습 모델 사용 시 규정 위반 처리될 수 있습니다.

Q) GPU로 인해 결과물 재현이 되지 않아도 괜찮나요?

최종 제출 점수 재현이 100% 일치하지 않더라도, 순위가 변경되지 않을 수준의 차이는 감안하여 수상자를 결정하게 됩니다.

Q) 어떤 경우가 Data leakage에 해당되나요?

: Test 데이터셋은 기본적으로 '아예 볼 수 없다' 라는 가정 하에 진행해야 합니다.

label encoding, one-hot encoding 시 test 데이터 셋 활용하여 encoder를 fit하는 경우
data scaling 적용 시 test 데이터 셋 활용하여 scaler를 fit하는 경우
pandas의 get_dummies() 함수를 test 데이터셋에 적용하는 경우
test 데이터 셋의 결측치 처리 시 test 데이터 셋의 통계 값 활용
test 데이터 셋을 EDA하여 얻은 인사이트를 통해 학습에 활용하는 경우
test 데이터 셋을 학습 과정에 사용하는 모든 행위 (test 데이터셋은 추론에만 활용되어야 합니다)
test 데이터 셋의 데이터 개수 정보를 활용하는 경우 (실제 test 데이터셋은 몇개가 입력으로 들어올 지 모르기 때문)
위 예시 외에도 test 데이터 셋이 모델 학습에 활용되는 경우에 Data leakage에 해당됨.

댓글 38개

로그인이 필요합니다

comment

0 / 1000

즐겁게

2022.09.07 14:21

삭제된 댓글입니다

DACON.GM

2022.09.07 14:38

안녕하세요 즐겁게님,
해당 대회는 대학교 재학 또는 휴학 상태의 학생만 참가가 가능하기 때문에,
재학 또는 휴학 증명서 외에는 제출이 불가능합니다. (졸업생 대회 참여 불가)
(+추가) 단, 졸업 유예생의 경우에는 대학생 신분으로 인정되므로 수료 증명서를 제출해주시면 됩니다.
감사합니다.

이학호

2022.09.08 18:49

안녕하세요 대회 운영 규칙에 대해 궁금한 점이 있어 문의드립니다. 대회 규칙 중 외부 데이터, 사전 학습 모델 사용 가능한 점과 model parameter 갯수의 제한이 없다는 점에서 Computing power와 데이터 수집에만 집중하게 되어 공정한 대회의 의도가 모호해지거나 개인 참가자에게 불리하게 적용될 수 있는 여지가 다수 존재한다고 생각합니다. 혹시 괜찮으시다면 해당 규칙이 정해지게 된 배경을 여쭙고 싶습니다.

DACON.GM

2022.09.09 16:43

안녕하세요 이학호님,
딥러닝에 있어 풍부한 GPU 자원이 유리하게 작용할 수 있지만, 이를 강제로 제한하는 것 또한 공정하다고 볼 수 없습니다.
모델의 크기 또한 본 대회는 '모델 경량화' 혹은 특정 디바이스에 탑재가 목적이 아니기 때문에 제한하지 않기로 결정하였습니다.
모든 조건을 동등하게 만들기 위해서 세부적인 규칙들을 적용하게 된다면 자칫 제약만 많고 선택의 다양성은 좁은 대회가 될 가능성도 있습니다.
사전학습모델 사용, 외부 데이터 사용을 허용해주는 이유는 참가자들의 다양한 접근 방식을 허용하기 위함입니다. 데이터 수집에만 집중하여 모델의 성능을 올리는 것 또한 하나의 전략으로 볼 수 있으며, 이를 공정한 대회의 의도가 모호해진다고 볼 수 없습니다.
감사합니다.

CBHY

2022.09.11 19:25

규칙에 궁금한 사항이 있어서 질문드립니다.
'사용에 문제가 없는 사전 학습 모델(Pre-trained Model) 사용 가능'이라는 부분에서,  '사용 가능' 의 범위가 명확하지 않다고 생각됩니다.
이 대회의 목적이 OCR 모델 개발이라고 알고있는데,
사전학습모델만으로도 충분한 성능이 나온다면 다른 제약 사항이 없는지 궁금합니다.

예를 들어,
train data를  학습시키지 않더라도 기존 모델로만 성능이 충분히 나오는 경우,
'사용에 문제가 없는 사전 학습 모델(Pre-trained Model) 사용'의 범위에 해당되지만,  대회 주제와는 맞지 않는다고 생각됩니다.
이런 경우 어떻게 처리가 되는지 궁금합니다.

DACON.GM

2022.09.12 01:13

안녕하세요 CBHY님,
베이스라인의 방법과 같이, 사용에 문제 없는 사전 학습 모델을 사용 가능하며 반드시 Fine tuning의 단계를 요구하지 않으며,
직접 모델 아키텍쳐를 모델링하는 것에도 강제성을 부여하고 있지 않습니다.
여러 사전 학습 모델을 대회데이터 추론 파이프라인에 이식하며 테스트 해보는 것 또한 'OCR 모델 개발' 중 하나의 방법으로 볼 수 있으며,
이 과정에서 추가적으로 Fine tuning이 필요하다고 판단 시 진행하는 등 다양한 방법을 시도해볼 수 있을 것입니다.
감사합니다.

우카

2022.09.12 15:14

안녕하세요, 재학 증명서 제출 관련 문의드립니다.
개인 사정으로 인해 등록금 입금일이 늦어져 2차 등록 기간인 9월 19(월) ~ 9월 21(수)에 등록을 해야하는 상황입니다.
이로 인해 현재 재학 등록이 되어있지 않아 재학 증명서가 발급되지 않는다는 문제가 있습니다.
재학 및 휴학 증명서 제출 마감일인 16일보다 늦은 기간이라 해당 날짜에 맞추어 재학 증명서를 발급 받기 어려울 것 같습니다.
위와 같은 경우 본 대회에 참가할 수 있는 방법이 없는지에 대해 문의 드립니다!

DACON.GM

2022.09.13 13:26

안녕하세요 우카님,
먼저 마감일까지 현재 대학생 신분을 증명할 수 있는 서류를 제출해주시고,
재학 및 휴학 증명서가 발급 가능할 때 (19~21일) 재 제출 부탁드립니다.
감사합니다.

진현림

2022.09.12 23:56

채점기준 관련 질문드립니다.
Accuracy같은 경우 모든 글자가 다 맞는 경우와 철자 한 개가 틀리는 경우가 똑같이 오답으로 측정 되는 지,
아니면 오답의 정도에 따라 차등한 점수가 매겨지는 지 궁금합니다.

DACON.GM

2022.09.13 09:07

안녕하세요 진현림님,
예측 결과가 답과 완전히 동일해야 정답으로 측정됩니다.
즉, 전자의 내용이 맞습니다.
감사합니다.

장어

2022.09.13 15:08

안녕하세요.
규칙에 궁금한 사항이 있어서 질문드립니다.

'비상업적 용도로 사용할 수 있는 외부 데이터 사용 가능' 이라는 말에서 '비상업적' 이라는 단어 자체가 너무 모호하다고 생각합니다. 비상업적 데이터에는 회사 내부에서 구축하거나, 공개되지는 않았지만 개인들이 보유하고 있는 연구 과제에서 만들어진 데이터들이 있을 수 있습니다. 그렇다면 애초에 기준선이 다른 것이라 봐야하지 않는 건가요?

또한, 그렇게 외부 데이터를 허용했을 때 주최 측에서 주어진 테스트 데이터와 겹치지 않을 것이라는 확신을 하시는 건가요? 만약 확신을 한다면 어떻게 확신을 하는 것인지와 확신을 못 한다면 겹치지 않았음을 비교할 수 있는 방법이 있는 것인지 궁금합니다.
이 부분을 해결할 수 없다면 데이터 자체는 외부 데이터 금지 대회로 열어야 하는 것이 아닌가라고 생각합니다.

감사합니다.

DACON.GM

2022.09.13 15:10

안녕하세요 장어님,
사용하는 외부 데이터의 라이센스를 확인해주시면 됩니다.
또한 테스트 데이터는 공개되지 않은 데이터입니다.
감사합니다.

장어

2022.09.13 15:37

질문 의도는 라이센스 확인이 아닌 개인이나 회사가 비공개적으로 가지고 있는 데이터에 대한 질문입니다. 대회 설명에 있는 '비상업적 용도로 사용할 수 있는 외부 데이터 사용 가능' 말에는 누구나 접근할 수 있는 오픈 데이터라는 제약이 포함되어 있지 않습니다. 만약, 비상업적으로 사용 가능한 오픈 데이터라면 규칙을 제대로 명시해줘야 하지 않나 생각합니다.

두번째 질문의 경우, 테스트 데이터가 독자적으로 구축해 겹칠 일 없는 비공개 데이터라고 해석을 해도 되는 것인가요?? 즉, 개인이 직접 만들어도 겹칠 일이 없는 데이터라는 것입니다.

DACON.GM

2022.09.13 16:09

1. 말그대로 비상업적으로 사용가능한 외부데이터라면 대회에 사용 가능합니다. 즉 본인이 직접 촬영하여 구축한 데이터를 제외하고, 명시된 라이센스가 불분명한 데이터는 사용하지 못합니다. 또한, 코드 검증 과정에서 동시에 외부 데이터에 대한 검증을 요구할 수 있으며, 사용한 외부 데이터는 '누구에게나 공개가 가능'해야합니다.
2. 맞습니다.

stella0831

2022.09.14 21:35

데이터 관련해서 질문드립니다.

데이터를 확인해 본 결과 주어진 train 데이터에 label이 xxx로 되어있는 경우와 label이 사진과 다르게 잘못되어있는 경우를 발견했는데 여기에 대해서 추가 설명 부탁드려도 될까요?

DACON.GM

2022.09.14 22:28

안녕하세요 stella0831님,
학습에 도움이 되지 않는다고 판단한다면 제외하거나, Label을 직접 변경하여 학습에 사용하는 등 자유롭게 활용하시면 됩니다.
감사합니다.

즐겁게

2022.09.17 23:36

삭제된 댓글입니다

쏙독새

2022.09.17 21:51

채점기준 관련 질문드립니다.
Accuracy는 위의 질문처럼 모든 글자가 다 맞는 경우로 확인하는데
Train 셋에서 text 중 띄어쓰기가 있던데 test셋에서도 예측한 데이터에서 띄어쓰기를 적용해야 하는지 문의합니다.

예를 들어 test데이터 셋의 test_02916.png 는"참을 외치는" 인지 아니면 "참을외치는인지" 궁금합니다.
또한 test_02926.png와 같이 떨어져 있는 단어의 띄어쓰기 적용 여부도 같이 문의하고 싶습니다.

DACON.GM

2022.09.19 13:21

안녕하세요 학점부도의날님,
단어의 띄어쓰기까지 모두 일치해야하며, 단어와 단어 사이에는 최대 한개의 띄어쓰기만 적용됩니다.
감사합니다.

skrudgur

2022.09.21 17:01

ocr 관련 api 사용 질문드립니다.
api 사용시 dataleakage 혹은 기타 규정에 위반되는 지 궁금하여 문의드립니다.

DACON.GM

2022.09.21 18:30

안녕하세요 skrudgur님,
OCR API를 활용하여 추론하는 것 또한 사전학습모델의 활용으로 볼 수 있겠으나 사용에 법적 제약이 없어야 합니다.
또한 모든 테스트 데이터를 추론하는 과정에 있어서 끊김이 없이 추론할 수 있어야 하며, 추론에 제약이 있다면 평가 과정에서 불이익을 받을 수 있습니다.
즉, API를 이용하여 추론하는 과정에서 어떠한 상황에서도 추론에 대한 제약이 없어야합니다. (API 호출 횟수 제한 등)
감사합니다.

xxum

2022.09.29 20:11

삭제된 댓글입니다

일론머스크

2022.09.22 17:07

삭제된 댓글입니다

DACON.GM

2022.09.22 10:01

안녕하세요 일론머스크님,
모든 test 데이터의 label에는 앞 뒤에 공백이 존재하지 않습니다.
감사합니다.

오리도리

2022.09.22 02:30

삭제된 댓글입니다

minseok-oh

2022.09.25 21:15

안녕하세요 팀 본선 진출을 메일로 확인하고 재학 증명서 3명 제출 완료했는데 참여가 안되어 있다고 떠서 문의드립니다

DACON.GM

2022.09.26 09:01

안녕하세요 minseok-oh님,
'코스믹' 팀의 경우 재학 증명서 미제출로 인한 실격으로 확인됩니다.
감사합니다.

스동

2022.09.29 12:38

삭제된 댓글입니다

DACON.GM

2022.09.29 08:46

안녕하세요 스동님,
유료 API는 사용 불가능합니다.
감사합니다.

컴퓨터선수

2022.09.29 13:27

혹시 메일로 질문할 수 있나요?

DACON.GM

2022.09.29 13:47

안녕하세요 컴퓨터선수님,
대회 관련 문의는 가급적 'DAKER! 대회 관련 문의' 글의 댓글로 부탁드립니다.
감사합니다.

zlzon

2022.09.29 17:45

삭제된 댓글입니다

DACON.GM

2022.09.29 17:12

안녕하세요 zlzon님,
가상 데이터라는 것이 정확히 어떤 형식의 데이터를 말씀하시는 지는 알 수 없으나,
Train 데이터와 외부 데이터를 통해 새로운 데이터를 생성해내는 방식은 충분히 가능합니다.
단 이 과정에서 외부 데이터는 사용 규칙에 맞는 외부 데이터이어야 하며, Test 데이터가 데이터 생성 과정에 포함되지 않아야 합니다.
감사합니다.

chaeng123

2022.10.03 16:05

안녕하세요, 담당자님.
모델 학습을 위한 GPU가 팀원들의 컴퓨터 자원으로는 부족하여, 본교 내에 사용할 수 있는 GPU를 알아보니 캡스톤디자인을 수행하는 학부생만이 학교 GPU서버를 대여할 수 있다고 합니다..
하여, 혹시 본 대회 모델학습을 목적으로 GPU서버를 대여할 수 있는지 문의드립니다.

감사합니다.

DACON.GM

2022.10.04 17:11

안녕하세요 chaeng123님,
해당 대회는 데이콘에서 별도로 GPU서버를 제공해드리지 않고 있습니다.
감사합니다.

sksmslhy

2022.10.05 10:13

삭제된 댓글입니다

오용희

2022.10.07 16:30

안녕하세요. 제출 관련 문의 드립니다.
제출 파일 완성 후 예상했던 text 를 가지는 csv 파일을 만들어 제출했는데 제출결과가 0 점으로 채점됐습니다.
혹시 제출 파일 형식등에 문제가 있는지 문의드립니다.
감사합니다

DACON.GM

2022.10.07 16:39

안녕하세요 오용희님,
확인 결과 제출 파일 형식에 문제는 없으며, 예측 값을 확인 부탁드립니다.
true label이 '데이콘' 인 경우 예측 값도 '데이콘' 으로 정확히 예측해야 정답처리되며,
'데이콘 '으로 공백을 포함하여 예측하는 경우 오답처리됩니다.
감사합니다.

📣 댓글 작성 창의 위치가 댓글 리스트 상단으로 이동하였습니다!

목록으로

다들 수고하셨습니다!!!

대회 - SW중심대학 공동 AI 경진대회 <본선>

2년 전

현재 글

DAKER! 대회 관련 문의

대회 - SW중심대학 공동 AI 경진대회 <본선>

2년 전

다음 글이 존재하지 않습니다.