[알기쉬운 AI④] 캐글···누구나 쉽고 재밌게 배울 수 있어

캐글
2020년 올해는 21세기 3번째 10년의 첫해, AI(인공지능)은 이제 시대적·공간적인 대세로 확고히 자리잡고 있습니다. 하지만 일부 전문가들을 제외하고 대중들의 AI 관련 활용은 커녕 지식도 매우 낮은 수준에 머물고 있습니다. 이에 <아시아엔>은 전문가들 용어 대신 일상 용어로 AI 기초지식부터 하나씩 풀어 소개할 계획입니다. 이 글을 연재하는 최종헌 필자는 <파이썬 초보 학습자를 위한 4시간에 배우는 파이썬 기초문법> 저자로 어떻게 하면 인공지능을 쉽게 가르칠까 고민하는 교육자입니다. <편집자>

오늘은 지난 시간에 이어서 캐글에 대해서 살펴본다.

△ Kaggle
Kaggle은 예측 모델링 및 분석 능력을 다루는 대회의 이름이자 그 대회를 개최하는 회사의 이름이다. 2010년 호주 멜버른에서 설립되었으며 2011년 실리콘 밸리로부터 투자를 받아 미국으로 회사를 옮겼다.

2017년 Google이 인수하여 그 이후 폭발적인 성장세를 보이고 있다. 요즘 가장 인기 있는 단어 중 하나인 ‘데이터과학’이라는 용어는 처음엔 낯설었으나 이제 일반명사화되고 있다. 또 ‘Kaggle’이라는 단어는 ‘데이터과학’이란 단어의 연관 검색어가 되고 있다.

△ 왜 캐글인가?
왜 많은 인공지능 전문가, 데이터과학자들이 데이터사이언티스트가 되고 싶어하는 사람들에게 캐글을 하라고 권하는가?

이제 “죽느냐 사느냐 그것이 문제”가 아니라 “캐글을 할 것이냐 안 할 것이냐”가 이 분야에 진출하려는 젊은이들에게 질문이 되고 있다.

필자의 생각은 “당연히 해야 한다”이다.

현재 데이터과학 분야에 진출해 보려고 생각하는 직장인이나 대학생이 무려 80만명에 가깝다는 비공식 통계를 본 적 있다. 그 숫자의 사실 여부를 떠나 알 수 있는 것은 그만큼 관심이 많아졌다는 뜻이다.

하지만 대한민국에 데이터 전문가가 몇천명밖에 안되는 현실에서 대부분의 사람은 입문자라는 것을 알 수 있다. 그래서 전문가가 아닌 초보자만을 대상으로 상정했을 때 그들이 왜 굳이 캐글을 해야 하는지 이유를 나열해 보겠다.

△검증
초보자가 자체 데이터를 가지기도 힘들지만, 현재 재직하는 회사의 데이터를 가지고 뭔가 연습을 하려면, 자신이 분석한 것이 옳은지 검증할 필요가 있다. 그런데 혼자서는 그렇게 할 방법이 없다.

캐글은 대회이고 자신의 결과를 점수로 답으로 주기 때문에 자신의 실력을 검증할 수 있다.

△데이터의 종류
캐글에는 이미 검증된 다양한 종류의 데이터가 있다. 캐글에 있는 400개에 달하는 다양한 데이터를 초보자가 구하기는 쉽지가 않다. 검증된 데이터를 가지고 연습할 수 있는 것은 큰 장점이다.

△다른 사람의 작업에서 배울 수 있다
캐글에서는 누군가가 공유한 작업을 복사하여 자신이 수정할 수 있다. 이것이 캐글의 최대 장점이며 초보자도 남들이 한 작업을 따라하며 성장할 수 있다. 그리고 ‘공개의 미학’이 통하는 커뮤니티를 통하여 사실상 모든 질문에 대한 답을 들을 수 있다.

△재미가 있다
하나의 Kaggle대회에 참여했다고 누구나 데이터과학자가 될 수 있는 것은 아니다. 하지만 경쟁을 좋아하는 사람에게 캐글은 정말 좋은 수단이다. 혹시 게임을 좋아한다면 캐글을 좋아할 가능성이 크다. 본인이 경쟁 지향적이라면 더욱 그럴 것이다. 인공지능을 학문으로 배운다는 것은 정말 괴로운 일이다. 하지만 게임하듯이 배울 수 있다면 얼마나 좋겠는가?

많은 기업과 대학이 캐글에 숙제를 내고 있다. 최근에는 우리의 질병관리본부가 코로나 바이러스에 대한 챌린지를 캐글에 낸 적이 있다. 참가자들은 이러한 새로운 경쟁에 참여하여 자신의 지식도 늘리고 업계의 다른 사람들과 대화할 수 있는 등 수많은 기회가 생긴다.

데이터과학에 조금이라도 관심이 있으신 분들은 캐글에 도전해 보기를 강력 추천한다.

Leave a Reply