비전공자의 AI 부트캠프 일지 #7
머신러닝 프로젝트 회고 - "재미있는 걸 해보자"에서 시작된 프로젝트
_원티드 포텐업 부트캠프-데이터&AI 개발 과정
"우리가 재미있어 할 만한 것으로 해보자"
이번 글은 부트캠프 1월 머신러닝 과정에서 배운 것을 활용한 머신러닝 프로젝트에 대한 회고이다. 기술적인 설명보다는 '왜 이 프로젝트를 하게 됐고, 어떤 시행착오를 겪었는지, 무엇을 배웠는지'에 대해서 한 번 정리하는 이야기이다.
시작은 단순하게, 주변에서 찾아보기
'하고 싶은 것과 관심있는 것이 무엇인가요?' 라는 질문은 첫번째 데이터 분석부터 시작해 지금까지, 프로젝트 초반 주제에 대한 논의를 할 때 팀원들에게 가장 자주 던졌던 질문이다. 최종적으로 취업이라는 목표를 가지고 있다 보니 앞으로 하고 싶은 주제나 도메인에 관련해서 프로젝트를 해보는 게 가장 유의미하다고 생각해서 그런 것 같다.
이번 프로젝트 주제 선정에 대해서 처음 게임, 스포츠관련해서 매칭 시스템, 승률 예측 등 이야기가 나왔다. 그런데 이런 주제는 머신러닝 프로젝트에서 이미 많은 사람들이 해 본 것이라는 내부적인 의견이 있었고, 우리는 뭔가 다른 것을 찾는 것 같은 느낌이었다. 그렇다면 실제로 우리가 관심 있는 걸 주제로 해보는 것은 어떨까 싶었다. 요즘 봤던 것 아니면 화제가 되고 있는 분야를 타겟으로 하는 것은 어떨지 질문을 던졌고, 그 과정에서 개인 건강 기록을 기반으로한 운동 추천 시스템, 건강 기능 식품 추천 등 다양한 아이디어가 나놨다.
그 중에서 최종적으로 결정된 주제가 바로 ''웹툰 흥행 예측"이었다.
우리가 자주 보는 웹툰이기에 모두 흥미가 있던 주제였다. 문제를 인식한 부분은 요즘 양산형 웹툰 증가로 인하여 콘텐츠 품질 저하였고, 개선 방향으로 그렇다면 머신러닝을 활용해 댓글 등의 데이터를 통해 흥행 예측과 함께 콘텐츠 개선점을 찾아볼 해볼 수 있을까? 질문에서 시작하게 되었다. 주변에서 다들 어려운 주제를 선택했다고 했지만 우리 팀 모두 "그래도 재미있는 걸 하고 싶다."는 생각이 같았기에 파이팅하게 움직이게 되었다.
댓글로 흥행을 예측해보자! 라고 했지만
처음에는 웹툰 초반 댓글을 분석해서 흥행을 예측하고 추가로 콘텐츠 개선점도 확인해 보자는 방향을 잡고 움직이기 시작했다. 정하고 나니깐 이거다 싶었다. 우리가 진행하기에도 재미있을 것 같았고 초반 반응을 통해서 예측 시스템을 만든다면 콘텐츠를 만드는 사람도 유통하는 사람에게도 모두 도움이 될 수 있는 서비스가 될 것 같았다.
그런데 실제로 먼저 마주한 문제는 데이터 수집관련 저작권 문제가 있었다.
두번 째는 생각보다 어뷰징, 광고성 댓글과 반복적인 무의미한 문장들이 많이 있었다는 점이다. 초반에 하나하나 하기에는 댓글 노이즈 및 이번 프로젝트 목표인 머신러닝 과정보다 노이즈로 인한 수집과 정제에 너무 많은 시간이 투입될 것이란 우려가 생겼다.
그래서 방향을 조금 전환하게 되었다.
댓글 대신 플랫폼에서 공식적으로 제공하고 얻을 수 있는 관심 수, 좋아요 수, 댓글 수와 같은 정형 지표들을 활용해서 흥행을 정의하고 예측하는 방식으로 변경하게 되었다. 수집하는 지표(피쳐)가 점점 추가되면서 차원의 저주가 발생되는 경험을 했다. 그리고 나중에 알게 된 점은, 결국 실제 플랫폼에서 공식적으로 제공하는 지표가 결국 핵심 지표로 쓰는 데이터였군. 이라고 알게 되었다. 데이터가 많다고 좋은 게 아니라, 의미 있는 데이터가 중요하다는 걸 느끼게 된 순간이었다.
애매한 역할? 그러나 나만의 기여 만들기
지난 프로젝트를 진행하면서 개인적으로 업무 분배에 대한 모호함이 아쉬웠던 기억이 있었다.
그래서 이번엔 각자 집중하고 싶은 부분에 대해서 구분해서 진행하는 것은 어떨까 제안했다. 그런데 나의 생각과는 다르게 배우는 과정이라 그런지 프로젝트를 통해서 전체적인 과정을 한번 더 경험해 보는 것이 더 우선하는구나에 대해서 깨닫게 된 것 같다. 이것또한 배움과 이해가 되었다.
이번 프로젝트는 총 3명이 진행하게 되었고 두 팀원은 데이터 수집부터 머신러닝 최적화까지 엔지니어링 파트를 담당해 주셨다.(든든) 엔지니어링관련된 사항에 대해선 나는 모델링 쪽은 익숙하지 않기도 했고, 부족한 점을 인정하고 솔직하게 “잘 모르니까 필요한 작업이 있다면 말해달라”며 적극적으로 역할을 요청했다. 덕분에 데이터 수집 및 모델 테스트를 진행하였으며, 지표 간 데이터 상관 관계 분석을 통하여 프로젝트의 유의미한 지표가 무엇인지에 대한 인사이트를 얻을 수도 있었다.
또, 지난 프로젝트하면서 논의한 내용을 회의록 형태로 정리해 놓으면 좋겠다는 생각이 들어, 이번에 이 부분에 집중해 보기로 했다. 회의록 정리와 프로젝트 흐름 기록 및 정리 그리고 지표 값에 변화에 대해서 기록을 담당했다. 중간 중간 문제 상황에 대해서 정리와 제안에 집중했으며, 기획 및 최종 발표 자료 제작도 맡아 진행했다. 덕분에 머신러닝 프로젝트 전체 흐름에 대한 구조적 이해가 많이 생겼고, 문서 작업을 하며 오히려 기술적인 부분을 더 깊이 있게 들여다보는 계기가 되었다.
팀워크와 프로젝트
하루 수업 일정이 끝나고 프로젝트를 진행할 시간이 되면 우리 팀은 어제 진행했던 상황을 공유하고 그 안에서 생겼던 문제들을 함께 논의하고 해결 방안에 대해서 고민하는 시간을 가졌다. 그리고 자연스럽게 다음 action item을 설정하며 프로젝트를 이어갔다.
어느 날 문득,
“우리 팀이 진짜 하나의 프로세스를 가지고 프로젝트를 굴리고 있구나.” 하는 생각이 들었고, 그날의 두근거림은 아직도 생생하다.
이번 프로젝트를 통해서 크게 느낀 건, 데이터의 양도 물론 중요하지만, 어떤 피쳐를 선택하고 어떻게 정의하느냐가 훨씬 더 중요하다는 점이었다. 이 지표(피쳐)가 과연 결과에 영향이 있는 것인지 고민하고 넣어보고 다시 제거하는 과정 속에서 우리 비즈니스에 정말 필요한 지표가 무엇인지, 그리고 무엇을 측정해야 하는지에 대해서 배우고 스스로 이해하게 된 시간이었다.
또한 팀워크와 역할 분배에 있어서도 여전히 고민할 지점은 남아 있었다. 특정 파트에 일이 몰리는 구간이 있었고, 다음 프로젝트에서는 좀 더 유연하고 균형 잡힌 분담 구조를 스스로 설계해보고 싶다는 과제가 남았다. 그리고 조금 더 실무처럼 하고 싶다.라는 욕심이 있다.
이렇게, 나의 두 번째 프로젝트는 끝이 났다.
다음 프로젝트에선 또 어떤 고민을 하고 그리고 나는 거기서 어떤 역할을 만들어갈 수 있을까?
'원티드 포텐업 부트캠프 기록' 카테고리의 다른 글
[비전공자의 AI 부트캠프 일지 #9] 딥러닝 실습하기 (0) | 2025.04.06 |
---|---|
[비전공자의 AI 부트캠프 일지 #8] 딥러닝 기초 개념 이해하기 (0) | 2025.03.30 |
[비전공자의 AI 부트캠프 일지 #6] 머신러닝 기초 정리_원티드 포텐업 부트캠프 (0) | 2025.03.02 |
[비전공자의 AI 부트캠프 일지 #5] part2 .ML(머신러닝) 시작_원티드 포텐업 부트캠프 (2) | 2025.02.23 |
[비전공자의 AI 부트캠프 일지 #4] 데이터 분석 프로젝트 회고_원티드 포텐업 부트캠프 (0) | 2025.02.16 |