원티드 포텐업 부트캠프 기록

[비전공자의 AI 부트캠프 일지 #4] 데이터 분석 프로젝트 회고_원티드 포텐업 부트캠프

졔예요 2025. 2. 16. 22:24
[비전공자의 AI 부트캠프 일지 #4]
데이터 분석 프로젝트 회고
_원티드 포텐업 부트캠프

 

 12월 30일 드디어 첫 데이터 분석 프로젝트에 대한 발표를 진행하고 이번 프로젝트가 마무리가 되었다. 처음 해보는 데이터 분석 프로젝트에 대한 설렘과 함께 아직 코드도 잘 알지 못하는 상황에서 잘 마무리 할 수 있을까? 라는 나에 대한 두려움도 있었다. 그래도 나에 대한 방향성에 대해서 고민을 하고 프로젝트를 진행하면서 전반적인 흐름에 대해서 배울 수 있었던 시간이었다. 이번 글에서는 첫 프로젝트에서 마주한 문제들과 어떻게 극복했는지 그리고 이 과정에서 배운 점을 정리해보려고 한다. 

 

 

비전공자 데이터 분석 도전기 #3 부트캠프 3~4주차_데이터 분석 프로젝트

비전공자 데이터 분석 도전기 #3부트캠프 3~4주 차_데이터 분석 프로젝트  원티드 포텐업 부트캠프 3주 차가 되면서 첫 번째 데이터 분석 프로젝트가 시작되었다. 우리 반의 총인원은 15명으로 3

jyejye-h.tistory.com

 

프로젝트 진행 과정과 극복 방법

데이터 수집

 프로젝트 주제를 선정하는 과정에서 다양한 의견이 나왔지만, 가장 현실적인 문제는 바로 '데이터를 어디서 어떻게 구할 것인가?'였다. 기존에 회사를 다닐 땐 당연하게 접근할 수 있었던 매출 자료나 메타 광고 운영 현황, 스토어 방문자 수 이런 데이터를 외부에서는 쉽게 구할 수 없다는 점을 실감했다. 수업 시간에 공공 데이터나 API, 웹 크롤링을 활용하는 방법을 배우긴 했지만, 실제 프로젝트에 필요한 데이터는 도대체 어디에서 구할 것인지가 가장 큰 걱정이었다.

 프로젝트 팀과 함께 주제를 담배, 청소년이라는 키워드에서 시작하기로 하고 데이터를 얻는 방법에 대해서 논의하였을 때 수업 시간에 공공 데이터와 API, 웹 크롤링을 배운 것을 그대로 활용하는 방법으로 진행하기로 하고 먼저 데이터 수집 가능한 것에 대해서 목록을 만들고 실제 데이터를 얻을 수 있는지에 대한 조사를 했다. 

 먼저, 주제와 관련된 데이터는 어떤 것을 구할 수 있을까?라는 물음을 만들고 흡연자 비율, 담배 종류 자료, 선호도 조사, 국내 흡연장 수, 새해 다짐 조사 자료 등 데이터 수집 가능 리스트를 만들었다. 이후 실제 공공 데이터 포털을 통해 흡연관련 추세, 담배 종류별 흡연율, 청소년 흡연율 등에 대한 정형 데이터를 수집할 수 있는 것을 확인했고 API와 웹 크롤링을 통해서 담배, 흡연에 키워드관련 연관 키워드를 수집할 수 있었다.

 

방향성 설정

 처음에는 청소년과 전자담배라는 주제를 정한 상태였는데, 프로젝트를 진행하면서 우리가 이야기하려는 핵심 문제를 명확하게 정의하는 것이 중요하다는 것을 깨달았다. 데이터를 수집하면서 처음에는 전자담배 규제 강화가 필요하다. 라고 정의하였는데 이 목적이 포괄적이고 명확하지 않다보니 데이터 수집과 분석 방향도 모호해졌다.

 "전자담배에 노출된 청소년들"이란 기사로 청소년과 전자담배관련 분석으로 주제를 정한 것이었는데 전자담배의 발암물질이 문제라고 해야 하는 것인지, 전자담배를 피는 사람들의 중복 사용이 문제라고 해야 하는 것인지 등 프로젝트에 대한 핵심 질문을 계속 수정하면서 결국 우리가 정의하고 싶은 문제는 무엇인지에 대해 찾아갔다. 

 프로젝트에 대한 질문을 수정하고 답변해 나가면서 도달한 문제는 애초에 담배는 청소년이 살 수가 없는데 어떻게 청소년 문제가 계속 나오는 것이고 그리고 어디서 사는 거지? 라는 질문으로 도달하게 되었다. 이로 인해서 초반에 다소 포괄적이었던 전자담배 규제 강화라는 문제와 방안에서 최종적으로는 청소년 전자담배 접근성이라는 문제로 정의하게 되었다. 

 

코드 흐름 이해

 팀 프로젝트였지만 각자 진행한 코드의 일관성을 유지해야 한다는 점을 몰랐었다. 나의 경우에는 전처리 등의 과정보다 데이터 수집 및 최종 자료를 기획하고 제작하는 부분을 담당했는데 시각화 자료 수정을 위해서 팀원 코드를 공유받았는데 데이터 저장 경로부터 다르다보니 실행이 되지 않고 이 변수가 어떤 것을 가르키고 있는지 이해가 되지 않아 특정 기능을 실행하는데 생각보다 정말 많은 시간을 소모했다.

 처음에는 코드 실행이 되지 않던 부분에서만 그 부분만 해결하려고 했었는데 여러 시행착오 끝에 처음부터 이게 어떤 변수로 만들어졌는지, 어디서 데이터가 나왔는지 체크를 했다. 이렇게 변수와 데이터가 어디서 나왔는지 체크가 되니 코드와 전처리를 어떻게 하였는지에 대한 흐름을 이해할 수 있었다. 흐름에 대해서 이해하고 사본을 만들어서 조금씩 변경해 보면서 하나씩 다시 따라서 실행해 보면서 데이터 분석한 내용을 어떻게 구성할지 보였던 것 같다.

 

데이터 분석

  흡연율, 담배 종류별 흡연율과 같은 정형 데이터는 질병관리청의 국민건강영양조사의 데이터를 수집하고 전체적인 흡연율 추이는 지속 감소하였으나 전자담배 사용률은 지속적으로 증가하고 있음을 찾아내 현재 흡연 행태가 전자담배로 변화하고 있다는 인사이트를 얻었다. 

 3개년 흡연과 전자담배 뉴스 키워드 분석을 통해 전자담배 키워드 증가율이 높아지고 있음을 확인하고 워드 클라우드와 네트워크 분석을 통해서 청소년 키워드를 검증했다. 추가로 연도 별 키워드 변화와 증감 추이를 통해서 전자담배에 문제 변화를 찾아내고 청소년 문제와 관련된 우려가 이어지고 있다는 인사이트를 얻었다. 이로써 문제로 정의했던 청소년의 접근성에 대해서 구매 경로 분석으로 좀 더 뾰족하게 제안 사항을 정의할 수 있었다.

 이후 온라인 구매 증가율 데이터 분석과 실제 플랫폼 전자담배 등록된 상품 건수, 실제 온라인에서 구매할 수 있는 단계를 점검하였다. 그리고 이번 프로젝트를 통해 데이터 분석을 하면서 새로 알게 된 것이 24년도부터 전자담배 무인샵이라는 키워드를 발견하고 이 무인샵이 점점 증가하고 있는 것을 추가로 확인했다. 이 부분도 실제로 팀원 분이 현장에 나가 실제 구매 경로를 점검하였다.

 이를 통해 검색, 결제 단계 간소화로 인한 허점으로 청소년 보호 장치가 미흡하여 규제 및 기술적 개선이 시급하다라는 결론을 내면 청소년의 경우 인증 절차 추가와 안면 인식 기술 활용해 소유자와 구매자가 동일한지 먼저 확인하는 방법 등을 통해 청소년 구매 경로 규제 강화하는 것을 제안함으로 마무리 하였다.

위 흐름을 통해서 정리된 데이터 분석 프로젝트 목차

 
 
 

첫 프로젝트를 통해 배운점

 먼저, 데이터 수집부터 분석까지 전체 흐름을 경험하였다. 수업 시간에서는 어디에서 어떤 데이트를 수집하는 과정을 배웠지만 실제 우리가 정의한 문제에 대한 데이터를 어디서 얻을 수 있는지부터 생각하는 것부터 확보하는 과정 그리고 데이터 처리 과정을 통해서 데이터 엔지니어링의 중요성을 느낀 것 같다.
또, 팀원분들의 코드를 통해 다른 사람의 코드 흐름을 이해하려는 과정과 강사님께 데이터 정제하는 부분에 대해서 도움을 받은 경험을 통해 데이터 분석 시 데이터 정제 방법을 아는 것에 대한 필요성을 체감했다. 데이터를 어떻게 정제하는 지에 따라서 결과 해석이 달라질 수 있고 중간 연결점을 찾을 수 있다는 것을 배웠다. 

 두번째는 문제 정의의 중요성. 어떤 문제를 해결할 것인가? 를 명확히 하는 것이 중요하다는 것을 알게 되었다. 처음 문제를 포괄적으로 정의하면서 수집 및 처리 과정에 시간이 소모가 되었던 경험을 했다. 문제를 정의한 후 검증하는 과정을 통해서도 좀 더 뽀죡하게 좁힐 수 있는 점에 대해서 데이터 분석은 문제 해결 과정이구나.라고 배우면서 이 부분에서 재미를 느끼게 되었다. 

 그리고 팀 프로젝트를 하면서 협업과 역할 분배에 대한 중요성이 다시 한 번 더 느꼈던 것 같다. 팀원분들과 문제 정의를 하면서 데이터 수집에 대한 문제를 나눠서 조사하고 논의하면서 찾아갔던 과정들을 통해 협업과 소통 방식에 대한 것을 또 다시 배울 수 있었다. 그리고 역할 분배에 대해서는 과정마다 어느 팀원에게 일이 몰리는 구간이 있었는데 이걸 다음에 어떻게 조정하고 분배하면 좋을지에 대해서 아쉬움 그리고 도전 과제로 남게 되었다.

데이터 분석 프로젝트의 개요

 


 첫 프로젝트는 예상했던 것보다 더 어려운 과정이었지만, 덕분에 데이터 분석의 전반적인 과정을 경험할 수 있었다. 실무에서 필요로 하는 역량이 무엇인지도 조금씩 감이 오기 시작한 것 같다. 시행착오 속에서도 배우고 성장하고 어떤 역량을 키워야 할지 고민의 시간을 가졌던 것과 내가 재미있는 부분이 분석하는 과정이라는 점을 깨달은 것이 가장 큰 수확이 되었다. 
 25년 1월부터는 머신러닝에 대해서 배웠는데 배우면서 정말 또 처음 듣는 것들이 많이 나와서 어떻게 지나간 것인지 싶은 1월 머신러닝 수업 과정과 머신러닝 프로젝트에 대한 이야기를 진행해 보겠다 .

파이팅💪