[비전공자의 AI 부트캠프 일지 #3]
데이터 분석 프로젝트
_원티드 포텐업
원티드 포텐업 부트캠프 3주 차가 되면서 첫 번째 데이터 분석 프로젝트가 시작되었다. 우리 반의 총인원은 15명으로 3명씩 5개의 팀으로 나눠지게 되었고 이때 팀 구성하는 방법은 랜덤으로 5개의 팀이 구성될 수 있는 코드를 강사님께서 작성해서 팀 구성이 진행했다. 전에는 사다리를 타거나 랜덤으로 뽑는 프로그램을 찾아서 써봤지만, 실제로 코드로 이렇게 구현할 수 있다는 것도 나에겐 신기하게 느껴졌다. 첫 데이터 분석 프로젝트 경험을 통해서 앞으로 내가 어느 부분에 집중해야겠구나. 를 생각할 수 있는 시간이 된 값진 경험이었다.
비전공자 데이터 분석 도전기 #1: 부트캠프 한달, 방향성 찾아가기
벌써 2025년 1월 중반을 향해서 가고 있다니 돌아보면 시간은 항상 빠르게 지나가는 것 같다. 지난 3월 퇴사라는 단어에 진심을 다해 결심한 사건이 있었다. 그러나 결심만 했을 뿐, 회사에서
jyejye-h.tistory.com
부트캠프 3주 차_데이터 수집 방법 배우기
1~2주 차동안 Python 기초와 함께 필수 라이브러리인 데이터 조작을 위한 pandas와 데이터 시각화를 위한 matplotlib과 함께 쉽게 숫자로 분석할 수 있는 정형 데이터 분석과 "이 제품은 허리 운동에 좋은 것 같아요."라는 문자를 분석해 볼 수 있는 비정형 데이터 분석을 배웠다.
2주 차까지는 이렇게 준비된 데이터를 가지고 어떻게 분석해 볼 수 있는지에 대해서 배웠다면, 이제 3주 차에는 직접 데이터를 수집해 볼 수 있는 방법에 대해서 배웠다. 방법으로는 크게 API를 이용하는 것과 웹 크롤링하는 것을 배우게 되었다.
1. API 활용한 데이터 수집 : requests, urllib
이런 데이터를 제공하고 계시군요! 저 지금 이런 데이터가 필요한데 데이터를 보내주시겠어요?? ok! 감사!
2. 웹 크롤링 : BeautifulSoup, Selenium
페이지에서 나는 이 부분만 가져오고 싶은데 구조가.. 어떻게 되었지?(F12) 앗 발견! 이 부분의 데이터를 추출해서 볼게요!
마케팅 업무하면서 데이터 수집을 하는 방법은 어떻게 해야 하지?라는 질문에서 크롤링이라는 단어를 처음 접했고 크롤링하려면 파이썬을 배워야 한다.라는 것을 찾았고 여기까진 온 과정이었는데 여기 이렇게 만나게 되니깐 반가웠다. 그다음은 HTML 구조와 계층을 파악해서 가져오는 부분이 재미있으면서 꽤 노가다... 눈으로 확인하고 계속 맞는 정보가 추출되는지 확인하는 것이 중요했던 것 같다.(요게 BeautifulSoup)
웹 크롤링하면서 주의해야 할 점은 웹 사이트가 크롤링을 허용하고 있는지 여부인데 /robots.txt 확인을 통해서 크롤링 가능한지(Allow) 아니면 금지(disallow) 확인 후 진행해야 한다는 것도 알아야 한다!(안 그러면 철컹철컹)

첫 프로젝트 & 첫 데이터 분석 시작
3주 차부터 프로젝트도 함께 진행되었는데 첫 달 동안 배운 내용을 기반으로 해서 팀 프로젝트를 통해서 실전 경험 + 포트폴리오를 쌓기 위해 원티드 포텐업의 커리큘럼에는 매달 과정의 마무리는 프로젝트 진행 + 발표로 진행된다.
사실 짧은 시간 동안 라이브러리 하루에 하나씩 실습해 보고 지난 간 상황이라 첫 프로젝트에서 무엇을 해야 할지, 어떻게 해야 할지 감이 잡히지도 않았다. 프로젝트는 랜덤으로 구성된 팀원들과 함께 진행했는데, 팀원 모두가 비전공자라는 점이 특별한 경험이었다. 처음 주제 선정을 위해서 활용했던 방법으로는 각자 원하는 도메인은 어떤 지부터 이야기를 해보기로 제안했다. 생각보다 각자 원하는 도메인이 달랐다. 원하는 도메인에 대해서 공부도 할 수 있는 시간으로도 활용해 보고자 했는데 조금 아쉬웠다. 나의 경우는 데이터 분석이든 다른 도메인 모두 처음이라 어떤 도메인도 다 재미있을 것 같았다.
그러다가 문제가 되었던 것이 데이터 수집이었다. 도메인과 주제에 대해서 나왔지만 막상 외부에서 데이터를 접근할 수 있는 방법이 많지 않다는 것을 알게 되었다. 회사에서는 어떻게든 매출 진행 내역이나 광고 운영 데이터를 그냥 볼 수 있어서 데이터가 없다는 것은 생각하지 못했던 문제였다. 생각보다 얻을 수 있는 데이터가 많지 않구나...! 그러면서 첫 프로젝트의 경우 데이터를 쉽게 접근할 수 있는 문제에 대해서 고민하고 선정하게 되었다.
우리 팀은 프로젝트 주제로 '청소년'과 '전자담배'라는 키워드를 가지고 주제를 선정했는데 청소년 이슈는 항상 사회적으로 중요하고 또 관련 데이터로는 공공 데이터를 통해서 자료를 확보할 수 있는 것을 확인했다. 이를 통해 주제를 선정하고 관련 데이터를 모아서 청소년 전자담배 연관성을 파악하고, 의미 있는 인사이트와 해결 방안을 도출하고자 했다.

프로젝트에서 어려웠던 부분_방향성
"청소년"과 "전자담배"에 라는 주제에 대해서 결정은 하였으나 프로젝트의 문제를 정의하고 어떤 방향으로 나아가야 유의미한 결과를 도출할 수 있는 지에 대해서 많은 논의를 했다. 처음 우리가 집중했던 것은 "전자담배에 노출된 청소년들" 이러한 기사가 많다는 점에서 초첨을 두었는데 청소년의 문제로 가야 할지, 액상형 니코틴으로 가야 할지, 그래서 문제가 도대체 뭔지에 대한 이야기를 했었다.
청소년과 전자담배 키워드를 가지고 주제 선정하고 추가로 어려운 부분이 바로 관심이 많은 주제이기에 정보를 찾을 수록 결론에 대한 이야기도 많다라는 것이 문제를 정의하기가 더 어려웠던 것 같다. 규제 사각지대라는 점에 있다! 그건 알겠는데 우리는 과연 어떤 결론을 가져가야 하는 것이지?
전자담배가 규제 사각 지대에 놓여서 규제를 강화해야 한다. 당연한 이야기가 될 수도 있고, 노담 캠페인이 과연 실효성이 있었는가 에 대한 이야기도 나왔고 아니면 액상형 전자담배에 있는 합성 니코틴의 문제에 대해서 이야기할 수도 있고 우리가 말하고 싶은 것이 무엇인지 방향성을 정하는 것이 가장 어려웠던 부분이었던 것 같다. 개인적으로 데이터 드리븐 과정을 처음 접하다 보니 어떤 흐름인지 모르는 상황이니깐 추가적인 아이디어가 나오지 않았다!

프로젝트에서 어려웠던 부분_코드 작성과 흐름
개인적으로 어려웠던 부분이 바로 코드 작성이었던 것 같다. 어렵다라기 보단 답답했다. 이 문제에선 어떤 코드를 어떻게 쓰고 어떤 함수 등을 불러와야 하는지, 어떤 코드 흐름으로 작성할 때 A란 결과가 나오겠지.라고 그려져야 하는데 기본기가 없는 상태에서 무엇을 써야 할지를 모르니 코드 입력란을 볼 때마다 도대체 뭘 써야 하는 거지?라는 물음표만 가득했던 것 같다.
데이터 수집 후 데이터 정제하는 코드를 작성하는 부분부터 막혀서 그 다음 단계로 나아갈 수 없다니... 위에 쓴 것과 같이 우리 팀에서 정한 "청소년의 전자담배"라는 주제는 여러 곳에서 많은 결론을 도출한 것이 있어서 다른 분석이 필요한데 뭔가 결과는 아는데 수집한 데이터를 검증하는 부분에서 막혀버려서 그 뒤 흐름이 그려지지 않는 것이 조급해졌다.
에러가 발생할 때마다 이 에러가 무엇을 뜻하는지에 대해서 확인하는 과정에서도 시간 소모가 많았고, 시각화하는 과정에서도 데이터를 어떻게 정제해서 보느냐에 따라서도 흐름이 달라질 수 있었는데 이 정제하고 추출하는 과정에서 어떤 코드와 흐름을 어떻게 이용하는지 모르기에 분석할 수 있는 시야가 좁혀지는 점에서 아쉬운 점이 많았다.
그럼에도 불구하고 API를 이용하는 방법과 셀레니움 등을 통해서 우리 팀은 데이터를 수집했고 파이썬을 통해서 데이터 처리와 분석하는 과정을 진행하면서 서로의 이야기 흐름을 맞춰가고 문제를 좁히게 되는 과정을 만들었고 이를 통해 적용해 볼 수 있는 방안들도 만들어 냈다.
나의 경우는 이 첫 프로젝트를 통해 방향성을 설정하는 데서부터 데이터 수집과 처리, 코드 작성까지 모든 과정에서 실패 경험을 만들어 냈다. 그러면서 내가 이제 앞으로 할 수 있는 것들은 무엇인지, 어떤 역할을 해야 하고 그것을 위해 필요한 능력은 무엇인지 깨닫는 시간을 만들어 내기도 했다. 문제를 파악하고 정의할 수 있는 사람이 되어야 한다.라는 생각과 그를 위해서 시야를 더 넓히는 것이 필요하다.라는 생각을 계속했다. (더 알아야 하는 것도 많아지겠지...!)
다음 포스팅에는 이런 과정들을 어떻게 극복하고 어떤 것을 배웠는지 정리해 보려고 한다!
파이팅💪
'원티드 포텐업 부트캠프 기록' 카테고리의 다른 글
[비전공자의 AI 부트캠프 일지 #5] part2 .ML(머신러닝) 시작_원티드 포텐업 부트캠프 (2) | 2025.02.23 |
---|---|
[비전공자의 AI 부트캠프 일지 #4] 데이터 분석 프로젝트 회고_원티드 포텐업 부트캠프 (0) | 2025.02.16 |
[비전공자의 AI 부트캠프 일지 #2] 파이썬 기초와 데이터 분석 (4) | 2025.01.19 |
[비전공자의 AI 부트캠프 일지 #1] 부트캠프 한달, 방향성 찾아가기 (0) | 2025.01.12 |
[원티드 포텐업] 데이터·AI & 게임 클라이언트 협업 트랙 1기 지원하기 (8) | 2024.10.16 |