[비전공자의 AI 부트캠프 일지 #5]
part2 .ML(머신러닝) 시작
원티드 포텐업 부트캠프
2025년 새해가 밝았고 그러거나 말거나 원티드 포텐업 part2. 머신러닝이 시작되었다. 이번 part를 시작하면서 12월 데이터 분석 프로젝트를 하면서 아쉬웠던 부분들을 보완하고 싶었다. 이번에도 과정을 이해하면서 역할에 대해서 가져가고 싶다는 생각을 했다. 결론부터 이야기하면 나 그래도 12월보단 조금 더 나아진 것 같다라는 생각과 함께 새로운 문제가 생겼는데...
머신러닝(Mechine Learning)이란?
먼저, 머신러닝이란 말 그대로 기계학습하는 것이었다. 나는 사실 뭔가 다른 것이 있을 줄 알았는데 정말 기계가 기존의 내용을 학습을 하고 예측을 하는 것이었다. 쉽게 3년 치의 날씨 데이터를 학습시키고 그럼 오늘 날씨는?을 예측하게 하는 과정인 것이었다. 쉽게 넷플릭스의 영화 추천, 스포티파이의 노래 추천 그리고 이 상품은 어떠세요?의 광고를 보신 것을 생각하면 되었다.
기계를 학습시키는 방법으로는 지도 학습, 비지도 학습이 있다. 지도 학습이란, 정답을 주고 거기서 예측하게 하는 방식이다. 예를 들면 1+1 = 2, 1+2 = 3라는 정답을 알려주고 그럼 다음 1+3=? 의 답을 예측하게 하는 것이다. 비지도 학습은 정답이 없는 데이터를 가지고 유사한 성향을 가진 것을 찾아서 그룹화하는 방식이다. 쉽게 고객 세분화를 생각하자!
part2. 머신러닝 과정 커리큘럼
원티트 포텐업 부트캠프는 12월 데이터 분석, 1월 머신러닝, 2월 딥러닝, 3월 LLM을 배우고 4~5월 융합 프로젝트를 진행한다. 이번 1월 머신러닝 과정은 다시 세부적으로 머신러닝 이론+실습 함께 수업을 진행하고 그리고 실제 머신러닝 모델을 만들어보는 팀 프로젝트를 진행한다.
파이썬에서 머신러닝에 사용하는 라이브러리는 사이키런(Scikit-learn)이란 것으로 데이터 전처리부터 분류, 회귀, 클러스터링 그리고 모델평가까지 다양한 작업을 지원하는 라이브러리다. 해당 라이브러리를 이용해서 데이터 분류(train & test)하고 학습할 모델(랜덤포레스트, 로지스틱 회귀 모델 등)을 불러와서 평가(F1 스코어 등) 과정까지 모두 가능하다.
이렇게 머신러닝 과정을 지원하는 라이브러리가 있다보니 실제 가장 중요했던 것은 어떤 부분에서 필요할까? 그리고 데이터를 어떻게 준비할 것인지와 그 데이터를 준비 과정이었다. (데이터 전처리~)
데이터 마이닝
데이터 마이닝은 데이터와 예측을 통해서 최적의 의사 결정을 하기 위해서 필요한 것으로 대량의 데이터가 축적되어 있는 데이터베이스로부터 데이터 간의 정보를 분석하고 유용한 정보, 지식을 추출하는 과정이다. 이를 하기 위해서 비즈니스 이해 -> 데이터 이해 -> 데이터 준비하기 -> 모델링(학습) -> 평가 하는 단계를 거친다.
비즈니스 이해에서는 어떤 문제를 정의하고 해결책을 정리하고 이 해결하고자하는 문제를 위한 데이터를 매칭하는 것이 데이터 준비 과정이다. 그래서 머신러닝을 할 데이터의 구성은 x 값 즉 일의 원인과 y 값 = 결과로 만들어 진다. 여기에서 특별한 결과 값(y값)이 있는 것은 지도학습, y 값이 없을 때는 x의 데이터 간의 패턴을 파악해서 분류하는 비지도 학습이 되는 것이다.
요즘 도메인관련 지식이 중요하다고 하는 이유가 여기있는 것 같다. 구매 전환이 떨어지는데 데이터를 상세페이지 Depth 등으로 구성해야 하는데 갑자기 직원들의 출퇴근에 대한 데이터를 넣는다면...? (음 다르게 생각하면 연관이 될 수도 있을 것 같은데..?)
새로운 문제와 집중할 것
위에 이야기했던 것과 같이 머신러닝 파트에서 내가 어려웠던 부분은 사실 과정보다는 모델 알고리즘을 이해하기 위해 나왔던 수학관련 부분이었다. 도대체 AI는 어떻게 작동하는거야? 라고 했던 나의 첫 시작에 대한 물음과 맞닿아 있는 부분인 것 같은데 이과도 문과도 아닌 그리고 수학 지식에 대해서 무지했던 나는 사실 이 부분이 이해하기가 어려웠다. 흐린 눈이 되었다.
이미 기존에 만들어진 모델을 불러와 데이터를 학습시키고 하는 과정에서 아.. 이번에도 역시 잘 만들어진 것은 존재하구나 하면서 세부적인 알고리즘과 코드를 이해하기 보다는 머신러닝은 어떤 순서를 따라가야 하는지에 대해서 프로젝트 시에는 어떤 역할을 해보고 만들어 낼 것인지에 집중해서 진행하게 되었던 것 같다.
1월 후기 요약
1월 머신러닝에 대해서 배우고 현재 딥러닝 파트를 진행 중인데 1월에는 이걸 이렇게 하는 것이 맞는지에 대한 물음이 반복적으로 들었던 혼란의 시간이었다. 뭐 일단은 따라 해야지 그리고 과정을 이해하는데 집중했던 것이 지금 2월 딥러닝 파트에서 조금씩 이때 배운 내용들이 선명해지는 것 같다. 조금 더 활용해보는 연습을 했었다면...이란 생각과 함께 역시 반복의 중요성에 대해서 실감하는 중이다. (매달 새로운 시작이라는 것이 조금😅ㅠㅠ)
파이팅💪
'원티드 포텐업 부트캠프 기록' 카테고리의 다른 글
[비전공자의 AI 부트캠프 일지 #7] 머신러닝 프로젝트 회고 (0) | 2025.03.23 |
---|---|
[비전공자의 AI 부트캠프 일지 #6] 머신러닝 기초 정리_원티드 포텐업 부트캠프 (0) | 2025.03.02 |
[비전공자의 AI 부트캠프 일지 #4] 데이터 분석 프로젝트 회고_원티드 포텐업 부트캠프 (0) | 2025.02.16 |
[비전공자의 AI 부트캠프 일지 #3] 데이터 분석 프로젝트 (0) | 2025.01.26 |
[비전공자의 AI 부트캠프 일지 #2] 파이썬 기초와 데이터 분석 (4) | 2025.01.19 |