플로라도의 data workout
이어드림스쿨 3기 - 13주차 회고 (Kaggle ICR~) 본문
지난 7주차의 회고기록에서 약 두배의 시간이 지난 13주차가 온 지금까지 무엇을 했는가 남겨본다.
한달이 넘는 시간동안 무엇을 했는가 하면,
우선 머신러닝의 알고리즘, 방법론들에 대해서 이상엽 교수님과, 김용담 강사님에게 약 4주차에 걸쳐 배웠다.
선형회귀 분석을 시작으로 Decisiontree, 그리고 그 형제들인 배깅과 부스팅의 방법들
RandomForest, Gradient Boost, XGBoost, LightGBM , CatBoost 에 대해 개괄적으로 알아 보았고
군집화 방법론인 K-Means Clustering , Hiearchical Agglomerative Clustering등 도 배웠다.
선형회귀 분석을 담당하신 이상엽 교수님은 연세대 디지털 애널리틱스 학과 대학원 교수님이신걸로 알고 있는데,
그래서 그런건지(?)
개념 도입과 문제제기, 해결 방법, 그 이후의 과정 그리고 한계와 그 다음 단계로 이어지는 일관된 논리의 흐름 덕분에
1주의 시간이 합치되는 느낌을 받았다. 첫 시작이 흥미롭게 다가왔다. 다만 그것이, 선형회귀 분석과 로지스틱회귀 일부라는 한정된 범위여서 아쉬웠었다.
이후에는 우리의 담임선생님(?) 용담 강사님과 함께하는 본격적인 머신러닝에 돌입해서는, 실전적인 방법론들
그러나 그 실전 방법이 이전에 필요한 개념들에 대해서도 함께 배웠다.
데이터를 보는 감각과 방법론들과의 연결이 조금은 나아진것 같다. 확실히 하기위해서는 실전뿐...!
너무 근본이지만 잘 쓰이지 않는 방법들에 대해서는 보충 공부를 했다. 앞으로 더 공부가 필요한 부분이다.
본 강의 외에는 유튜브를 많이 참고 하여 개념을 보충해 나갔다.
(StatQuest, 고려대학교 산업경영공학부 DSBA 연구실 , 김성범 소장)
개괄적인 이해와 코드가 필요할땐 '파이썬 머신러닝 완벽가이드' 라는 책을 펼쳐보며 감을 잡았다.
근데 아직까지, 머신러닝 관련 어떤 강의를 보던 ,책을 보던
개념의 이해가 덜 되서 그런건지?...
이해의 층이 한 단 올라가서 그런건지..
꺼내볼때마다 새로운 느낌은 여전하다. 다른 동료분도 그러더라. 상당한 공감이 됐다. 당연히 후자이길 바라고 있다.ㅎㅎㅎ
XGBoost 논문 리뷰를 하는 시간도 있었다.
또 관련해서 논문을 어떻게 읽어야 하는가에 대한 내용도 들었다.
발표되는 논문은 공식 학술지보다도, 아카이브 사이트에서 먼저 게재되는 경우가 많은걸 알게 되었고,
재빠르게 발표하고, 또 재빠르게 팔로업 해야하는 문화가 그대로 반영되는구나 싶었다. 실제 현업은 팔로업을 얼마나 빠르게 하느 잘 하느냐가 엄청 중요할것이라고 생각하여, 적어도 올해 소기의 과정이 끝나면 팔로업 할 수 있는 준비가 되어야 어디든 취업하지 않을까? 라는게 요즘 생각이다. (대학원은 현재는 웬만해선 생각하고 싶지않다. 가고 싶거든 3~4개월안에 준비가 되야 할텐데, 그 기간 안에 철저히 쇼부봐야 한다고 생각하는데 .. 적당한 감이 올까? 모르겠다.)
잘하는것? 당연히 중요하지만 누가 "먼저" 잘 하느냐에 대해 철저히 공감하고 있기에...
그리고 강의에는 다루지 않았지만 짧다면 짧고 길다면 긴(?) 머신러닝사에서
어쩌면 fundamental했던 녀석들은 채워가는 식으로 유튜브를 많이 활용하였고
(Adaboost, stochastic gradient Boost, DBSCAN 등.., 곧 SVM..도 보고..)
본 강의와 함께 추가적인 공부를 진행하면서,
이것저것 여러 material을 참고하여 산발적인 진행이 되다보니
정리를 잘하자 라는 생각이 맴돌고 있는 요즘이다.
근데 정리를 하려고 들면... 내 안에 무언가의 놈이 딴지걸기 일쑤여서...
이게 왜그렇지? 저건 왜그렇지? 매번 이러다가 시간이 다 간다.
그러한 과정중에 생기는 오개념 천지인걸 계속해서 깨닫고 있는 와중이고
감사히, 이것 저것 뱉어대는 질문에 답해주시는 강사님과 동료들,
그리고 똑똑이GPT^^
덕분에 오개념을 바로 잡고 있다.
몇주전쯤은 아이패드 프로를 구매해 필기에 활용하고 있다.
사용하고 있는 데스크탑도 아이맥이고
어느새 애플 라인업이 두개나 됐다.
이러다 핸드폰도 애플것으로 갈아타게 되는것은 아닐런지...?
그런데 기기가 좋아도 글씨체가 엉망인건 여전하더라 쩝.
아무튼 굉장히 요긴하게 쓰고 있다.
치트키급으로 활용하고 싶다.
진작에 썼어야 한다.
그래서 어쩌면 최초의 목적,
'여러가지 공부한것들을 정리하여 잘 포스팅 하기'란
도통 쉽지 않아보인다.
공부하면서 이것 저것 참고한 material이 많은데,
일차적으로 자료의 저작권 문제도 신경 쓰이고,
아직은 할게 눈에 많이 밟히기 때문에 정갈하게 잘 적는게 부담이 되는것 같다.
아무튼 ... 여유가 있을 때 하나씩 정리 해봐야지....
생각보다 파이썬에 익숙해지는 정도가 더디고,
배웠던 넘파이 판다스나 시각화도 헷갈리고,
응용하여 코딩테스트 문제를 빠릿빠릿하게 풀지 못해 조금 답답한 요즘이다.
코테 관련은 특강도 듣고 매일 4문제 풀이를 목표로,
코딩테스트 진도 체크 및 풀이 공유하는 스터디도 하고 있는데 많이 밀렸다.
코테 알고리즘 관련 백그라운드 지식이 너무 부족하다고 느껴 추가적으로 강의나 책을 참고할까 생각중이다.
그리고, 현재는 Kaggle의 ICR이라는 주제의 competition을 진행중인데 배운것을 온전히 녹여내는것이 쉽지 않아 보인다.
해서 지난 프로젝트 때와는 다르게 온전히 프로젝트에 집중하기 보다는, discussion과 baseline code만 살피고, 문제제기 되는것에 대해 이야기 하다가 모르거나 써봄직한 개념에 대해 공부, 이전 배웠던것들에 대한 복습 위주로 진행 하고 있다.
그냥 솔직히 말하면, 생각했던것보다 너무 난해하고 어려워 진도가 잘 안나가고 우선순위가 좀 밀렸다.
그래도 배움의 최고봉은 프로젝트 이기에...
이미 종료되었더라도 연습하기 좋은 Kaggle과 Dacon의
Playground series, Basic Series의 좋은 예제들을 시작으로 하나씩 점검해볼까 한다.
Dacon에서 머신러닝으로 해결이 가능한 active competition이 생긴다면 즉각 참여할거고,
그렇지 않다면 괜찮았던 예제들을 풀어보면 된다.
그리고 동료의 제안으로 논문 리뷰 스터디도 곧 할 예정인데...
딥러닝의 시련과 같이 잘 이겨낼 수 있을지..?
할게 너무 많다 ...
머신러닝 개념과 수학적인 부분이 생각보다 어렵지만
그래도, 아직까진 상상하지 못했던 그림은 아니었는데,
일주일 뒤에는 딥러닝이라는 전혀 모르는 녀석이 등장하니
진짜 여기서 나의 밑천이 들어낼거란 생각에 조금은 두렵다.
6주간에 걸친 내용을 나열하니 내용이 조금 길었는데
사실, 요 몇일은 공부를 제대로 안한게 사실이다.
생각했던 대로만 했다면
지금쯤 진도가 꽤 괜찮게 나갔을텐데
집중을 잘 못했다.
매번 생각한거보다 밀린다. 집중하는 시간을 늘리긴 해야되는데...
지금쯤이면 풀어 질 때 됐지.. 라고 ..
뭔가 본인 스스로는 아닌것 마냥 감상적으로 이야기 하곤 했는데
그걸 왜 내가 지금 그러고 있는건데? ...
7월 10일에 선배 기수와 현직자분들과 함께하는 네트워킹 데이가 있는데,
다음 회고는 적당히 그 후기 쯤을 차곡차곡 적는 것으로 할 수 있으니... 그 때 다시 적는것으로 하고,
네트워킹 데이때, 많은 인사이트를 얻고, 현주소를 확실히 점검 받으려면, 남은 2주는 또 열심히 해야할것이다.
이어드림 스쿨 3기 용사님들 모두 아자 아자 화이팅.
'끄적끄적 > 회고록' 카테고리의 다른 글
이어드림스쿨 3기 - 17주차 회고 (0) | 2023.07.20 |
---|---|
이어드림 스쿨 3기 - 14주차 회고 (0) | 2023.07.02 |
이어드림스쿨 3기 - 7주차 회고~5.14 (feat. 첫 프로젝트) (0) | 2023.05.14 |
이어드림스쿨 3기 - 6주차 회고 (0) | 2023.05.07 |
이어드림스쿨 3기 - 4주차 회고 (0) | 2023.04.23 |