『혼자 공부하는 머신러닝+딥러닝』이 머신러닝과 딥러닝을 배울 때 꼭 알아야 할 기본 지식을 전달하는 책이었다면, 『혼자 만들면서 공부하는 딥러닝』은 딥러닝 분야에서 중요한 역할을 한 모델과 그 기술을 배우는 데 초점을 맞춘 책입니다. 고급 딥러닝 주제를 다룬 심도있는 학습으로 건너가기 전, 징검다리로 삼을 책을 찾고 있다면 이 책을 먼저 읽어보세요.

 

이론서는 모델의 작동 원리를 이해하는 데 초점을 맞추고, 활용서는 실전 문제를 해결하는 데 중점을 두고 있어 딥러닝 모델이 어떻게 구성되어 있는지 쉽게 감이 잡히지 않습니다. 이 책은 이론서와 활용서 사이 어딘가에 놓여 있습니다. 이론에서 출발하여 활용까지 가는 길을 안내하면서 실제 모델이 어떻게 구성되는지 직접 만들어 봅니다. 답답했던 마음을 시원하게 풀어 줄 수 있을 거예요. 지금부터 『혼자 만들면서 공부하는 딥러닝』 에는 어떤 내용이 담겨 있는지 톺아보겠습니다.

 

 

혼자 만들면서 공부하는 딥러닝

 

 

 

 

1. 합성곱 신경망(CNN)으로 패션 상품 이미지 분류하기

 

 

 

Ch 01에서는 딥러닝 개발 환경인 구글 코랩 사용법을 익히고, 합성곱 신경망(CNN)의 핵심 개념을 학습합니다. 합성곱, 풀링, 스트라이드, 활성화 함수 등 CNN의 기본 요소를 이해하고, 최초의 합성곱 신경망 모델인 LeNet-5를 직접 구현하여 실습합니다.

 

특히 패션 MNIST 데이터셋을 사용해 LeNet-5 모델을 훈련하고 평가하면서 CNN의 동작 원리와 성능을 체감할 수 있습니다. LeNet-5는 두 개의 합성곱층과 세 개의 밀집층으로 구성된 간결한 구조로, 이미지 분류에 뛰어난 성능을 보여주는 기초적인 CNN 모델입니다. CNN의 기본 개념을 확실히 이해할 수 있으며, 이를 바탕으로 더 발전된 신경망 모델로 확장할 준비를 마칠 수 있습니다.

 

 

 

 

 


2. 사전 훈련된 CNN 모델로 강아지와 고양이 사진 분류하기

 

 

 

Ch 02에서는 CNN 모델 중 역사적으로 중요한 AlexNet, VGGNet, ResNet 등 사전 훈련된 CNN 모델을 학습하고, 이미지 분류 작업에 직접 적용해 봅니다. 먼저, 이미지넷 대회에서 우승한 AlexNet과 VGGNet의 구조를 비교하며 CNN의 발전 과정을 이해하고, VGG16 모델을 직접 구현하여 모델의 구성 요소를 파악합니다.

 

VGGNet 모델은 이미지넷 데이터셋에서 사전 훈련된 가중치를 제공하며, 이를 활용해 강아지와 고양이 사진을 분류하는 방법을 배웁니다. 또한, 데이터 전처리와 모델 예측 결과를 해석하는 방법도 학습합니다. 케라스의 keras.applications 모듈을 사용해 VGGNet을 쉽게 로드하고, 샘플 이미지를 모델에 전달하여 예측 결과를 확인할 수 있습니다.

 

마지막으로, 성능 향상을 위해 개발된 ResNet 모델의 핵심 개념인 스킵 연결과 배치 정규화를 학습합니다. ResNet을 직접 구현하며 깊은 신경망에서도 성능을 유지할 수 있는 원리를 이해하고, 강아지와 고양이 이미지를 분류하며 사전 훈련된 고급 CNN 모델의 강력함을 체험할 수 있습니다.

 

 

 

 

 

 


3. 고급 CNN 모델과 전이 학습으로 이미지 분류하기

 

 

 

Ch 03에서는 효율성과 성능을 동시에 고려한 고급 CNN 모델들을 학습하고, 전이 학습 기법을 통해 사전 훈련된 모델을 실제 문제에 적용하는 방법을 배웁니다. DenseNet과 MobileNet은 경량화된 모델로, 빠른 연산과 높은 성능을 보여주며, 특히 MobileNet은 모바일 환경에서도 효율적으로 동작할 수 있도록 설계되었습니다.

 

또한, 최신 CNN 모델인 EfficientNet의 핵심 개념을 학습하며, EfficientNet이 어떻게 성능을 높이고 효율성을 유지하는지 이해할 수 있습니다. 역 잔차 블록과 Swish 활성화 함수 등 EfficientNet의 주요 구성 요소를 케라스로 직접 구현하고, 이미지 분류 성능을 확인해 봅니다.

 

마지막으로 전이 학습 기법을 사용하여 사전 훈련된 모델을 새로운 이미지 분류 문제에 맞춰 미세 조정하는 방법을 학습합니다. 텐서플로 허브와 허깅페이스에서 다양한 사전 훈련된 모델을 로드하고, 효율적으로 활용하는 방법도 함께 다룹니다. 이를 통해 사전 훈련된 모델을 다양한 이미지 분류 문제에 손쉽게 적용할 수 있는 실전 능력을 갖출 수 있습니다.

 

 

 

 

 


4. 트랜스포머 인코더 모델로 텍스트 감성 분류하기

 

 

 

Ch 04에서는 자연어 처리 분야를 혁신한 트랜스포머 구조와 어텐션 메커니즘을 학습하며, 특히 인코더 구조를 기반으로 한 BERT 모델을 사용하여 텍스트 감성 분류를 수행합니다. 먼저 트랜스포머 인코더의 핵심 개념인 셀프 어텐션, 멀티 헤드 어텐션, 위치 인코딩, 층 정규화를 파악하며, 이를 케라스로 직접 구현해 봅니다.

 

이후 트랜스포머 인코더를 활용한 대표적인 언어 모델인 BERT를 학습하고, KerasNLP와 허깅페이스 transformers 라이브러리로 사전 훈련된 BERT 모델을 로드하여 IMDB 영화 리뷰 감성 분류 작업을 수행합니다. BERT의 워드피스 토크나이저를 통해 텍스트를 적절히 전처리하고, 분류 작업에 최적화된 BERT 모델을 쉽게 구현할 수 있는 방법도 익힙니다.

 

마지막으로 BERT의 확장 모델인 RoBERTa와 DistilBERT를 학습합니다. RoBERTa는 BERT의 훈련 방식을 개선하여 성능을 높였으며, DistilBERT는 지식 정제 기법을 통해 BERT 대비 절반의 파라미터로 유사한 성능을 달성할 수 있습니다. KerasNLP와 허깅페이스를 사용하여 이 모델들을 직접 로드하고, 텍스트 분류 작업에 적용하는 방법도 경험할 수 있습니다.

 

 

 

 

 


5. 트랜스포머 디코더 모델로 텍스트 생성하기

 

 

 

Ch 05에서는 트랜스포머 디코더 기반의 언어 생성 모델을 학습하며, 텍스트 생성 작업에 적용할 수 있는 핵심 개념들을 탐구합니다. 먼저 트랜스포머 디코더의 핵심 개념인 마스크드 멀티 헤드 어텐션, 토큰 샘플링 기법(top-k, top-p, 빔 샘플링)을 이해하고, 이를 활용하여 GPT-2 모델을 케라스로 직접 구현하고 활용해 봅니다.

 

트랜스포머 디코더 기반의 최신 언어 모델들도 다룹니다. 메타의 Llama는 효율적인 로터리 위치 임베딩, RMS 정규화, SwiGLU 활성화 함수 등 최신 기법을 사용하여 고성능을 달성한 오픈 소스 모델로, 이를 케라스와 허깅페이스 transformers를 통해 직접 로드하고 텍스트를 생성해 봅니다. 또한 구글의 Gemma 모델은 이미지와 오디오까지 처리할 수 있는 멀티모달 모델로, 최신 LLM 기술의 확장을 보여줍니다.

 

이 장을 통해 트랜스포머 디코더 기반의 생성 모델 개념을 깊이 이해하고, 최신 오픈 소스 모델(Llama, Gemma)을 실습하며 직접 활용할 수 있는 능력을 갖출 수 있습니다. 다음 Ch 06에서는 인코더와 디코더를 모두 사용하는 트랜스포머 인코더-디코더 모델을 학습합니다.

 

 

 

 

 


6. 트랜스포머 인코더-디코더 모델로 텍스트 요약하기

 

 

 

Ch 06에서는 트랜스포머 인코더-디코더 구조를 이해하고, 이를 기반으로 한 최신 모델인 BART와 T5를 학습합니다. 먼저 트랜스포머 인코더-디코더 모델의 핵심 개념인 크로스 어텐션을 파악하며, 인코더에서 처리된 정보를 디코더에 전달하여 텍스트를 생성하거나 요약하는 원리를 배웁니다.

 

대표적인 인코더-디코더 모델인 BART를 직접 구현하고, 사전 훈련된 BART 모델을 사용하여 텍스트 요약 작업을 수행해 봅니다. BART는 손상된 텍스트를 복원하는 방식으로 훈련되어 강력한 조건부 텍스트 생성 성능을 보여줍니다. 허깅페이스 transformers 라이브러리를 사용하여 BART 모델로 영어 및 한국어 텍스트 요약을 수행하고, 미세 튜닝된 KoBART도 실습합니다.

 

마지막으로 구글의 T5 모델을 학습합니다. T5는 모든 자연어 처리 작업을 “텍스트 투 텍스트” 방식으로 처리하는 혁신적인 구조를 지니며, 상대 위치 임베딩을 사용하여 효율성을 높였습니다. T5-1.1 버전에서의 개선점을 이해하고, KerasNLP로 T5 모델을 직접 구현하며 텍스트 요약 성능을 확인합니다. 이 장을 통해 인코더-디코더 기반 모델의 기본 개념부터 최신 응용까지 폭넓게 학습할 수 있습니다.

 

 

 

✓합성곱 신경망과 ✓트랜스포머라는 두 가지 관점에서 지금까지 등장했던 주요 모델의 구조를 이해하는 데 초점을 맞췄습니다. 최신 모델들이 어떤 구조와 기술들을 채택했는지 살펴보면서 이 분야의 기술 발전 과정을 배울 수 있습니다. 앞으로 나올 새로운 모델들의 변화를 쫒아가는 데에도 도움이 될 거예요. 책과 함께 공부할 수 있는 동영상 강의도 한빛미디어 유튜브 채널에서 확인할 수 있습니다. 책에 대한 질문이나 새로운 소식이 궁금하다면 박해선 저자님의 블로그를 방문해 주세요.

 

 

 

 

 


 

혼자 만들면서 공부하는 딥러닝『혼자 공부하는 머신러닝+딥러닝』이 기본기를 다지는 데 집중했다면, 이 책은 딥러닝 분야에서 중요한 역할을 한 모델과 그 기술을 배우는 데 초점을 맞추었습니다.

딥러닝 분야에서 대표적으로 활용되는 두 분야인 ✓컴퓨터 비전과 ✓대규모 언어 모델(LLM)을 중심으로, 초창기 CNN부터 GPT, Llama, Gemma 같은 최신 모델까지 따라 만들며 딥러닝의 핵심 기술 흐름을 자연스럽게 익힐 수 있습니다.

단순히 모델을 실행해보는 데서 끝나는 것이 아니라, 모델이 등장하고 발전해 온 과정을 함께 따라가며 새로운 기술에도 유연하게 대응할 수 있는 실력을 길러보세요.