728x90
반응형

llm 4

작사 LLM 제작 – 4. Suno AI와의 결합으로 곡 완성하기

앞선 3편에서는 QLoRA 방식으로 작사 LLM을 튜닝하고, 테스트를 통해 원하는 키워드 기반의 가사를 생성하는 과정을 살펴봤습니다.이번 편에서는 이렇게 생성된 가사를 Suno AI와 결합해 실제 곡으로 완성한 과정과 느낀 점을 공유합니다. 🎯 프로젝트 목표이번 작업의 목표는 간단합니다.“LLM이 생성한 가사가 실제로 노래로 완성될 수 있는지를 검증한다.” 이를 위해 최소한의 수정만 거쳐 작곡을 진행했습니다.즉, 원문에 가깝게 유지한 상태에서 음악적 완성도가 어느 정도 확보되는지 확인하고자 했습니다. 📝 가사 편집 과정작사 LLM이 생성한 결과물은 완벽하지 않았지만, 이번 프로젝트에서는 수정을 최소화했습니다.구체적으로는 노래로 부르기 자연스럽도록 마디(음절) 나누기만 적용했고,단어 선택이나 문..

LLM 2025.08.09

작사 LLM 제작 – 3. QLoRA를 통한 LLM 튜닝

앞선 2편에서는 각 가사에 대해 5개의 핵심 키워드를 추출하고, 이를 학습 데이터셋으로 정리하는 과정을 다뤘습니다.이번 글에서는 이 데이터셋을 활용하여 QLoRA 방식으로 소형 LLM을 튜닝하는 과정을 소개합니다. 📦 모델 준비모델은 로컬 환경에서 동작하도록 Hugging Face의 **gemma-2-2b**를 다운로드 후 사용했습니다.model_path = "./hug_model/gemma-2-2b/" 오프라인 환경에서도 모든 단계가 작동하도록 구성하는 것이 목표였기 때문에,모델 로드부터 데이터 처리, 학습까지 인터넷 연결 없이 수행할 수 있도록 세팅했습니다. 📊 데이터 불러오기 및 전처리전처리와 키워드 추출이 완료된 CSV 파일(keyword_lyric_train2.csv)을 로드하여 H..

LLM 2025.08.09

작사 LLM 제작 - 2. 키워드 추출과 데이터셋 구축

앞선 1편에서는 공개 가사 데이터셋을 전처리하여불필요한 문장과 이상치를 제거하고, 10,744개의 가사로 정제하는 과정을 다뤘습니다. 이번 글에서는 이 데이터를 기반으로 각 가사에서 핵심 키워드를 추출하고,LLM 학습에 사용할 수 있는 형태의 데이터셋으로 구축한 과정을 소개합니다. 💡 오프라인 작동을 위한 구조 설계이 프로젝트의 목표 중 하나는 다음과 같습니다:“인터넷 연결 없이도 작동하는 완전한 오프라인 작사 LLM 제작” 따라서 키워드 추출 또한 오프라인 상태에서 실행 가능한 모델로 구현해야 했습니다.이를 위해 Hugging Face에서 제공하는 경량 LLM인 google/gemma-2-2b 모델을 선택하여,로컬 환경에 다운로드한 후 모든 추출 작업을 진행했습니다. from transformer..

LLM 2025.08.08

작사 LLM 제작 - 1. 데이터 전처리

작사 LLM(Large Language Model)을 개발하기 위한 첫 걸음은 바로 신뢰할 수 있고 깔끔한 가사 데이터셋을 확보하고 전처리하는 과정입니다. 이번 글에서는 Kaggle의 공개 가사 데이터셋을 기반으로 진행한 전처리 과정을 소개합니다. ⚠️ 본 프로젝트는 비상업적 연구 및 실험 목적이며, 원본 가사 내용은 일절 공개하지 않습니다.사용된 데이터의 저작권은 원저작자에게 있으며, 본문에서는 오직 전처리 및 모델 학습 과정만을 다룹니다. 📘 1. 데이터 개요사용한 데이터는 Kaggle에서 공개된 가사 데이터셋으로, 총 11,399개의 곡에 대한 가사가 포함되어 있었습니다.모델 훈련을 위해 먼저 전처리 과정을 거쳤습니다. 🧹 2. 결측치 제거데이터프레임에는 'Lyric' 컬럼이 존재하며, ..

LLM 2025.08.08
728x90
반응형