6. OpenAI를 넘어서 - 로컬 LLM과 PrivateGPT

작성일 2025-10-06

🎯 이 챕터에서 배울 것

OpenAI API를 사용하지 않고, 내 컴퓨터에서 직접 언어 모델을 실행하는 방법
HuggingFaceHub: Hugging Face에 호스팅된 모델을 API처럼 사용하는 방법
HuggingFacePipeline: Hugging Face의 모델을 로컬 환경에 다운로드하여 실행하는 방법
GPT4All: 데스크톱 환경에 최적화된 오픈소스 모델을 실행하는 방법
Ollama: 로컬 LLM을 가장 쉽게 설치하고 실행할 수 있는 도구와 ChatOllama 연동법
OllamaEmbeddings를 사용하여 임베딩 과정까지 로컬에서 처리하여 완벽한 PrivateGPT 구축하기

HuggingFaceHub

🎯 이번 단계에서 배울 것

Hugging Face Hub에 있는 수많은 오픈소스 모델을 LangChain과 연동하는 방법
HuggingFaceHub 클래스를 사용하여 API 형태로 모델을 호출하는 방법

📝 1단계: Hugging Face Hub 연동하기

전체 코드 (notebook.ipynb):

from langchain.llms import HuggingFaceHub
from langchain.prompts import PromptTemplate

# 1. 모델에 맞는 프롬프트 템플릿 준비 (Mistral 모델 형식)
prompt = PromptTemplate.from_template("[INST]What is the meaning of {word}[/INST]")

# 2. HuggingFaceHub LLM 초기화
llm = HuggingFaceHub(
    repo_id="mistralai/Mistral-7B-Instruct-v0.1", # 사용할 모델의 저장소 ID
    model_kwargs={
        "max_new_tokens": 250, # 모델에 전달할 추가 파라미터
    },
)

chain = prompt | llm
chain.invoke({"word": "potato"})

🔍 코드 상세 설명

1. HuggingFaceHub란?
Hugging Face Hub는 수만 개의 오픈소스 AI 모델이 공유되는 거대한 플랫폼입니다. HuggingFaceHub 클래스는 이 플랫폼에 호스팅된 모델들을 마치 API처럼 호출할 수 있게 해주는 LangChain의 구성 요소입니다.

왜 사용하는가?: 내 컴퓨터에 무거운 모델을 직접 설치하지 않고도 다양한 오픈소스 모델을 테스트하고 사용할 수 있습니다.
어떻게 작동하는가?: HUGGINGFACEHUB_API_TOKEN 환경 변수를 설정해야 합니다. HuggingFaceHub는 이 토큰을 사용하여 Hugging Face의 Inference API에 요청을 보내고 결과를 받아옵니다.
주의사항: 모델마다 입력으로 받는 프롬프트의 형식이 다를 수 있습니다. (예: Mistral 모델은 [INST]...[/INST] 형식을 사용) 각 모델의 문서를 확인하고 PromptTemplate을 맞춰주어야 합니다.

✅ 체크리스트

Hugging Face 계정을 만들고 API 토큰을 발급받았나요?
HUGGINGFACEHUB_API_TOKEN 환경 변수를 설정했나요?
HuggingFaceHub를 초기화하고, 원하는 모델의 repo_id를 지정했나요?
모델에 맞는 형식으로 프롬프트를 작성하여 체인을 실행했나요?

HuggingFacePipeline

🎯 이번 단계에서 배울 것

Hugging Face의 모델을 로컬 컴퓨터에 직접 다운로드하여 실행하는 방법
HuggingFacePipeline을 사용하여 로컬 모델을 LangChain과 연동하는 방법

📝 1단계: 로컬 파이프라인으로 모델 실행하기

전체 코드 (notebook.ipynb):

from langchain.llms.huggingface_pipeline import HuggingFacePipeline
from langchain.prompts import PromptTemplate

prompt = PromptTemplate.from_template("A {word} is a")

# HuggingFacePipeline으로 로컬 모델 로드
llm = HuggingFacePipeline.from_model_id(
    model_id="gpt2", # 로컬에 다운로드할 모델 ID
    task="text-generation", # 파이프라인의 작업 유형
    pipeline_kwargs={"max_new_tokens": 150},
)

chain = prompt | llm
chain.invoke({"word": "tomato"})

🔍 코드 상세 설명

1. HuggingFacePipeline이란?
HuggingFaceHub가 원격 API를 사용하는 것과 달리, HuggingFacePipeline은 Hugging Face의 transformers 라이브러리를 사용하여 모델을 로컬 컴퓨터에 다운로드하고 직접 실행합니다.

왜 사용하는가?: 인터넷 연결 없이 모델을 사용할 수 있으며, 데이터가 외부로 전송되지 않아 보안에 유리합니다. API 비용이 발생하지 않습니다.
어떻게 작동하는가?: from_model_id가 호출되면, LangChain은 지정된 model_id의 모델 파일을 Hugging Face Hub에서 다운로드합니다(처음 한 번만). 그 후, 해당 모델을 메모리에 로드하여 추론(text-generation) 파이프라인을 구성합니다.
주의사항: 모델을 실행하려면 충분한 RAM과 VRAM(GPU 사용 시)이 필요합니다. gpt2와 같은 작은 모델로 시작하는 것이 좋습니다. PyTorch와 같은 딥러닝 라이브러리가 설치되어 있어야 합니다.

✅ 체크리스트

transformers, torch 등 필요한 라이브러리를 설치했나요?
HuggingFacePipeline.from_model_id를 사용하여 로컬 파이프라인을 생성했나요?
로컬에서 모델이 실행되고 결과를 반환하는 것을 확인했나요?

GPT4All

🎯 이번 단계에서 배울 것

GPT4All 라이브러리를 사용하여 데스크톱에 최적화된 로컬 모델을 실행하는 방법

📝 1단계: GPT4All 모델 실행하기

전체 코드 (notebook.ipynb):

from langchain.llms.gpt4all import GPT4All
from langchain.prompts import PromptTemplate

prompt = PromptTemplate.from_template(
    "You are a helpful assistant that defines words. Define this word: {word}."
)

# GPT4All 모델 파일의 경로를 지정하여 로드
llm = GPT4All(
    model="./falcon.bin",
)

chain = prompt | llm
chain.invoke({"word": "tomato"})

🔍 코드 상세 설명

1. GPT4All이란?
GPT4All은 일반적인 소비자용 CPU에서도 잘 작동하도록 최적화된 오픈소스 모델과 생태계입니다. LangChain의 GPT4All 래퍼(wrapper)를 사용하면, 미리 다운로드한 모델 파일(.bin)을 로드하여 쉽게 로컬 추론을 수행할 수 있습니다.

왜 사용하는가?: 강력한 GPU 없이 일반적인 노트북이나 데스크톱에서도 준수한 성능의 LLM을 실행할 수 있습니다.
어떻게 작동하는가?: 먼저 GPT4All 웹사이트 등에서 원하는 모델의 .bin 파일을 다운로드해야 합니다. 그 후, GPT4All 클래스를 초기화할 때 model 파라미터에 해당 파일의 경로를 지정해주면 됩니다.

✅ 체크리스트

gpt4all 라이브러리를 설치했나요?
.bin 형식의 모델 파일을 다운로드했나요?
GPT4All 클래스에 모델 파일 경로를 전달하여 LLM을 초기화했나요?

Ollama와 PrivateGPT

🎯 이번 단계에서 배울 것

Ollama를 설치하고 사용하여 로컬 LLM을 가장 쉽게 실행하는 방법
ChatOllama와 OllamaEmbeddings를 사용하여 DocumentGPT를 완벽한 PrivateGPT로 전환하는 방법

📝 1단계: `DocumentGPT`를 `PrivateGPT`로 전환하기

전체 코드 (pages/02_PrivateGPT.py):

# ... (다른 import는 DocumentGPT와 유사)
from langchain.embeddings import OllamaEmbeddings
from langchain.chat_models import ChatOllama

# 1. LLM을 ChatOllama로 변경
llm = ChatOllama(
    model="mistral:latest", # Ollama에서 실행 중인 모델 이름
    temperature=0.1,
    streaming=True,
    callbacks=[ChatCallbackHandler()],
)

@st.cache_data(show_spinner="Embedding file...")
def embed_file(file):
    # ... (파일 로드 및 분할 로직)
    
    # 2. Embeddings를 OllamaEmbeddings로 변경
    embeddings = OllamaEmbeddings(model="mistral:latest")
    
    cached_embeddings = CacheBackedEmbeddings.from_bytes_store(embeddings, cache_dir)
    vectorstore = FAISS.from_documents(docs, cached_embeddings)
    retriever = vectorstore.as_retriever()
    return retriever

# ... (나머지 Streamlit UI 코드는 DocumentGPT와 거의 동일)

🔍 코드 상세 설명

1. Ollama란?
Ollama는 Llama 2, Mistral 등 다양한 오픈소스 LLM을 로컬 환경에서 매우 쉽게 다운로드하고, 실행하고, 관리할 수 있게 해주는 도구입니다. ollama run <모델명>과 같은 간단한 명령어로 모델을 실행하면, 해당 모델을 API처럼 호출할 수 있는 서버가 로컬에 열립니다.

2. ChatOllama & OllamaEmbeddings
LangChain은 Ollama와 완벽하게 통합됩니다.

ChatOllama: 로컬 Ollama 서버에서 실행 중인 모델을 LangChain의 챗 모델처럼 사용할 수 있게 해줍니다. ChatOpenAI를 ChatOllama로 바꾸고, model 이름만 지정해주면 됩니다.
OllamaEmbeddings: 임베딩 과정 또한 로컬 Ollama 모델을 사용하여 수행합니다. OpenAIEmbeddings를 OllamaEmbeddings로 교체하기만 하면 됩니다.

3. 완벽한 PrivateGPT
LLM(추론)과 임베딩을 모두 로컬에서 실행되는 Ollama 모델로 교체함으로써, 파일 데이터와 사용자 질문이 더 이상 외부(OpenAI) 서버로 전송되지 않습니다. 이로써 인터넷 연결 없이도 작동하고 데이터 프라이버시가 완벽하게 보장되는 PrivateGPT가 완성됩니다.

✅ 체크리스트

Ollama를 설치하고 ollama run mistral 명령어로 모델을 실행했나요?
ChatOpenAI를 ChatOllama로, OpenAIEmbeddings를 OllamaEmbeddings로 코드를 수정했나요?
수정된 PrivateGPT 앱이 외부 API 호출 없이 로컬에서 잘 작동하는 것을 확인했나요?

출처 : https://nomadcoders.co/fullstack-gpt

🎯 이 챕터에서 배울 것

HuggingFaceHub

🎯 이번 단계에서 배울 것

📝 1단계: Hugging Face Hub 연동하기

🔍 코드 상세 설명

✅ 체크리스트

HuggingFacePipeline

🎯 이번 단계에서 배울 것

📝 1단계: 로컬 파이프라인으로 모델 실행하기

🔍 코드 상세 설명

✅ 체크리스트

GPT4All

🎯 이번 단계에서 배울 것

📝 1단계: GPT4All 모델 실행하기

🔍 코드 상세 설명

✅ 체크리스트

Ollama와 PrivateGPT

🎯 이번 단계에서 배울 것

📝 1단계: DocumentGPT를 PrivateGPT로 전환하기

🔍 코드 상세 설명

✅ 체크리스트

📝 1단계: `DocumentGPT`를 `PrivateGPT`로 전환하기