3. 챗봇의 기억력, Memory

작성일 2025-10-06

🎯 이 챕터에서 배울 것

챗봇이 대화를 기억하게 만드는 ‘Memory’의 중요성 이해하기
ConversationBufferMemory: 모든 대화를 기억하는 가장 기본적인 메모리
ConversationBufferWindowMemory: 최근 대화만 기억하여 토큰을 절약하는 메모리
ConversationSummaryMemory: 긴 대화를 요약하여 핵심만 기억하는 메모리
ConversationSummaryBufferMemory: 최근 대화는 그대로, 오래된 대화는 요약하는 하이브리드 메모리
ConversationKGMemory: 대화에서 지식 그래프(Knowledge Graph)를 구축하는 고급 메모리
LLMChain 및 LCEL과 함께 Memory를 통합하는 방법

ConversationBuffer(Window)Memory

🎯 이번 단계에서 배울 것

ConversationBufferMemory를 사용하여 전체 대화 기록을 저장하는 방법
ConversationBufferWindowMemory를 사용하여 최근 K개의 대화만 저장하는 방법

📝 1단계: 대화 기억하기

전체 코드 (notebook.ipynb):

from langchain.memory import ConversationBufferMemory, ConversationBufferWindowMemory
from langchain.chat_models import ChatOpenAI
from langchain.schema.runnable import RunnablePassthrough
from langchain.prompts import ChatPromptTemplate, MessagesPlaceholder

# 1. 가장 기본적인 메모리: 모든 대화를 저장
# memory = ConversationBufferMemory(return_messages=True)

# 2. 최근 K개의 대화만 저장하는 메모리
memory = ConversationBufferWindowMemory(
    return_messages=True,
    k=4, # 최근 4개의 대화(Human+AI)를 기억
)

model = ChatOpenAI(temperature=0.1)

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "You are a helpful chatbot"),
        MessagesPlaceholder(variable_name="history"), # 메모리가 여기에 들어감
        ("human", "{message}"),
    ]
)

chain = RunnablePassthrough.assign(history=lambda x: memory.load_memory_variables(x)["history"]) | prompt | model

def invoke_chain(question):
    result = chain.invoke({"message": question})
    memory.save_context({"input": question}, {"output": result.content})
    print(result)

🔍 코드 상세 설명

1. Memory란?
챗봇은 기본적으로 “상태가 없는(stateless)” 특성을 가집니다. 즉, 방금 나눈 대화도 바로 잊어버립니다. Memory는 챗봇이 이전 대화 내용을 기억하고 다음 답변에 활용할 수 있도록 대화 기록을 저장하고 관리하는 구성 요소입니다.

2. ConversationBufferMemory

모든 대화 내용을 순서대로 버퍼에 저장합니다.
간단하지만, 대화가 길어지면 프롬프트에 포함되는 토큰 양이 무한정 늘어나 비용과 성능 문제가 발생할 수 있습니다.

3. ConversationBufferWindowMemory

k 파라미터로 지정된 개수만큼의 최근 대화만 저장합니다.
토큰 사용량을 제어하면서도 최근 대화의 맥락은 유지할 수 있는 효율적인 방법입니다.

4. MessagesPlaceholder
ChatPromptTemplate 내에서 메모리가 동적으로 삽입될 위치를 지정하는 플레이스홀더입니다. variable_name은 memory의 memory_key와 일치해야 합니다.

✅ 체크리스트

ConversationBufferWindowMemory를 초기화하고 k 값을 설정했나요?
MessagesPlaceholder를 프롬프트에 추가했나요?
체인 실행 후 memory.save_context를 호출하여 대화를 저장했나요?

ConversationSummary(Buffer)Memory

🎯 이번 단계에서 배울 것

ConversationSummaryMemory: 전체 대화를 LLM을 사용해 요약하여 저장하는 방법
ConversationSummaryBufferMemory: 요약과 버퍼링을 결합한 하이브리드 메모리

📝 1단계: 대화 요약하여 기억하기

전체 코드 (notebook.ipynb):

from langchain.memory import ConversationSummaryMemory, ConversationSummaryBufferMemory
from langchain.chat_models import ChatOpenAI

llm = ChatOpenAI(temperature=0.1)

# 1. 전체 대화를 요약하는 메모리
# memory = ConversationSummaryMemory(llm=llm)

# 2. 하이브리드 메모리
memory = ConversationSummaryBufferMemory(
    llm=llm,
    max_token_limit=150, # 이 토큰 제한을 넘으면 가장 오래된 대화를 요약
    return_messages=True,
)

def add_message(input, output):
    memory.save_context({"input": input}, {"output": output})

def get_history():
    return memory.load_memory_variables({})

add_message("Hi I'm Nicolas, I live in South Korea", "Wow that is so cool!")
add_message("South Korea is so pretty", "I wish I could go!!!")

# max_token_limit을 넘는 긴 대화를 추가하면...
add_message("How far is Brazil from Argentina?", "I don't know! Super far!")
# ... get_history()를 호출하면 오래된 대화가 요약된 것을 볼 수 있음

🔍 코드 상세 설명

1. ConversationSummaryMemory

대화가 추가될 때마다 LLM을 호출하여 전체 대화 내용을 요약합니다.
대화가 아무리 길어져도 프롬프트에 포함되는 토큰 양을 일정하게 유지할 수 있습니다.
단점: 대화가 추가될 때마다 요약을 위해 LLM을 호출하므로 비용이 발생하고 약간의 지연이 생길 수 있습니다.

2. ConversationSummaryBufferMemory

ConversationBufferMemory와 ConversationSummaryMemory의 장점을 결합한 것입니다.
평소에는 대화를 버퍼에 그대로 저장하다가, max_token_limit으로 지정된 토큰 양을 초과하면 가장 오래된 대화부터 요약하여 버퍼의 크기를 줄입니다.
효율성과 정확성 사이의 균형을 맞춘 매우 실용적인 메모리입니다.

동작 흐름 (SummaryBuffer):

1. 대화 1, 2, 3 추가 -> 버퍼에 그대로 저장
   [H: 안녕, 난 니코야, ...]
   [A: 와 멋지다!]
   [H: 한국은 예뻐, ...]
   [A: 가고 싶다!]

2. 대화 4 추가 (max_token_limit 초과)
      |
      V
3. 가장 오래된 대화(1)를 요약하여 SystemMessage로 만듦
   [S: 사용자는 니코이고 한국에 산다고 소개했다.]
   [H: 한국은 예뻐, ...]
   [A: 가고 싶다!]
   [H: 브라질은 얼마나 멀어?]
   [A: 엄청 멀어!]

✅ 체크리스트

ConversationSummaryBufferMemory를 llm과 max_token_limit과 함께 초기화했나요?
여러 번의 대화를 추가한 후, get_history()를 통해 오래된 대화가 요약되는 것을 확인했나요?

ConversationKGMemory

🎯 이번 단계에서 배울 것

ConversationKGMemory를 사용하여 대화에서 지식 그래프(Knowledge Graph)를 추출하고 활용하는 방법

📝 1단계: 지식 그래프로 대화 기억하기

전체 코드 (notebook.ipynb):

from langchain.memory import ConversationKGMemory
from langchain.chat_models import ChatOpenAI

llm = ChatOpenAI(temperature=0.1)

memory = ConversationKGMemory(
    llm=llm,
    return_messages=True,
)

def add_message(input, output):
    memory.save_context({"input": input}, {"output": output})

add_message("Hi I'm Nicolas, I live in South Korea", "Wow that is so cool!")
add_message("Nicolas likes kimchi", "Wow that is so cool!")

# "니코가 무엇을 좋아하니?" 와 같은 질문에 대한 맥락을 제공
memory.load_memory_variables({"inputs": "what does nicolas like"})
# 출력: {'history': [SystemMessage(content='On Nicolas: Nicolas lives in South Korea. Nicolas likes kimchi.')]}

🔍 코드 상세 설명

1. ConversationKGMemory (Knowledge Graph)

대화에서 중요한 개체(Entity, 예: 사람, 장소)와 그들 사이의 관계를 추출하여 지식 그래프 형태로 저장합니다.
단순한 대화 기록이 아닌, 구조화된 정보를 기억하므로 특정 개체에 대한 질문에 더 정확한 맥락을 제공할 수 있습니다.
어떻게 작동하는가?: 내부적으로 LLM을 사용하여 대화에서 “(주어, 서술어, 목적어)” 형태의 트리플(triple)을 추출합니다. (예: (Nicolas, lives in, South Korea), (Nicolas, likes, kimchi))
load_memory_variables가 호출될 때, 현재 질문과 관련된 지식들을 요약하여 SystemMessage로 제공합니다.

✅ 체크리스트

ConversationKGMemory를 초기화했나요?
여러 정보를 담은 대화를 추가했나요?
특정 개체에 대한 질문을 load_memory_variables에 전달하여, 관련된 정보가 요약되어 반환되는 것을 확인했나요?

Memory와 Chain의 통합

🎯 이번 단계에서 배울 것

레거시 LLMChain에 메모리를 직접 통합하는 방법
최신 LCEL(LangChain Expression Language)을 사용하여 메모리를 체인에 통합하는 방법

📝 1단계: LCEL로 메모리 통합하기 (최신 방식)

전체 코드 (notebook.ipynb):

from langchain.memory import ConversationSummaryBufferMemory
from langchain.chat_models import ChatOpenAI
from langchain.schema.runnable import RunnablePassthrough
from langchain.prompts import ChatPromptTemplate, MessagesPlaceholder

llm = ChatOpenAI(temperature=0.1)

memory = ConversationSummaryBufferMemory(
    llm=llm,
    max_token_limit=120,
    return_messages=True,
)

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "You are a helpful AI talking to a human"),
        MessagesPlaceholder(variable_name="history"),
        ("human", "{question}"),
    ]
)

# LCEL 체인 구성
chain = RunnablePassthrough.assign(history=lambda x: memory.load_memory_variables(x)["history"]) | prompt | llm

def invoke_chain(question):
    result = chain.invoke({"question": question})
    memory.save_context({"input": question}, {"output": result.content})
    print(result)

invoke_chain("My name is nico")
invoke_chain("What is my name?") # -> "Your name is Nico."

🔍 코드 상세 설명

1. LCEL 방식의 메모리 통합
이것이 현재 LangChain에서 권장하는 방식입니다. 메모리를 체인의 일부로 명시적으로 연결하여 데이터 흐름을 더 명확하게 만듭니다.

RunnablePassthrough.assign(history=...): 체인의 시작 부분에 새로운 history 키를 추가하는 단계입니다.
lambda x: memory.load_memory_variables(x)["history"]: invoke가 호출될 때 memory에서 대화 기록을 로드하는 함수입니다. 이 함수는 체인이 실행될 때마다 호출되어 항상 최신 대화 기록을 가져옵니다.
memory.save_context(...): 체인 실행이 끝난 후, 사용자의 질문과 모델의 답변을 수동으로 메모리에 저장하여 다음 대화를 준비합니다.

2. 레거시 LLMChain 방식 (참고)

# 예전 방식
from langchain.chains import LLMChain

chain = LLMChain(
    llm=llm,
    memory=memory, # memory를 파라미터로 직접 전달
    prompt=prompt,
    verbose=True,
)

chain.predict(question="My name is Nico")

LLMChain은 메모리 관리를 내부적으로 자동 처리해줘서 편리했지만, 복잡한 체인을 구성할 때 데이터 흐름이 불분명해지는 단점이 있었습니다. LCEL 방식은 이를 개선하여 더 명시적이고 유연한 체인 구성을 가능하게 합니다.

✅ 체크리스트

LCEL을 사용하여 메모리 로드, 프롬프트, 모델을 순서대로 연결했나요?
RunnablePassthrough.assign을 사용하여 체인에 history를 주입했나요?
체인 호출 후 save_context를 사용하여 대화 내용을 수동으로 저장했나요?
챗봇이 이전 대화 내용을 기억하고 답변하는 것을 확인했나요?

출처 : https://nomadcoders.co/fullstack-gpt