Research Agent 완벽 가이드

AI 시대의 정보 수집 자동화, Research Agent의 핵심 개념부터 실전 구현까지. 웹 크롤링, 요약, 보고서 생성을 자동화하는 에이전트 시스템을 직접 만들어봅니다.

1. 정보 수집 에이전트

어느 날 김개발 씨는 팀장님으로부터 긴급 요청을 받았습니다. "다음 주까지 경쟁사 5곳의 최신 기술 동향을 조사해서 보고서로 정리해줘." 수십 개의 웹사이트를 돌아다니며 정보를 수집하고, 정리하고, 요약하는 작업이 눈앞에 펼쳐졌습니다.

이럴 때 자동으로 정보를 수집해주는 비서가 있다면 얼마나 좋을까요?

Research Agent는 한마디로 사용자 대신 인터넷에서 정보를 찾고, 분석하고, 정리해주는 AI 비서입니다. 마치 유능한 리서치 조수가 도서관과 인터넷을 뒤져 필요한 자료를 정리해오는 것과 같습니다.

이것을 제대로 이해하면 반복적인 정보 수집 작업에서 해방되어 더 창의적인 업무에 집중할 수 있습니다.

다음 코드를 살펴봅시다.

from langchain.agents import initialize_agent, Tool
from langchain.llms import OpenAI

# Research Agent의 기본 구조
class ResearchAgent:
    def __init__(self, llm):
        # 에이전트가 사용할 도구들을 정의합니다
        self.tools = [
            Tool(name="Search", func=self.search, description="웹 검색"),
            Tool(name="Summarize", func=self.summarize, description="내용 요약")
        ]
        # LLM과 도구를 연결하여 에이전트 생성
        self.agent = initialize_agent(self.tools, llm, agent="zero-shot-react")

    def research(self, query):
        # 사용자 질문에 대해 자동으로 검색하고 요약합니다
        return self.agent.run(f"다음 주제를 조사하세요: {query}")

김개발 씨는 입사 2년 차 개발자입니다. 요즘 그의 업무 중 절반은 기술 조사입니다.

새로운 프레임워크가 나왔는지, 경쟁사는 어떤 기술 스택을 쓰는지, 최신 보안 이슈는 무엇인지 끊임없이 찾아보고 정리해야 합니다. 어느 날 선배 박시니어 씨가 다가와 물었습니다.

"개발아, 혹시 Research Agent라고 들어봤어? 요즘 AI로 리서치 자동화하는 게 대세야." 그렇다면 Research Agent란 정확히 무엇일까요?

쉽게 비유하자면, Research Agent는 마치 여러분만을 위한 전담 리서치 조수와 같습니다. 이 조수는 24시간 쉬지 않고 인터넷을 돌아다니며 정보를 수집합니다.

필요한 자료를 찾으면 핵심만 추려서 깔끔하게 정리해줍니다. 이처럼 Research Agent도 LLM의 추론 능력과 다양한 도구를 결합하여 정보 수집 작업을 자동화합니다.

Research Agent가 없던 시절에는 어땠을까요? 개발자들은 구글에서 키워드를 검색하고, 수십 개의 탭을 열어 문서를 읽고, 중요한 내용을 일일이 복사해서 문서에 붙여넣어야 했습니다.

하루에 몇 시간씩 이런 반복 작업에 소모되었습니다. 더 큰 문제는 정보의 양이 폭발적으로 늘어나면서 사람이 처리할 수 있는 한계를 넘어섰다는 것입니다.

바로 이런 문제를 해결하기 위해 Research Agent가 등장했습니다. Research Agent를 사용하면 병렬 검색이 가능해집니다.

여러 소스에서 동시에 정보를 수집할 수 있습니다. 또한 자동 요약 기능으로 긴 문서도 핵심만 추출할 수 있습니다.

무엇보다 24시간 작동이라는 큰 이점이 있습니다. 위의 코드를 살펴보겠습니다.

먼저 Tool 클래스로 에이전트가 사용할 도구들을 정의합니다. Search 도구는 웹 검색을, Summarize 도구는 내용 요약을 담당합니다.

다음으로 initialize_agent 함수에서 도구들과 LLM을 연결합니다. 마지막으로 research 메서드를 호출하면 에이전트가 자동으로 검색하고 요약한 결과를 반환합니다.

실제 현업에서는 어떻게 활용할까요? 예를 들어 스타트업에서 시장 조사를 한다고 가정해봅시다.

경쟁사 분석, 기술 트렌드 조사, 사용자 피드백 수집 등에 Research Agent를 활용하면 리서치 시간을 80% 이상 줄일 수 있습니다. 실제로 많은 기업에서 이런 에이전트 시스템을 도입하고 있습니다.

하지만 주의할 점도 있습니다. 초보 개발자들이 흔히 하는 실수 중 하나는 에이전트에게 너무 모호한 질문을 던지는 것입니다.

"좋은 정보 찾아줘"라고 하면 에이전트도 무엇을 찾아야 할지 모릅니다. 따라서 "2024년 Python 웹 프레임워크 성능 비교 자료를 찾아줘"처럼 구체적으로 요청해야 합니다.

다시 김개발 씨의 이야기로 돌아가 봅시다. 박시니어 씨의 조언을 들은 김개발 씨는 Research Agent를 구축하기로 결심했습니다.

"이거 제대로 만들면 야근에서 해방될 수 있겠는데요!"

실전 팁

💡 - 에이전트에게 질문할 때는 구체적인 키워드와 원하는 결과 형식을 명시하세요

도구는 단순하게 시작하고, 필요에 따라 점진적으로 추가하세요
에이전트의 중간 추론 과정을 로깅하여 디버깅에 활용하세요

2. 웹 크롤링과 요약

Research Agent의 핵심은 결국 정보를 어디서 가져오느냐입니다. 김개발 씨는 에이전트의 기본 구조는 이해했지만, 실제로 웹사이트에서 정보를 추출하는 방법이 막막했습니다.

"검색 엔진 API만으로는 부족해요. 특정 사이트의 상세 내용까지 읽어와야 하는데..." 박시니어 씨가 웃으며 말했습니다.

"웹 크롤링과 요약, 이 두 가지를 조합하면 돼."

웹 크롤링은 프로그램이 자동으로 웹사이트를 방문하여 데이터를 수집하는 기술입니다. 마치 도서관에서 필요한 책을 찾아 복사해오는 것과 같습니다.

여기에 LLM 요약 기능을 더하면 수십 페이지의 문서도 핵심 내용만 추려서 정리할 수 있습니다.

다음 코드를 살펴봅시다.

import requests
from bs4 import BeautifulSoup
from langchain.chains.summarize import load_summarize_chain

class WebCrawlerTool:
    def __init__(self, llm):
        self.llm = llm
        self.summarize_chain = load_summarize_chain(llm, chain_type="map_reduce")

    def crawl_and_summarize(self, url):
        # 웹페이지 내용을 가져옵니다
        response = requests.get(url, timeout=10)
        soup = BeautifulSoup(response.text, 'html.parser')

        # 본문 텍스트만 추출합니다
        text = soup.get_text(separator='\n', strip=True)

        # LLM으로 핵심 내용을 요약합니다
        summary = self.summarize_chain.run([text[:4000]])
        return {"url": url, "summary": summary}

김개발 씨는 Research Agent에 들어갈 첫 번째 도구를 만들기 시작했습니다. 가장 기본이 되는 것은 웹에서 정보를 가져오는 기능입니다.

"크롤링이라고 하면 뭔가 어려워 보이는데..." 김개발 씨가 중얼거렸습니다. 박시니어 씨가 설명을 시작합니다.

"생각보다 단순해. 웹 브라우저가 하는 일을 코드로 자동화하는 거야." 웹 크롤링을 비유하자면 마치 슈퍼마켓에서 장을 보는 것과 같습니다.

우리가 마트에 가서 진열대를 돌아다니며 필요한 물건을 장바구니에 담듯이, 크롤러는 웹사이트를 방문하여 필요한 데이터를 수집합니다. HTML이라는 진열대에서 텍스트라는 상품을 가져오는 것입니다.

하지만 단순히 데이터를 가져오는 것만으로는 부족합니다. 현대 웹페이지 하나에는 수천에서 수만 단어가 담겨 있습니다.

광고, 메뉴, 푸터, 관련 기사 링크 등 불필요한 내용도 많습니다. 이 모든 것을 사람이 읽고 정리한다면 엄청난 시간이 소요됩니다.

바로 여기서 LLM 요약이 빛을 발합니다. LLM은 긴 텍스트를 읽고 핵심 내용만 추출하는 데 탁월합니다.

위 코드에서 사용한 map_reduce 방식은 긴 문서를 여러 조각으로 나누어 각각 요약한 뒤, 다시 전체를 종합 요약하는 기법입니다. 이렇게 하면 토큰 제한도 우회하면서 정확한 요약을 얻을 수 있습니다.

코드를 자세히 살펴보겠습니다. requests.get으로 웹페이지의 HTML을 가져옵니다.

이것은 브라우저가 페이지를 로드하는 것과 같은 동작입니다. BeautifulSoup은 복잡한 HTML 구조에서 텍스트만 깔끔하게 추출해줍니다.

마지막으로 load_summarize_chain이 추출된 텍스트를 LLM에게 전달하여 요약을 생성합니다. 실무에서는 이 기능을 어떻게 활용할까요?

기술 블로그 모니터링을 예로 들어보겠습니다. 매일 Medium, Dev.to, 회사 기술 블로그 등에서 새 글이 올라옵니다.

크롤러가 자동으로 새 글을 수집하고, LLM이 각 글의 핵심을 2-3문장으로 요약합니다. 개발자는 아침에 커피 한 잔 마시며 요약본만 훑어보고 관심 있는 글만 직접 읽으면 됩니다.

주의해야 할 점이 있습니다. 웹 크롤링 시에는 반드시 robots.txt를 확인해야 합니다.

사이트 소유자가 크롤링을 허용하지 않는 경우도 있습니다. 또한 너무 빠른 속도로 요청을 보내면 서버에 부담을 주거나 IP가 차단될 수 있습니다.

적절한 딜레이를 두고 예의 바른 크롤링을 해야 합니다. 김개발 씨가 고개를 끄덕입니다.

"크롤링과 요약을 조합하니까 진짜 유용하네요. 이제 수십 개 사이트도 한 번에 처리할 수 있겠어요!"

실전 팁

💡 - requests에는 항상 timeout을 설정하여 무한 대기를 방지하세요

JavaScript로 렌더링되는 사이트는 Selenium이나 Playwright를 사용하세요
요약 전에 불필요한 HTML 태그(script, style 등)를 제거하면 품질이 향상됩니다

3. 보고서 생성

정보를 수집하고 요약하는 것까지는 성공했습니다. 하지만 김개발 씨에게 남은 과제가 있었습니다.

"이 데이터들을 어떻게 하나의 보고서로 만들지?" 수집된 정보 조각들이 여기저기 흩어져 있었습니다. 팀장님이 원하는 건 깔끔하게 정리된 보고서였습니다.

박시니어 씨가 힌트를 줍니다. "LLM에게 작가 역할을 맡겨봐."

보고서 생성은 Research Agent의 최종 산출물입니다. 수집된 여러 정보 소스를 하나의 구조화된 문서로 통합하는 과정입니다.

LLM에게 적절한 프롬프트를 주면 목차, 서론, 본론, 결론을 갖춘 전문적인 보고서를 자동으로 작성할 수 있습니다.

다음 코드를 살펴봅시다.

from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain

class ReportGenerator:
    def __init__(self, llm):
        self.template = PromptTemplate(
            input_variables=["topic", "sources"],
            template="""
            당신은 전문 리서치 애널리스트입니다.
            주제: {topic}
            수집된 정보: {sources}

            위 정보를 바탕으로 다음 구조의 보고서를 작성하세요:
            1. 개요 (Executive Summary)
            2. 주요 발견사항 (Key Findings)
            3. 상세 분석 (Detailed Analysis)
            4. 결론 및 제언 (Conclusion)
            """
        )
        self.chain = LLMChain(llm=llm, prompt=self.template)

    def generate(self, topic, sources):
        # 수집된 정보들을 하나의 보고서로 통합합니다
        return self.chain.run(topic=topic, sources="\n".join(sources))

김개발 씨는 이제 크롤링한 데이터와 요약본을 손에 쥐고 있습니다. 경쟁사 5곳의 기술 동향 정보가 각각 정리되어 있습니다.

하지만 이것들은 아직 날것의 재료일 뿐입니다. "팀장님께 이걸 그대로 보여드릴 순 없어..." 김개발 씨가 한숨을 쉽니다.

박시니어 씨가 조언합니다. "보고서 생성도 자동화할 수 있어.

LLM은 글쓰기에도 뛰어나거든." 보고서 생성을 비유하자면 마치 요리사가 재료로 요리를 완성하는 것과 같습니다. 크롤링이 장보기라면, 요약은 재료 손질이고, 보고서 생성은 최종 요리를 완성하는 단계입니다.

아무리 좋은 재료도 제대로 조리하지 않으면 맛있는 음식이 되지 않듯이, 정보도 잘 정리해야 가치가 있습니다. 여기서 핵심은 프롬프트 엔지니어링입니다.

LLM에게 "보고서 써줘"라고만 하면 어떤 형식으로 작성해야 할지 모릅니다. 하지만 위 코드처럼 구체적인 구조를 제시하면 전문가 수준의 보고서를 작성합니다.

개요, 주요 발견사항, 상세 분석, 결론이라는 명확한 섹션을 지정해주었습니다. PromptTemplate의 역할을 살펴보겠습니다.

input_variables로 topic과 sources를 받습니다. topic은 보고서의 주제이고, sources는 수집된 정보들입니다.

template 안에서 {topic}과 {sources}가 실제 값으로 치환됩니다. 마치 편지 양식에서 받는 사람 이름만 바꿔 넣는 것과 같습니다.

LLMChain은 프롬프트와 LLM을 연결하는 파이프라인입니다. run 메서드를 호출하면 프롬프트가 완성되어 LLM에게 전달되고, LLM의 응답이 반환됩니다.

이 과정이 자동으로 이루어지므로 개발자는 입력만 넣으면 됩니다. 실무에서 보고서 생성은 다양하게 활용됩니다.

주간 기술 트렌드 리포트, 경쟁사 분석 보고서, 장애 분석 보고서 등이 자동으로 생성될 수 있습니다. 특히 반복적으로 작성해야 하는 정기 보고서에 효과적입니다.

한 번 템플릿을 만들어두면 매번 같은 품질의 보고서를 얻을 수 있습니다. 보고서 품질을 높이는 방법도 있습니다.

프롬프트에 페르소나를 부여하면 효과적입니다. "당신은 10년 경력의 리서치 애널리스트입니다"라고 역할을 지정하면 더 전문적인 톤으로 작성합니다.

또한 원하는 분량이나 어조를 명시하면 더 일관된 결과를 얻을 수 있습니다. 김개발 씨가 환하게 웃습니다.

"이제 보고서까지 자동으로 만들어지네요! 팀장님께서 좋아하실 것 같아요."

실전 팁

💡 - 보고서 템플릿은 용도에 따라 여러 개 준비해두면 편리합니다

출력 형식을 마크다운으로 지정하면 후처리가 쉬워집니다
중요한 보고서는 생성 후 사람이 한 번 검토하는 프로세스를 추가하세요

4. 실습 리서치 자동화

이론은 충분히 배웠습니다. 이제 김개발 씨는 실제로 동작하는 Research Agent를 만들어볼 차례입니다.

"직접 코드를 짜보면서 배워야 제대로 이해되더라고요." 박시니어 씨도 동의합니다. "그래, 일단 간단한 것부터 시작해서 점점 기능을 추가해보자." 첫 번째 실습으로 특정 주제에 대해 자동으로 조사하고 정리하는 에이전트를 만들어봅니다.

이번 실습에서는 앞서 배운 개념들을 조합하여 완전히 동작하는 Research Agent를 구현합니다. 사용자가 주제를 입력하면 웹에서 관련 정보를 검색하고, 상위 결과를 크롤링하여 요약한 뒤, 최종 보고서까지 생성하는 전체 파이프라인을 완성합니다.

다음 코드를 살펴봅시다.

from langchain.agents import Tool, AgentExecutor, create_react_agent
from langchain.prompts import PromptTemplate
from langchain_community.utilities import GoogleSearchAPIWrapper

class ResearchAutomation:
    def __init__(self, llm):
        self.llm = llm
        self.search = GoogleSearchAPIWrapper()

        # 에이전트가 사용할 도구들을 정의합니다
        self.tools = [
            Tool(name="Search", func=self.search.run,
                 description="웹에서 정보를 검색합니다"),
            Tool(name="Crawl", func=self.crawl_page,
                 description="URL에서 상세 내용을 가져옵니다"),
        ]

        # ReAct 패턴으로 에이전트 생성
        self.agent = create_react_agent(self.llm, self.tools, self.prompt)
        self.executor = AgentExecutor(agent=self.agent, tools=self.tools)

    def run(self, topic):
        return self.executor.invoke({"input": f"{topic}에 대해 조사하고 보고서를 작성하세요"})

드디어 실습 시간입니다. 김개발 씨는 노트북을 펼치고 코드를 작성하기 시작합니다.

지금까지 배운 모든 것을 하나로 합칠 때입니다. "먼저 전체 구조를 잡아보자." 박시니어 씨가 화이트보드에 그림을 그립니다.

Research Agent의 전체 흐름은 다음과 같습니다. 사용자가 주제를 입력하면, 에이전트가 먼저 웹 검색을 수행합니다.

검색 결과에서 유망한 URL들을 선별합니다. 각 URL을 크롤링하여 상세 내용을 가져옵니다.

수집된 정보를 종합하여 보고서를 작성합니다. 이 모든 과정이 자동으로 이루어집니다.

핵심은 ReAct 패턴입니다. ReAct는 Reasoning과 Acting의 합성어입니다.

에이전트가 현재 상황을 분석하고(Reasoning), 어떤 도구를 사용할지 결정하여 실행합니다(Acting). 이 과정을 목표를 달성할 때까지 반복합니다.

마치 사람이 생각하고 행동하는 것과 같은 방식입니다. GoogleSearchAPIWrapper는 Google 검색 API를 편리하게 사용할 수 있게 해줍니다.

API 키만 설정해두면 run 메서드 하나로 검색 결과를 가져올 수 있습니다. 에이전트는 이 도구를 사용하여 주제와 관련된 최신 정보를 검색합니다.

AgentExecutor는 에이전트의 실행을 관리합니다. 에이전트가 도구를 사용하고, 결과를 받고, 다음 행동을 결정하는 전체 루프를 처리합니다.

에러 처리, 최대 반복 횟수 제한 등의 안전장치도 포함되어 있습니다. 실제로 이 코드를 실행하면 어떻게 될까요?

예를 들어 "2024년 AI 트렌드"라는 주제를 입력했다고 가정해봅시다. 에이전트는 먼저 Search 도구로 관련 기사를 검색합니다.

상위 결과의 URL을 확인한 뒤, Crawl 도구로 각 페이지의 상세 내용을 가져옵니다. 마지막으로 수집된 정보를 바탕으로 "2024년 AI 트렌드 분석 보고서"를 작성하여 반환합니다.

디버깅을 위한 팁도 알려드리겠습니다. AgentExecutor에 verbose=True 옵션을 추가하면 에이전트의 사고 과정을 볼 수 있습니다.

"현재 상황: ..., 다음 행동: Search, 이유: ..." 형태로 출력됩니다. 이렇게 하면 에이전트가 왜 그런 결정을 내렸는지 이해할 수 있고, 문제가 생겼을 때 원인을 파악하기 쉽습니다.

김개발 씨가 코드를 실행합니다. 화면에 에이전트의 사고 과정이 출력되기 시작합니다.

"와, 진짜 알아서 검색하고 정리하네요!"

실전 팁

💡 - 처음에는 verbose=True로 에이전트의 동작을 관찰하며 개발하세요

도구 설명(description)은 에이전트가 언제 사용할지 결정하는 데 중요합니다
max_iterations 옵션으로 무한 루프를 방지하세요

5. 실습 뉴스 분석 에이전트

기본적인 Research Agent를 완성한 김개발 씨는 더 실용적인 프로젝트에 도전하고 싶어졌습니다. "매일 아침 기술 뉴스를 확인하는데, 이것도 자동화하면 좋겠어요." 박시니어 씨가 아이디어를 냅니다.

"뉴스 분석 에이전트를 만들어보자. RSS 피드에서 뉴스를 수집하고, 중요도를 분석하고, 일일 브리핑까지 생성하는 거야."

뉴스 분석 에이전트는 Research Agent의 실전 응용 사례입니다. 여러 뉴스 소스에서 기사를 수집하고, LLM으로 중요도와 관련성을 평가하며, 개인화된 뉴스 브리핑을 자동으로 생성합니다.

정보 과잉 시대에 꼭 필요한 나만의 AI 비서를 만들어봅니다.

다음 코드를 살펴봅시다.

import feedparser
from datetime import datetime
from langchain.output_parsers import PydanticOutputParser
from pydantic import BaseModel, Field

class NewsAnalysis(BaseModel):
    title: str = Field(description="기사 제목")
    importance: int = Field(description="중요도 1-10")
    summary: str = Field(description="한줄 요약")
    keywords: list[str] = Field(description="핵심 키워드")

class NewsAnalyzerAgent:
    def __init__(self, llm, rss_feeds):
        self.llm = llm
        self.feeds = rss_feeds
        self.parser = PydanticOutputParser(pydantic_object=NewsAnalysis)

    def collect_news(self):
        # RSS 피드에서 뉴스를 수집합니다
        articles = []
        for feed_url in self.feeds:
            feed = feedparser.parse(feed_url)
            articles.extend(feed.entries[:5])
        return articles

    def analyze_and_brief(self, interests):
        articles = self.collect_news()
        # 각 기사를 분석하고 관심사 기반으로 필터링합니다
        analyzed = [self.analyze_article(a, interests) for a in articles]
        return self.generate_briefing(analyzed)

이번에는 더 실용적인 예제를 만들어봅니다. 매일 쏟아지는 기술 뉴스 중에서 정말 중요한 것만 골라 읽을 수 있다면 얼마나 좋을까요?

김개발 씨가 평소 구독하는 뉴스 피드를 나열합니다. "Hacker News, TechCrunch, 국내 기술 블로그까지...

매일 수백 개의 기사가 올라와요." 뉴스 분석 에이전트는 이 문제를 해결합니다. 먼저 RSS 피드라는 것을 이해해야 합니다.

RSS는 웹사이트가 새 콘텐츠를 표준화된 형식으로 제공하는 방법입니다. 대부분의 뉴스 사이트와 블로그가 RSS를 지원합니다.

feedparser 라이브러리를 사용하면 이 피드를 쉽게 파싱할 수 있습니다. 코드에서 PydanticOutputParser가 눈에 띕니다.

이것은 LLM의 출력을 구조화된 Python 객체로 변환해주는 도구입니다. NewsAnalysis 클래스에 정의된 대로 제목, 중요도, 요약, 키워드를 깔끔하게 추출합니다.

자유 형식의 텍스트가 아니라 프로그래밍에서 바로 활용할 수 있는 데이터를 얻게 됩니다. 중요도 점수는 어떻게 매길까요?

LLM에게 사용자의 관심사를 알려주고, 각 기사가 얼마나 관련 있는지 1-10점으로 평가하게 합니다. 예를 들어 관심사가 "Python, AI, 백엔드"라면 이와 관련된 기사에 높은 점수가 매겨집니다.

점수가 높은 기사만 최종 브리핑에 포함됩니다. 실제 워크플로우를 따라가 봅시다.

아침 8시, 크론잡이 에이전트를 실행합니다. 에이전트는 설정된 RSS 피드에서 최신 기사 50개를 수집합니다.

각 기사를 LLM이 분석하여 중요도를 매깁니다. 상위 10개 기사를 선별하여 일일 브리핑 이메일을 생성합니다.

김개발 씨는 출근길에 이메일 하나만 확인하면 됩니다. 이 에이전트를 더 발전시킬 수도 있습니다.

읽은 기사에 대한 피드백을 수집하여 개인화를 강화할 수 있습니다. "이 기사 좋았어요" 버튼을 누르면 비슷한 기사의 점수가 올라갑니다.

시간이 지날수록 에이전트는 사용자의 취향을 더 잘 이해하게 됩니다. 주의할 점도 있습니다.

RSS 피드가 없는 사이트도 많습니다. 이 경우 웹 크롤링으로 직접 수집해야 합니다.

또한 뉴스 기사의 전문을 가져오려면 해당 URL을 추가로 크롤링해야 할 수도 있습니다. RSS는 보통 제목과 요약만 제공하기 때문입니다.

김개발 씨가 완성된 에이전트를 테스트합니다. "오, 진짜 제가 관심 있는 기사만 쏙쏙 골라주네요.

이제 아침 뉴스 체크 시간이 절반으로 줄겠어요!" 박시니어 씨가 덧붙입니다. "이게 바로 AI 시대의 정보 소비 방식이야.

모든 걸 읽는 게 아니라, AI가 필터링한 걸 확인하는 거지."

실전 팁

💡 - 다양한 관점을 위해 서로 다른 성향의 뉴스 소스를 조합하세요

중요도 임계값은 사용자가 조절할 수 있도록 설정값으로 빼세요
분석 결과를 DB에 저장하면 나중에 트렌드 분석에도 활용할 수 있습니다

이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

#Python#LangChain#Agent#WebCrawling#LLM#LLM,리서치,에이전트

Research Agent 완벽 가이드

# Research Agent 완벽 가이드 AI 시대의 정보 수집 자동화, Research Agent의 핵심 개념부터 실전 구현까지. 웹 크롤링, 요약, 보고서 생성을 자동화하는 에이전트 시스템을 직접 만들어봅니다. --- ## 목차 1. [정보_수집_에이전트](#정보-수집-에이전트) 2. [웹_크롤링과_요약](#웹-크롤링과-요약) 3. [보고서_생성](#보고서-생성) 4. [실습_리서치_자동화](#실습-리서치-자동화) 5. [실습_뉴스_분석_에이전트](#실습-뉴스-분석-에이전트) --- ## 1. 정보_수집_에이전트 어느 날 김개발 씨는 팀장님으로부터 긴급 요청을 받았습니다. "다음 주까지 경쟁사 5곳의 최신 기술 동향을 조사해서 보고서로 정리해줘." 수십 개의 웹사이트를 돌아다니며 정보를 수집하고, 정리하고, 요약하는 작업이 눈앞에 펼쳐졌습니다. 이럴 때 자동으로 정보를 수집해주는 비서가 있다면 얼마나 좋을까요? **Research Agent**는 한마디로 사용자 대신 인터넷에서 정보를 찾고, 분석하고, 정리해주는 AI 비서입니다. 마치 유능한 리서치 조수가 도서관과 인터넷을 뒤져 필요한 자료를 정리해오는 것과 같습니다. 이것을 제대로 이해하면 반복적인 정보 수집 작업에서 해방되어 더 창의적인 업무에 집중할 수 있습니다. 다음 코드를 살펴봅시다. ```python from langchain.agents import initialize_agent, Tool from langchain.llms import OpenAI # Research Agent의 기본 구조 class ResearchAgent: def __init__(self, llm): # 에이전트가 사용할 도구들을 정의합니다 self.tools = [ Tool(name="Search", func=self.search, description="웹 검색"), Tool(name="Summarize", func=self.summarize, description="내용 요약") ] # LLM과 도구를 연결하여 에이전트 생성 self.agent = initialize_agent(self.tools, llm, agent="zero-shot-react") def research(self, query): # 사용자 질문에 대해 자동으로 검색하고 요약합니다 return self.agent.run(f"다음 주제를 조사하세요: {query}") ``` 김개발 씨는 입사 2년 차 개발자입니다. 요즘 그의 업무 중 절반은 기술 조사입니다. 새로운 프레임워크가 나왔는지, 경쟁사는 어떤 기술 스택을 쓰는지, 최신 보안 이슈는 무엇인지 끊임없이 찾아보고 정리해야 합니다. 어느 날 선배 박시니어 씨가 다가와 물었습니다. "개발아, 혹시 Research Agent라고 들어봤어? 요즘 AI로 리서치 자동화하는 게 대세야." 그렇다면 **Research Agent**란 정확히 무엇일까요? 쉽게 비유하자면, Research Agent는 마치 여러분만을 위한 전담 리서치 조수와 같습니다. 이 조수는 24시간 쉬지 않고 인터넷을 돌아다니며 정보를 수집합니다. 필요한 자료를 찾으면 핵심만 추려서 깔끔하게 정리해줍니다. 이처럼 Research Agent도 **LLM의 추론 능력**과 **다양한 도구**를 결합하여 정보 수집 작업을 자동화합니다. Research Agent가 없던 시절에는 어땠을까요? 개발자들은 구글에서 키워드를 검색하고, 수십 개의 탭을 열어 문서를 읽고, 중요한 내용을 일일이 복사해서 문서에 붙여넣어야 했습니다. 하루에 몇 시간씩 이런 반복 작업에 소모되었습니다. 더 큰 문제는 정보의 양이 폭발적으로 늘어나면서 사람이 처리할 수 있는 한계를 넘어섰다는 것입니다. 바로 이런 문제를 해결하기 위해 Research Agent가 등장했습니다. Research Agent를 사용하면 **병렬 검색**이 가능해집니다. 여러 소스에서 동시에 정보를 수집할 수 있습니다. 또한 **자동 요약** 기능으로 긴 문서도 핵심만 추출할 수 있습니다. 무엇보다 **24시간 작동**이라는 큰 이점이 있습니다. 위의 코드를 살펴보겠습니다. 먼저 **Tool** 클래스로 에이전트가 사용할 도구들을 정의합니다. Search 도구는 웹 검색을, Summarize 도구는 내용 요약을 담당합니다. 다음으로 **initialize_agent** 함수에서 도구들과 LLM을 연결합니다. 마지막으로 research 메서드를 호출하면 에이전트가 자동으로 검색하고 요약한 결과를 반환합니다. 실제 현업에서는 어떻게 활용할까요? 예를 들어 스타트업에서 시장 조사를 한다고 가정해봅시다. 경쟁사 분석, 기술 트렌드 조사, 사용자 피드백 수집 등에 Research Agent를 활용하면 리서치 시간을 80% 이상 줄일 수 있습니다. 실제로 많은 기업에서 이런 에이전트 시스템을 도입하고 있습니다. 하지만 주의할 점도 있습니다. 초보 개발자들이 흔히 하는 실수 중 하나는 에이전트에게 **너무 모호한 질문**을 던지는 것입니다. "좋은 정보 찾아줘"라고 하면 에이전트도 무엇을 찾아야 할지 모릅니다. 따라서 "2024년 Python 웹 프레임워크 성능 비교 자료를 찾아줘"처럼 구체적으로 요청해야 합니다. 다시 김개발 씨의 이야기로 돌아가 봅시다. 박시니어 씨의 조언을 들은 김개발 씨는 Research Agent를 구축하기로 결심했습니다. "이거 제대로 만들면 야근에서 해방될 수 있겠는데요!" **실전 팁** 💡 - 에이전트에게 질문할 때는 구체적인 키워드와 원하는 결과 형식을 명시하세요 - 도구는 단순하게 시작하고, 필요에 따라 점진적으로 추가하세요 - 에이전트의 중간 추론 과정을 로깅하여 디버깅에 활용하세요 --- ## 2. 웹_크롤링과_요약 Research Agent의 핵심은 결국 정보를 어디서 가져오느냐입니다. 김개발 씨는 에이전트의 기본 구조는 이해했지만, 실제로 웹사이트에서 정보를 추출하는 방법이 막막했습니다. "검색 엔진 API만으로는 부족해요. 특정 사이트의 상세 내용까지 읽어와야 하는데..." 박시니어 씨가 웃으며 말했습니다. "웹 크롤링과 요약, 이 두 가지를 조합하면 돼." **웹 크롤링**은 프로그램이 자동으로 웹사이트를 방문하여 데이터를 수집하는 기술입니다. 마치 도서관에서 필요한 책을 찾아 복사해오는 것과 같습니다. 여기에 **LLM 요약** 기능을 더하면 수십 페이지의 문서도 핵심 내용만 추려서 정리할 수 있습니다. 다음 코드를 살펴봅시다. ```python import requests from bs4 import BeautifulSoup from langchain.chains.summarize import load_summarize_chain class WebCrawlerTool: def __init__(self, llm): self.llm = llm self.summarize_chain = load_summarize_chain(llm, chain_type="map_reduce") def crawl_and_summarize(self, url): # 웹페이지 내용을 가져옵니다 response = requests.get(url, timeout=10) soup = BeautifulSoup(response.text, 'html.parser') # 본문 텍스트만 추출합니다 text = soup.get_text(separator='\n', strip=True) # LLM으로 핵심 내용을 요약합니다 summary = self.summarize_chain.run([text[:4000]]) return {"url": url, "summary": summary} ``` 김개발 씨는 Research Agent에 들어갈 첫 번째 도구를 만들기 시작했습니다. 가장 기본이 되는 것은 웹에서 정보를 가져오는 기능입니다. "크롤링이라고 하면 뭔가 어려워 보이는데..." 김개발 씨가 중얼거렸습니다. 박시니어 씨가 설명을 시작합니다. "생각보다 단순해. 웹 브라우저가 하는 일을 코드로 자동화하는 거야." **웹 크롤링**을 비유하자면 마치 슈퍼마켓에서 장을 보는 것과 같습니다. 우리가 마트에 가서 진열대를 돌아다니며 필요한 물건을 장바구니에 담듯이, 크롤러는 웹사이트를 방문하여 필요한 데이터를 수집합니다. HTML이라는 진열대에서 텍스트라는 상품을 가져오는 것입니다. 하지만 단순히 데이터를 가져오는 것만으로는 부족합니다. 현대 웹페이지 하나에는 수천에서 수만 단어가 담겨 있습니다. 광고, 메뉴, 푸터, 관련 기사 링크 등 불필요한 내용도 많습니다. 이 모든 것을 사람이 읽고 정리한다면 엄청난 시간이 소요됩니다. 바로 여기서 **LLM 요약**이 빛을 발합니다. LLM은 긴 텍스트를 읽고 핵심 내용만 추출하는 데 탁월합니다. 위 코드에서 사용한 **map_reduce** 방식은 긴 문서를 여러 조각으로 나누어 각각 요약한 뒤, 다시 전체를 종합 요약하는 기법입니다. 이렇게 하면 토큰 제한도 우회하면서 정확한 요약을 얻을 수 있습니다. 코드를 자세히 살펴보겠습니다. **requests.get**으로 웹페이지의 HTML을 가져옵니다. 이것은 브라우저가 페이지를 로드하는 것과 같은 동작입니다. **BeautifulSoup**은 복잡한 HTML 구조에서 텍스트만 깔끔하게 추출해줍니다. 마지막으로 **load_summarize_chain**이 추출된 텍스트를 LLM에게 전달하여 요약을 생성합니다. 실무에서는 이 기능을 어떻게 활용할까요? 기술 블로그 모니터링을 예로 들어보겠습니다. 매일 Medium, Dev.to, 회사 기술 블로그 등에서 새 글이 올라옵니다. 크롤러가 자동으로 새 글을 수집하고, LLM이 각 글의 핵심을 2-3문장으로 요약합니다. 개발자는 아침에 커피 한 잔 마시며 요약본만 훑어보고 관심 있는 글만 직접 읽으면 됩니다. 주의해야 할 점이 있습니다. 웹 크롤링 시에는 반드시 **robots.txt**를 확인해야 합니다. 사이트 소유자가 크롤링을 허용하지 않는 경우도 있습니다. 또한 너무 빠른 속도로 요청을 보내면 서버에 부담을 주거나 IP가 차단될 수 있습니다. 적절한 딜레이를 두고 예의 바른 크롤링을 해야 합니다. 김개발 씨가 고개를 끄덕입니다. "크롤링과 요약을 조합하니까 진짜 유용하네요. 이제 수십 개 사이트도 한 번에 처리할 수 있겠어요!" **실전 팁** 💡 - requests에는 항상 timeout을 설정하여 무한 대기를 방지하세요 - JavaScript로 렌더링되는 사이트는 Selenium이나 Playwright를 사용하세요 - 요약 전에 불필요한 HTML 태그(script, style 등)를 제거하면 품질이 향상됩니다 --- ## 3. 보고서_생성 정보를 수집하고 요약하는 것까지는 성공했습니다. 하지만 김개발 씨에게 남은 과제가 있었습니다. "이 데이터들을 어떻게 하나의 보고서로 만들지?" 수집된 정보 조각들이 여기저기 흩어져 있었습니다. 팀장님이 원하는 건 깔끔하게 정리된 보고서였습니다. 박시니어 씨가 힌트를 줍니다. "LLM에게 작가 역할을 맡겨봐." **보고서 생성**은 Research Agent의 최종 산출물입니다. 수집된 여러 정보 소스를 하나의 구조화된 문서로 통합하는 과정입니다. LLM에게 적절한 프롬프트를 주면 목차, 서론, 본론, 결론을 갖춘 전문적인 보고서를 자동으로 작성할 수 있습니다. 다음 코드를 살펴봅시다. ```python from langchain.prompts import PromptTemplate from langchain.chains import LLMChain class ReportGenerator: def __init__(self, llm): self.template = PromptTemplate( input_variables=["topic", "sources"], template=""" 당신은 전문 리서치 애널리스트입니다. 주제: {topic} 수집된 정보: {sources} 위 정보를 바탕으로 다음 구조의 보고서를 작성하세요: 1. 개요 (Executive Summary) 2. 주요 발견사항 (Key Findings) 3. 상세 분석 (Detailed Analysis) 4. 결론 및 제언 (Conclusion) """ ) self.chain = LLMChain(llm=llm, prompt=self.template) def generate(self, topic, sources): # 수집된 정보들을 하나의 보고서로 통합합니다 return self.chain.run(topic=topic, sources="\n".join(sources)) ``` 김개발 씨는 이제 크롤링한 데이터와 요약본을 손에 쥐고 있습니다. 경쟁사 5곳의 기술 동향 정보가 각각 정리되어 있습니다. 하지만 이것들은 아직 날것의 재료일 뿐입니다. "팀장님께 이걸 그대로 보여드릴 순 없어..." 김개발 씨가 한숨을 쉽니다. 박시니어 씨가 조언합니다. "보고서 생성도 자동화할 수 있어. LLM은 글쓰기에도 뛰어나거든." **보고서 생성**을 비유하자면 마치 요리사가 재료로 요리를 완성하는 것과 같습니다. 크롤링이 장보기라면, 요약은 재료 손질이고, 보고서 생성은 최종 요리를 완성하는 단계입니다. 아무리 좋은 재료도 제대로 조리하지 않으면 맛있는 음식이 되지 않듯이, 정보도 잘 정리해야 가치가 있습니다. 여기서 핵심은 **프롬프트 엔지니어링**입니다. LLM에게 "보고서 써줘"라고만 하면 어떤 형식으로 작성해야 할지 모릅니다. 하지만 위 코드처럼 구체적인 구조를 제시하면 전문가 수준의 보고서를 작성합니다. 개요, 주요 발견사항, 상세 분석, 결론이라는 명확한 섹션을 지정해주었습니다. **PromptTemplate**의 역할을 살펴보겠습니다. input_variables로 topic과 sources를 받습니다. topic은 보고서의 주제이고, sources는 수집된 정보들입니다. template 안에서 {topic}과 {sources}가 실제 값으로 치환됩니다. 마치 편지 양식에서 받는 사람 이름만 바꿔 넣는 것과 같습니다. **LLMChain**은 프롬프트와 LLM을 연결하는 파이프라인입니다. run 메서드를 호출하면 프롬프트가 완성되어 LLM에게 전달되고, LLM의 응답이 반환됩니다. 이 과정이 자동으로 이루어지므로 개발자는 입력만 넣으면 됩니다. 실무에서 보고서 생성은 다양하게 활용됩니다. 주간 기술 트렌드 리포트, 경쟁사 분석 보고서, 장애 분석 보고서 등이 자동으로 생성될 수 있습니다. 특히 반복적으로 작성해야 하는 정기 보고서에 효과적입니다. 한 번 템플릿을 만들어두면 매번 같은 품질의 보고서를 얻을 수 있습니다. 보고서 품질을 높이는 방법도 있습니다. 프롬프트에 **페르소나**를 부여하면 효과적입니다. "당신은 10년 경력의 리서치 애널리스트입니다"라고 역할을 지정하면 더 전문적인 톤으로 작성합니다. 또한 원하는 분량이나 어조를 명시하면 더 일관된 결과를 얻을 수 있습니다. 김개발 씨가 환하게 웃습니다. "이제 보고서까지 자동으로 만들어지네요! 팀장님께서 좋아하실 것 같아요." **실전 팁** 💡 - 보고서 템플릿은 용도에 따라 여러 개 준비해두면 편리합니다 - 출력 형식을 마크다운으로 지정하면 후처리가 쉬워집니다 - 중요한 보고서는 생성 후 사람이 한 번 검토하는 프로세스를 추가하세요 --- ## 4. 실습_리서치_자동화 이론은 충분히 배웠습니다. 이제 김개발 씨는 실제로 동작하는 Research Agent를 만들어볼 차례입니다. "직접 코드를 짜보면서 배워야 제대로 이해되더라고요." 박시니어 씨도 동의합니다. "그래, 일단 간단한 것부터 시작해서 점점 기능을 추가해보자." 첫 번째 실습으로 특정 주제에 대해 자동으로 조사하고 정리하는 에이전트를 만들어봅니다. 이번 실습에서는 앞서 배운 개념들을 조합하여 **완전히 동작하는 Research Agent**를 구현합니다. 사용자가 주제를 입력하면 웹에서 관련 정보를 검색하고, 상위 결과를 크롤링하여 요약한 뒤, 최종 보고서까지 생성하는 전체 파이프라인을 완성합니다. 다음 코드를 살펴봅시다. ```python from langchain.agents import Tool, AgentExecutor, create_react_agent from langchain.prompts import PromptTemplate from langchain_community.utilities import GoogleSearchAPIWrapper class ResearchAutomation: def __init__(self, llm): self.llm = llm self.search = GoogleSearchAPIWrapper() # 에이전트가 사용할 도구들을 정의합니다 self.tools = [ Tool(name="Search", func=self.search.run, description="웹에서 정보를 검색합니다"), Tool(name="Crawl", func=self.crawl_page, description="URL에서 상세 내용을 가져옵니다"), ] # ReAct 패턴으로 에이전트 생성 self.agent = create_react_agent(self.llm, self.tools, self.prompt) self.executor = AgentExecutor(agent=self.agent, tools=self.tools) def run(self, topic): return self.executor.invoke({"input": f"{topic}에 대해 조사하고 보고서를 작성하세요"}) ``` 드디어 실습 시간입니다. 김개발 씨는 노트북을 펼치고 코드를 작성하기 시작합니다. 지금까지 배운 모든 것을 하나로 합칠 때입니다. "먼저 전체 구조를 잡아보자." 박시니어 씨가 화이트보드에 그림을 그립니다. Research Agent의 전체 흐름은 다음과 같습니다. 사용자가 주제를 입력하면, 에이전트가 먼저 웹 검색을 수행합니다. 검색 결과에서 유망한 URL들을 선별합니다. 각 URL을 크롤링하여 상세 내용을 가져옵니다. 수집된 정보를 종합하여 보고서를 작성합니다. 이 모든 과정이 자동으로 이루어집니다. 핵심은 **ReAct 패턴**입니다. ReAct는 Reasoning과 Acting의 합성어입니다. 에이전트가 현재 상황을 분석하고(Reasoning), 어떤 도구를 사용할지 결정하여 실행합니다(Acting). 이 과정을 목표를 달성할 때까지 반복합니다. 마치 사람이 생각하고 행동하는 것과 같은 방식입니다. **GoogleSearchAPIWrapper**는 Google 검색 API를 편리하게 사용할 수 있게 해줍니다. API 키만 설정해두면 run 메서드 하나로 검색 결과를 가져올 수 있습니다. 에이전트는 이 도구를 사용하여 주제와 관련된 최신 정보를 검색합니다. **AgentExecutor**는 에이전트의 실행을 관리합니다. 에이전트가 도구를 사용하고, 결과를 받고, 다음 행동을 결정하는 전체 루프를 처리합니다. 에러 처리, 최대 반복 횟수 제한 등의 안전장치도 포함되어 있습니다. 실제로 이 코드를 실행하면 어떻게 될까요? 예를 들어 "2024년 AI 트렌드"라는 주제를 입력했다고 가정해봅시다. 에이전트는 먼저 Search 도구로 관련 기사를 검색합니다. 상위 결과의 URL을 확인한 뒤, Crawl 도구로 각 페이지의 상세 내용을 가져옵니다. 마지막으로 수집된 정보를 바탕으로 "2024년 AI 트렌드 분석 보고서"를 작성하여 반환합니다. 디버깅을 위한 팁도 알려드리겠습니다. AgentExecutor에 **verbose=True** 옵션을 추가하면 에이전트의 사고 과정을 볼 수 있습니다. "현재 상황: ..., 다음 행동: Search, 이유: ..." 형태로 출력됩니다. 이렇게 하면 에이전트가 왜 그런 결정을 내렸는지 이해할 수 있고, 문제가 생겼을 때 원인을 파악하기 쉽습니다. 김개발 씨가 코드를 실행합니다. 화면에 에이전트의 사고 과정이 출력되기 시작합니다. "와, 진짜 알아서 검색하고 정리하네요!" **실전 팁** 💡 - 처음에는 verbose=True로 에이전트의 동작을 관찰하며 개발하세요 - 도구 설명(description)은 에이전트가 언제 사용할지 결정하는 데 중요합니다 - max_iterations 옵션으로 무한 루프를 방지하세요 --- ## 5. 실습_뉴스_분석_에이전트 기본적인 Research Agent를 완성한 김개발 씨는 더 실용적인 프로젝트에 도전하고 싶어졌습니다. "매일 아침 기술 뉴스를 확인하는데, 이것도 자동화하면 좋겠어요." 박시니어 씨가 아이디어를 냅니다. "뉴스 분석 에이전트를 만들어보자. RSS 피드에서 뉴스를 수집하고, 중요도를 분석하고, 일일 브리핑까지 생성하는 거야." **뉴스 분석 에이전트**는 Research Agent의 실전 응용 사례입니다. 여러 뉴스 소스에서 기사를 수집하고, LLM으로 중요도와 관련성을 평가하며, 개인화된 뉴스 브리핑을 자동으로 생성합니다. 정보 과잉 시대에 꼭 필요한 나만의 AI 비서를 만들어봅니다. 다음 코드를 살펴봅시다. ```python import feedparser from datetime import datetime from langchain.output_parsers import PydanticOutputParser from pydantic import BaseModel, Field class NewsAnalysis(BaseModel): title: str = Field(description="기사 제목") importance: int = Field(description="중요도 1-10") summary: str = Field(description="한줄 요약") keywords: list[str] = Field(description="핵심 키워드") class NewsAnalyzerAgent: def __init__(self, llm, rss_feeds): self.llm = llm self.feeds = rss_feeds self.parser = PydanticOutputParser(pydantic_object=NewsAnalysis) def collect_news(self): # RSS 피드에서 뉴스를 수집합니다 articles = [] for feed_url in self.feeds: feed = feedparser.parse(feed_url) articles.extend(feed.entries[:5]) return articles def analyze_and_brief(self, interests): articles = self.collect_news() # 각 기사를 분석하고 관심사 기반으로 필터링합니다 analyzed = [self.analyze_article(a, interests) for a in articles] return self.generate_briefing(analyzed) ``` 이번에는 더 실용적인 예제를 만들어봅니다. 매일 쏟아지는 기술 뉴스 중에서 정말 중요한 것만 골라 읽을 수 있다면 얼마나 좋을까요? 김개발 씨가 평소 구독하는 뉴스 피드를 나열합니다. "Hacker News, TechCrunch, 국내 기술 블로그까지... 매일 수백 개의 기사가 올라와요." **뉴스 분석 에이전트**는 이 문제를 해결합니다. 먼저 **RSS 피드**라는 것을 이해해야 합니다. RSS는 웹사이트가 새 콘텐츠를 표준화된 형식으로 제공하는 방법입니다. 대부분의 뉴스 사이트와 블로그가 RSS를 지원합니다. **feedparser** 라이브러리를 사용하면 이 피드를 쉽게 파싱할 수 있습니다. 코드에서 **PydanticOutputParser**가 눈에 띕니다. 이것은 LLM의 출력을 구조화된 Python 객체로 변환해주는 도구입니다. NewsAnalysis 클래스에 정의된 대로 제목, 중요도, 요약, 키워드를 깔끔하게 추출합니다. 자유 형식의 텍스트가 아니라 프로그래밍에서 바로 활용할 수 있는 데이터를 얻게 됩니다. **중요도 점수**는 어떻게 매길까요? LLM에게 사용자의 관심사를 알려주고, 각 기사가 얼마나 관련 있는지 1-10점으로 평가하게 합니다. 예를 들어 관심사가 "Python, AI, 백엔드"라면 이와 관련된 기사에 높은 점수가 매겨집니다. 점수가 높은 기사만 최종 브리핑에 포함됩니다. 실제 워크플로우를 따라가 봅시다. 아침 8시, 크론잡이 에이전트를 실행합니다. 에이전트는 설정된 RSS 피드에서 최신 기사 50개를 수집합니다. 각 기사를 LLM이 분석하여 중요도를 매깁니다. 상위 10개 기사를 선별하여 일일 브리핑 이메일을 생성합니다. 김개발 씨는 출근길에 이메일 하나만 확인하면 됩니다. 이 에이전트를 더 발전시킬 수도 있습니다. 읽은 기사에 대한 피드백을 수집하여 개인화를 강화할 수 있습니다. "이 기사 좋았어요" 버튼을 누르면 비슷한 기사의 점수가 올라갑니다. 시간이 지날수록 에이전트는 사용자의 취향을 더 잘 이해하게 됩니다. 주의할 점도 있습니다. RSS 피드가 없는 사이트도 많습니다. 이 경우 웹 크롤링으로 직접 수집해야 합니다. 또한 뉴스 기사의 전문을 가져오려면 해당 URL을 추가로 크롤링해야 할 수도 있습니다. RSS는 보통 제목과 요약만 제공하기 때문입니다. 김개발 씨가 완성된 에이전트를 테스트합니다. "오, 진짜 제가 관심 있는 기사만 쏙쏙 골라주네요. 이제 아침 뉴스 체크 시간이 절반으로 줄겠어요!" 박시니어 씨가 덧붙입니다. "이게 바로 AI 시대의 정보 소비 방식이야. 모든 걸 읽는 게 아니라, AI가 필터링한 걸 확인하는 거지." **실전 팁** 💡 - 다양한 관점을 위해 서로 다른 성향의 뉴스 소스를 조합하세요 - 중요도 임계값은 사용자가 조절할 수 있도록 설정값으로 빼세요 - 분석 결과를 DB에 저장하면 나중에 트렌드 분석에도 활용할 수 있습니다 --- 이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

카테고리: LLM,리서치,에이전트

언어: Python

태그: Python, LangChain, Agent, WebCrawling, LLM, LLM,리서치,에이전트

작성자: AI Generated

프리미엄 콘텐츠 - 3개월 무료 체험 가능

CodeDeck

Research Agent 완벽 가이드

목차

1. 정보 수집 에이전트

2. 웹 크롤링과 요약

3. 보고서 생성

4. 실습 리서치 자동화

5. 실습 뉴스 분석 에이전트

이 카드뉴스가 포함된 코스

LLM 에이전트 패턴과 실전 - 자율 AI 에이전트 구축

댓글 (0)

함께 보면 좋은 카드 뉴스

vLLM 통합 완벽 가이드

Web UI Demo 구축 완벽 가이드

Sandboxing & Execution Control 완벽 가이드

Voice Design then Clone 워크플로우 완벽 가이드

Tool Use 완벽 가이드 - Shell, Browser, DB 실전 활용