AI 에이전트의 개념과 역사
지능형 에이전트( intelligent agent )는 일반적으로 환경을 인지하고 그에 따라 행동하는 자율적 시스템을 뜻한다. Russell과 Norvig의 고전적 정의에 따르면 “지능형 에이전트는 센서로 환경을 감지하고 효과기를 통해 그 환경에 합리적으로(rationally) 작용하는 존재”이다 (02_IntelligentAgents.ppt). 이때 에이전트는 자율성, 환경에 대한 반응성, 목표 지향적 행동(프로액티브), 그리고 다른 에이전트와의 상호작용과 같은 속성을 가진다 (02_IntelligentAgents.ppt). Franklin & Graesser(1996)는 한 걸음 더 나아가 “자율 에이전트란 자신이 위치한 환경을 지속적으로 감지하고 행동을 수행함으로써, *자신의 목표(agenda)를 추구하며 미래의 지각에 영향을 미치는 시스템”으로 정의하였다 (). 다양한 관점의 정의가 존재하지만, 요컨대 *AI 에이전트는 입력(감지)을 받아 출력(행동)을 내고, 그 행동 결과에 따라 스스로의 상태를 변화시키며 목표 달성을 향해 나아가는 소프트웨어나 로봇으로 볼 수 있다. 이러한 개념은 학계에서 오랜 논의를 거쳐 확립되었고, 일반 프로그램과 에이전트를 구분짓는 경계에 대해서도 다양한 견해가 존재한다 ().
AI 에이전트의 역사를 돌아보면, 1950~60년대에 개념적 기틀이 마련되었다. 1950년 Alan Turing은 기계가 인간처럼 생각할 수 있는지를 묻는 튜링 테스트를 제안했고, 1956년 Dartmouth 회의에서 “인공지능”이라는 용어가 공식화되었다 (The Evolution of AI Agents: From Simple Programs to Agentic AI - WWT). 1960년대에는 초창기 대화형 프로그램인 ELIZA가 등장하여 인간과 상호 작용하는 에이전트의 가능성을 보여주었다 (The Evolution of AI Agents: From Simple Programs to Agentic AI - WWT). Weizenbaum이 개발한 ELIZA(1966)는 심리 치료사와의 대화를 흉내 내는 챗봇으로, 자연어 패턴 매칭을 통해 제한적이지만 사람과 대화하는 첫 사례로 기록된다 (The Evolution of AI Agents: From Simple Programs to Agentic AI - WWT).
1970~80년대에는 명시적 지식과 규칙에 기반한 전문가 시스템이 AI의 주류를 이루었다. 예를 들어 의학 진단 시스템 MYCIN 등 수많은 전문가 시스템들이 등장하여, 인간 전문가의 지식을 규칙 형태로 엔진에 내장하고 논리 추론으로 문제를 해결하였다. 이러한 규칙 기반 AI는 정해진 규칙에 따라 반응하는 점에서 에이전트의 초기 형태로 볼 수도 있다. 같은 시기 프로로그(Prolog, 1972)와 같은 논리 프로그래밍 언어도 등장하여 지식 기반 시스템 개발에 활용되었다 (The Evolution of AI Agents: From Simple Programs to Agentic AI - WWT). 한편 1980년대 후반에는 Sutton과 Barto의 강화학습 기법(1988, TD 학습) 등이 제안되면서, 에이전트가 경험을 통해 학습하는 방향성이 열렸다 (The Evolution of AI Agents: From Simple Programs to Agentic AI - WWT).
1990년대에 들어 지능형 에이전트라는 개념이 본격적으로 대두되었다. 이 시기 연구자들은 소프트웨어가 일정 수준의 자율성을 가지고 정보를 처리하며 간단한 의사결정을 내릴 수 있도록 하는 방법을 모색했다. Michael Wooldridge와 Nicholas Jennings 등이 제시한 Belief-Desire-Intention (BDI) 모델은 에이전트의 정신 상태를 믿음, 욕구, 의도로 나누어 합리적 행동을 설명하는 이론으로 주목받았다. 다중 에이전트 시스템(Multi-Agent System) 연구도 활발하여, 여러 에이전트들이 협력하거나 경쟁하면서 문제를 해결하는 프레임워크가 등장했다. 예컨대 분산된 소프트웨어 에이전트들이 메시지를 주고받으며 작업을 나누는 MAS 아키텍처가 90년대에 발전했다. 1990년대는 또한 초기 가상 비서(Virtual Assistants)의 등장 시기이기도 한데, 일정 관리나 정보 검색을 도와주는 간단한 소프트웨어 비서들이 선을 보이며 오늘날 AI 챗봇의 전신이 되었다 (The Evolution of AI Agents: From Simple Programs to Agentic AI - WWT).
2000년대에는 기계학습이 에이전트에 도입되면서, 규칙 기반을 넘어 데이터 기반으로 지능을 향상시키는 전기가 마련됐다 (The Evolution of AI Agents: From Simple Programs to Agentic AI - WWT). 인터넷 보급과 함께 웹 에이전트, 추천 시스템 등이 발전하고, 자율 로봇 분야에서도 센서 기술과 AI를 결합한 에이전트 연구가 진전되었다. 2010년대에 이르러 딥러닝 혁명이 일어나자, 시각·음성·자연어 처리 성능이 비약적으로 향상되었다. 거대 신경망을 통해 음성 비서(Siri, Alexa 등)와 대화형 에이전트가 실용화될 수 있는 수준에 도달했다. 특히 2020년 발표된 거대 언어모델 GPT-3는 사람과 거의 유사한 양질의 텍스트를 생성해내며 고도화된 대화형 에이전트의 잠재력을 보여주었다 (The Evolution of AI Agents: From Simple Programs to Agentic AI - WWT). 2011년 IBM Watson이 퀴즈쇼 Jeopardy!에서 인간 챔피언을 이긴 사례도 AI 에이전트 기술의 이정표로서, 자연어 질의응답과 지식 검색 능력을 겸비한 시스템의 가능성을 입증했다 (The Evolution of AI Agents: From Simple Programs to Agentic AI - WWT) (The Evolution of AI Agents: From Simple Programs to Agentic AI - WWT).
2020년대는 흔히 “Agentic AI”의 시대로 불리며, AI 에이전트가 더 큰 독립성을 갖고 장기적인 목표를 계획하며 다른 에이전트와 협력까지 하는 방향으로 연구가 폭발적으로 증가하고 있다 (The Evolution of AI Agents: From Simple Programs to Agentic AI - WWT). 전통적인 에이전트가 비교적 짧은 범위에서 반응적인 작업을 수행했다면, 최신 에이전틱 AI 시스템은 사람의 개입 없이도 연속된 복잡 작업을 스스로 계획하고 적응하며 수행하려는 것이다. 예를 들어 개발 분야에서 코드를 스스로 수정·디버깅하는 Devin AI와 같은 시스템까지 등장하여 화제가 되고 있으며 (The Evolution of AI Agents: From Simple Programs to Agentic AI - WWT), 거대 언어모델 기반 생성형 AI의 도입으로 에이전트들이 보다 능동(proactive)적으로 행동할 수 있게 되었다 (The Evolution of AI Agents: From Simple Programs to Agentic AI - WWT). 나아가 여러 AI 에이전트들의 협업을 통해 인간 팀처럼 복잡한 문제를 해결하려는 시도도 이뤄지고 있다 (The Evolution of AI Agents: From Simple Programs to Agentic AI - WWT). 즉, 하나의 작업을 여러 에이전트가 분담하고 상호 소통하면서 처리함으로써, 단일 AI로는 어려운 문제를 해결하는 방향이다. 이러한 경향은 AutoGPT와 같은 자율 에이전트 실험을 계기로 대중의 관심을 끌었고, 학계에서도 장기적 자율성과 계획 수립, 모든 작업의 연속 수행 등 AGI에 가까운 능력을 목표로 연구가 진행 중이다.
요약하면, AI 에이전트의 개념은 지난 수십 년간 진화해 왔다. 초기에는 정해진 규칙에 따라 반응하는 프로그램 수준이었지만, 이내 학습 알고리즘을 갖춘 합리적 행동 주체로 발전했고, 오늘날에는 거대 언어모델과 다양한 도구를 결합하여 인간 수준의 복잡한 업무를 자율적으로 처리하려는 방향으로 나아가고 있다. 다음 장들에서는 이러한 최신 AI 에이전트 기술의 핵심 분야별 동향을 살펴본다.
Retrieval 에이전트: 정보 검색 증강형 AI (RAG)
Retrieval-Augmented Generation (RAG)은 최근 각광받는 정보 검색 결합 생성 기법으로, 지식에 근거한 응답 생성을 목표로 한다. RAG의 기본 아이디어는 대규모 언어모델(LLM)의 강력한 언어 생성 능력에, 외부의 정보 검색 능력을 결합함으로써 보다 사실적이고 정확한 응답을 얻는 것이다 ([2410.12837] A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions). 구체적으로, RAG 시스템은 사용자의 질문에 대해 우선 관련 문서를 검색한 뒤, 검색된 근거 문서를 조건으로 텍스트를 생성한다 ([2410.12837] A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions). 예컨대 질문이 주어지면 백엔드에서 사전에 구축된 위키피디아 혹은 사내 지식베이스 등에서 관련 텍스트 조각들을 찾고, 그 내용을 참고하여 LLM이 최종 답변을 작성하는 식이다. 이렇게 하면 LLM 단독으로 생성할 때 발생할 수 있는 환각(hallucination)이나 지식 부족 문제를 완화하고, 최신 정보나 전문 지식을 반영한 응답이 가능해진다 ([2410.12837] A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions).
RAG의 아키텍처는 크게 “검색( retrieve )” 모듈과 “생성( generate )” 모듈의 2단계 파이프라인으로 이루어진다. 첫 번째 단계에서 에이전트는 사용자 질문을 받고 벡터 검색이나 키워드 검색을 통해 관련 문서를 찾아온다. 두 번째 단계에서 LLM은 검색 결과를 프롬프트에 포함시켜 답변을 생성한다. 이러한 구조는 오픈도메인 질의응답(QA), 지식기반 QA, 대화형 검색, 문서 요약 등 지식 활용이 중요한 과제 전반에 응용되고 있다 ([2410.12837] A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions). 실제로 RAG는 질문-답변, 요약, 지식조회 등 다양한 분야에서 활용되며, 각 분야의 성능 향상을 입증하고 있다 ([2410.12837] A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions). 예를 들어, 대형 언어모델이 장문의 문서를 통째로 요약해야 할 때 한계가 있지만, 관련 내용만 발췌하여 요약하도록 RAG를 구성하면 효율성과 정확도를 높일 수 있다는 연구 결과들이 보고된다.
최신 연구 동향으로는, RAG의 검색 효율과 장문 맥락 처리 능력을 개선하기 위한 기법들이 제안되고 있다. Zhang 등(2024)은 장문 요약 분야에서 Graph of Records (GoR)라는 새로운 방법을 선보였다 (Graph of Records: Boosting Retrieval Augmented Generation for Long-context Summarization with Graphs | OpenReview). 이 방법은 LLM이 긴 문서를 여러 부분으로 나누어 순차적으로 요약할 때, 이전 단계에서 생성한 요약들을 그래프 형태로 연결하여 역사 기록으로 남겨두는 것이다 (Graph of Records: Boosting Retrieval Augmented Generation for Long-context Summarization with Graphs | OpenReview). 기존 요약 과정에서는 LLM이 한번 생성한 중간 요약을 버리고 새로 요약을 진행하곤 했는데, GoR은 이러한 과거 응답들을 노드로, 응답과 관련된 원문 조각들을 엣지로 하는 그래프를 구성한다 (Graph of Records: Boosting Retrieval Augmented Generation for Long-context Summarization with Graphs | OpenReview). 그리고 LLM이 다음 요약을 생성할 때 이 그래프를 참고함으로써, 이전 맥락을 놓치지 않고 종합적인 요약을 할 수 있게 돕는다. 저자들은 GoR 기법이 긴 문서 요약 성능을 향상시켜 벤치마크에서 최고 수준 결과를 달성했음을 보고하였다 (Graph of Records: Boosting Retrieval Augmented Generation for Long-context Summarization with Graphs | OpenReview). 이처럼 RAG와 LLM의 다중 상호작용을 똑똑하게 관리하는 기법은 향후 요약뿐만 아니라 복잡한 질의응답, 대화 시스템 등에 응용될 것으로 기대된다.
한편, RAG에 대한 통합적인 조사도 진행되었다. Gupta 등(2024)의 RAG 서베이는 RAG의 기본 구조와 현재 기술 지형을 정리하면서, 각 분야 응용 (질의응답, 요약 등)에서의 성과와 한계를 분석하였다 ([2410.12837] A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions) ([2410.12837] A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions). 이 보고에 따르면 RAG는 여전히 확장성, 편향 및 오류 전파, 실시간 지식 업데이트 등의 도전에 직면해 있다 ([2410.12837] A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions). 예를 들어, 외부 지식베이스를 갱신하지 않으면 LLM이 최신 정보를 반영하지 못할 수 있고, 잘못된 문서를 검색하면 오히려 오류를 강화할 위험도 있다. 이러한 문제들을 해결하기 위해 고효율 임베딩 인덱스, 필터링 기법, 피드백 루프 등의 개선 방안이 연구되고 있으며 ([2410.12837] A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions), RAG는 지식 활용형 AI 에이전트의 핵심 구성 요소로 자리잡아 가고 있다.
Code 에이전트: 코드 생성 및 디버깅 자동화
자동 코드 생성과 디버깅은 최근 AI 에이전트 분야의 가장 실용적인 응용 중 하나이다. OpenAI가 2021년 공개한 Codex 모델은 코드에 특화된 GPT계 열 모델로서, 자연어로 작성된 문제 설명(함수 명세)만으로 동작하는 소스코드를 작성해 내어 큰 주목을 받았다. Codex를 인간 평가세트인 HumanEval에 적용한 결과, 28.8%의 문제를 정확히 해결하여 GPT-3가 같은 테스트에서 0%를 푼 것에 비해 놀라운 향상을 보였다 ([2107.03374] Evaluating Large Language Models Trained on Code). 또한 여러 번의 시도 중 정답 코드를 골라내는 방법을 쓰면 70.2%까지 문제 해결률을 올릴 수 있었는데 ([2107.03374] Evaluating Large Language Models Trained on Code), 이는 복잡한 프로그래밍 문제도 대량의 생성과 테스트를 통해 해결 가능한 가능성을 보여준다. 이러한 발전으로 탄생한 GitHub Copilot은 개발자 도구(IDE)와 통합된 코드 에이전트의 대표적인 사례다. Copilot은 편집기에서 개발자의 입력을 실시간으로 받아 다음에 작성할 코드를 추천해주고, 반복문이나 API 호출 등의 보일러플레이트 코드를 자동 완성하여 개발 효율을 높여준다. 실제로 Copilot 도입 후 개발 생산성이 향상되었다는 보고가 있다. Microsoft의 조사에 따르면 Copilot 사용 개발자의 88%가 더 생산적으로 느꼈고, 77%는 정보 검색에 드는 시간이 줄었다고 응답했다 (Introducing Microsoft 365 Copilot – your copilot for work - The Official Microsoft Blog).
코드 생성 에이전트의 한계로 지적되던 부분은 실행 오류에 대한 대응이었다. 기존의 코드 생성 모델은 컴파일 오류나 런타임 오류까지는 알려주지 않으면 수정하기 어려웠다. 그러나 최근에는 코드를 실행하고 오류를 잡아내 수정까지 시도하는 자동 디버깅 에이전트로 진화하고 있다. 예를 들어 2024년 제안된 PyCapsule 시스템은 “프로그래머 에이전트”와 “실행자 에이전트”의 두 모듈로 구성된다 (Large Language Model Guided Self-Debugging Code Generation). 프로그래머 에이전트는 코드 생성과 1차적인 버그 수정을 담당하고, 실행자 에이전트는 생성된 코드를 실제로 실행하면서 결과를 검증하는 역할을 한다 (Large Language Model Guided Self-Debugging Code Generation). 사용자의 문제 요구사항이 주어지면 프로그래머 에이전트가 일단 코드를 작성하고, 이를 실행자 에이전트가 실행해 본다. 만약 오류가 발생하면 실행자 에이전트가 오류 내용을 분석하여 진단 리포트를 만들고, 이를 프로그래머 에이전트에 전달해 코드 수정을 유도한다 (Large Language Model Guided Self-Debugging Code Generation). 이렇게 두 에이전트가 피드백 루프를 돌며 오류가 없어질 때까지 코드를 개선함으로써, 인간 개발자가 디버깅하듯이 문제를 해결해나간다. PyCapsule 연구에서는 이러한 구조가 효율적인 자가 디버깅을 가능하게 하여, 복잡한 문제도 적은 시도 횟수로 성공적으로 해결할 수 있음을 보였다 (Large Language Model Guided Self-Debugging Code Generation) (Large Language Model Guided Self-Debugging Code Generation).
더 나아가, 다중 에이전트 협업을 통해 대형 소프트웨어 개발을 자동화하려는 시도들도 이루어지고 있다. Islam 등(2024)의 MapCoder, Hong 등(2024)의 MetaGPT, Qian 등(2024)의 ChatDev와 같은 연구들은 여러 개의 LLM 에이전트를 마치 팀 구성원처럼 활용하여 프로젝트 관리, 코드 작성, 테스트 작성, 테스트 실행 등의 역할을 분담시키는 실험들이다 (Large Language Model Guided Self-Debugging Code Generation). 예를 들어 어떤 에이전트는 요구사항으로부터 설계를 만들고, 다른 에이전트는 코드를 작성하며, 또 다른 에이전트는 테스트 케이스를 생성하는 식이다. 이러한 멀티에이전트 코딩 접근은 사람 개발자 팀이 협업하는 방식을 모방하여, 복잡한 소프트웨어를 병렬적이고 체계적으로 개발할 수 있는 잠재력을 보여준다 (Large Language Model Guided Self-Debugging Code Generation). 다만 여러 에이전트 간 조율 비용이나 토큰 자원 소모 등이 도전과제로 지적되어, PyCapsule처럼 에이전트 수를 최적화하고 역할을 통합하는 연구도 병행되고 있다 (Large Language Model Guided Self-Debugging Code Generation) (Large Language Model Guided Self-Debugging Code Generation).
개발 도구와의 통합도 코드 에이전트 분야의 중요한 부분이다. 현재 Copilot 외에도 여러 IDE와 플러그인에서 AI 코드 비서 기능이 제공되고 있다. 예를 들어 Visual Studio의 IntelliCode, AWS CodeWhisperer, Tabnine 등은 코딩 중 실시간으로 다음 줄을 제안하거나, 함수 문서화를 도와주는 형태로 활용되고 있다. 버전 관리 시스템과 연계된 에이전트는 Pull Request에 자동 리뷰 코멘트를 남기거나, CI 빌드 오류 로그를 분석해 수정 제안을 하기도 한다. 또한 이슈 트래킹 시스템과 연동된 에이전트는 등록된 버그 리포트를 읽고 재현 절차를 파악한 뒤, 관련 코드를 찾아 수정을 시도하는 연구도 이루어지고 있다. JetBrains 연구진은 Jupyter Notebook 환경에서 작동하는 디버그 에이전트를 개발하여, 노트북 셀 실행 중 발생하는 오류를 자동으로 해결하도록 시연하였다 () (). 이 시스템은 개발자 대신 노트북 UI를 탐색하고 셀을 실행해보면서(마치 사용자가 디버깅하듯이), 필요한 경우 이전 셀을 수정하거나 재실행하는 등 일련의 액션을 수행하여 에러를 잡아낸다 () (). 이러한 사례들은 소프트웨어 개발 파이프라인 전체에 AI 에이전트를 통합함으로써, 코딩뿐 아니라 테스트, 배포까지 자동화하려는 잠재력을 보여준다. 요약하면, 코드 에이전트는 인간 개발자의 협력자 내지 대리인으로서, 소프트웨어 생산성과 신뢰성을 높이는 방향으로 급속히 발전하고 있다.
Custom Function 에이전트: 맞춤형 함수 통합
Custom Function 에이전트는 AI 모델에 사용자 지정 함수 혹은 외부 도구 사용 능력을 부여하여, 특정 작업을 직접 수행하도록 만든 에이전트를 의미한다. 기본 개념은 이렇다: 언어모델이 모든 작업을 스스로 수행하려 하기보다, 정의된 외부 함수(API)들을 필요시 호출함으로써 보다 정확하고 다재다능하게 행동하도록 만드는 것이다. 이를 통해 에이전트는 자신이 모르는 정보나 능력이 필요한 상황에서, 그 일을 해낼 수 있는 외부 모듈에 도움을 청할 수 있다.
Toolformer는 이러한 아이디어를 구현한 대표적인 연구 결과다. 2023년 Schick 등은 “Language Models Can Teach Themselves to Use Tools”라는 논문에서, 대형 언어모델이 스스로 외부 도구(API) 사용법을 학습하여 성능을 향상시킬 수 있음을 보였다 ([2302.04761] Toolformer: Language Models Can Teach Themselves to Use Tools). 이들은 계산기, 질문답변 시스템, 웹 검색 엔진, 번역기, 캘린더 같은 여러 종류의 API를 모델에 연결하고, 각 API 호출의 몇 가지 예시만 제시하는 소량 학습(few-shot)으로 모델을 훈련시켰다 ([2302.04761] Toolformer: Language Models Can Teach Themselves to Use Tools) ([2302.04761] Toolformer: Language Models Can Teach Themselves to Use Tools). 그 결과 Toolformer로 명명된 이 언어모델은 프롬프트 내에서 적절한 순간에 적절한 API를 호출하고, 그 응답 결과를 활용해 이후 문장을 생성하는 능력을 획득했다 ([2302.04761] Toolformer: Language Models Can Teach Themselves to Use Tools). 예를 들어 수치 계산이 필요한 경우 계산기 API를 호출해 결과를 얻고 이를 문장에 포함하거나, 최신 사실이 필요한 경우 검색 API를 사용해 정보를 찾아 답변을 보완한다. Toolformer는 이를 통해 기존보다 향상된 정확도를 달성했으며, 특히 산술 계산이나 사실 질의 같은 작업에서 훨씬 큰 언어모델과 비슷한 성능을 보이는 등 도구 사용의 효과를 입증했다 ([2302.04761] Toolformer: Language Models Can Teach Themselves to Use Tools) ([2302.04761] Toolformer: Language Models Can Teach Themselves to Use Tools). 주목할 점은, 이 모든 것이 완전한 자율학습(self-supervised)으로 이루어졌다는 것이다 – 모델이 언제 어떤 함수를 호출할지, 호출 결과를 어떻게 활용할지 모두 스스로 결정하도록 훈련되었다는 뜻이다 ([2302.04761] Toolformer: Language Models Can Teach Themselves to Use Tools). Toolformer 연구는 LLM의 도구 활용 능력이 충분히 훈련 가능함을 보여주어, 이후 다양한 함수 통합 에이전트의 개발에 영감을 주었다.
비슷한 시기, OpenAI는 상용 챗봇에 이러한 아이디어를 적용하여 함수 호출(function calling) 기능을 도입했다. 2023년 6월 OpenAI는 ChatGPT의 API 업데이트에서 개발자가 임의의 함수를 정의하고 그 시그니처(입력/출력 형식)를 모델에 제공하면, 모델이 답변 중 해당 함수의 JSON 호출문을 생성하여 외부 함수를 실행할 수 있도록 지원하기 시작했다 (Function calling and other API updates | OpenAI). 예를 들어 get_weather(location)
라는 함수를 정의해두면, 사용자가 “서울의 내일 날씨 어때?”라고 물을 때 모델이 내부적으로 get_weather("Seoul")
을 결과 JSON 형태로 출력하고, API로부터 얻은 날씨 정보를 사용해 답변을 구성하는 식이다 (Function calling and other API updates | OpenAI). 이 기능을 통해 챗봇이 안전하고 통제된 방식으로 외부 시스템과 연동될 수 있게 되었다. 개발자는 DB 조회, 항공권 예약, 계산 등 필요한 기능을 정의만 해주면, 나머지는 모델이 사용자 요청을 이해하여 적절한 함수를 스스로 선택하고 구조화된 형식으로 호출해준다 (Function calling and other API updates | OpenAI). 이는 플러그인을 통해서만 가능했던 작업을 API 레벨에서 간편하게 구현한 것으로, 현재 많은 응용에서 ChatGPT에 함수 호출을 시켜 툴 내장 에이전트로 활용하고 있다.
이러한 커스텀 함수 통합이 실제 활용된 비즈니스 사례는 다양하다. 대표적으로 기업용 챗봇들이 있다. 은행의 챗봇 에이전트를 예로 들면, 고객이 “내 지난주 카드 사용 내역 보여줘”라고 물을 때 챗봇이 바로 답변하는 대신, 내부적으로 “거래내역조회(사용자ID, 기간)” 같은 함수를 호출하도록 만들 수 있다. 함수 호출 결과로 필요한 데이터(지난주 거래 목록)를 받아온 뒤, 이를 자연어로 포맷팅해 고객에게 답변한다. 이렇게 하면 모델이 모든 금융 데이터를 학습하지 않아도 항상 최신의 정확한 정보를 제공할 수 있고, 권한 통제도 API 레이어에서 가능하므로 보안에도 유리하다. 전자상거래 분야에서도 주문 처리 봇이 배송 조회 API를 쓰거나 재고 확인 함수를 호출해 응답하는 식으로 활용되고 있다.
개발자 도구 측면에서도 맞춤 함수 에이전트 사례가 있다. 앞서 언급한 코드 에이전트에 테스트 실행 함수, 컴파일러 등을 연결해 놓으면, 모델이 코드를 작성한 후 직접 컴파일러 함수를 호출해 에러를 점검하고, 결과를 분석해 수정하는 사이클을 돌 수 있다. 이는 실제로 OpenAI의 ChatGPT 플러그인 “Code Interpreter”(현재는 Advanced Data Analysis로 불림)에 구현되어 있는데, 파이썬 실행환경을 함수로 모델이 부르고, 파일 입출력이나 시각화 기능도 함수 호출로 이용하여 데이터 분석과 시각화를 자동화한다.
AutoGPT 등의 오픈소스 프로젝트는 다양한 함수와 도구를 통합하여 보다 종합적인 자율 에이전트를 구축하려는 시도다. AutoGPT는 GPT-4 기반의 멀티에이전트 프레임워크로, 사용자가 높은 수준의 목표만 주면 스스로 작업계획을 수립하고 필요한 하위 작업들을 생성한다 (What is AutoGPT? | IBM). 그리고 각 하위 작업을 실행하기 위해 인터넷 검색, 파일 저장, 코드 실행 등 여러 플러그인 기능을 호출하면서 연속적으로 목표를 향해 나아간다 (What is AutoGPT? | IBM). 예컨대 “신제품 아이디어 시장조사 후 블로그 글 작성”이라는 목표를 주면, 웹검색 함수를 여러 번 호출해 자료를 수집하고, 요약을 생성하며, 최종적으로 문서 작성까지 자동으로 이어가는 식이다 (What is AutoGPT? | IBM) (What is AutoGPT? | IBM). AutoGPT는 이러한 과정을 수행하기 위해 단기 메모리와 장기 벡터DB 메모리를 결합하고, 필요하면 사용자에게 질문을 요청하는 등의 메타행동도 한다 (What is AutoGPT? | IBM). AutoGPT 사례에서 보듯, 현대의 커스텀 함수 에이전트는 개별 API 호출을 넘어, 다양한 도구들을 조합하고 복잡한 워크플로우를 자동화하는 방향으로 발전하고 있다.
자율적 의사결정 및 강화학습 적용
자율적인 의사결정 능력은 AI 에이전트를 진정한 스마트 에이전트로 만드는 핵심 요소다. 에이전트가 복잡한 환경에서 순차적인 행동 시퀀스를 만들어 목표를 달성하려면, 단순 규칙에 의존하기보다는 경험을 통해 최적의 행동 전략을 학습할 필요가 있다. 강화학습(Reinforcement Learning, RL)은 이런 맥락에서 매우 중요한 도구로, 에이전트가 시행착오를 거치며 보상 신호를 최적화하도록 해준다. 에이전트는 매 순간 환경 상태를 관찰(observation)하고 행동(action)을 선택한 뒤, 환경으로부터 보상(reward)을 얻고 자신의 정책(policy)을 개선한다. 이러한 보상 주도 학습을 통해, 사전에 모든 경우의 수를 프로그래밍하지 않아도 에이전트가 스스로 전략을 발견할 수 있게 된다.
강화학습 기반 에이전트의 가장 극적인 성공 사례로 흔히 DeepMind의 AlphaGo를 꼽는다. AlphaGo는 딥러닝과 몬테카를로 트리 탐색 결합, 그리고 자기 대국 강화학습을 통해 2016년 세계 최정상 프로 바둑 기사를 이긴 바 있다 (MuZero: Mastering Go, chess, shogi and Atari without rules - Google DeepMind). 이 연구는 인간 지도로 시작해 자율학습으로 완성된 AlphaGo와, 곧이어 발표된 AlphaZero를 통해 범용적인 자가 강화학습의 위력을 보여주었다 (MuZero: Mastering Go, chess, shogi and Atari without rules - Google DeepMind). AlphaZero(2017)는 인간 지식 없이 게임의 규칙만 주어진 상태에서 바둑, 체스, 쇼기 등 보드게임들을 완전 자율학습으로 마스터했는데 (MuZero: Mastering Go, chess, shogi and Atari without rules - Google DeepMind), 이는 동일 알고리즘이 다양한 문제에 적용될 수 있음을 시사한다. 더 나아가 2020년 발표된 MuZero는 환경의 규칙조차 모르더라도 에이전트가 중요한 부분만 추론하면서 학습할 수 있음을 보였다 (MuZero: Mastering Go, chess, shogi and Atari without rules - Google DeepMind). MuZero는 Atari 게임 등의 화면 픽셀 입력만으로 내재된 동적 모델을 학습하고, AlphaZero식의 트리 탐색을 결합하여 규칙을 몰라도 전략을 계획할 수 있었다 (MuZero: Mastering Go, chess, shogi and Atari without rules - Google DeepMind). 이 일련의 성과들은 강화학습이 고도의 추상 전략 게임에서 인간을 능가하는 AI 에이전트를 만드는 데 기여했음을 보여준다.
강화학습 기반 에이전트는 게임을 넘어 현실 세계와 복잡한 최적화 문제에도 적용되고 있다. 로봇공학 분야에서는 로봇에게 보행, 잡기 등의 동작을 가르치기 위해 RL을 사용하며, 시뮬레이션에서 학습한 정책을 실제 로봇에 이식하는 연구가 이루어졌다. 자율주행에서도 차량 에이전트가 주행 중 발생하는 다양한 상황에 대응하도록 심층 강화학습을 활용하는 시도가 있었다. 최근에는 알고리즘 설계 문제에도 강화학습을 접목한 흥미로운 사례가 나왔다. DeepMind의 AlphaDev는 정렬 알고리즘과 같은 저수준 알고리즘을 어셈블리 명령 시퀀스로 표현하고, 이를 단일 플레이어 게임으로 정의한 후 심층 강화학습 에이전트가 최적의 코드를 탐색하도록 했다 (DeepMind’s AlphaDev Leverages Deep Reinforcement Learning to Discover Faster Sorting Algorithms | Synced). AlphaDev 에이전트는 수만 가지의 어셈블리 명령 조합 중에서 점진적으로 더 빠른 실행속도를 내는 프로그램을 시도한 끝에, 인간이 수십 년 간 개선해온 표준 정렬 알고리즘보다 효율적인 새로운 알고리즘을 발견해냈다 (DeepMind’s AlphaDev Leverages Deep Reinforcement Learning to Discover Faster Sorting Algorithms | Synced). 연구팀은 발견된 알고리즘을 실제 C++ 표준 라이브러리(LLVM)에 적용했고, 이는 강화학습이 인간 전문가의 영역에서도 혁신을 만들어낼 수 있음을 보여준 사례로 평가받는다 (DeepMind’s AlphaDev Leverages Deep Reinforcement Learning to Discover Faster Sorting Algorithms | Synced).
또 다른 방향으로, 다중 에이전트 강화학습 역시 중요한 연구 분야다. 여러 에이전트가 동일 환경에서 협력하거나 경쟁하면서 집단적으로 학습하도록 설정하면, 사회적 상호작용이나 전략 형성 같은 흥미로운 현상이 나타난다. OpenAI가 2019년에 공개한 Hide-and-Seek 실험에서 에이전트들은 둘씩 팀을 이뤄 술래잡기 게임을 반복 플레이하며, 문을 막거나 상자를 쌓아올리는 등 예기치 않은 창의적 전략들을 스스로 터득했다. 이처럼 환경과 상호작용하며 경험으로부터 학습하는 에이전트 연구는, 물리 시뮬레이션, 게임 AI, 자동화된 교섭/협상 시나리오, 실시간 산업 제어 등 폭넓은 분야에 응용되고 있다.
한편, 대화형 LLM 에이전트의 개선에도 강화학습이 활용되고 있다. ChatGPT의 사례에서 보듯이, 인간 피드백을 통한 강화학습(RLHF)은 모델의 출력을 보다 도움이 되도록 미세조정하는 데 쓰인다. 향후에는 LLM이 도구를 사용하는 행동 자체를 RL로 최적화하거나, 멀티스텝 대화를 수행하는 대화 정책을 학습시키는 방향으로 발전할 전망이다. 요컨대 강화학습은 AI 에이전트에게 환경에서의 시행착오를 통한 자기 개선 능력을 부여함으로써, 에이전트를 더욱 자율적이고 지능적인 존재로 만드는 핵심 기술로 자리잡고 있다.
기업 및 오픈소스 프로젝트에서의 실제 활용 사례
AI 에이전트 기술은 연구 단계에서 빠르게 현실 제품과 서비스에 이식되고 있으며, 기업과 오픈소스 커뮤니티 모두에서 다양한 실제 사례를 만들어내고 있다.
대형 기술 기업들은 자사 플랫폼에 AI 에이전트를 통합하여 생산성 향상과 사용자 편의를 도모하고 있다. 대표적으로 Microsoft는 Microsoft 365 Copilot을 도입하여, 업무용 애플리케이션 전반에 걸쳐 AI 에이전트를 활용하고 있다. Copilot은 Word, Excel, PowerPoint, Outlook, Teams 등에 내장되어 사용자의 지시에 따라 문서를 작성하거나 이메일을 요약하는 등 생성형 비서 역할을 한다 (Introducing Microsoft 365 Copilot – your copilot for work - The Official Microsoft Blog). 특히 비즈니스 챗(Business Chat) 기능은 기업 사용자의 개인 일정, 이메일, 대화, 문서 등의 데이터를 연결하여, 예를 들어 “오늘 아침 회의와 이메일을 참고하여 내 팀에 제품 전략 업데이트 내용을 알려줘”와 같은 지시에 대해 종합적인 상황 파악을 거쳐 맞춤형 업데이트 요약을 생성해준다 (Introducing Microsoft 365 Copilot – your copilot for work - The Official Microsoft Blog). 이는 에이전트가 단순히 한 종류의 작업만 하는 것이 아니라, 여러 소스의 정보를 엮어 고차원적인 결과물을 만들어낸다는 점에서 획기적이다. 사용자는 Copilot이 제시한 초안을 검토하여 편집 또는 승인하면 되므로, 반복적인 업무에 들이는 시간을 절약하고 핵심 창의 업무에 집중할 수 있다 (Introducing Microsoft 365 Copilot – your copilot for work - The Official Microsoft Blog) (Introducing Microsoft 365 Copilot – your copilot for work - The Official Microsoft Blog).
또 다른 예로, 많은 기업들이 고객 지원 챗봇에 AI 에이전트를 적용하고 있다. 과거의 고객센터 챗봇은 정해진 QA 목록에 따라 답변하거나 특정 키워드에만 반응했지만, 최신 AI 에이전트 기반 챗봇은 자연어 이해와 추론을 통해 보다 유연한 대화를 수행한다. 여기에 고객 계정 정보 조회, 주문 처리 등의 백엔드 기능을 에이전트에 연결하여, 상담원이 수행하던 업무 일부를 자동화하고 있다. 예컨대 통신사 챗봇은 사용자가 “데이터 요금제를 추천해줘”라고 하면, 사용자의 지난 사용 패턴을 내부 API로 가져와 분석하고, 최적의 요금제를 찾아 제안하는 과정을 전담 에이전트가 처리한다. 이러한 AI 상담원은 24시간 대응과 대기 시간 단축 등의 이점을 제공하여 기업 서비스의 효율을 높이고 있다.
오픈소스 프로젝트들도 AI 에이전트 열풍을 주도하고 있다. 앞서 설명한 AutoGPT는 2023년 초 공개되자마자 깃허브에서 폭발적인 관심을 모았으며, 수많은 개발자들이 이를 활용한 실험을 공유했다. AutoGPT는 멀티에이전트 프레임워크의 오픈소스 표준격이 되어, 다양한 플러그인과 개선 버전이 생겨나고 있다 (What is AutoGPT? | IBM). 예를 들어 BabyAGI, AgentGPT 등은 AutoGPT의 개념을 확장하거나 사용자 인터페이스를 개선한 변종들이다. 이들 오픈소스 에이전트는 웹 검색, 브라우징, 코드 실행, 전자메일 전송 등 플러그인을 조합하여, 사용자로부터 목표만 부여받고 구체적인 수행 방법은 자율적으로 결정한다. 이러한 실험들은 아직 완벽하진 않지만, 미래의 자율 업무 에이전트의 가능성을 보여주었다는 점에서 의의가 있다 (What is AutoGPT? | IBM) (What is AutoGPT? | IBM).
AI 연구 커뮤니티에서도 복잡한 문제 해결을 위해 LLM 에이전트를 도구/모델들과 연결하는 시도가 늘고 있다. Microsoft 연구팀이 발표한 HuggingGPT는 그런 대표 사례로, 중앙에 LLM(예: ChatGPT)을 두고 Hugging Face에 공개된 수많은 AI 모델들을 연결하여 다중 모달 AI 작업을 해결했다 ([2303.17580] HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face). 사용자로부터 요청이 들어오면 ChatGPT가 작업을 분석(plan)하여 필요한 모델들의 목록을 결정하고 ([2303.17580] HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face), 순차적으로 각각의 모델(예: 이미지 분석 모델, 음성 합성 모델 등)을 호출해 부분 결과를 얻은 뒤 종합적으로 응답을 구성하는 방식이다 ([2303.17580] HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face). 예를 들어 “음성으로 설명된 그림을 듣고, 그 내용에 맞는 캡션이 달린 이미지를 생성해줘”와 같은 복합 요청이 주어지면, 음성->텍스트 모델, 이미지 생성 모델, 이미지 캡션 모델 등을 차례로 호출하여 최종 결과를 만들어낸다. HuggingGPT는 LLM 에이전트가 AI 모델 오케스트레이션의 관리자(controller)로 기능할 수 있음을 보여주었고, 이 접근은 이후 LEOPARD, GPT-Engineer 등의 다른 연구로도 이어졌다.
그 외에도 LangChain과 LlamaIndex와 같은 오픈소스 라이브러리는 개발자들이 손쉽게 자신만의 AI 에이전트를 구축할 수 있도록 지원한다. LangChain을 사용하면 몇 줄의 코드로 LLM에 특정 도구(예: 웹 검색, 데이터베이스 질의, 계산기 등)를 연결한 에이전트를 만들 수 있고, 대화 기록을 관리하는 메모리 모듈, 오류 시 재시도 로직 등도 기본 제공된다. 이러한 툴덕분에 스타트업이나 개인 개발자들도 자체적인 AI 에이전트를 구현하여 창의적인 응용을 선보이고 있다. 예를 들어 어떤 스타트업은 LangChain 기반 에이전트에 구글 캘린더 API를 결합해 회의 일정 조율 비서를 만들었고, 또 다른 프로젝트는 게임 캐릭터 NPC에 LLM 에이전트를 적용해 플레이어와 상호작용하는 현실감 있는 캐릭터를 구현하기도 했다.
현재 실무 현장에서의 AI 에이전트 적용은 고객 지원, 마케팅, 교육, 생산성 도구, 소프트웨어 개발, 데이터 분석 등 매우 광범위하다. 그리고 이러한 적용은 여전히 진화하고 있다. 신뢰성과 통제는 많은 기업들이 관심 갖는 부분으로, 에이전트의 예측 불가능한 행동을 막기 위해 Human-in-the-loop 모니터링을 병행하거나, 중요 결정 전에 인간 승인을 요구하는 형태로 운영되기도 한다. 법적·윤리적 문제도 현실 적용에서 중요하게 다루어져야 하며, 에이전트가 결정하는 자동화된 행동에 대한 책임 소재, 투명성, 편향성 제거 등이 논의되고 있다.
결론적으로, AI 에이전트는 개념적 정립부터 최신 연구까지 꾸준히 발전해 왔으며, 오늘날 언어, 비전, 행동을 아우르는 총체적 지능 시스템으로의 변혁을 꾀하고 있다. 최신 연구들은 에이전트에 도구 사용, 검색, 코드 작성, 강화학습 등을 통합함으로써 성능과 활용범위를 넓히고 있으며, 실제 산업계에서도 이를 활용한 혁신적 사례들이 속속 등장하고 있다. 향후에는 단일 AI 모델이 아닌 복합 에이전트 생태계가 구성되어, 서로 협력하며 문제를 해결하는 모습도 전망된다 (What is AutoGPT? | IBM). AI 에이전트는 더 똑똑해지고 자율성을 갖춰감과 동시에, 인간과 공생하며 생산성을 높이는 파트너로 자리매김할 것으로 기대된다.