논문 정리 - Towards a Science of Scaling Agent Systems

Towards a Science of Scaling Agent Systems
Towards a science of scaling agent systems: When and why agent systems work
Conclusion As foundational models like Gemini continue to advance, our research suggests that smarter models don't replace the need for multi-agent systems, they accelerate it, but only when the architecture is right. By moving from heuristics to quantitat
research.google
구글 리서치 및 구글 딥마인드에서 발췌.
본 포스팅은 해당 논문(Towards a Science of Scaling Agent Systems)에 대해 NotebookLM 및 기타 LLM 모델을 사용하여 번역 및 정리하여 글로 옮긴 내용이며 다소 올바르지못한 내용이 포함되어 있을 수 있으니 참고부탁드립니다.
Summary
언어 모델(LM) 기반 시스템인 에이전트는 실무 AI응용 분야의 주도적인 패러다임으로 자리 잡고 있다.
이러한 실정에도 불구하고, 성능 결정 원리에 대한 연구는 여전히 미진하여, 원칙에 기반한 설계보다는 경험적 방법에 의존하고 있는 실정이다.
본 연구는 에이전트 시스템(Agent System)을 위한 정량적 확장 법칙을 도출함으로써 이러한 공백을 메우고자 한다.
확장 법칙을 에이전트의 수, 협업 구조, 모델 역량 및 태스크 속성 간의 상호작용으로 규정한다.
세 가지 LLM 계열로 구현된 5가지 정형 에이전트 아키텍처(단일 에이전트 및 독립형, 중앙 집중형, 분산형, 하이브리드형의 4가지 멀티 에이전트 시스템)를 활용하여 180가지 설정에 대한 통제 변인 실험을 수행하였으며, 아키텍처의 효과만을 분리하고자 도구, 프롬프트 구조 및 토큰 예산을 표준화했다.
최종적으로 R2=0.524를 달성하는 예측 모델을 도출하였으며, 세 가지 주요 효과를 규명하였다.
1. 도구-협업 트레이드오프 : 도구 집약적 작업은 다중 에이전트 오버헤드로 큰 성능 저하를 일으킴.
2. 역량 포화 : 단일 에이전트 베이스라인이 ~45%의 실증적 임계값을 초과하면 협업의 성능 저하가 나타남.
3. 토폴로지 의존적 오류 증폭 : 독립적 에이전트는 오류를 17.2x 증폭시키며, 중앙 집중식 협업 구조는 이를 4.4x로 억제한다.
결정적으로 에이전트 시스템에서 협업의 이점은 과업 의존적이다.
병렬화 가능 과업에서 성능을 80.8% 개선한 반면, 분산형 협업 구조는 동적 웹 내비게이션에서 탁월한 성과를 보였다.
그러나 순차적 추론 과업에서는 모든 구조에서 성능이 39~70% 하락했다.
Introduction
작업의 복잡도가 심화되고 지속적인 환경 상호작용이 요구됨에 따라, 관련 연구 분야는 전문화된 에이전트 간의 협업이라는 전제하에 멀티 에이전트 시스템(MAS)을 점차 채택하고 있다.

위 그림은 동일 지능 수준에서 SAS 베이스라인 대비 최고 성능 MAS 변형의 상대적 성능 변화를 나타낸다.
모델 자체의 지능 지수가 높아질수록 전체 에이전트 시스템의 평균 성능은 일관되게 향상된다.
기존의 견해로는 에이전트 수가 많을수록 좋다고 주장해 왔으나, 본 논문은 이에 의문을 제기한다.
에이전트 추가가 성능을 '언제' 증폭시키고, '언제' 오히려 저해하는지를 예측할 수 있는 정량적 프레임워크가 아직 없고, 실무자들은 여전히 감에 의존하고 있음을 지적하고 있다.
위 지적에 대해 본 논문의 핵심부터 말하자면 무조건 에이전트를 많이 투입한다고 성능이 오르는 것이 아니며, 조율 과정에서의 정보 손실과 오류 전파를 관리하는 것이 에이전트 시스템 설계의 핵심이라고 한다.
원칙적인 멀티 에이전트 설계를 가로막는 두 가지 근본적인 과제가 있다.
- 기존 MAS(멀티 에이전트 시스템) 평가는 서로 다른 프롬프트, 도구, 계산 예산을 사용하여 아키텍처를 비교하므로, 아키텍처 효과와 구현 선택 사항이 뒤섞여 깔끔한 인과 관계 파악이 불가능하다.
- 평가 지표의 부재로, 최종 정확도 수치에만 집중할 뿐 협업의 성패를 결정하는 조율 오버헤드, 오류 전파, 정보 흐름과 같은 프로세스 역학을 조사하지 않는다.
멀티 에이전트의 경우 병렬적으로 다양한 탐색이 가능하지만, 정보를 주고받을 때 메시지를 압축해야 하므로 데이터 손실이 발생하고 조율에 드는 오버헤드가 성능을 저하시킨다.
또한 오류는 투표를 통해 수정되기보다 실행 체인을 통해 연쇄적으로 전파된다. (고요속의 외침)
본 평가에서는 아키텍처 평가를 위해 웹 브라우징, 금융 분석, 게임 계획, 실제 업무 환경 작업의 4가지 대표적인 벤치마크에서 평가하고 있다. 또한 토큰 예산이 일치된 N = 180개의 통제된 구성을 통해 성능이 어떻게 나타나는지 스케일링 원칙을 도출한다.
효율성(성공률 대비 오버헤드 비율), 오류 증폭 인자, 메시지 밀도 및 중복성과 같은 경험적 조율 지표를 사용하여 예측 프레임워크를 수립했고, 데이터셋에 특화된 별도의 매개변수 없이도 교차 검증된 R^2 = 0.524를 달성했다.
본 분석에서 식별된 3가지 주요 패턴은 아래와 같다.
- 도구-조율 트레이드오프 ($\beta=-0.267, p<0.001$): 도구 사용 비중이 높은 과업(예: 16개의 도구를 사용하는 소프트웨어 공학)은 멀티 에이전트 조율 오버헤드로 인해 어려움을 겪으며, 환경 복잡성이 증가할수록 효율성 저하가 가중된다.
- 역량 한계점(Capability Ceiling) ($\beta=-0.404, p<0.001$): 단일 에이전트의 성능이 이미 45% 정확도를 넘어서는 과업의 경우, 에이전트를 추가하면 오히려 마이너스 수익(negative returns)이 발생한다. 이는 조율 비용이 점진적인 성능 향상 잠재력을 넘어서기 때문이다.
- 아키텍처별 오류 증폭: 독립형 시스템은 개별 실수가 최종 결과물까지 연쇄적으로 이어지는 '무검증 오류 전파'를 통해 오류를 17.2배 증폭시킨다. 반면, 중앙 집중형 조율은 정보를 통합하기 전에 오류를 차단하는 '검증 병목(validation bottlenecks)'을 강제함으로써 이를 4.4배 수준으로 억제한다.
이는 에이전트의 숫자가 아니라 아키텍처와 과업의 궁합이 협업의 성공을 결정할 수 있음을 나타낸다.
Related Work
본 논문의 배경을 파악하기 위한 관련 연구들입니다. 궁금한 주제가 있을 경우 해당 논문의 Related Work 섹션을 참고하면 됩니다.
Multi-Agent Systems (MAS) versus Single-Agent Systems (SAS)
요약 : 단순히 기능을 많이 넣는다고 MAS가 아니라, 의사 결정 주체가 여럿인가가 핵심이며 어설픈 MAS보다 프론티어 모델이 저렴하고 성능도 좋은 경우가 많아짐.
Agentic Tasks and Benchmarks
요약 : 단발성 추론(비에이전트)의 경우 MAS는 앙상블 효과를 통해 성능 향상을 보이지만, 에이전트 환경에서는 조율 오버헤드 및 오류 연쇄 작용으로 인한 성능 향상에 고려할 부분이 많음.
Scaling Laws and Coordination Mechanisms
요약 : 협업적 확장은 에이전트의 수를 늘리는 데서 오는 것이 아니라, 에이전트 간 통신 규칙(데이터 흐름)을 과업 구조에 일치시키는 데서 발생
Agent Systems and Tasks
1. System Definition
본 논문에서 각 에이전트는 추론 모델(LLM) + 도구(웹 검색, 코드 실행) + 내부 메모리 + 의사 결정 함수를 의미한다.
(의사 결정 함수는 관측 이력을 처리하여 행동을 판단하고, 행동에 대한 관측치를 얻은 후 기록을 업데이트 하는 메커니즘)
단일 에이전트 시스템의 경우 모든 인지, 추론, 행동이 하나의 순차적 루프 내에서 발생하며, 계산 복잡도는 O(k) (k는 추론 반복 수)가 된다. 통신 오버헤드가 없고, 메모리 사용량이 최소화되지만 과업 분해나 검증 능력은 다소 제한적이다.
멀티 에이전트 시스템에서는 둘 이상의 에이전트가 통신 위상과 조율 정책을 통해 서로 상호작용한다.
통신 위상에 따른 정보 흐름 패턴은 아래와 같다.
- 독립형 (Independent): 에이전트와 집계자(Aggregator) 간의 통신만 존재 (에이전트 간 소통 없음).
- 중앙 집중형 (Centralized): 오케스트레이터와 에이전트 간의 통신만 존재.
- 분산형 (Decentralized): 모든 에이전트 간의 수평적 통신(All-to-all).
- 하이브리드 (Hybrid): 중앙 집중형 구조에 제한적인 에이전트 간 수평적 통신이 결합된 형태.
조율 정책은 다음을 결정한다.
- 하위 에이전트 결과의 집계 방식 (예: 다수결, 가중 합성)
- 오케스트레이터의 하위 에이전트 결정 번복 권한 여부
- 라운드 간 메모리 유지 여부
- 합의나 품질 임계치에 따른 종료 조건
통신(Communication)vs 조율(Coordination)
본 논문에서는 통신(에이전트 간 메시지 전달)과 조율(에이전트 활동의 전략적 방향 지시)을 구분하고, 이러한 분류를 통해 성능 향상이 단순히 계산량 증가(앙상블) 때문인지, 에이전트 간의 정교한 조율과 분업 때문인지를 엄밀히 테스트할 수 있다.
또한 본 논문에서는 조율 메커니즘의 효과를 분리/분석하기 위해 다음 아키텍처들로 선정한다.
- 독립형 MAS (Independent): 통신 없이 병렬 처리(앙상블) 효과만을 고립시켜 분석. 검증이나 다수결 없이 결과만 결합하므로, 성능 차이는 오류 수정이 아닌 순수한 병렬 탐색에서 기인
- 중앙 집중형 MAS (Centralized): 단일 오케스트레이터가 하위 에이전트들을 관리. 추론을 안정화시키지만 오케스트레이터에서 병목 현상이 발생 가능. 계층적 검증을 통해 오류를 억제
- 분산형 MAS (Decentralized): 에이전트들이 순차적인 토론 라운드를 수행. 동료 간 논의를 통해 합의를 형성하는 능력을 평가
- 하이브리드 MAS (Hybrid): 오케스트레이터의 통제와 에이전트 간 유연한 정보 교환을 결합
2. Agentic Tasks and Benchmarks
여기서는 최적의 성과가 적응적 상호작용(adaptive interaction)으로부터 상당한 이득을 얻을 때 그 과업을 '에이전트적'이라고 규정하고 있다. 즉 여러 번 주고받으며 낸 응답이 한 번에 낸 응답보다 훨씬 좋을 때 비로소 에이전트가 필요한 과업이라고 지칭한다.
모델의 성능이 아닌 에이전트의 성능을 판단하는 것이 중요하며, 이러한 에이전트적 벤치마크의 3대 필수 조건을 아래와 같이 명시하고 있다.
- 순차적 상호의존성 (Sequential Interdependence): 나중의 행동이 이전의 관측에 의존. 단발성 정책(One-shot)으로는 높은 보상을 얻을 수 없다.
- 부분적 관측 가능성 (Partial Observability): 핵심적인 상태 정보가 숨겨져 있어, 능동적인 질의나 도구 사용을 통해 획득해야만 한다.
- 적응형 전략 형성 (Adaptive Strategy Formation): 상호작용을 통해 얻은 새로운 증거에 기반하여 정책이 내부의 믿음(Beliefs)을 업데이트해야 한다.
이러한 조건이 결여된 벤치마크(예: GSM8K, MMLU)는 에이전트적 능력이 아닌 정적 추론 능력을 평가하는 것.
에이전트적 벤치마크는 지능의 과정, 즉 탐색/적응/조율을 평가해야한다.
또한 본 논문에서는 에이전트를 구성하는 아키텍처의 효과만을 고립시켜 분석하기 위한 추가 기준을 도입하고 있다.
- 통제된 도구 인터페이스: 외부 피드백 품질로 인한 혼란 변수를 제거하기 위해 모든 아키텍처에 동일한 도구 API와 관측 구조를 적용
- 매개변수적 지식의 통제: 모델 제품군 내에서 암기된 사실보다는 적응적 추론을 강조하여 평가. 제품군 간 비교 시에는 베이스라인 정규화를 통해 지식 베이스의 차이를 보정합니다.
- 행동-관측 루프 길이: 순차적 추론을 보장하기 위해 각 벤치마크는 궤적 길이 $L > 3$ 이상을 유지하도록 강제합니다.
- 비교 정규화: 모든 점수는 최상의 단일 에이전트(SAS) 베이스라인을 기준으로 정규화하여, 조율을 통한 이득이나 손실을 측정한다.
Experiments & Results

본 논문에서는 위와 같은 네 가지 대표적인 에이전트 벤치마크 환경에서 테스트하고 있다.

표를 통해 에이전트 구조가 복잡해질수록(우측) 통신 오버헤드와 메모리 복잡도가 급격히 증가함을 알 수 있다. 즉 무조건 복잡한 구조가 좋은 게 아니라 비용 대비 효율을 따져야함을 나타낸다.
단순 병렬 처리가 중요하다면 Independent가 유리하며, 에이전트 간 합의가 필요하다면 Decentralized, 통제와 검증이 필요하다면 Centralized 아키텍처가 유리하다는 결과를 확인할 수 있다.
1. Setup
BrowseComp-Plus는 실험 구성 전반에 걸쳐 가장 높은 성능 가변성을 보인다. (변동 계수 CV=0.32)
그에 반해 Workbench(CV=0.12), FinanceAgent(CV=0.18), PlanCraft(CV=0.21)는 상대적으로 낮은 가변성을 보여, 구성 전반에 걸쳐 더 안정적인 성능을 나타낸다고 한다.

위의 박스 플롯은 성공률의 분포를 보여준다. (척도: 0에서 1, 여기서 1은 100% 성공을 의미)
% 주석은 SAS 기준선과 비교한 상대적 개선 또는 저하를 나타낸다.
Finance Agent의 경우 모든 MAS 구조가 SAS구조를 크게 능가하고 있다. (+57%에서 81% 사이)
이는 복잡한 계획과 분산된 추론이 구조화된 경제 분야에서 상당한 이점을 제공함을 시사한다.
반면에 PlanCraft의 경우 모든 MAS 구조에서 일관된 성능 저하를 보이고 있다. (-70%에서 -39% 사이)
FinanceAgent와의 핵심적인 차이점은 작업 구조에 있다. FinanceAgent 작업은 병렬화 가능한 하위 작업으로 분해되지만 PlanCraft는 엄격하게 순차적인 상태 의존적 추론을 요구한다.
즉, 작업의 병렬성과 순차적 의존성이라는 특성이 MAS 구조의 성능에 영향을 끼치는 지표가 됨을 시사한다.
LLMs and intelligence Scaling
본 논문에서는 지능 지수값이 42에서 71사이인 세가지 LLM 모델을 활용하면서 조정 스케일링이 모델에 구애받지 않는 원칙을 따른다는 점을 입증하고 있다.
- OpenAI: GPT-5-nano, GPT-5-mini, GPT-5
- Google: Gemini 2.0 Flash, 2.5 Flash, 2.5 Pro
- Anthropic: Claude Sonnet 3.7, 4.0, 4.5
위 모델 중 임의의 두 LLM 제품군 사이의 구조별 스케일링 기울기의 최대 차이는 0.023으로 에이전트 시스템을 설계할 때 특정 모델의 특성에 매달리기보다, 구조(Architecture)라는 근본적인 설계 원칙에 집중하는 것이 더 효과적임을 시사한다.
또한 단일 에이전트에게는 더 많은 생각할 시간(추론 라운드)을 주고, 다중 에이전트에게는 개별 에이전트의 생각 시간을 줄여서 전체 연산량(토큰/반복 횟수)을 똑같이 맞추어 성능 향상이 단순한 연산량 증가 때문이 아님을 증명하고 있다.
즉 어떤 똑똑한 모델을 가져와도, 작업의 성격을 기반으로 성능을 테스트하고 있음을 뒷받침하고 있다.
Agent Architectures and Complexity
본 논문은 단순히 에이전트를 많이 썼으니 성능이 좋아진다라고 말하고 있지 않다.
위에서 설명했던 5 가지의 토폴로지에서 (i) 오케스트레이터의 존재 여부(계층적 제어 vs. 평면적 구조), 그리고 (ii) 피어 간 통신(하위 에이전트 간의 직접 상호작용 vs. 고립된 실행)이라는 두 가지 핵심 조정 차원을 근거로 설명하고 있다.
조정 복잡도는 통신 오버헤드로 매개변수화 되며, SAS 대비 독립형은 58%, 분산형은 263%, 중앙집중형은 285%, 하이브리드형은 515%의 오버헤드가 발생한다.
이는 단일 에이전트를 쓸 때보다 통신량이 5배 이상 많다는 뜻이며, 에이전트를 많이 투입할수록 소통해야 할 양이 기하급수적으로 늘어난다는 걸 의미한다.
또한 오케스트레이터의 존재에 따라 아래와 같은 비하인드 스토리가 존재한다.
- 중앙집중형(Centralized): 관리자(오케스트레이터)가 모든 것을 검토하므로 정확도는 높을 수 있지만, 관리자가 바빠지면 전체 시스템이 느려지는 '병목 현상'이 발생한다.
- 분산형(Decentralized): 관리자 없이 에이전트끼리 자유롭게 대화하므로 정보 융합은 빠르지만, 배가 사공으로 가거나 통제 불능 상태가 될 위험이 있.
Metrics and Validation
해당 절에서는 본 연구의 다양한 지표를 나타내고 있다. 구체적인 지표는 아래와 같다.
- 조정 오버헤드: 계산 비용을 포착하며, 실제 프로덕션 다중 에이전트 배포에서 주요 병목 구간으로 식별됨.
- 메시지 밀도(추론 라운드당 에이전트 간 메시지 수): 조정 스케일링의 핵심 요소인 통신 강도를 정량화함.
- 중복률(에이전트 출력 임베딩의 평균 코사인 유사도): 에이전트 간의 합의 정도를 측정하며, 앙상블 기반의 오류 수정과 관련됨.
- 조정 효율성(상대적 라운드 수로 정규화된 성공률): 배포 결정을 위해 비용 대비 성공률을 정규화함.
- 오류 증폭(상대적 실패 확률): MAS가 오류를 수정하는지 아니면 전파하는지를 직접 테스트함.
Main Results
본 장에서는 주요 결과에 대한 분석을 나타내고 있다.
MAS exhibits domain-dependence with architectural variation
결론부터 말하면 다중 에이전트 시스템(MAS)은 구조적 변형에 따라 도메인 의존성을 보인다.
위의 박스플롯의 결과를 가져와서 보면 Finance Agent와 PlanCraft 간 결과의 큰 괴리를 보이고 있는데, 이에 대해 실행 과정을 분석한 내용을 기반으로 그 이유를 설명해주고 있다.
중요한 점은 PlanCraft의 실행 과정에서는 본질적으로 순차적인 작업을 인위적인 하위 작업으로 분해하여 진행하고 있다는 점이다.
이는 추론이 아닌 조정(소통)에 토큰을 소모하여 불필요한 작업을 수행하고 있음을 나타낸다.
반면, Finance Agent의 경우 단일 에이전트에서 순차적 병목 현상을 보인다. 즉 제한된 추론 라운드 내에서 충분한 자료 탐색이 안된채로 다음 추론으로 넘어가 성능이 저하될 수 있음을 의미한다.
중앙집중형 조정의 경우 병렬적 정보 종합을 가능케 한다. 또한 병렬적 정보 탐색의 결과를 오케스트레이터에 의해 종합하여 +80.9%의 개선을 이끌어 내고 있다. (박스플롯 결과 참고)
MAS 변형들 사이의 성능 범위는 -70.0%(PlanCraft 독립형)에서 +80.9%(Finance 중앙집중형)까지 걸쳐 있으며, 이는 MAS가 보편적인 이득을 제공하는 것이 아니라 도메인별 상충 관계(trade-offs)를 제공함을 나타낸다.
Domain Complexity Moderates Coordination Efficacy
고정된 컴퓨팅 예산(MAS와 SAS 간 토큰 수 일치) 내에서 도메인 복잡도가 MAS의 이점을 상쇄하는 유의미한 음의 조절 변수임을 확인하고 있다.
위의 예시에서 Finance Agent는 구조화되고 '분해 가능한' 도메인으로 로컬 추론을 완료하고도 에이전트 간 통신에 사용할 수 있는 잔여 용량을 갖는다. 에이전트 간 조정에서 부분적인 해결책들의 종합을 가능하게 하여 큰 폭의 성능을 갖는다. 그러나 고복잡성 순차적 도메인인 PlanCraft는 제약 조건 검증 및 상태 추적을 위한 에이전트 내부 추론이 통신이 일어나기 전에 가용한 토큰의 대부분을 소비하여, 이후 추론의 질을 저하시킴과 동시에 성능 저하를 일으킨다.
이러한 트레이드 오프는 작업 완료에 필요한 평균 순차적 추론 단계 수로 정의된 벤치마크 복잡도에 의해 직접적으로 정량화된다.
여기서 말하는 순차적 추론 단계(D)는 "가장 똑똑한 단일 에이전트가 어떤 일을 끝내는 데 몇 번의 행동을 했는가?"로 일의 순차적을 나타내는 것을 의미한다.
벤치마크별 점수와 결과(박스플롯)는 아래와 같다.
| Workbench | 0.000 | -11 ~ +6 (%) |
| Finance Agent | 0.407 | +57 ~ +81 (%) |
| PlanCraft | 0.419 | -39 ~ -70 (%) |
| BrowseComp-Plus | 0.839 | -35 ~ +9 (%) |
도메인 복잡성 그 자체만으로는 MAS의 효과를 완전히 예측할 수 없으며, '작업의 분해 가능성'이 MAS 성능의 결정적인 요인이라고 말한다.
PlanCraft는 Finance Agent와 비슷한 복잡도 점수임에도 불구하고 엄격한 순차적 의존성으로 인해 -70%까지 성능이 저하되었다.
이는 복잡성 그 자체보다 '순차적 상호 의존성'이 조정의 실행 가능성을 결정함을 시사한다.
Architecture-LLM Family Interactions Reveal Vendor-Specific Coordination Mechanisms
본 절에는 모든 도메인과 벤더(제조사)에 걸쳐 지배적인 단일 구조는 존재하지 않음을 말한다. 또한 구조의 효과는 도메인 구조에 결정적으로 의존한다.
Finance Agent는 중앙집중형(+80.9%)과 분산형(+74.5%)에서 가장 큰 이득을 얻었으며, Workbench는 분산형(+5.6%)에서 가장 큰 이득을 얻었다. BrowseComp-Plus 역시 분산형(+9.2%)에서 가장 큰 이득을 얻었고, 성능이 저하되는 도메인인 PlanCraft에서는 중앙집중형(-50.4%)이나 독립형(-70.0%)에 비해 하이브리드형(-39.0%)이 상대적으로 가장 나은 수치를 보인 것 처럼, 구조 선택이 '차악(least-worst)'을 최적화하는 문제가 된다.
성능 개선이 뚜렷한 도메인 내에서는 제품군별로 특정한 조정 선호도가 나타난다.
Finance Agent의 경우 Anthropic의 중앙집중형은 +127.5%, Google의 중앙집중형은 +164.3%, OpenAI의 중앙집중형은 +69.9%를 달성했다.
구글의 해당 결과를 모델의 내부 설계(어텐션 메커니즘)가 계층적인 대화 구조를 처리하는 데 더 최적화되어 있기 때문이라고 분석하고 있다.
다중 에이전트 오버헤드를 견디기 힘든 Workbench에서는 Anthropic의 최고 구조가 다른 벤더에 비해 우수했으며, 이는 조정 비용을 관리하는 데 있어 상대적인 효율성을 반영한다.
결정적으로 모든 구조(토폴로지)가 퇴보하는 PlanCraft에서는 벤더별 선호도가 평탄화된다. 이는 통신 메커니즘이 근본적인 순차적 추론 제약을 극복할 수 없음을 나타낸다. 정확한 메커니즘은 아직 규명되어야 하지만, 잠재적 요인으로는 지시 이행 충실도, 문맥 활용 패턴, 라운드 간 일관성 등의 차이가 에이전트가 조정 메시지를 해석하고 응답하는 방식에 영향을 미칠 수 있다.
어떤 벤더도 다중 에이전트 분야에서 보편적인 우위를 점하지 못했으며, 구조화된 도메인에서 강한 성능을, 순차적 제약 충족 도메인에서 일관된 저하를 보였다. 이는 다중 에이전트의 이점이 작업 유형 전반에 걸쳐 일반화되는 것이 아니라, 문제 구조에 진정으로 종속되어 있음을 의미한다.
Scaling principles
주요 연구 결과에 따르면, 에이전트 시스템의 성능은 작업 구조와 협업 아키텍처에 따라 최대 81%의 향상에서부터 -70%의 성능 저하까지 상당한 이질성(편차)을 보이는 것으로 나타난다. 이러한 변동성은 작업의 분해 가능성(decomposability), 도구의 복잡성, 그리고 기본 난이도와 같은 측정 가능한 속성들과 상관관계를 갖고있다.
본 연구에서는 이러한 이질성을 설명할 뿐만 아니라, 보지 못한 새로운 설정에 대해서도 성능 예측을 가능하게 하는 정량적 원리를 탐구한다.
Mixed-Effects Model Achieves 52.4% Cross-Validated Variance Explanation

연구진들은 180개의 모든 구성(configuration)에 대해 에이전트 시스템의 성능과 네 가지 범주의 예측 변수를 연결하는 '스케일링 원리'를 적용했으며, 예측 변수는 다음과 같이 적용했다.
- 기본 모델 역량 (지능 지수)
- 시스템 구성 (에이전트 수)
- 작업 속성 (도구 개수, 단일 에이전트 기준 성능) - 이는 벤치마크 내 변동을 포착하는 인스턴스 수준의 변수
- 경험적으로 측정된 협업 지표 (효율성, 오버헤드, 오류 증폭, 메시지 밀도, 중복성)
단순히 모든 항을 포함하는 대신, 특정 기제적 가설(mechanistic hypotheses)을 바탕으로 모델을 구축한다.
역량 스케일링의 비선형성을 테스트하기 위해 이차항을 포함했으며, 도구 수와 에이전트 수에는 한계 효용 체감 가설에 따라 로그 변환을 적용한다.
상호작용 항(Interaction terms)은 이러한 요소들이 결합되는 방식에 대한 가설을 테스트하며, 관찰된 패턴에 근거해 아래와 같은 9개의 상호작용을 포함한다.
- 효율성 저하가 도구 복잡성과 결합되어 악화되는지 테스트
- 도구가 많은 환경에서 오류가 더 심각하게 전파되는지 테스트
- 단일 에이전트 성능이 이미 높으면 협업을 통한 이득이 적다는 기준선 역설(baseline paradox) 포착.
- 오버헤드 비용이 작업 복잡도에 따라 스케일링 되는지 테스트
또한 과적합을 방지하기 위해 기제적 근거가 없는 상호작용은 의도적으로 제외한다.
즉, 위 기본적인 4개의 예측 변수만 나열만 하면 "지능이 높으면 성능이 좋다" 같은 1차원적인 분석만 가능하다. 하지만 실제 에이전트 환경은 훨씬 복잡하며, 연구진은 "특정 조건들이 만났을 때 발생하는 시너지나 부작용"을 수학적으로 포착하기 위해 상호작용 항을 추가했다고 이해할 수 있다.
5분할 교차 검증 결과, 결정계수 0.524를 달성했으며, 이는 모델 지능(0.28)이나 단순 아키텍처 라벨(0.43)만 사용했을 때보다 성능을 훨씬 더 잘 예측함을 보여준다. 결정적으로, 이 방정식에는 데이터셋 전용 파라미터가 없어 학습하지 않은 새로운 도메인의 작업에 대해서도 성능 예측이 가능하단 걸 보여준다.
The Efficiency-Tools Interaction Dominates Multi-Agent Performance
주요 상호작용 항목 중 효율성-도구 간의 트레이드 오프는 두 번째로 큰 효과 크기를 보이고 있다.
해당 상호작용은 도구를 많이 사용하는 작업일수록 멀티 에이전트의 비효율성으로 인해 성능이 불균형적으로 저하된다는 사실을 드러낸다
실증적으로, 단일 에이전트 시스템은 협업 효율성=0.466의 효율성을 달성하는 반면, 멀티 에이전트 아키텍처는 하이브리드 방식(0.074)에서 독립 방식(0.234)에 이르기까지 약 2~6배의 효율성 패널티를 겪는다.
도구가 16개인 작업(예: workbench 벤치마크)에 적용해 보면 다음과 같은 효율성 변화가 나타난다.
- 단일 에이전트 (협업 효율성 = 0.466): -1.99
- 멀티 에이전트 (협업 효율성 = 0.074): -0.32 (상대적으로 낮은 수치)
언뜻보면 도구가 많은(복잡한) 작업에는 멀티 에이전트의 패널티 수치가 낮아 적합해보이지만, 본 논문에서는 역설을 제시하고 있다.
멀티에이전트는 협업 효율성 자체가 이미 낮아서(0.074) 패널티도 작게 나올 수 밖에 없으며(추측), 도구가 풍부한 환경은 오히려 협업 비용(coordination tax)을 증폭시켜, 역설적으로 더 단순한 아키텍처가 효과적이게 만든다고 주장하고 있다.
결론적으로 에이전트 스케일링 전략을 짤 때 '단순성'과 '협업 효율'을 우선순위에 두어야 한다고 주장하고 있는 것으로 보인다.
"무분별한 스케일링은 금지하라고 또 한번 주장하고 있다."
해당 섹션에서 아쉬운 점이 하나 있는데, 분명 효율성 변화 수치만 보면 도구가 많은 작업에서 멀티 에이전트가 상대적으로 낮은 수치를 보여 적합하다고 생각할 수 있는데, 수치나 근거 자료가 없는 협업 비용을 언급하며 역설을 주장하는 점이다. 조금 더 직관적으로 확인하기 위한 통계 자료가 필요하다고 생각한다.
Error Amplification Exhibits Architecture-Dependent Catastrophic Failure Modes

위 표에 따르면 오차 증폭 계수(Ae)에서 드라마틱한 차이가 나타난다. 구체적으로 단일 에이전트(1.0), 중앙 집중형(4.4), 분산형(7.8), 하이브리드(5.1), 독립적 다중 에이전트(17.2) 순으로 높아진다.
다른 협업 지표들을 통제한 후 분석했을 때, 오차 증폭의 주효과나 도구 개수와의 상호작용 모두 통계적 유의성에 도달하지 못했으며 이러한 정보를 토대로 오차 전파 그 자체보다는, 효율성 및 오버헤드와 같은 다른 협업 메커니즘에 의해 더 잘 설명됨을 시사한다.
독립적 아키텍처의 보편적인 성능 저하(평균 성공률 0.370 vs 단일 에이전트 0.466)는 에이전트 간 통신의 부재에서 기인한다. 즉, 각 에이전트가 고립된 상태에서 작동하며 수정의 기회 없이 오류를 복제하기 때문인데, 이러한 효과는 효율성 지표(독립적 구조 0.234 vs 단일 에이전트 0.466)에 흡수되어 나타난다.
Overhead Scales Non-Linearly with Task Complexity via the 𝑂%×𝑇 Interaction
멀티 에이전트 구조는 단일 에이전트와 동일한 성능을 낼 때를 기준으로 상당한 오버헤드를 발생시킨다: 독립형(58%), 중앙 집중형(285%), 분산형(263%), 그리고 하이브리드형(515%). 이는 단일 에이전트 대비 1.6~6.2배의 토큰 예산이 소모됨을 의미한다.
스케일링 법칙(Scaling Law)에 따르면, 이 오버헤드는 도구(Tool)의 개수(T)와 상호작용하며, 복잡한 작업에서 비용을 기하급수적으로 가중시킨다.
이는 도구가 16개(T=16)인 워크벤치 환경에서의 데이터를 기반으로 파악할 수 있으며, 위 도구의 개수와 오버헤드 간의 함수적 형태는 특정 임계점이 있음을 시사한다. 임계치를 넘어서면 오버헤드 비용이 협업으로 얻는 이득을 초과하게 된다.

위 수식으로는 T = 16을 기준으로 O% ≈ 150%가 한계다. 이를 넘는 모든 멀티에이전트 아키텍처는 조율 비용이 이득을 초과하게 된다. 그러나 분산형 구조에서는 중앙 집중형 구조보다 오버헤드가 높음에도 불구하고(다소 직역), 뛰어난 병렬 효율성 덕분에 더 높은 성능을 보였다. 이러한 오버헤드-복잡도 상호작용은 세 번째로 강력한 영향력을 미치는 요소로 확인되었으며, 이는 협업 비용이 고정된 것이 아니라 환경의 복잡도에 따라 초선형적(Super-linearly)으로 증가한다는 사실을 강화해준다.
이 절에서 애매한 것은 병렬 처리 효율을 직접 측정한 수치가 없으며, 분산형 구조와 중앙 집중형 구조 사이의 0.043의 차이가 얼마나 유효한지에 대한 설명이 없는 상황에서 분산형 구조가 배제되지 않은 이유가 불분명 (원문 : this threshold is O% ≈ 150%, ruling out all multi-agent architectures except possibly decentralized)
Intelligence Shows Linear Positive Effect (ˆ𝛽𝐼 = 0.171, 𝑝 = 0.001)
모델의 지능은 성능에 선형적인 정비례 효과를 미친다. 다중공선성 문제(회귀분석에서 독립변수들 간에 강한 상관관계가 존재하여 모델 추정에 오류가 발생하는 현상)를 해결하기 위해 지능 점수를 센터링 처리한 결과 VIF가 200에서 1.1로 감소하였으며, 선형적 역량 효과가 유의미하게 나타났다. 즉, 더 높은 역량을 가진 모델일수록 모든 아키텍처에 걸쳐 비례적으로 더 나은 성능을 달성함을 의미한다. 또한 지능의 이차항은 유의미하지 않았으며, 이는 테스트된 범위 내에서 역량 스케일링이 가속화되는 패턴이 아닌 선형적인 패턴을 따른다는 것을 의미한다.
Redundancy Provides Marginal Benefit at Scale (ˆ𝛽𝑅× 𝑛𝑎 = 0.047, 𝑝 = 0.001)
업무 중복성(Redundancy)은 규모가 커짐에 따라 성능에 미미한 이점만을 제공한다고 한다.
여러 에이전트가 동일한 하위 작업을 수행하는 비율로 정의되는 업무 중복성은 멀티 에이전트 시스템에서 0.41(중앙 집중형)에서 0.50(분산형) 사이의 범위를 보인다. 스케일링 법칙에 의하면 에이전트 수와 약한 양의 상호작용이 확인되었으며, 이는 더 많은 에이전트가 참여할 때 발생하는 중복성이 일종의 오류 수정(Error-correction) 혜택을 제공함을 시사한다.
중복성 R = 50인 4개 에이전트 시스템에서 약 8%의 성능 향상과 맞먹는다. 그러나 이 효과는 오버헤드 패널티나 효율성 손실에 비하면 미미한 수준이다. 이는 중복성이 아키텍처의 비효율성을 완전히 상쇄할 수 없음을 나타낸다.
유의수준(p = 0.001)은 이 관계가 맥락 의존적일 수 있음을 시사하며, 오류가 잦은 영역에서는 당연히 강해지고 통신 비용이 비싼 경우에는 약해질 가능성이 있다. 또한 가장 높은 중복성을 보이는 분산형 구조는 도구 중심 작업에서 최고의 성능을 기록했고, 계획 작업에서는 낮은 성능을 보였는데, 이 경우 중복성은 낭비적인 중복 작업이 된다. 즉, 중복성은 개선의 여지가 있을 때는 도움이 되지만, 기준 성능이 높을 때는 단순한 오버헤드가 된다.
The Scaling Principle Enables Quantitative Architecture Selection

스케일링 원칙(Scaling Principle)은 아키텍처 선택을 위한 정량적 도구로 활용될 수 있다.
수식 1(원문 16p 참고)은 20개의 매개변수를 통합하여 아키텍처 설계를 위한 예측 도구로 변환한다. (무작위 선택(20%)이나 지능만 고려(54%)하는 케이스보다 높은 정확도(87%)를 가지는 예측 모형)
작업의 특성(Psa)과 모델의 역량(I)이 주어지면, 실무자는 표 5의 경험적 협업 지표를 사용하여 각 아키텍처의 예상 성능을 계산할 수 있다. 세 가지 작업 원형(Archetypes)을 고려해 보면 다음과 같다.
- 계획 작업 (T=4, Psa=0.57): '기준점의 역설'과 적은 도구 개수로 인해 단일 에이전트(Single-agent)가 유리
- 분석 작업 (T=5, Psa=0.35): 감당 가능한 수준의 오버헤드 내에서 오류 제어(Ae = 4.4)의 균형을 맞춘 중앙 집중형 멀티 에이전트가 유리
- 도구 중심 작업 (T=16, Psa=0.63): 높은 오버헤드(263%)에도 불구하고 병렬화와 중복성이 효율성 손실을 상쇄하기 때문에 분산형 멀티 에이전트가 유리
본 논문에서는 "언제 에이전트를 쓸지", "어떤 구조를 활용할지"에 대한 기존의 직관적 가이드를 예측 모델로 대체하는 최초의 정량적 기준을 아래와 같이 제공한다.
단일 에이전트의 성공률 45%(임계값)를 기준으로 미만일 때 MAS 도입을 검토하라고 가이드한다. 이는 수식 1을 통해 도출한 최종 가이드라인이다.
수식 정확도와 통계적 계수표는 원문 20p Table 4를 참고.
Coordination Efficiency, Error Dynamics, and Information Transfer
본 논문에서는 협업 자체의 순수한 효과만을 격리하여 분석하기 위해, 총 추론 토큰 예산(회당 평균 4,800 토큰)과 도구 호출 권한을 동일하게 맞추어 설계한다.
또한 관찰되는 오류를 명세 오류, 에이전트 간 불일치 오류, 검증 실패 3 가지 항목으로 분류한다.
Turn count follows power-law scaling with number of agents
대화 횟수(Turn count)는 에이전트 수에 따라 멱법칙 스케일링을 따른다.

또한 아키텍처 구조에 따라도 차이가 발생한다. (에이전트 수=3일 때, 독립형은 평균 11.4회인 반면 분산형은 26.1회)
실증적으로, 하이브리드 시스템은 단일 에이전트(SAS)보다 6.2배 더 많은 대화가 필요하고(44.3회 vs 7.2회), 중앙 집중형은 3.8배(27.7회), 분산형은 3.6배(26.1회)의 대화가 필요하다.
결론적으로 고정된 계산 예산 하에서, 에이전트가 3~4명을 넘어서면 개별 에이전트가 사용할 수 있는 추론 용량은 급격히 희박해진다.
물론 예산에 따라 다르다.
Message Density Exhibits Logarithmic Saturation with Performance
에이전트 간 대화 밀도가 성능과 어떤 관계를 갖고있는지.
성공률은 모든 아키텍처에 걸쳐 메시지 밀도와 로그(logarithmic) 관계를 따른다.
에이전트 간의 소통(메시지 밀도)은 성공률과 로그 관계를 가지며, 턴당 약 0.39개의 메시지에서 성능이 포화된다. 이 지점 이후의 추가적인 대화는 성능 향상 없이 비용(오버헤드)만 증가시키므로, 무조건적인 소통보다는 합의에 도달하는 효율적인 소통 구조를 설계하는 것이 핵심이다.
높은 성과를 낸 실험들은 수렴된 토큰 중첩(평균 약 1.8 bits)을 보여주며, 이는 메시지 간의 합의(Consensus)가 이미 이루어졌음을 시사한다. 따라서 그 이상의 대화는 새로운 정보를 추가하기보다 단순히 중복(Redundancy)만 늘릴 뿐이다.
Error absorption mechanisms
본 연구는 오류 흡수율을 Absorb = (E_SAS - E_MAS) / E_SAS (E는 사실 관계 오류율)로 정의한다.
오류 흡수 메커니즘은 반복적인 검증을 통해 작동한다.
예로 중앙 집중형 및 하이브리드 구조에서는 하위 에이전트의 출력이 오케스트레이터를 거치며, 이 과정에서 추론 단계의 상호 교차 검증을 통해 논리적 모순을 탐지하고 수정한다.
분산형 구조에서는 에이전트 간의 피어 토론(Peer debate) 라운드를 통한 명시적인 도전-응답(Challenge-response) 교환이 이와 유사한 검증 기능을 수행한다.
이러한 구조들은 평균 22.7%의 오류 감소율을 달성하며, 특히 수치 검증이 용이한 Finance Agent 작업에서는 최대 31.4%의 오류 감소를 보였다. 반면, 독립형 구조는 에이전트 간 검증 기제가 전혀 없기 때문에 개별 에이전트의 오류가 수정 기회 없이 최종 결과로 직결되어 오히려 오류가 증폭(+4.6%)되었다.
이러한 수정 메커니즘은 토큰 중첩 분석(Token-overlap analysis)을 통해 확인된다.
또한 높은 중복성(R > 0.50)이 성공률과 음의 상관관계를 보이며, 0.41 부근에서 최적의 중복성을 형성한다.
Error Taxonomy Reveals Architecture-specific Failure Modes
본 연구는 다음과 같은 네 가지 오류 범주를 식별한다.
- 논리적 모순 (Logical Contradiction): 에이전트가 동일한 개체에 대해 "X는 참이다"와 "X는 거짓이다"를 동시에 주장하거나, 자신이 명시한 전제를 위반하는 결론을 도출하는 경우.
- 수치적 표류 (Numerical Drift): 반올림이나 단위 변환 실수의 연쇄적 발생으로 인해 축적된 계산 오류. 정답(Ground Truth)으로부터의 상대적 편차가 5%를 초과하는 경우로 측정됨.
- 맥락 누락 (Context Omission): 현재의 추론 단계에 필요한 기존 개체, 관계 또는 상태 정보를 참조하지 못하는 경우.
- 협업 실패 (Coordination Failure): (이하 생략 - 보통 에이전트 간의 지시 불이행이나 응답 부재 등을 의미함)

위 그림은 세 가지 LLM 제품군을 대상으로 BrowseComp-Plus 벤치마크에서 중앙 집중형과 분산형 아키텍처의 성능을 비교 분석한 결과이다. (고성능 모델로는 GPT-5, Claude Sonnet 4.5, Gemini-2.5 Pro가, 저성능 모델로는 GPT-5 nano, Claude Sonnet 3.7, Gemini-2.0 Flash가 사용되었다.)
주요 분석 내용으로는 분산형에서 Mixed Inteligence가 좋은 성능을 보인다는 것과 고성능 오케스트레이터 + 저성능 하위 에이전트 구성보다 저성능 오케스트레이터 + 고성능 하위 에이전트 구성이 더 좋은 결과를 보이고 있다는 점이다.
멀티 에이전트 시스템(MAS) 특유의 오류로는 메시지 오해, 작업 할당 충돌, 에이전트 간 상태 동기화 오류 등이 식별되었다.
이러한 오류 카테고리에 따라 아키텍처별로 다음과 같은 패턴이 나타난다.
- 논리적 모순 (Logical Contradiction): 기본 발생률은 12.3~18.7%이며, 중앙 집중형은 합의 과정을 통해 이를 9.1%까지 낮추었고, 분산형은 피어 검증을 통해 11.5%를 달성했다. 반면 독립형은 16.8%로 거의 변화가 없다.
- 수치적 표류 (Numerical Drift): 기본 발생률은 20.9~24.1%이며, 중앙 집중형과 분산형은 하위 문제 검증을 통해 18.3%로 낮췄으나, 하이브리드는 반올림 오차가 전파되면서 오히려 26.4%로 증폭되었다. 독립형은 23.2% 수준을 유지
- 맥락 누락 (Context Omission): 기본 발생률은 15.8~25.2%이며, 중앙 집중형은 오케스트레이터의 정보 통합 덕분에 8.3%까지 낮추며 압도적인 감소율을 기록했다. 분산형은 11.2%, 독립형은 24.1%를 기록했다.
- 협업 실패 (Coordination Failure): 멀티 에이전트 구조에서만 발생하는 패턴이고, 독립형은 협업 기제가 없어 0%이며, 중앙 집중형은 1.8%, 분산형은 3.2%인 반면, 하이브리드는 프로토콜의 복잡성이 실행 한계를 넘어서며 12.4%라는 높은 실패율을 보였다.
이러한 패턴은 세 가지 운영 조정 체제를 식별하는데 아래와 같다.
- 협업 부족 (Under-coordination, 오버헤드 100% 미만): 정확도 향상이 미미(약 +2~4%)하며, 협업 메커니즘이 아직 제대로 작동하지 않는 단계.
- 최적 대역 (Optimal band, 오버헤드 200~300%): 비용 대비 성공률이 가장 높다. 중앙 집중형과 분산형이 이 대역에 속하며, 강력한 오류 흡수 능력을 보인다.
- 과잉 협업 (Over-coordination, 오버헤드 400% 초과): 하이브리드 구조가 이 대역에 해당하며, 효율성이 급격히 감소한다. 프로토콜의 복잡성으로 인해 새로운 '협업 실패' 모드들이 발생한다.
오류 증폭 분석 결과, 독립형(Independent) 아키텍처는 오류를 수정하지 못하고 그대로 전파하는 것으로 확인되었다.
(수정 메커니즘이 없는 독립형 아키텍처는) 오류를 단일 시스템(기준치) 대비 17.2배(95% 신뢰구간: [14.3, 20.1])까지 증폭시켜 전파하는 반면, 중앙 집중형(Centralized) 구조는 관리자의 지도 기반 통합(supervised aggregation)을 통해 오류 증폭을 4.4배([3.8, 5.0]) 수준으로 억제한다
논문에서는 중앙 집중형과 분산형이 독립형 및 하이브리드 구조에 비해 좋다고 설명하고 있는 듯 하다.

위 그림은 다중 에이전트 아키텍처 내 에이전트 수 변화(1,3,5,7,9)에 따른 Gemini-2.0 Flash (a)와 Gemini-2.5 Pro (b)의 성능 분석 결과다. 두 모델 모두 초기에는 다중 에이전트 협업을 통해 성능 향상을 보였으나, 확장 패턴에서는 뚜렷한 차이를 보인다.
이 결과는 최적의 에이전트 수가 모델의 역량과 협업 전략(아키텍처) 모두에 의존함을 시사한다.
Information Gain (IG) Predicts MAS benefit in Low-Complexity Domains
정보이득은 복잡성이 낮은 도메인에서 다중 에이전트 시스템의 이점을 예측한다고 말하고 있다.
협업 이전과 협업 이후의 작업 불확실성 대리 지표(베이즈 사후 분산 감소 적용)를 비교하여 정보 이득을 계산한다.
(정보 이득은 협업 전과 후의 불확실성 수학적 통계)
구조화된 도메인에서 정보이득은 MAS와 SAS 간의 성능 격차와 강한 상관관계를 보인다. 이는 에이전트들이 고가치의 정보를 성공적으로 교환하고 이를 종합하여 향상된 해결책을 도출해냄을 나타낸다.
반면, 오픈월드 도메인에서는 정보이득이 약하고, 유의미하지 않은 예측력을 보인다.
그 이유로는 도메인 환경의 본질적인 모호성으로 인해 에이전트들의 메시지가 검증된 정보를 제한적으로만 제공하기 때문이라고 한다.
Cross-Domain Generalization Validates Coordination Principles
도메인 간 일반화는 협업 원칙을 입증한다.
아키텍처 순위는 도메인 전반에 걸쳐 안정적으로 유지되었으며, 이는 협업 원칙이 특정 작업 구조를 초월함을 나타낸다.
에이전트 간 소통 구조가 갖는 장단점은 특정 문제(도메인)에만 국한되지않고 보편적으로 통용된다.
또한 적합된 멱법칙으로 인해 에이전트 수의 증가에 따라 예측되는 턴 수는 초선형적으로 확장된다. (에이전트 수 n=6일 때, SAS: 7.2턴, 중앙 집중형: 85~130턴에 도달할 것)
예산된 자원에 한해서, 에이전트 수가 3~4명을 넘어갈 경우 주어진 자원을 서로 대화하고 조율하는데 다 써버린다.
조금의 생각만 가지고 회의만 하루종일 할 때 발생하는 그런 것과 비슷하다
Economic Efficiency and Family-Specific Cost-Benefit Trade-offs
토큰 효율성(1,000토큰 당 성공 횟수)은 아키텍처와 모델 제품군에 따라 극명한 상충 관계를 보여준다.
단일 에이전트 시스템(SAS)은 1,000 토큰당 67.7회의 성공을 달성하지만, 중앙 집중형(Centralized)은 21.5회, 분산형(Decentralized)은 23.9회, 하이브리드(Hybrid)는 13.6회로 떨어진다.
다중 에이전트 시스템이 높은 성능을 가져다 줄 수는 있겠지만, 그에 따른 비용이 비효율적이다.
모델 별로 이러한 비용은 상이한데, 특히 Anthropic이 협업 오버헤드(소통)를 처리할 때 더 비효율적이라는 통계를 보인다.
LLM Family-specific Deployment Signatures and Model-Architecture Alignment
제품군 간 교차 분석 결과, 뚜렷한 아키텍처 선호도가 드러났다.
OpenAI 모델은 구조화된 작업에서 가장 강력한 하이브리드(Hybrid) 시너지를 보여준다
(Finance: 하이브리드 52% 성공 vs 단일 에이전트 39%; Workbench: 하이브리드 56% vs 단일 에이전트 42%).
Anthropic 모델은 가장 보수적이고 안정적인 중앙 집중형(Centralized) 성능을 보여준다
(전체 작업 평균 43%, 표준편차 2.3%로 변동성이 가장 낮음).
Google 모델은 아키텍처 전반에 걸쳐 견고한 효율성을 나타낸다
(토폴로지 간 성능 편차가 5% 미만)
이러한 패턴은 표면적인 하이퍼파라미터(설정값)의 차이가 아니라, 다중 에이전트 상호작용을 가능하게 하거나 제약하는 어텐션 메커니즘(attention mechanisms), 활성화 희소성(activation sparsity), 그리고 표현 기하학(representation geometry)의 근본적인 차이를 반영한다.
Limitations and Future Works
한계점 및 향후 연구 과제 절에서는 6가지 한계점과 방향성을 제시한다.
1. 에이전트 규모의 한계
: 본 논문에서는 에이전트 수를 최대 9명까지 늘리는 사전 탐색과 함께 표준적인 협업 구조(토폴로지)를 체계적으로 비교한다.
그러나 더 큰 집단으로 확장될 경우 자발적 전문화나 계층적 자기 조직화 같은 유익한 창발적 행동을 보일지, 아니면 소통 병목 현상이 지배적일지는 미해결 과제로 남아있다.
2. 서로 다른 LLM 제품군의 혼용
: 본 논문에서는 동일한 LLM 제품군으로만 에이전트 구성을 하고 테스트를 진행한다. 동일한 제품군 내에서 지능 수준이 다른 모델을 섞어 탐구도 하긴 했지만, 다른 모델 아키텍처를 혼합하여 사용할 경우 인식론적 다양성이 언제 협업의 소음이 아닌 시스템의 견고함을 창출하는지 이해해야 한다고 한다.
3. 도구가 많은 작업의 해결책
: 분석 결과, 도구 사용량이 많은 환경은 다중 에이전트 협업의 주요 실패 모드임이 밝혀졌다. 명시적인 도구 접근 일정 수립, 역량 인지 기반 작업 분배(라우팅) , 또는 계층적 도구 위임 등 도구 집약적 작업을 위한 특화된 협업 프로토콜을 개발하는 것은 다중 에이전트의 신뢰성 향상을 위한 중요한 방향이다. (MCP 다음의 과제로 추측)
4. 모델 별 맞춤형 프롬프트 부재
: 실험적 타당성을 위해 모든 조건에서 프롬프트가 동일하도록 통제하였으나, 각 모델이나 제품군에 맞는 프롬프트를 최적화하진 않았다. LLM이 프롬프트에 민감하다는 점을 고려할 때, 아키텍처별 맞춤형 프롬프트 튜닝은 본 연구에서 보고된 것과는 다른 특성을 나타낼 수 있다.
5. 테스트 환경의 한계
: 본 논문에서는 4개의 에이전트 벤치마크로 다양한 작업 구조에 대해 테스트를 진행하였으나 에이전트 작업 특성의 전체 스펙트럼을 포착하지는 못할 수 있다고 전한다. 다중 사용자 상호작용, 장기적인 시간 의존성과 같은 새로운 작업 구조를 가진 환경을 추가할 경우 여기서 식별한 임계값과 확장 원칙에 대한 신뢰도를 높여줄 수 있다.
6. 가성비 문제
: 다중 에이전트 확장의 경제적 타당성은 여전히 현실적인 장벽으로 남아있다. 토큰 소비와 지연 시간은 에이전트 수에 따라 상당히 증가하지만 성능 향상이 이에 비례하지 않는 경우가 많다.
향후 연구는 대규모에서도 경제적으로 운용할 수 있도록 조기 종료 메커니즘, 증류된 관리자 모델(distilled coordinator models)과 같은 효율성 지향 설계를 탐구해야 한다고 전한다. 더불어 텍스트 기반을 넘어 물리적인 현장에서도 통할지는 검증이 필요하다.
Conclusion
본 연구는 3개의 LLM 제품군과 4개의 에이전트 벤치마크에 걸친 180개의 통제된 실험을 통해 에이전트 시스템을 위한 확장 원칙을 정량화했다. 다중 에이전트 성능에 대한 정량화 가능한 상충 관계는 다음과 같다.
도구-협업 상충 관계: 도구 사용이 많은 작업이 협업 오버헤드(소통 비용)로 인해 타격을 입는 구조
역량 포화: 단일 에이전트 기준 성능이 약 45%를 초과하면 협업을 통한 성능 향상폭이 줄어드는 현상
아키텍처 의존적 오류 증폭 : 에이전트를 각자 방치하면 오류가 17.2배 폭발하지만(독립형), 중앙에서 관리자가 검증하면 4.4배로 방어(중앙 집중형)
성능 향상폭은 Finance Agent의 +80.9%에서 PlanCraft의 -70.0%까지 극적으로 달라지며, 이는 협업의 이점이 에이전트 수가 아니라 작업의 분할 가능성에 달려있음을 보여준다.
본 논문에서는 테스트 데이터에서 최적의 아키텍처를 선택하는 데 87%의 정확도를 달성하는 예측 모델(R=0.524)를 도출했다.
연구 이후에 진행한(새로운 모델인 GPT-5.2 대상) 표본 외 검증 결과, 5가지 확장 원칙 중 4가지가 일반화됨을 확인했다.
이러한 결과는 실무자들에게 측정 간으한 작업 특성을 기반으로 아키텍처를 선택할 수 있는 정량적 지침을 제공한다.
Overall
본 논문은 에이전트의 수가 많으면 많을수록 좋다 라는 사람들의 생각을 향해 과학적인 통계 데이터를 바탕으로 반대 의견을 제시한다.
여기서는 3가지의 트레이드-오프와 다중 에이전트 성능을 높이기 위한 가이드라인을 제공한다.
흥미로웠던 점은 단일 에이전트만으로도 이미 45% 이상의 정답률을 낼 수 있는 작업이라면, 여러 에이전트를 투입해 봤자 조정 비용이 이득을 초과하여 오히려 성능이 떨어지거나 제자리걸음을 한다는 부분이다.
일반적으로 같은 급의 지식베이스를 가진 LLM 모델이 여럿 붙어서 작업하는게 훨씬 더 효율이 잘 나올거라 판단했는데, 협업으로 인한 오류 전파와 중복 작업과 같은 사이드 이펙트를 간과했던 것 같다.
또다른 키워드로는 작업의 분할 가능성인데, 에이전트 규모가 아닌 해결하려는 문제(작업)가 병렬로 쪼개기 좋은 구조인지에 달려있다는걸 시사한다. 반면에 순차적 의존성이 있는 Task에서는 굉장히 저조한 성능을 보이는데 위 트레이드-오프가 극명하게 발현이 되어 그런듯하다.
에이전트 규모에 따른 소통 비용 문제의 경우 작업의 분할 가능성과도 연관이 있다고 생각한다. 이유로는 작업의 분할도 중요하지만 분할된 작업의 규모 또한 영향이 있을 것이라 생각이 되기 때문이다. 이 부분은 단순히 가성비 측면이며 정답률과는 어느정도 괴리가 있다고 판단된다.
다시 한번 해당 논문이 흥미로운 것은 에이전트의 수가 많으면 많을수록 좋다 라는 일반적인 생각에 대한 근거 파악과 함께 일종의 가이드라인을 제공했다는 점이며, 이 가설 및 데이터를 기반으로 에이전트 평가 역량의 향상이 기대된다는 것이다.
해당 논문은 마치 에이전트 컨설팅을 받은 것과 같은 느낌이였다.
