원본 요약
코드를 "LLM의 산출물"이 아닌 "에이전트 시스템의 실행 가능한 기반(인프라)"으로 재정의하는 102쪽 서베이 논문 리뷰.
핵심 재정의
- 기존 관점: 코드 = LLM이 생성하는 결과물
- 새 관점: 코드 = 에이전트의 추론·행동·환경 모델링을 통합하는 인프라
3계층 분류 체계
1계층: 하네스 인터페이스(Harness Interface)
- 추론 도구: 실행 가능한 프로그램으로 검증 가능한 결과 도출
- 행동 생성기: 실행 가능한 스크립트로 환경 조작 (로봇 제어, 파일 수정 등)
- 환경 모델: 코드베이스 전체가 에이전트의 상태 공간, 실시간 피드백
2계층: 하네스 메커니즘(Harness Mechanisms)
- 계획: 큰 작업 → 순차적 서브태스크 분해 또는 탐색 기반 경로 최적화
- 기억: 작업 기억(현재 상태) + 의미 기억(구조 지식) + 경험 기억(성공/실패 패턴)
- 도구 사용: API 호출, 파일 시스템 접근, 테스트 러너 등
- PEV 루프: 계획(Plan)→실행(Execute)→검증(Verify) 반복, 샌드박스 안전 제어
3계층: 멀티에이전트 확장(Scaling)
- 역할 분담: 관리자, 플래너, 코더, 리뷰어, 테스터
- 협업 모드: 협력적(공동 작성) / 적대적(레드팀 검증)
- 상태 관리: Git 브랜치/PR 방식으로 의미 충돌 해결
적용 분야 5가지
- 코딩 어시스턴트 (Claude Code, SWE-bench)
- GUI 자동화
- 로봇 제어
- 과학 실험 자동화
- 개인화 정책 관리
미해결 과제
- 평가 기준의 모호함
- 다중 에이전트 간 동시성 제어
- 멀티모달 환경으로의 확장