WebDancer? - Aliexpress 에서 진행하는 자율적인 정보 탐색 에이전트 논문 요약

Bigdata

WebDancer? - Aliexpress 에서 진행하는 자율적인 정보 탐색 에이전트 논문 요약

올엠 2025. 8. 1. 00:12

원본 논문 WebDancer: 자율 웹 에이전트의 여정 으로 지금 나온 OpenSource들의 모델을 뛰어넘는 성능을 자랑한다.

WebDancer 논문을 보면, 최근 LLM에 많이 들어가고 있는 ReAct, 답변전에 먼저 추론(생각)을 하고 이를 통해 행동하고, 관찰하고 다시 다음을 생각하도록 하는 스스로 보다 강력한 학습을 할 수 있도록 구성한 강력한 모델이다.

여기에 다시 효과적인 를추론 능력 향상도 큰 부분은 E2HQA (Easy-to-Hard QA), CRAWLQA (크롤링 기반 QA) 를 이용해서 훈련을

아래는 논문 내용을 요약해본 오디오이다. 한번 들어보면 논문이해에 큰 도움이 될 것 이다.

1. 주요 목표 및 배경

본 연구 "WebDancer: Towards Autonomous Information Seeking Agency"는 복잡한 실제 문제를 해결하기 위해 심층적인 정보 탐색 및 다단계 추론이 필요한 웹 에이전트 구축을 목표로 합니다. 최근 Deep Research 및 Grok DeepSearch와 같은 시스템에서 나타난 자율적인 다단계 연구의 잠재력을 기반으로, WebDancer는 데이터 중심 및 훈련 단계 관점에서 종단 간 에이전트 정보 탐색 에이전트를 구축하기 위한 체계적인 패러다임을 제시합니다.

기존 정보 탐색 접근 방식의 한계점은 다음과 같습니다:

• 프롬프트 엔지니어링만으로는 LLM의 추론 능력을 효과적으로 활용하기 어려움.

• SFT(Supervised Fine-Tuning) 또는 RL(Reinforcement Learning)을 통한 정보 탐색 능력 내재화는 훈련 및 평가 데이터셋이 상대적으로 단순하여 실제 문제(예: 2Wiki 데이터셋에서 80% 이상의 성능 달성)를 포착하지 못함.

• 현재 SFT 또는 RL 훈련 패러다임이 정보 탐색 행동의 잠재력을 완전히 효율적으로 활용하지 못함.

이러한 문제를 해결하기 위해 WebDancer는 웹 환경 인식 및 의사 결정에 걸쳐 다음과 같은 과제를 다룹니다:

1. 다양한 사용자 의도와 풍부한 상호작용 맥락을 반영하는 고품질의 세분화된 브라우징 데이터 획득.

2. 장기적인 추론과 작업 분해를 지원하는 신뢰할 수 있는 궤적(trajectories) 구축.

3. 분포 외 웹 환경, 복잡한 상호작용 패턴, 장기 목표에 걸쳐 강력한 행동을 부여할 수 있는 확장 가능하고 일반화 가능한 훈련 전략 설계.

WebDancer는 ReAct 프레임워크를 기반으로 하며, 추론과 행동을 긴밀하게 연결하여 상호작용 설정에서 효과적인 학습 및 일반화를 촉진합니다.

2. 핵심 방법론 및 4단계 파이프라인

WebDancer는 종단 간 웹 에이전트 구축 파이프라인을 4가지 핵심 단계로 추상화하여 제시합니다:

단계 I: 브라우징 데이터 구성 (QA 쌍 구축)

• 목표: 다단계 추론, 목표 분해 및 풍부한 상호작용 시퀀스를 유도할 수 있는 복잡하고 다양한 QA 쌍의 상당한 코퍼스를 큐레이션합니다. 기존 데이터셋은 주로 2-3단계 내에 해결 가능한 얕은 쿼리에 중점을 두는 반면, WebDancer는 다중 홉 추론의 볼륨과 깊이를 모두 확장하는 것을 목표로 합니다.

• CRAWLQA (크롤링 기반 QA): arxiv, github, wiki 등 지식 웹사이트의 루트 URL을 수집하고, 인간의 브라우징 행동을 모방하여 하이퍼링크를 따라 하위 페이지를 재귀적으로 탐색합니다. GPT-4o를 사용하여 수집된 콘텐츠에서 QA 쌍을 합성하고, 특정 질문 유형(예: COUNT, MULTI-HOP, INTERSECTION)을 생성하도록 프롬프트합니다.

• E2HQA (Easy-to-Hard QA): SimpleQA 스타일의 간결한 사실 탐색 엔티티 답변을 가진 QA 쌍에서 시작합니다. LLM을 사용하여 엔티티 기반 쿼리를 구성하고 검색 엔진을 통해 관련 정보를 검색합니다. LLM을 사용하여 얻은 콘텐츠를 새 쿼리로 재구성하여 원래 질문의 엔티티를 대체함으로써 점진적으로 간단한 질문을 더 복잡한 다단계 질문으로 변환합니다. 이는 답변의 유효성을 유지하면서 문제 해결에 필요한 단계 수를 제어할 수 있게 합니다.

단계 II: 에이전트 궤적 거부 샘플링 (Trajectories Sampling)

• 에이전트 설정: ReAct [11] 프레임워크를 기반으로 하며, Thought-Action-Observation 라운드로 구성됩니다. 액션 공간은 'search', 'visit', 'answer' 세 가지 핵심 도구로 제한됩니다.

• Short 및 Long CoT (Chain-of-Thought) 구축:

◦ Short CoT: 강력한 모델인 GPT-4o를 사용하여 ReAct 프레임워크를 직접 활용하여 궤적을 수집합니다.

◦ Long CoT: LRM(Large Reasoning Models)인 QwQ-Plus에 각 단계의 과거 행동 및 관찰을 순차적으로 제공하여 다음 행동을 자율적으로 결정하게 합니다. LRM의 중간 추론 프로세스인 "<reasoning_content>"를 현재 생각으로 기록하여 귀중한 감독 신호로 활용합니다.

• 궤적 필터링: 품질과 일관성을 보장하기 위해 3단계 깔때기 기반 필터링 프레임워크를 채택합니다.

◦ 유효성 제어: ReAct 형식에 맞지 않는 응답은 폐기합니다.

◦ 정확성 검증: 올바른 결과만 유지합니다. GPT-4o를 사용하여 정확성을 판단합니다.

◦ 품질 평가: 규칙 기반 필터링(2개 이상의 액션이 있는 궤적, 환각 및 심한 반복 제거) 후, "정보 비중복성", "목표 정렬", "논리적 추론 및 정확성"의 세 가지 기준을 충족하는 궤적을 유지합니다.

단계 III: 슈퍼바이저드 미세 조정 (SFT: Supervised Fine-Tuning) (콜드 스타트)

• 목표: 에이전트 SFT 훈련 단계에 고품질 ReAct 형식 궤적을 통합합니다. "콜드 스타트(cold start)"는 모델이 여러 추론 및 액션 단계를 결합하는 능력을 향상시켜 추론과 액션을 번갈아 수행하는 행동 패러다임을 가르치면서 원래의 추론 능력을 최대한 보존합니다.

• 손실 함수 계산 시 외부 피드백(관찰)에 대한 손실 기여도를 마스크 처리하여 성능 및 견고성을 향상시킵니다.

단계 IV: 강화 학습 (RL: Reinforcement Learning) (일반화 향상)

• 목표: 에이전트 RL 단계는 추론 모델에 에이전시 능력을 내재화하여 결과 기반 보상을 통해 다중 턴, 다중 도구 사용 능력을 향상시키는 것을 목표로 합니다.

• DAPO (Decoupled Clip and Dynamic Sampling Policy Optimization) 알고리즘: SFT 단계를 기반으로, DAPO 알고리즘을 사용하여 정책 모델 πθ의 Thought-Action-Observation 시퀀스를 정제하고 장려합니다. DAPO의 동적 샘플링 메커니즘은 SFT 단계에서 활용되지 않은 QA 쌍을 효과적으로 활용하여 데이터 효율성과 정책 견고성을 향상시킵니다.

• 보상 설계: 보상 시스템은 주로 scoreformat (형식 일관성)과 scoreanswer (답변 정확성) 두 가지 유형의 보상으로 구성됩니다. scoreformat은 이진값이며, scoreanswer는 LLM 기반 판단(LLM-as-Judge)을 통해 이진값으로 할당됩니다. 최종 보상 함수는 R(ŷi, y) = 0.1 * scoreformat + 0.9 * scoreanswer입니다.

3. 실험 결과 및 분석

WebDancer는 GAIA 및 WebWalkerQA라는 두 가지 심층 정보 탐색 벤치마크에서 광범위한 실험을 통해 그 효과를 입증했습니다.

• 주요 결과:

◦ 에이전트 기능의 중요성: 에이전트 기능이 없는 프레임워크("No Agency")는 GAIA 및 WebWalkerQA 벤치마크 모두에서 저조한 성능을 보여, 이러한 작업에 대한 능동적인 정보 탐색 및 에이전트 의사 결정의 필요성을 강조합니다.

◦ WebDancer의 우수성: "우리의 제안된 WebDancer는 다양한 모델 스케일에서 바닐라 ReAct 기준선에 비해 상당한 이득을 보였습니다. 특히, 최상의 시나리오에서는 GPT-4o의 성능을 능가하기도 합니다." 이는 경량 프레임워크 내에서도 WebDancer가 기본 모델보다 에이전트 능력을 크게 향상시킨다는 것을 보여줍니다.

◦ WebThinker 및 Simple DS와의 비교: WebDancer (QwQ-32B)는 GAIA와 WebWalkerQA에서 WebThinker 및 Simple DS와 같은 오픈 소스 에이전트 프레임워크를 능가하는 성능을 보였습니다.

• 더 어려운 벤치마크 결과 (BrowseComp): BrowseComp (En.) 및 BrowseComp-zh (Zh.)와 같은 더 도전적인 데이터셋에서도 WebDancer는 "두 데이터셋 모두에서 일관되게 강력한 성능을 보여주며, 어려운 추론 및 정보 탐색 작업을 처리하는 데 있어 견고성과 효과를 강조합니다."

• 상세 분석:

◦ RL의 효과: 비추론 모델의 경우, RL은 Pass@3 및 Cons@3 모두에서 상당한 개선을 가져왔습니다. 이는 RL이 더 효율적으로 올바른 응답을 샘플링할 수 있음을 시사합니다. 하지만 LRM의 경우, RL 이후 Pass@1, Pass@3, Cons@3의 개선은 미미했습니다.

◦ 데이터 효율성: "Final은 낮은 데이터 체제에서도 모든 데이터보다 더 나은 성능을 보여주며, 강력한 필터링의 가치를 강조합니다." 이는 고품질 궤적 데이터가 에이전트의 효과적인 SFT에 중요하다는 것을 보여줍니다.

◦ CoT 지식 전이: "강력한 추론 모델이 사용하는 사고 패턴 지식은 작은 명령어 모델로 전이하기 어렵습니다." 추론 모델에 의해 합성된 궤적으로 훈련된 추론 모델은 추론 성능을 크게 향상시키지만, 비추론 모델의 경우 Long-CoT는 높은 무효율과 반복과 같은 추가적인 문제를 야기합니다.

◦ RL의 역할: "RL 프레임워크는 모델이 일련의 의사결정에 걸쳐 최적화할 수 있도록 하여 더 정교한 추론 전략의 출현을 촉진합니다." 이는 모델이 지연된 보상으로부터 학습하고 행동 공간을 더 깊이 탐색하여 더 일관되고 긴 추론 궤적을 만들 수 있게 합니다.

◦ 웹 환경의 불안정성: 디코딩 온도 조절이 최종 성능에 미치는 영향은 미미했으며, 이는 에이전트 불안정성이 디코딩 변동성 때문이 아님을 나타냅니다. 대신, "성능 변동의 대부분은 웹 환경 자체의 변화에 기인하며, 실제 에이전트 배포의 비정상적이고 개방형 특성을 강조합니다."

4. 시사점 및 향후 방향

WebDancer는 종단 간 다단계 정보 탐색 웹 에이전트를 처음부터 구축하기 위한 체계적인 프레임워크를 제안합니다. 확장 가능한 QA 데이터 합성 방법과 SFT 및 온-정책 RL을 결합한 2단계 훈련 파이프라인을 도입함으로써 WebDancer는 강력한 성능을 달성했으며, 에이전트 훈련의 중요한 측면에 대한 귀중한 통찰력을 제공합니다.

향후 연구 방향 (제한 사항 섹션 기반):

• 도구 확장: 현재 두 가지 기본 정보 탐색 도구만 통합되어 있습니다. 브라우저 기능을 모듈화된 도구로 추상화하고 외부 API와 상호작용하기 위한 Python 샌드박스 환경과 같은 더 정교한 도구를 통합하여 더 도전적인 벤치마크를 해결하고 더 일반적이고 자율적인 에이전시로 나아가야 합니다.

• 작업 일반화 및 벤치마크: 현재 실험은 단답형 정보 탐색 작업에 중점을 둡니다. 문서 수준 연구 및 생성과 같은 개방형, 장문 작성을 위한 웹 에이전트로 확장하는 것은 에이전트 작업에서 보상 모델링에 상당한 과제를 제기합니다.

• 데이터 활용 효율성: 수집된 대규모 QA 쌍 및 궤적 코퍼스에도 불구하고, RL 단계에서 소량의 데이터만 활용될 수 있다는 한계가 있습니다. 이는 수집된 데이터셋의 풍부함을 완전히 활용하기 위한 더 효율적인 데이터 활용 전략의 필요성을 강조합니다.

• 높은 롤아웃 비용: RL 단계는 상당한 계산 및 시간 오버헤드를 수반합니다. 도구 호출과 모델 완성을 통합하는 더 효율적인 메커니즘을 개발하여 롤아웃 시간과 비용을 줄이는 것이 유망한 방향입니다.

• 하이브리드 사고: Short CoT 및 Long CoT를 특징으로 하는 두 가지 유형의 데이터셋을 고려합니다. 향후 작업에서는 에이전트의 추론 길이를 동적으로 제어할 수 있는 하이브리드 추론 에이전트 모델을 개발할 계획입니다.

• 사고 패턴 개선: 도구 호출에서 발생할 수 있는 환각(예: 존재하지 않는 도구 호출)과 불필요한 행동(예: 답변이 확인된 후에도 반복적인 행동)과 같은 문제를 해결해야 합니다.

5. 광범위한 영향 및 윤리적 고려 사항

오픈 소스 자율 웹 에이전트 구축은 과학 연구, 교육 및 생산성에 큰 이점을 줄 수 있습니다. 그러나 신뢰할 수 없는 출처에 의존할 경우 잘못된 정보 전파의 위험과 자동화된 콘텐츠 추출 또는 감시에 오용될 가능성 등 우려 사항도 제기합니다. 연구진은 잠재적인 해를 완화하기 위해 투명성, 출처 표기 및 책임 있는 배포 관행의 중요성을 강조합니다.