about MetaScale(Test Time Scaling with Evolving Meta Thoughts, kor version)
This page collects papers related to ViT to help understand ViT.
related project
Not yet
MetaScale이란?
- 기존 LLM 한계: 학습 데이터의 패턴을 매칭하는 방식에 크게 의존 -> 주어진 상황에 가장 적합한 인지 전략을 능동적으로 선택하지 못함.
- 새로운 방식: Meta-thoughts 도입으로 문제 해결 전 “어떻게 생각할지 생각”하는 새 패러다임 제시
- 논문: MetaScale: Test-Time Scaling with Evolving Meta-Thoughts
MetaScale 성능
- Evolution까지 합하면, 기존 모델보다 약 10% 더 향상된 것을 확인할 수 있음.
- Vanilla / Best-of N / Meta Scale 별로 각 데이터셋 성능 평가
- Arena-Hard: 실제 사용자 사례에 기반한 대화형 언어 모델의 성능
- MMLU-Pro: 다양한 분야에서의 복잡한 추론 능력 및 문제 해결 능력
- GSM8K: 다단계 수학적 추론 능력
- Vanilla / Best-of N / Meta Scale 별로 각 데이터셋 성능 평가
- 스타일 통제(style control) 조건 하에서 전체 Arena-Hard 데이터셋에 대한 결과를 평가
- 응답 판단에 영향을 미칠 수 있는 스타일적 요소(예: 답변 토큰 길이, 마크다운 헤더 수)의 효과를 제거하여 공정한 비교를 가능하게 함
- gpt 4o로도 o1 mini보다 성능이 더 좋은걸 볼 수 있음.
- GPT-4o를 기본 모델로 사용하여 샘플링 예산을 1에서 128까지 다양하게 변화시켰을 때 Arena-Hard와 MMLU-Pro 벤치마크에서의 성능 결과(%) 확인 가능.
- MetaScale은 sampling 예산이 증가하면 성능이 계속 향상, Best-of-N 방식은 성능 향상 정체 발생.
- MetaScale이 더 효율적으로 좋은 해결책을 탐색할 수 있는 효과적인 스케일링 전략임을 보여줌.
- MetaScale 프로세스 전반에 걸친 여러 진화 반복에 따라 선택된 메타 사고(meta-thoughts)의 분포 변화
- 높은 보상(MAB reward)을 받은 메타 사고의 선택 빈도가 진화 반복이 진행됨에 따라 크게 증가
- 특히 10번째 반복부터는 20% 이상의 선택 비율이 상당 부분 차지
- 초기 단계에서의 낮은 선택 횟수는 MetaScale이 최적의 메타 사고에 접근하기 전 넓은 탐색 단계를 거친다는 것을 알 수 있음
- 메타 사고의 반복적 개선 과정이 모델을 점진적으로 더 최적의 해결책으로 수렴하게 한다는 것을 시사
- Arena-Hard 벤치마크의 한 태스크에 대한 모델 응답 사례 비교 (GPT-4o 단일 경로 / Metascale 최적화)
- 단일경로 응답: 핵심 과제를 식별하지 못한 채 광범위하고 일반적인 안내만 제공
- MetaScale의 응답은 반복적으로 개선된 메타 사고를 통해 더 구조화되고 전문가 수준의 접근법을 제시
- 최적화된 응답은 핵심 전이 가능한 기술을 정확히 식별하고, AI 시장 역학을 강조하며, 사용자의 전문적 배경에 맞춤화된 단계별 전략을 제공
관련 연구(Relative works)
- Test-time Compute Scaling
- Persona-assigned LLMs(페르소나가 할당된 LLM)
- Cognitive Strategies for Problem Solving(문제 해결을 위한 인지 전략)
MetaScale 전체 다이어그램
- MetaScale의 전체 작동 과정
- Meta-Thought Initialization(메타 사고 초기화 단계)
- Meta-Thought Selection(메타 사고 선택 단계)
- Target LLM 응답 생성
- Reward Model 평가(Skywork-Reward-Llama-3.1-8B-v0.2 사)
- MAB Rewards 업데이트
- Meta-Thought Evolution (메타사고 진화)
- 전체 프로세스 흐름
- 태스크 입력 (빨간색 상자)
- 전체 프로세스의 시작점
- 메타 사고 초기화(Meta-Thought Initialization, 노란색 구역)
- 입력된 태스크는 meta-thoughts 초기화 과정으로 연결
- 다양한 색상의 사용자 아이콘(파란색, 녹색, 주황색, 보라색)은 서로 다른 메타 사고를 나타냄
- 각 메타 사고는 두가지 핵심 요소를 포함해야 함
- LLM 기반 생성: LLM에게 직접 프롬프트를 제공하여 다양한 추론 전략 생성
- 데이터셋 기반 검색: WildChat과 같은 데이터셋에서 상위 8개의 유사 작업을 검색하여 관련 추론 패턴 추출
- 메타 사고 초기화 프롬프트 참고:
- 주의: 프롬프트를 잘못 보면, llm과 dataset 간 비교하는 것 같지만, 실상은 전혀 다름
- 누가 적절한 답변을 제공할 가능성이 높은가요? -> “이 질문에 가장 잘 답할 수 있는 전문가 유형은 누구인가?”를 의미
- 그 사람이 질문에 합리적으로 답변하는 방법에 대한 상위 수준의 요약을 제공해주세요 -> 그 전문가가 어떻게 질문에 접근할지에 대한 개략적인 방법론 제시
- 메타 사고 선택 (Meta-Thought Selection, 파란색 영역)
- 알고리즘: Multi-Armed Bandit(MAB) 알고리즘 사용
- 구체적 구현: UCB(Upper Confidence Bound) 알고리즘으로 구현
- 선택 메커니즘
- 탐색(Exploration): 아직 충분히 시도되지 않은 메타사고 시도
- 활용(Exploitation): 이미 좋은 성과를 보인 메타사고 활용
- 추적 데이터
- 선택 횟수(# Selection): 각 메타사고가 얼마나 자주 선택되었는지
- MAB 보상(MAB Rewards): 각 메타사고의 성능 점수
- 타겟 LLM 응답 생성
- 선택된 메타사고가 추론 전략으로 사용됨
- 타겟 LLM(예: GPT-4o)이 메타사고를 기반으로 응답 생성
- 위의 다이어그램에서 응답 예시론 두개가 나옴
- 보상 모델(Reward Model) 평가
- 생성된 각 응답의 품질을 평가 (더 높은 점수가 더 높은 품질을 의미)
- 객관적인 점수 부여(예: 11.32, 21.66)
- MAB의 보상 값으로 사용됨
- MAB 보상 업데이트
- 응답 평가 점수를 기반으로 MAB의 UCB 값 업데이트
- 업데이트된 값은 다음 반복에서 메타사고 선택에 영향을 줌
- 메타 사고 진화 (Meta-Thought Evolution, 녹색 영역)
- 진화 시점: 논문에 따르면 k번째 반복마다 수행
- 진화 과정:
- 높은 UCB 값을 가진 메타사고들을 “부모”로 선택
- 유전 알고리즘과 유사한 방식으로 새로운 메타사고 생성
- 이 새로운 메타사고들을 원래 메타사고 풀에 병합
- 태스크 입력 (빨간색 상자)
- 순환 프로세스와 피드백 루프
- 이해를 돕기 위해 새로운 단어를 만듦
- MAB 반복 과정: 논문에서는 iteratively selects and evaluates them using a multi-armed bandit algorithm 이라고 함.
- 진화적 정제 과정: 논문에서는 periodically applies a genetic algorithm, “evolutionary refinement이라고 함.
- 이해를 돕기 위해 새로운 단어를 만듦
- 반복적인 과정을 통해 메타 사고가 지속적으로 개선됨.
- MAB 반복 과정, MAB Iteration Process(그림에서 빨간색 부분)
- 메타사고 선택 → 응답 생성 → 평가 → MAB 업데이트
- 메타사고 선택(MAB 알고리즘 사용), 탐색과 활용 간 균형 조절(UCB 알고리즘 사용), 응답 생성(target llm 사용), 보상 모델 평가(reward model 사용), 평가 점수에 따른 MAB 업데이트의 반복적 사이클을 의미
- 진화적 정제 과정, Evolutionary Refinement Process(그림에서 파란색 부분)
- 메타사고 진화 → 메타사고 풀 업데이트
- 고성능 메타사고를 선택하고 새로운 메타사고를 생성하는 주기적인 과정을 의미
- 주기적으로 유전 알고리즘을 적용해 높은 UCB값을 가진 메타 사고들을 선택
- 선택된 고성능 메타사고를 “부모”로 삼아 새로운 “자식” 메타사고 생성
- LLM을 통해 부모 메타사고의 추론 휴리스틱을 결합하고 개선하여 진화 3. 설정된 샘플링 예산이 소진될때까지 이 과정 반복 4. 최종적으로 가장 높은 보상 점수를 받은 응답이 반환됨. 5. MAB 반복 과정을 통해 메타사고가 지속적으로 개선됨.
- MAB 반복 과정, MAB Iteration Process(그림에서 빨간색 부분)
- MetaScale의 전체 작동 과정
MetaScale의 핵심 개념
- 인지적 마인드셋(Cognitive Mindset)
- 모델이 작업에 접근하기 위해 채택하는 적절한 관점, 전문성 또는 역할
- 예: (Q: ABC 표기법을 사용하여 민요 스타일의 멜로디를 작성하라) -> ‘음악 이론과 작곡에 전문성을 가진 음악가나 음악 교육자’
- Persona랑 매우 비슷함.
- 공통점: 문제를 해결하기 위해 어떤 전문가의 관점을 취할 것인가?에 대한 답.
- 논문의 근거: Going beyond persona-assigned LLMs, we further unleash their potential for solving challenging problems by automatically retrieving relevant meta-thoughts and prompting LLMs with evolved theory of mind.
- 차이점:
- Cognitive Mindset:
- 명시적으로 문제 해결에 초점을 두고 만듦.
- Meta-thought의 첫번째 구성 요소로, 항상 문제 해결 전략과 쌍을 이룸
- MetaScale에서 Cognitive Mindset은 UCB 알고리즘과 유전 알고리즘을 통해 자동으로 선택되고 진화됨
- Persona
- 때때로 캐릭터 롤플레이나 대화 스타일 등의 목적으로도 사용되기도 함.
- 일반적으로 독립적으로 사용됨
- 전통적인 Persona는 주로 수동으로 선택되거나 미리 정의됨 (한번 선택되면 끝)
- Cognitive Mindset:
- 공통점: 문제를 해결하기 위해 어떤 전문가의 관점을 취할 것인가?에 대한 답.
- 문제 해결 전략(Problem-Solving Strategy)
- 선택된 인지적 마인드셋(Cognitive Mindset)을 기반으로 해결책을 체계적으로 구성하는 구조화된 패턴
- 예: (Q: ABC 표기법을 사용하여 민요 스타일의 멜로디를 작성하라, Cognitive Mindset: ‘음악 이론과 작곡에 전문성을 가진 음악가나 음악 교육자’) -> ‘먼저 전통 민속 음악의 특성을 포착하는 멜로디를 제시하고, 그러면…)
- 구체적인 접근 단계와 방법론을 제시해야 함.
- 초기화, 선택, 진화의 세 단계로 입력 작업에 대한 효과적인 meta-thoughts를 개발함.
- 핵심 구성요소: 유전 알고리즘, MAB(Multi-Armed Bandit) 알고리즘.
- 유전 알고리즘:
- 초기화(initialization): 후보 솔루션의 초기 모집단을 생성
- 적합성 평가(fitness evaluation):사전 정의된 목표에 따라 솔루션 품질을 평가
- 진화(evolution): selection(선택) / crossover(교차, 결합)/ mutation(돌연변이/수정) 중 하나 선택
- 새로운 솔루션을 만들기 위해 적합성이 높은 후보를 선택, 결합, 수정을 반복적으로 함
- 초기화 이후 ‘적합성평가 -> 선택 -> 교차 -> 돌연변이’ 과정을 반복하며, 새로운 세대 형성을 반복하며 수렴함.
- 반복적인 개선을 통해 모집단은 더 나은 적합성을 가진 솔루션으로 수렴
- 사전 정의된 적합성 임계값에 도달 OR 설정된 세대 수가 완료되면 종료
- 새로운 솔루션을 만들기 위해 적합성이 높은 후보를 선택, 결합, 수정을 반복적으로 함
- MAB(Multi-Armed Bandit):
- 순차적 의사결정에서 탐색(새 옵션 테스트)과 활용(알려진 높은 보상 옵션 선택) 간 균형을 다룸
- 효율적인 탐색을 보장하면서 일관되게 높은 성과를 내는 선택 선호 가능
- 순차적 의사결정에서 탐색(새 옵션 테스트)과 활용(알려진 높은 보상 옵션 선택) 간 균형을 다룸
- 유전 알고리즘:
- 핵심 구성요소를 이용한 메타 사고 생성 과정
- 메타사고 초기화
- 목표: 주어진 문제에 맞춤화 된 다양한 추론 전략 집합 생성
- 두가지 상호 보완적인 전략을 따름
- 프롬프트 - llm에게 추론 전략을 자체적으로 구성 할 수 있도록 -> 추론 성능을 향상 시킬 수 있는 다양한 문제 해결 휴리스틱과 인지 패턴 반영
- 데이터셋 - WildChat 같은 task-solution 쌍으로 되어 있는 데이터셋에서 상위 8개의 유사 작업 검색후 프롬프트 제시
- 선택(MAB, Multi-Armed Bandit 사용)
- 목적: 선택된 메타 사고 기반으로 하는 모델 응답의 보상을 최대화 하는 것.
- Arm: 선택 가능한 하나의 옵션을 의미(여기서는 각 메타 사고 옵션이 하나의 arm으로 간주). 슬롯 머신(One Armed Bandit) 에서 여러 레버를 당기는 도박 상황에서 유래
- 탐색과 활용의 균형 유지
- 상한 신뢰 구간(Upper Confidence Bound, UCB) 알고리즘 사용
- 이미 높은 보상을 보인 메타 사고를 활용(Exploitation)하는 동시에 아직 충분히 시도되지 않은 메타 사고 탐색(Exploration)하는 균형 유지
- 공식 정의
- 주어진 후보 집합 ℳq에서 최적의 메타사고 M은 다음 공식으로 정의됨.
(출처: https://arxiv.org/abs/2503.13447)
- μM: 메타 사고 M의 경험적 평균 보상(과거 시도 기반으로 계산)
- NM: M이 선택된 횟수
- t: 총 시도 횟수
- β: 탐색-활용 균형 매개변수 (이미 좋은 성능을 보인 메타사고와 새로운 옵션을 탐색하는 것 사이의 균형 제어)
- 활용 항(μM): 이미 좋은 성능을 보인 메타 사고를 선호하게 함 (높은 평균 보상)
- 탐색 항(β√(log t/NM)): 아직 충분히 시도되지 않은 메타 사고에 기회 제공(선택 횟수가 적을수록 이 값이 커짐)
- 옵션에 대한 불확실성을 수치화
- 적게 시도된 옵션일수록 이 값이 커짐
- 시간이 지남(t가 증가함)에 따라 충분히 탐석되지 않은 옵션에 대한 탐색 압력이 증가
- 즉, “지금까지 좋은 성능을 보인 전략을 계속 사용하면서도, 충분히 시도해보지 않은 전략에도 기회를 주는” 균형 잡힌 의사결정 방법을 제공
- 매 단계마다 UCB 값이 가장 높은 옵션을 선택.
- 주어진 후보 집합 ℳq에서 최적의 메타사고 M은 다음 공식으로 정의됨.
- UCB의 장점
- 동적 균형: 시간이 지남에 따라 탐색과 활용 사이 균형이 자동으로 조정
- 초기: 다양한 옵션 탐색에 중점
- 충분한 정보가 수집되면: 유망한 옵션 활용에 집중
- 이론적 보증: 후회(regret, 최적이 아닌 선택으로 인한 손실)의 로그 상한을 수학적으로 보장
- 적응성: 새 옵션이 추가되더라도 알고리즘이 자연스럽게 적응함.
- 동적 균형: 시간이 지남에 따라 탐색과 활용 사이 균형이 자동으로 조정
- 의의: 고정된 추론 전략을 강제하는 기존 방법들과 달리, LLM이 각 태스크에 가장 적합한 인지 전략을 동적으로 선택하고 개선할 수 있게 함으로써 성능을 크게 향상
- 목적: 선택된 메타 사고 기반으로 하는 모델 응답의 보상을 최대화 하는 것.
- 진화 (Genetic Meta-Thought Evolution)
- 일반적인 유전알고리즘에 적용되는 명시적 교차 또는 돌연변이 정책을 직접 적용하지 않음
- 텍스트 수준에서 직접 교차나 돌연변이를 수행하면 종종 의미 없는 전략을 생성하는 것을 발견
- 대안: LLM에 프롬프트를 제시하는 방법 사용
- LLM에게 부모 메타 사고들의 추론 휴리스틱을 어덯게 결합하고 개선된 형태로 진화시킬지 결정하도록 프롬프트 제시.
- 메타 사고의 더 유연하고 맥락 민감한 진화를 가능하게 함
- 진화된 전략이 연속직인 반복을 통해 현재 작업에 가장 효과적인 문제 해결 패턴을 계속 반영하도록 보장.
- LLM에게 부모 메타 사고들의 추론 휴리스틱을 어덯게 결합하고 개선된 형태로 진화시킬지 결정하도록 프롬프트 제시.
- 종료 기준
- 사전 결정된 예산에 따른 시도 횟수에 따라 종료 기준 설정
- 예산 소진되면 MetaScale 종료
- 보상모델에 의해 평가된 모든 시도중 가장 높은 보상 점수를 받은 모델응답 반환.
- 사전 결정된 예산에 따른 시도 횟수에 따라 종료 기준 설정
- 알고리즘
- 일반적인 유전알고리즘에 적용되는 명시적 교차 또는 돌연변이 정책을 직접 적용하지 않음
- 메타사고 초기화
- 핵심 구성요소: 유전 알고리즘, MAB(Multi-Armed Bandit) 알고리즘.