Contents

about MetaScale(Test Time Scaling with Evolving Meta Thoughts, kor version)

   2025년 03월 29일     8 분 읽음

This page collects papers related to ViT to help understand ViT.

related project

Not yet


MetaScale이란?

  1. 기존 LLM 한계: 학습 데이터의 패턴을 매칭하는 방식에 크게 의존 -> 주어진 상황에 가장 적합한 인지 전략을 능동적으로 선택하지 못함.
  2. 새로운 방식: Meta-thoughts 도입으로 문제 해결 전 “어떻게 생각할지 생각”하는 새 패러다임 제시
  3. 논문: MetaScale: Test-Time Scaling with Evolving Meta-Thoughts

MetaScale 성능

  1. Evolution까지 합하면, 기존 모델보다 약 10% 더 향상된 것을 확인할 수 있음.
    • Image
      • Vanilla / Best-of N / Meta Scale 별로 각 데이터셋 성능 평가
        • Arena-Hard: 실제 사용자 사례에 기반한 대화형 언어 모델의 성능
        • MMLU-Pro: 다양한 분야에서의 복잡한 추론 능력 및 문제 해결 능력
        • GSM8K: 다단계 수학적 추론 능력
    • Image
      • 스타일 통제(style control) 조건 하에서 전체 Arena-Hard 데이터셋에 대한 결과를 평가
      • 응답 판단에 영향을 미칠 수 있는 스타일적 요소(예: 답변 토큰 길이, 마크다운 헤더 수)의 효과를 제거하여 공정한 비교를 가능하게 함
      • gpt 4o로도 o1 mini보다 성능이 더 좋은걸 볼 수 있음.
    • Image
      • GPT-4o를 기본 모델로 사용하여 샘플링 예산을 1에서 128까지 다양하게 변화시켰을 때 Arena-Hard와 MMLU-Pro 벤치마크에서의 성능 결과(%) 확인 가능.
      • MetaScale은 sampling 예산이 증가하면 성능이 계속 향상, Best-of-N 방식은 성능 향상 정체 발생.
      • MetaScale이 더 효율적으로 좋은 해결책을 탐색할 수 있는 효과적인 스케일링 전략임을 보여줌.
    • Image
      • MetaScale 프로세스 전반에 걸친 여러 진화 반복에 따라 선택된 메타 사고(meta-thoughts)의 분포 변화
      • 높은 보상(MAB reward)을 받은 메타 사고의 선택 빈도가 진화 반복이 진행됨에 따라 크게 증가
      • 특히 10번째 반복부터는 20% 이상의 선택 비율이 상당 부분 차지
      • 초기 단계에서의 낮은 선택 횟수는 MetaScale이 최적의 메타 사고에 접근하기 전 넓은 탐색 단계를 거친다는 것을 알 수 있음
      • 메타 사고의 반복적 개선 과정이 모델을 점진적으로 더 최적의 해결책으로 수렴하게 한다는 것을 시사
    • Image
      • Arena-Hard 벤치마크의 한 태스크에 대한 모델 응답 사례 비교 (GPT-4o 단일 경로 / Metascale 최적화)
      • 단일경로 응답: 핵심 과제를 식별하지 못한 채 광범위하고 일반적인 안내만 제공
      • MetaScale의 응답은 반복적으로 개선된 메타 사고를 통해 더 구조화되고 전문가 수준의 접근법을 제시
      • 최적화된 응답은 핵심 전이 가능한 기술을 정확히 식별하고, AI 시장 역학을 강조하며, 사용자의 전문적 배경에 맞춤화된 단계별 전략을 제공

관련 연구(Relative works)

  1. Test-time Compute Scaling
  2. Persona-assigned LLMs(페르소나가 할당된 LLM)
  3. Cognitive Strategies for Problem Solving(문제 해결을 위한 인지 전략)

MetaScale 전체 다이어그램

  1. Image
    • MetaScale의 전체 작동 과정
      1. Meta-Thought Initialization(메타 사고 초기화 단계)
      2. Meta-Thought Selection(메타 사고 선택 단계)
      3. Target LLM 응답 생성
      4. Reward Model 평가(Skywork-Reward-Llama-3.1-8B-v0.2 사)
      5. MAB Rewards 업데이트
      6. Meta-Thought Evolution (메타사고 진화)
    • 전체 프로세스 흐름
      1. 태스크 입력 (빨간색 상자)
        • 전체 프로세스의 시작점
      2. 메타 사고 초기화(Meta-Thought Initialization, 노란색 구역)
        • 입력된 태스크는 meta-thoughts 초기화 과정으로 연결
        • 다양한 색상의 사용자 아이콘(파란색, 녹색, 주황색, 보라색)은 서로 다른 메타 사고를 나타냄
        • 각 메타 사고는 두가지 핵심 요소를 포함해야 함
          1. LLM 기반 생성: LLM에게 직접 프롬프트를 제공하여 다양한 추론 전략 생성
          2. 데이터셋 기반 검색: WildChat과 같은 데이터셋에서 상위 8개의 유사 작업을 검색하여 관련 추론 패턴 추출
          3. 메타 사고 초기화 프롬프트 참고: Image
            • 주의: 프롬프트를 잘못 보면, llm과 dataset 간 비교하는 것 같지만, 실상은 전혀 다름
            • 누가 적절한 답변을 제공할 가능성이 높은가요? -> “이 질문에 가장 잘 답할 수 있는 전문가 유형은 누구인가?”를 의미
            • 그 사람이 질문에 합리적으로 답변하는 방법에 대한 상위 수준의 요약을 제공해주세요 -> 그 전문가가 어떻게 질문에 접근할지에 대한 개략적인 방법론 제시
      3. 메타 사고 선택 (Meta-Thought Selection, 파란색 영역)
        • 알고리즘: Multi-Armed Bandit(MAB) 알고리즘 사용
        • 구체적 구현: UCB(Upper Confidence Bound) 알고리즘으로 구현
        • 선택 메커니즘
          • 탐색(Exploration): 아직 충분히 시도되지 않은 메타사고 시도
          • 활용(Exploitation): 이미 좋은 성과를 보인 메타사고 활용
        • 추적 데이터
          • 선택 횟수(# Selection): 각 메타사고가 얼마나 자주 선택되었는지
          • MAB 보상(MAB Rewards): 각 메타사고의 성능 점수
      4. 타겟 LLM 응답 생성
        • 선택된 메타사고가 추론 전략으로 사용됨
        • 타겟 LLM(예: GPT-4o)이 메타사고를 기반으로 응답 생성
        • 위의 다이어그램에서 응답 예시론 두개가 나옴
      5. 보상 모델(Reward Model) 평가
        • 생성된 각 응답의 품질을 평가 (더 높은 점수가 더 높은 품질을 의미)
        • 객관적인 점수 부여(예: 11.32, 21.66)
        • MAB의 보상 값으로 사용됨
      6. MAB 보상 업데이트
        • 응답 평가 점수를 기반으로 MAB의 UCB 값 업데이트
        • 업데이트된 값은 다음 반복에서 메타사고 선택에 영향을 줌
      7. 메타 사고 진화 (Meta-Thought Evolution, 녹색 영역)
        • 진화 시점: 논문에 따르면 k번째 반복마다 수행
        • 진화 과정:
          1. 높은 UCB 값을 가진 메타사고들을 “부모”로 선택
          2. 유전 알고리즘과 유사한 방식으로 새로운 메타사고 생성
          3. 이 새로운 메타사고들을 원래 메타사고 풀에 병합
    • 순환 프로세스와 피드백 루프
      1. Image
        • 이해를 돕기 위해 새로운 단어를 만듦
          • MAB 반복 과정: 논문에서는 iteratively selects and evaluates them using a multi-armed bandit algorithm 이라고 함.
          • 진화적 정제 과정: 논문에서는 periodically applies a genetic algorithm, “evolutionary refinement이라고 함.
      2. 반복적인 과정을 통해 메타 사고가 지속적으로 개선됨.
        • MAB 반복 과정, MAB Iteration Process(그림에서 빨간색 부분)
          • 메타사고 선택 → 응답 생성 → 평가 → MAB 업데이트
          • 메타사고 선택(MAB 알고리즘 사용), 탐색과 활용 간 균형 조절(UCB 알고리즘 사용), 응답 생성(target llm 사용), 보상 모델 평가(reward model 사용), 평가 점수에 따른 MAB 업데이트의 반복적 사이클을 의미
        • 진화적 정제 과정, Evolutionary Refinement Process(그림에서 파란색 부분)
          • 메타사고 진화 → 메타사고 풀 업데이트
          • 고성능 메타사고를 선택하고 새로운 메타사고를 생성하는 주기적인 과정을 의미
            • 주기적으로 유전 알고리즘을 적용해 높은 UCB값을 가진 메타 사고들을 선택
            • 선택된 고성능 메타사고를 “부모”로 삼아 새로운 “자식” 메타사고 생성
            • LLM을 통해 부모 메타사고의 추론 휴리스틱을 결합하고 개선하여 진화 3. 설정된 샘플링 예산이 소진될때까지 이 과정 반복 4. 최종적으로 가장 높은 보상 점수를 받은 응답이 반환됨. 5. MAB 반복 과정을 통해 메타사고가 지속적으로 개선됨.

MetaScale의 핵심 개념

  1. 인지적 마인드셋(Cognitive Mindset)
    • 모델이 작업에 접근하기 위해 채택하는 적절한 관점, 전문성 또는 역할
    • 예: (Q: ABC 표기법을 사용하여 민요 스타일의 멜로디를 작성하라) -> ‘음악 이론과 작곡에 전문성을 가진 음악가나 음악 교육자’
    • Persona랑 매우 비슷함.
      • 공통점: 문제를 해결하기 위해 어떤 전문가의 관점을 취할 것인가?에 대한 답.
        • 논문의 근거: Going beyond persona-assigned LLMs, we further unleash their potential for solving challenging problems by automatically retrieving relevant meta-thoughts and prompting LLMs with evolved theory of mind.
      • 차이점:
        • Cognitive Mindset:
          1. 명시적으로 문제 해결에 초점을 두고 만듦.
          2. Meta-thought의 첫번째 구성 요소로, 항상 문제 해결 전략과 쌍을 이룸
          3. MetaScale에서 Cognitive Mindset은 UCB 알고리즘과 유전 알고리즘을 통해 자동으로 선택되고 진화됨
        • Persona
          1. 때때로 캐릭터 롤플레이나 대화 스타일 등의 목적으로도 사용되기도 함.
          2. 일반적으로 독립적으로 사용됨
          3. 전통적인 Persona는 주로 수동으로 선택되거나 미리 정의됨 (한번 선택되면 끝)
  2. 문제 해결 전략(Problem-Solving Strategy)
    • 선택된 인지적 마인드셋(Cognitive Mindset)을 기반으로 해결책을 체계적으로 구성하는 구조화된 패턴
    • 예: (Q: ABC 표기법을 사용하여 민요 스타일의 멜로디를 작성하라, Cognitive Mindset: ‘음악 이론과 작곡에 전문성을 가진 음악가나 음악 교육자’) -> ‘먼저 전통 민속 음악의 특성을 포착하는 멜로디를 제시하고, 그러면…)
    • 구체적인 접근 단계와 방법론을 제시해야 함.
    • 초기화, 선택, 진화의 세 단계로 입력 작업에 대한 효과적인 meta-thoughts를 개발함.
      • 핵심 구성요소: 유전 알고리즘, MAB(Multi-Armed Bandit) 알고리즘.
        • 유전 알고리즘:
          1. 초기화(initialization): 후보 솔루션의 초기 모집단을 생성
          2. 적합성 평가(fitness evaluation):사전 정의된 목표에 따라 솔루션 품질을 평가
          3. 진화(evolution): selection(선택) / crossover(교차, 결합)/ mutation(돌연변이/수정) 중 하나 선택
            • 새로운 솔루션을 만들기 위해 적합성이 높은 후보를 선택, 결합, 수정을 반복적으로 함
              • 초기화 이후 ‘적합성평가 -> 선택 -> 교차 -> 돌연변이’ 과정을 반복하며, 새로운 세대 형성을 반복하며 수렴함.
            • 반복적인 개선을 통해 모집단은 더 나은 적합성을 가진 솔루션으로 수렴
            • 사전 정의된 적합성 임계값에 도달 OR 설정된 세대 수가 완료되면 종료
        • MAB(Multi-Armed Bandit):
          1. 순차적 의사결정에서 탐색(새 옵션 테스트)과 활용(알려진 높은 보상 옵션 선택) 간 균형을 다룸
            • 효율적인 탐색을 보장하면서 일관되게 높은 성과를 내는 선택 선호 가능
      • 핵심 구성요소를 이용한 메타 사고 생성 과정
        1. 메타사고 초기화
          • 목표: 주어진 문제에 맞춤화 된 다양한 추론 전략 집합 생성
          • 두가지 상호 보완적인 전략을 따름
            1. 프롬프트 - llm에게 추론 전략을 자체적으로 구성 할 수 있도록 -> 추론 성능을 향상 시킬 수 있는 다양한 문제 해결 휴리스틱과 인지 패턴 반영
            2. 데이터셋 - WildChat 같은 task-solution 쌍으로 되어 있는 데이터셋에서 상위 8개의 유사 작업 검색후 프롬프트 제시
        2. 선택(MAB, Multi-Armed Bandit 사용)
          • 목적: 선택된 메타 사고 기반으로 하는 모델 응답의 보상을 최대화 하는 것.
            • Arm: 선택 가능한 하나의 옵션을 의미(여기서는 각 메타 사고 옵션이 하나의 arm으로 간주). 슬롯 머신(One Armed Bandit) 에서 여러 레버를 당기는 도박 상황에서 유래
          • 탐색과 활용의 균형 유지
            • 상한 신뢰 구간(Upper Confidence Bound, UCB) 알고리즘 사용
            • 이미 높은 보상을 보인 메타 사고를 활용(Exploitation)하는 동시에 아직 충분히 시도되지 않은 메타 사고 탐색(Exploration)하는 균형 유지
          • 공식 정의
            • 주어진 후보 집합 ℳq에서 최적의 메타사고 M은 다음 공식으로 정의됨.
              • Image(출처: https://arxiv.org/abs/2503.13447)
              • μM: 메타 사고 M의 경험적 평균 보상(과거 시도 기반으로 계산)
              • NM: M이 선택된 횟수
              • t: 총 시도 횟수
              • β: 탐색-활용 균형 매개변수 (이미 좋은 성능을 보인 메타사고와 새로운 옵션을 탐색하는 것 사이의 균형 제어)
              • 활용 항(μM): 이미 좋은 성능을 보인 메타 사고를 선호하게 함 (높은 평균 보상)
              • 탐색 항(β√(log t/NM)): 아직 충분히 시도되지 않은 메타 사고에 기회 제공(선택 횟수가 적을수록 이 값이 커짐)
                • 옵션에 대한 불확실성을 수치화
                • 적게 시도된 옵션일수록 이 값이 커짐
                • 시간이 지남(t가 증가함)에 따라 충분히 탐석되지 않은 옵션에 대한 탐색 압력이 증가
            • 즉, “지금까지 좋은 성능을 보인 전략을 계속 사용하면서도, 충분히 시도해보지 않은 전략에도 기회를 주는” 균형 잡힌 의사결정 방법을 제공
            • 매 단계마다 UCB 값이 가장 높은 옵션을 선택.
          • UCB의 장점
            1. 동적 균형: 시간이 지남에 따라 탐색과 활용 사이 균형이 자동으로 조정
              • 초기: 다양한 옵션 탐색에 중점
              • 충분한 정보가 수집되면: 유망한 옵션 활용에 집중
            2. 이론적 보증: 후회(regret, 최적이 아닌 선택으로 인한 손실)의 로그 상한을 수학적으로 보장
            3. 적응성: 새 옵션이 추가되더라도 알고리즘이 자연스럽게 적응함.
          • 의의: 고정된 추론 전략을 강제하는 기존 방법들과 달리, LLM이 각 태스크에 가장 적합한 인지 전략을 동적으로 선택하고 개선할 수 있게 함으로써 성능을 크게 향상
        3. 진화 (Genetic Meta-Thought Evolution)
          • 일반적인 유전알고리즘에 적용되는 명시적 교차 또는 돌연변이 정책을 직접 적용하지 않음
            • 텍스트 수준에서 직접 교차나 돌연변이를 수행하면 종종 의미 없는 전략을 생성하는 것을 발견
          • 대안: LLM에 프롬프트를 제시하는 방법 사용
            • LLM에게 부모 메타 사고들의 추론 휴리스틱을 어덯게 결합하고 개선된 형태로 진화시킬지 결정하도록 프롬프트 제시.
              • 메타 사고의 더 유연하고 맥락 민감한 진화를 가능하게 함
              • 진화된 전략이 연속직인 반복을 통해 현재 작업에 가장 효과적인 문제 해결 패턴을 계속 반영하도록 보장.
          • 종료 기준
            1. 사전 결정된 예산에 따른 시도 횟수에 따라 종료 기준 설정
              • 예산 소진되면 MetaScale 종료
              • 보상모델에 의해 평가된 모든 시도중 가장 높은 보상 점수를 받은 모델응답 반환.
          • 알고리즘
            • Image