about MetaScale(Test Time Scaling with Evolving Meta Thou...

This page collects papers related to ViT to help understand ViT.

Not yet

MetaScale이란?

기존 LLM 한계: 학습 데이터의 패턴을 매칭하는 방식에 크게 의존 -> 주어진 상황에 가장 적합한 인지 전략을 능동적으로 선택하지 못함.
새로운 방식: Meta-thoughts 도입으로 문제 해결 전 “어떻게 생각할지 생각”하는 새 패러다임 제시
논문: MetaScale: Test-Time Scaling with Evolving Meta-Thoughts

MetaScale 성능

Evolution까지 합하면, 기존 모델보다 약 10% 더 향상된 것을 확인할 수 있음.
- - Vanilla / Best-of N / Meta Scale 별로 각 데이터셋 성능 평가
    - Arena-Hard: 실제 사용자 사례에 기반한 대화형 언어 모델의 성능
    - MMLU-Pro: 다양한 분야에서의 복잡한 추론 능력 및 문제 해결 능력
    - GSM8K: 다단계 수학적 추론 능력
- - 스타일 통제(style control) 조건 하에서 전체 Arena-Hard 데이터셋에 대한 결과를 평가
  - 응답 판단에 영향을 미칠 수 있는 스타일적 요소(예: 답변 토큰 길이, 마크다운 헤더 수)의 효과를 제거하여 공정한 비교를 가능하게 함
  - gpt 4o로도 o1 mini보다 성능이 더 좋은걸 볼 수 있음.
- - GPT-4o를 기본 모델로 사용하여 샘플링 예산을 1에서 128까지 다양하게 변화시켰을 때 Arena-Hard와 MMLU-Pro 벤치마크에서의 성능 결과(%) 확인 가능.
  - MetaScale은 sampling 예산이 증가하면 성능이 계속 향상, Best-of-N 방식은 성능 향상 정체 발생.
  - MetaScale이 더 효율적으로 좋은 해결책을 탐색할 수 있는 효과적인 스케일링 전략임을 보여줌.
- - MetaScale 프로세스 전반에 걸친 여러 진화 반복에 따라 선택된 메타 사고(meta-thoughts)의 분포 변화
  - 높은 보상(MAB reward)을 받은 메타 사고의 선택 빈도가 진화 반복이 진행됨에 따라 크게 증가
  - 특히 10번째 반복부터는 20% 이상의 선택 비율이 상당 부분 차지
  - 초기 단계에서의 낮은 선택 횟수는 MetaScale이 최적의 메타 사고에 접근하기 전 넓은 탐색 단계를 거친다는 것을 알 수 있음
  - 메타 사고의 반복적 개선 과정이 모델을 점진적으로 더 최적의 해결책으로 수렴하게 한다는 것을 시사
- - Arena-Hard 벤치마크의 한 태스크에 대한 모델 응답 사례 비교 (GPT-4o 단일 경로 / Metascale 최적화)
  - 단일경로 응답: 핵심 과제를 식별하지 못한 채 광범위하고 일반적인 안내만 제공
  - MetaScale의 응답은 반복적으로 개선된 메타 사고를 통해 더 구조화되고 전문가 수준의 접근법을 제시
  - 최적화된 응답은 핵심 전이 가능한 기술을 정확히 식별하고, AI 시장 역학을 강조하며, 사용자의 전문적 배경에 맞춤화된 단계별 전략을 제공

MetaScale 전체 다이어그램

- MetaScale의 전체 작동 과정
  1. Meta-Thought Initialization(메타 사고 초기화 단계)
  2. Meta-Thought Selection(메타 사고 선택 단계)
  3. Target LLM 응답 생성
  4. Reward Model 평가(Skywork-Reward-Llama-3.1-8B-v0.2 사)
  5. MAB Rewards 업데이트
  6. Meta-Thought Evolution (메타사고 진화)
- 전체 프로세스 흐름
  1. 태스크 입력 (빨간색 상자)
    - 전체 프로세스의 시작점
  2. 메타 사고 초기화(Meta-Thought Initialization, 노란색 구역)
    - 입력된 태스크는 meta-thoughts 초기화 과정으로 연결
    - 다양한 색상의 사용자 아이콘(파란색, 녹색, 주황색, 보라색)은 서로 다른 메타 사고를 나타냄
    - 각 메타 사고는 두가지 핵심 요소를 포함해야 함
      1. LLM 기반 생성: LLM에게 직접 프롬프트를 제공하여 다양한 추론 전략 생성
      2. 데이터셋 기반 검색: WildChat과 같은 데이터셋에서 상위 8개의 유사 작업을 검색하여 관련 추론 패턴 추출
      3. 메타 사고 초기화 프롬프트 참고:
        주의: 프롬프트를 잘못 보면, llm과 dataset 간 비교하는 것 같지만, 실상은 전혀 다름
        누가 적절한 답변을 제공할 가능성이 높은가요? -> “이 질문에 가장 잘 답할 수 있는 전문가 유형은 누구인가?”를 의미
        그 사람이 질문에 합리적으로 답변하는 방법에 대한 상위 수준의 요약을 제공해주세요 -> 그 전문가가 어떻게 질문에 접근할지에 대한 개략적인 방법론 제시
  3. 메타 사고 선택 (Meta-Thought Selection, 파란색 영역)
    - 알고리즘: Multi-Armed Bandit(MAB) 알고리즘 사용
    - 구체적 구현: UCB(Upper Confidence Bound) 알고리즘으로 구현
    - 선택 메커니즘
      - 탐색(Exploration): 아직 충분히 시도되지 않은 메타사고 시도
      - 활용(Exploitation): 이미 좋은 성과를 보인 메타사고 활용
    - 추적 데이터
      - 선택 횟수(# Selection): 각 메타사고가 얼마나 자주 선택되었는지
      - MAB 보상(MAB Rewards): 각 메타사고의 성능 점수
  4. 타겟 LLM 응답 생성
    - 선택된 메타사고가 추론 전략으로 사용됨
    - 타겟 LLM(예: GPT-4o)이 메타사고를 기반으로 응답 생성
    - 위의 다이어그램에서 응답 예시론 두개가 나옴
  5. 보상 모델(Reward Model) 평가
    - 생성된 각 응답의 품질을 평가 (더 높은 점수가 더 높은 품질을 의미)
    - 객관적인 점수 부여(예: 11.32, 21.66)
    - MAB의 보상 값으로 사용됨
  6. MAB 보상 업데이트
    - 응답 평가 점수를 기반으로 MAB의 UCB 값 업데이트
    - 업데이트된 값은 다음 반복에서 메타사고 선택에 영향을 줌
  7. 메타 사고 진화 (Meta-Thought Evolution, 녹색 영역)
    - 진화 시점: 논문에 따르면 k번째 반복마다 수행
    - 진화 과정:
      1. 높은 UCB 값을 가진 메타사고들을 “부모”로 선택
      2. 유전 알고리즘과 유사한 방식으로 새로운 메타사고 생성
      3. 이 새로운 메타사고들을 원래 메타사고 풀에 병합
- 순환 프로세스와 피드백 루프
  1. - 이해를 돕기 위해 새로운 단어를 만듦
      - MAB 반복 과정: 논문에서는 iteratively selects and evaluates them using a multi-armed bandit algorithm 이라고 함.
      - 진화적 정제 과정: 논문에서는 periodically applies a genetic algorithm, “evolutionary refinement이라고 함.
  2. 반복적인 과정을 통해 메타 사고가 지속적으로 개선됨.
    - MAB 반복 과정, MAB Iteration Process(그림에서 빨간색 부분)
      - 메타사고 선택 → 응답 생성 → 평가 → MAB 업데이트
      - 메타사고 선택(MAB 알고리즘 사용), 탐색과 활용 간 균형 조절(UCB 알고리즘 사용), 응답 생성(target llm 사용), 보상 모델 평가(reward model 사용), 평가 점수에 따른 MAB 업데이트의 반복적 사이클을 의미
    - 진화적 정제 과정, Evolutionary Refinement Process(그림에서 파란색 부분)
      - 메타사고 진화 → 메타사고 풀 업데이트
      - 고성능 메타사고를 선택하고 새로운 메타사고를 생성하는 주기적인 과정을 의미
        주기적으로 유전 알고리즘을 적용해 높은 UCB값을 가진 메타 사고들을 선택
        선택된 고성능 메타사고를 “부모”로 삼아 새로운 “자식” 메타사고 생성
        LLM을 통해 부모 메타사고의 추론 휴리스틱을 결합하고 개선하여 진화 3. 설정된 샘플링 예산이 소진될때까지 이 과정 반복 4. 최종적으로 가장 높은 보상 점수를 받은 응답이 반환됨. 5. MAB 반복 과정을 통해 메타사고가 지속적으로 개선됨.

MetaScale의 핵심 개념

인지적 마인드셋(Cognitive Mindset)
- 모델이 작업에 접근하기 위해 채택하는 적절한 관점, 전문성 또는 역할
- 예: (Q: ABC 표기법을 사용하여 민요 스타일의 멜로디를 작성하라) -> ‘음악 이론과 작곡에 전문성을 가진 음악가나 음악 교육자’
- Persona랑 매우 비슷함.
  - 공통점: 문제를 해결하기 위해 어떤 전문가의 관점을 취할 것인가?에 대한 답.
    - 논문의 근거: Going beyond persona-assigned LLMs, we further unleash their potential for solving challenging problems by automatically retrieving relevant meta-thoughts and prompting LLMs with evolved theory of mind.
  - 차이점:
    - Cognitive Mindset:
      1. 명시적으로 문제 해결에 초점을 두고 만듦.
      2. Meta-thought의 첫번째 구성 요소로, 항상 문제 해결 전략과 쌍을 이룸
      3. MetaScale에서 Cognitive Mindset은 UCB 알고리즘과 유전 알고리즘을 통해 자동으로 선택되고 진화됨
    - Persona
      1. 때때로 캐릭터 롤플레이나 대화 스타일 등의 목적으로도 사용되기도 함.
      2. 일반적으로 독립적으로 사용됨
      3. 전통적인 Persona는 주로 수동으로 선택되거나 미리 정의됨 (한번 선택되면 끝)
문제 해결 전략(Problem-Solving Strategy)
- 선택된 인지적 마인드셋(Cognitive Mindset)을 기반으로 해결책을 체계적으로 구성하는 구조화된 패턴
- 예: (Q: ABC 표기법을 사용하여 민요 스타일의 멜로디를 작성하라, Cognitive Mindset: ‘음악 이론과 작곡에 전문성을 가진 음악가나 음악 교육자’) -> ‘먼저 전통 민속 음악의 특성을 포착하는 멜로디를 제시하고, 그러면…)
- 구체적인 접근 단계와 방법론을 제시해야 함.
- 초기화, 선택, 진화의 세 단계로 입력 작업에 대한 효과적인 meta-thoughts를 개발함.
  - 핵심 구성요소: 유전 알고리즘, MAB(Multi-Armed Bandit) 알고리즘.
    - 유전 알고리즘:
      1. 초기화(initialization): 후보 솔루션의 초기 모집단을 생성
      2. 적합성 평가(fitness evaluation):사전 정의된 목표에 따라 솔루션 품질을 평가
      3. 진화(evolution): selection(선택) / crossover(교차, 결합)/ mutation(돌연변이/수정) 중 하나 선택
        새로운 솔루션을 만들기 위해 적합성이 높은 후보를 선택, 결합, 수정을 반복적으로 함
        초기화 이후 ‘적합성평가 -> 선택 -> 교차 -> 돌연변이’ 과정을 반복하며, 새로운 세대 형성을 반복하며 수렴함.
        반복적인 개선을 통해 모집단은 더 나은 적합성을 가진 솔루션으로 수렴
        사전 정의된 적합성 임계값에 도달 OR 설정된 세대 수가 완료되면 종료
    - MAB(Multi-Armed Bandit):
      1. 순차적 의사결정에서 탐색(새 옵션 테스트)과 활용(알려진 높은 보상 옵션 선택) 간 균형을 다룸
        효율적인 탐색을 보장하면서 일관되게 높은 성과를 내는 선택 선호 가능
  - 핵심 구성요소를 이용한 메타 사고 생성 과정
    1. 메타사고 초기화
      - 목표: 주어진 문제에 맞춤화 된 다양한 추론 전략 집합 생성
      - 두가지 상호 보완적인 전략을 따름
        프롬프트 - llm에게 추론 전략을 자체적으로 구성 할 수 있도록 -> 추론 성능을 향상 시킬 수 있는 다양한 문제 해결 휴리스틱과 인지 패턴 반영
        데이터셋 - WildChat 같은 task-solution 쌍으로 되어 있는 데이터셋에서 상위 8개의 유사 작업 검색후 프롬프트 제시
    2. 선택(MAB, Multi-Armed Bandit 사용)
      - 목적: 선택된 메타 사고 기반으로 하는 모델 응답의 보상을 최대화 하는 것.
        Arm: 선택 가능한 하나의 옵션을 의미(여기서는 각 메타 사고 옵션이 하나의 arm으로 간주). 슬롯 머신(One Armed Bandit) 에서 여러 레버를 당기는 도박 상황에서 유래
      - 탐색과 활용의 균형 유지
        상한 신뢰 구간(Upper Confidence Bound, UCB) 알고리즘 사용
        이미 높은 보상을 보인 메타 사고를 활용(Exploitation)하는 동시에 아직 충분히 시도되지 않은 메타 사고 탐색(Exploration)하는 균형 유지
      - 공식 정의
        주어진 후보 집합 ℳq에서 최적의 메타사고 M은 다음 공식으로 정의됨.
        (출처: https://arxiv.org/abs/2503.13447)
        μM: 메타 사고 M의 경험적 평균 보상(과거 시도 기반으로 계산)
        NM: M이 선택된 횟수
        t: 총 시도 횟수
        β: 탐색-활용 균형 매개변수 (이미 좋은 성능을 보인 메타사고와 새로운 옵션을 탐색하는 것 사이의 균형 제어)
        활용 항(μM): 이미 좋은 성능을 보인 메타 사고를 선호하게 함 (높은 평균 보상)
        탐색 항(β√(log t/NM)): 아직 충분히 시도되지 않은 메타 사고에 기회 제공(선택 횟수가 적을수록 이 값이 커짐)
        옵션에 대한 불확실성을 수치화
        적게 시도된 옵션일수록 이 값이 커짐
        시간이 지남(t가 증가함)에 따라 충분히 탐석되지 않은 옵션에 대한 탐색 압력이 증가
        즉, “지금까지 좋은 성능을 보인 전략을 계속 사용하면서도, 충분히 시도해보지 않은 전략에도 기회를 주는” 균형 잡힌 의사결정 방법을 제공
        매 단계마다 UCB 값이 가장 높은 옵션을 선택.
      - UCB의 장점
        동적 균형: 시간이 지남에 따라 탐색과 활용 사이 균형이 자동으로 조정
        초기: 다양한 옵션 탐색에 중점
        충분한 정보가 수집되면: 유망한 옵션 활용에 집중
        이론적 보증: 후회(regret, 최적이 아닌 선택으로 인한 손실)의 로그 상한을 수학적으로 보장
        적응성: 새 옵션이 추가되더라도 알고리즘이 자연스럽게 적응함.
      - 의의: 고정된 추론 전략을 강제하는 기존 방법들과 달리, LLM이 각 태스크에 가장 적합한 인지 전략을 동적으로 선택하고 개선할 수 있게 함으로써 성능을 크게 향상
    3. 진화 (Genetic Meta-Thought Evolution)
      - 일반적인 유전알고리즘에 적용되는 명시적 교차 또는 돌연변이 정책을 직접 적용하지 않음
        텍스트 수준에서 직접 교차나 돌연변이를 수행하면 종종 의미 없는 전략을 생성하는 것을 발견
      - 대안: LLM에 프롬프트를 제시하는 방법 사용
        LLM에게 부모 메타 사고들의 추론 휴리스틱을 어덯게 결합하고 개선된 형태로 진화시킬지 결정하도록 프롬프트 제시.
        메타 사고의 더 유연하고 맥락 민감한 진화를 가능하게 함
        진화된 전략이 연속직인 반복을 통해 현재 작업에 가장 효과적인 문제 해결 패턴을 계속 반영하도록 보장.
      - 종료 기준
        사전 결정된 예산에 따른 시도 횟수에 따라 종료 기준 설정
        예산 소진되면 MetaScale 종료
        보상모델에 의해 평가된 모든 시도중 가장 높은 보상 점수를 받은 모델응답 반환.
      - 알고리즘

about MetaScale(Test Time Scaling with Evolving Meta Thoughts, kor version)

MetaScale이란?

MetaScale 성능

관련 연구(Relative works)

MetaScale 전체 다이어그램

MetaScale의 핵심 개념

about MetaScale(Test Time Scaling with Evolving Meta Thoughts, kor version)

related project

MetaScale이란?

MetaScale 성능

관련 연구(Relative works)

MetaScale 전체 다이어그램

MetaScale의 핵심 개념