Qwen3-30B-A3B-TopK4-Compressed

이 모델은 Qwen3-30B-A3B Mixture of Experts 모델의 Top-k를 8에서 4로 감소시켜 압축한 버전입니다.

모델 정보

기본 모델: Qwen3-30B-A3B
압축 방식: Top-k Reduction (8 → 4)
압축률: 59.5%
MMLU 정확도: 42.9% (7개 카테고리 평균)

압축 세부사항

원본 Top-k: 8개 전문가 활성화
압축 Top-k: 4개 전문가 활성화
압축 효과: 모델 크기와 추론 비용을 크게 줄이면서도 합리적인 성능 유지

성능 평가

MMLU 벤치마크 7개 카테고리에서 테스트:

abstract_algebra
anatomy
high_school_mathematics
formal_logic
professional_medicine
high_school_macroeconomics
global_facts

사용법

from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "kyne0127/Qwen3-30B-A3B-TopK4-Compressed"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True)

# 추론 예시
input_text = "What is the capital of France?"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=100)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)