AI 脳 ai-know.
JA · EN
CONCEPT · STUB

LLM 評価(LLM Evaluation)

LLM 評価は、大規模言語モデルの能力・品質・コストを定量的に測定するベンチマーク・手法・インフラの総称。2026 年は MMLU の飽和と SWE-bench Verified のデータ汚染問題を受け、GPQA Diamond・SWE-bench Pro・HLE など新世代ベンチマークへの移行が加速している。

※ 自動生成 stub、要補完

言及された記事