LLM 評価(LLM Evaluation)
LLM 評価は、大規模言語モデルの能力・品質・コストを定量的に測定するベンチマーク・手法・インフラの総称。2026 年は MMLU の飽和と SWE-bench Verified のデータ汚染問題を受け、GPQA Diamond・SWE-bench Pro・HLE など新世代ベンチマークへの移行が加速している。
※ 自動生成 stub、要補完
LLM 評価は、大規模言語モデルの能力・品質・コストを定量的に測定するベンチマーク・手法・インフラの総称。2026 年は MMLU の飽和と SWE-bench Verified のデータ汚染問題を受け、GPQA Diamond・SWE-bench Pro・HLE など新世代ベンチマークへの移行が加速している。
※ 自動生成 stub、要補完