CONCEPT · STUB

LLM 評価(LLM Evaluation)

LLM 評価は、大規模言語モデルの能力・品質・コストを定量的に測定するベンチマーク・手法・インフラの総称。2026 年は MMLU の飽和と SWE-bench Verified のデータ汚染問題を受け、GPQA Diamond・SWE-bench Pro・HLE など新世代ベンチマークへの移行が加速している。

※ 自動生成 stub、要補完

言及された記事

COMPARE · 2026-05-05

AI 評価インフラの現在地 2026 — MMLU 飽和から HAL・SWE-bench Pro・HLE まで、ベンチマーク選択の実践ガイド

NEWS · 2026-05-06

AI の現在地を読む 10 枚のグラフ — Stanford AI Index 2026 × MIT TR が照らす進化と格差

COMPARE · 2026-05-10

LLM 評価(LLM Evaluation)

言及された記事

AI 評価インフラの現在地 2026 — MMLU 飽和から HAL・SWE-bench Pro・HLE まで、ベンチマーク選択の実践ガイド

AI の現在地を読む 10 枚のグラフ — Stanford AI Index 2026 × MIT TR が照らす進化と格差

LLM 推論能力の現在地 2026 — GPT-5.5 / Gemini 3 Deep Think / AlphaEvolve を比べる