#11861

Langfuse の Observation レベル評価：「どのステップが悪いのか」をスコアで特定できるようになった

こんにちは。ガオ株式会社の黒澤です。 Langfuse v3.153.0 で [PR #11861]( https://github.com/langfuse/langfuse/pull/11861 ) がマージされ、LLM-as-a-Judge を Observation 単位で実行できるようになりました。本記事ではその背景と使い方をまとめます。課題：Trace 全体への評価では「どこが悪いか」がわからない LLM アプリの評価で、こんな状況に陥ったことはありませんか。 RAG アプリの LLM as a Judge スコアが下がった。でも、ドキュメント検索が悪いのか、回答生成が悪いのか、判断できない。これは、従来の Langfuse の評価機能が Trace（エンドツーエンドのリクエスト全体）を評価単位としていたためです。 Before：Evaluator は Trace 全体にしか設定できなかった Langfuse で LLM as a Judge Evaluator を作成すると、評価対象は Trace 全体の最終出力のみでした。

2月26日読了時間: 4分

Langfuse の Observation レベル評価：「どのステップが悪いのか」をスコアで特定できるようになった

ガオ株式会社 (GAO, Inc.)