top of page

LLMOps


LLMアプリの評価データをバージョン管理する - Langfuseのデータセットバージョニングで実験の再現性を確保する
先週と同じ条件で実験したいのに、データセットを更新したから再現できない」「精度が下がったけど、データのせいかモデルのせいか分からない」——LLMアプリの評価データ管理でこんな課題を感じたことはないでしょうか。
Langfuse v3.151.0で強化されたデータセットバージョニング機能を使えば、評価データの変更とモデルの変更を分離して管理し、実験の再現性を確保できます。UIからはバージョンを選択するだけ、SDKからは特定時点のデータセットを指定して取得可能。チーム全体で安心してデータセットを改善し続けられます。
2月27日読了時間: 6分


Langfuse の Observation レベル評価:「どのステップが悪いのか」をスコアで特定できるようになった
こんにちは。ガオ株式会社の黒澤です。 Langfuse v3.153.0 で [PR #11861]( https://github.com/langfuse/langfuse/pull/11861 ) がマージされ、LLM-as-a-Judge を Observation 単位で実行できるようになりました。本記事ではその背景と使い方をまとめます。 課題:Trace 全体への評価では「どこが悪いか」がわからない LLM アプリの評価で、こんな状況に陥ったことはありませんか。 RAG アプリの LLM as a Judge スコアが下がった。でも、ドキュメント検索が悪いのか、回答生成が悪いのか、判断できない。 これは、従来の Langfuse の評価機能が Trace(エンドツーエンドのリクエスト全体) を評価単位としていたためです。 Before:Evaluator は Trace 全体にしか設定できなかった Langfuse で LLM as a Judge Evaluator を作成すると、評価対象は Trace 全体の最終出力のみでした。
2月26日読了時間: 4分


【入門編】Langfuseで画像OCRの精度検証をシンプルに始める方法
Geminiの性能向上によりOCRは実用的になりましたが、高精度を目指すならプロンプト調整は必須です。しかし、調整のたびに画像と結果を目視で見比べるのは、手間がかかりミスも誘発します。 そこで本記事では、Langfuseを使ってこの作業を自動化します。「評価」と聞くと難しそうですが、今回は複雑な指標や設定を使わず、かつ、チーム運用は一旦忘れ、まずは 「自分のPC上で、正解データと一致するか」 だけをチェックする気軽な構成を目指します。 なお、プロンプト改善のサイクルを回すことが目的なので、今回は繰り返しテストに適した Dataset Run 機能を利用します。 Datasetの準備 Dataset Runを実行するには、データセットの作成が必要です。 ※ 基本的な作成方法については、以前の記事( Langfuseデータセット構築ガイド:UI・CSV・SDKの徹底比較 )にて紹介しています。 しかし、ここで一つ問題が発生します。 期待する結果の値(Expected Output)はテキストなので問題なく登録できますが、 こちらの記事 でも言及し
1月26日読了時間: 6分


Langfuseのプロンプト変更制限 解説(Protected Prompt Labels)
本ブログでは、Langfuseを複数人で運用する環境下において、「プロンプトを誰でも変更されるのが不安」「うっかり本番用のラベルを動かしてしまった」というヒヤリハットや、「誰でも本番環境を変更できてしまう」というガバナンス上の課題を感じていたチームにとって、必須の機能をご説明します!
1月25日読了時間: 3分


LangfuseのExperiments Compare ViewのBaseline機能を解説
プロンプトを修正した後、「なんとなく良くなった」という感覚だけでリリースしていませんか?Langfuseの最新機能「Experiments Baseline」を使えば、変更前後の挙動を定量的に比較し、予期せぬ品質低下(デグレ)を即座に可視化できます。本記事では、Python SDK V3を用いた具体的な実装手順と、リグレッションテストの自動化フローを徹底解説します。
1月9日読了時間: 12分


Langfuse セルフホスト|OSS vs Enterprise機能比較
はじめに Langfuseは、LLMアプリケーションの観測性、プロンプト管理、評価を一元管理できるオープンソースプラットフォームです。セルフホストでの運用が可能で、多くの企業が自社環境での導入を進めています。 セルフホストには2つの選択肢があります OSS版(無料・MIT License) : すべてのコア機能が無制限で利用可能 Enterprise版(ライセンスキー必要) : OSS版の機能に加え、Enterpriseグレードのセキュリティ・管理機能を提供 本記事ではEnterprise版で追加される主要な機能と、その具体的なユースケースを詳しく解説します。「OSS版で十分なのか?」「Enterprise版が必要になるのはどんな時か?」という疑問に答えます。 OSS版 vs Enterprise版 重要なポイント:コア機能は完全に同じ まず理解すべき重要なポイントは、 OSS版でもEnterprise版でも、Langfuseのコア機能に一切の制限がない ということです。 両バージョンとも以下が利用可能: トレーシング(エージェント対応) プロ
2025年12月3日読了時間: 9分


Langfuseで解決する 自動化ツール n8n のプロンプト課題
本記事は こちらの記事 の続編 (アップデート版) となります。 (改めて) n8nとは何か、プロンプト管理の課題 n8nは「nodemation」の略称で、ドラッグ&ドロップ操作や各ノードの設定によってワークフローを作成できる自動化ツールです。300以上の組み込みノードを...
2025年8月15日読了時間: 2分


Agent Development Kit (ADK) のエージェント評価を試してみた!
最近話題の Google 製 AI エージェントフレームワーク「Agent Development Kit (ADK)」を触ってみました! Gemini モデルとの連携がしやすく、柔軟なエージェント開発が可能とのことで、期待が高まります。エージェントが自律的にツールを使うの...
2025年4月11日読了時間: 6分


LLMOpsとは? MLOpsとの違いや生成AIの評価について解説
LLMOps とは? LLMOps(Large Language Model Operations)とは、大規模言語モデル(LLM)を利用した生成AIアプリケーションの開発から運用、改善までを一貫して管理するための考え方や仕組み(フレームワーク)です。多くの企業では、自社で...
2025年3月27日読了時間: 9分
![[LLMOps] プロンプト管理の課題](https://static.wixstatic.com/media/89c202_d8d4c113a298446a9930c9159a68f5f3~mv2.png/v1/fill/w_333,h_250,fp_0.50_0.50,q_35,blur_30,enc_avif,quality_auto/89c202_d8d4c113a298446a9930c9159a68f5f3~mv2.webp)
![[LLMOps] プロンプト管理の課題](https://static.wixstatic.com/media/89c202_d8d4c113a298446a9930c9159a68f5f3~mv2.png/v1/fill/w_454,h_341,fp_0.50_0.50,q_95,enc_avif,quality_auto/89c202_d8d4c113a298446a9930c9159a68f5f3~mv2.webp)
[LLMOps] プロンプト管理の課題
はじめに:生成AIが抱える困難とプロンプト 生成AIアプリケーションの開発は、従来のソフトウェア開発とは異なる難しさがあります。 その一つが、生成AIの出力の不安定さです。そしてこの不安定さに大きく関わっているのが、プロンプトです。生成AIは、人間が与える指示、つまりプロンプトに基づいて動作しますが、プロンプトが適切でなければ、生成AIはその能力を十分に発揮できません。 しかし、プロンプトの重要性は認識されつつも、その管理は後回しにされがちです。多くの開発現場では、プロンプトがコードの中に直接埋め込まれ、場当たり的に修正されているのが現状ではないでしょうか。(少なくとも、筆者は多くそのような現場を見聞きしています) LLMOps のプロンプト管理とは?:なぜ必要で、何が問題なのか プロンプト管理とは、生成AIへの指示(プロンプト)を体系的に作成、テスト、改善、保存、共有するプロセス全体を指します。 プロンプト管理の目的は、主に以下の4つです。 品質向上: 生成AIの出力の品質を向上させ、安定させる。 一貫性確保: 同じプロンプトからは常に同じ
2025年2月15日読了時間: 5分


Langfuse で LLM 評価を効率化!活用方法徹底解説
1.初めに 近年、AI 技術、特に大規模言語モデル(LLM)の進化は目覚ましく、様々な分野での活用が進んでいます。しかし、LLM をビジネスに適用する上で、その品質をどのように評価するかが大きな課題となっています。 これまでの LLM...
2025年2月5日読了時間: 6分