top of page

LLMOps


【入門編】Langfuseで画像OCRの精度検証をシンプルに始める方法
Geminiの性能向上によりOCRは実用的になりましたが、高精度を目指すならプロンプト調整は必須です。しかし、調整のたびに画像と結果を目視で見比べるのは、手間がかかりミスも誘発します。 そこで本記事では、Langfuseを使ってこの作業を自動化します。「評価」と聞くと難しそうですが、今回は複雑な指標や設定を使わず、かつ、チーム運用は一旦忘れ、まずは 「自分のPC上で、正解データと一致するか」 だけをチェックする気軽な構成を目指します。 なお、プロンプト改善のサイクルを回すことが目的なので、今回は繰り返しテストに適した Dataset Run 機能を利用します。 Datasetの準備 Dataset Runを実行するには、データセットの作成が必要です。 ※ 基本的な作成方法については、以前の記事( Langfuseデータセット構築ガイド:UI・CSV・SDKの徹底比較 )にて紹介しています。 しかし、ここで一つ問題が発生します。 期待する結果の値(Expected Output)はテキストなので問題なく登録できますが、 こちらの記事 でも言及し
1月26日読了時間: 6分


Langfuseのプロンプト変更制限 解説(Protected Prompt Labels)
本ブログでは、Langfuseを複数人で運用する環境下において、「プロンプトを誰でも変更されるのが不安」「うっかり本番用のラベルを動かしてしまった」というヒヤリハットや、「誰でも本番環境を変更できてしまう」というガバナンス上の課題を感じていたチームにとって、必須の機能をご説明します!
1月25日読了時間: 3分


LangfuseのExperiments Compare ViewのBaseline機能を解説
プロンプトを修正した後、「なんとなく良くなった」という感覚だけでリリースしていませんか?Langfuseの最新機能「Experiments Baseline」を使えば、変更前後の挙動を定量的に比較し、予期せぬ品質低下(デグレ)を即座に可視化できます。本記事では、Python SDK V3を用いた具体的な実装手順と、リグレッションテストの自動化フローを徹底解説します。
1月9日読了時間: 12分


Langfuse セルフホスト|OSS vs Enterprise機能比較
はじめに Langfuseは、LLMアプリケーションの観測性、プロンプト管理、評価を一元管理できるオープンソースプラットフォームです。セルフホストでの運用が可能で、多くの企業が自社環境での導入を進めています。 セルフホストには2つの選択肢があります OSS版(無料・MIT License) : すべてのコア機能が無制限で利用可能 Enterprise版(ライセンスキー必要) : OSS版の機能に加え、Enterpriseグレードのセキュリティ・管理機能を提供 本記事ではEnterprise版で追加される主要な機能と、その具体的なユースケースを詳しく解説します。「OSS版で十分なのか?」「Enterprise版が必要になるのはどんな時か?」という疑問に答えます。 OSS版 vs Enterprise版 重要なポイント:コア機能は完全に同じ まず理解すべき重要なポイントは、 OSS版でもEnterprise版でも、Langfuseのコア機能に一切の制限がない ということです。 両バージョンとも以下が利用可能: トレーシング(エージェント対応) プロ
2025年12月3日読了時間: 9分


Langfuseで解決する 自動化ツール n8n のプロンプト課題
本記事は こちらの記事 の続編 (アップデート版) となります。 (改めて) n8nとは何か、プロンプト管理の課題 n8nは「nodemation」の略称で、ドラッグ&ドロップ操作や各ノードの設定によってワークフローを作成できる自動化ツールです。300以上の組み込みノードを...
2025年8月15日読了時間: 2分


Agent Development Kit (ADK) のエージェント評価を試してみた!
最近話題の Google 製 AI エージェントフレームワーク「Agent Development Kit (ADK)」を触ってみました! Gemini モデルとの連携がしやすく、柔軟なエージェント開発が可能とのことで、期待が高まります。エージェントが自律的にツールを使うの...
2025年4月11日読了時間: 6分


LLMOpsとは? MLOpsとの違いや生成AIの評価について解説
LLMOps とは? LLMOps(Large Language Model Operations)とは、大規模言語モデル(LLM)を利用した生成AIアプリケーションの開発から運用、改善までを一貫して管理するための考え方や仕組み(フレームワーク)です。多くの企業では、自社で...
2025年3月27日読了時間: 9分
![[LLMOps] プロンプト管理の課題](https://static.wixstatic.com/media/89c202_d8d4c113a298446a9930c9159a68f5f3~mv2.png/v1/fill/w_333,h_250,fp_0.50_0.50,q_35,blur_30,enc_avif,quality_auto/89c202_d8d4c113a298446a9930c9159a68f5f3~mv2.webp)
![[LLMOps] プロンプト管理の課題](https://static.wixstatic.com/media/89c202_d8d4c113a298446a9930c9159a68f5f3~mv2.png/v1/fill/w_454,h_341,fp_0.50_0.50,q_95,enc_avif,quality_auto/89c202_d8d4c113a298446a9930c9159a68f5f3~mv2.webp)
[LLMOps] プロンプト管理の課題
はじめに:生成AIが抱える困難とプロンプト 生成AIアプリケーションの開発は、従来のソフトウェア開発とは異なる難しさがあります。 その一つが、 生成AIの出力の不安定さ です。そしてこの不安定さに大きく関わっているのが、 プロンプト...
2025年2月15日読了時間: 5分


Langfuse で LLM 評価を効率化!活用方法徹底解説
1.初めに 近年、AI 技術、特に大規模言語モデル(LLM)の進化は目覚ましく、様々な分野での活用が進んでいます。しかし、LLM をビジネスに適用する上で、その品質をどのように評価するかが大きな課題となっています。 これまでの LLM...
2025年2月5日読了時間: 6分
bottom of page