業務で使っている大規模言語モデル(LLM)が生成する内容に違和感がある――。そのような場面で有用なのが、LLMの性能を客観的に評価する「ベンチマーク」だ。本稿は、主要なLLMのベンチマークを7つ紹介する。オープンアクセスリポジトリ「arXiv.org」に ...
Weights & Biases Japan株式会社(以下、W&B Japan)は、2023年7月より運営してきた日本最大級のLLM日本語能力比較サイト、Nejumi LLM ...
自分が使っているLLMの性能はどの程度なのか。そもそもLLMの性能を評価するにはどうすればよいのか。そうした疑問を解消する、LLMの「ベンチマーク」や実施方法を紹介する。 LLMのベンチマークは、LLMの性能を評価するための標準化された手順や指標だ。
株式会社LegalOn Technologies(本社:東京都渋谷区代表取締役 執行役員・CEO:角田望、以下LegalOn Technologies)は、日本の企業法務実務における大規模言語モデル(LLM)の性能を評価するベンチマークデータセット「Legal Rikai: Open Benchmark」を公開しました。「Legal ...
LLMは、学習する言語モデルの機能を主に、ニュースなどの時事情報の読解に特化して作成。言語モデルには、与えられたテキスト文の次の単語やトークンを予測する因果的言語モデル(CLM:causal language model)、内部構造にはTransformer方式を採用し、モデルの学習 ...
Salesforce、世界初のCRM向けLLMベンチマークを発表 企業がCRMシステム向けの生成AIモデルを評価する際にスマートな意思決定の指針となる新しいベンチマークとランキング表が登場 ※本記事は2024年6月18日に米国で公開されたSalesforce Announces the World's First LLM ...
Sakana AI(株)は6月5日、会計不正検知をはじめとする高度な金融タスクにおける大規模言語モデル(LLM)の性能を測定する日本語金融ベンチマーク「EDINET-Bench」を開発した。データセットをHugging Faceにて、構築ツールおよび評価コードをGitHubにて公開している。
しかし、上記のように出力を構造化したとしても、出力結果の制約を全て満たすわけではなく、 「LLMをアプリケーションに型安全に組み込める」 とは限りません。実際の開発においては以下のようなケースに遭遇し、修正のためのコードを書くという ...
Developers Summit 2026・Dev x PM Day 講演資料まとめ Developers Boost 2025 講演資料まとめ Developers X Summit 2025 講演資料まとめ Developers Summit 2025 FUKUOKA 講演関連資料まとめ Developers Summit 2025 KANSAI 講演関連資料まとめ ...
一部の結果でアクセス不可の可能性があるため、非表示になっています。
アクセス不可の結果を表示する