RAG vs ファインチューニング vs プロンプト・エンジニアリング：AI精度向上のため知っておくべきすべてのこと

AI(LLM)精度向上のために

生成AIの進化に伴い、生成AIの業務活用を図る企業も多数みられるようになりました。特にLLM（Large Language Models・大規模言語モデル）は、顧客向け回答の自動生成、資料作成、ナレッジマネジメント、プロジェクト立案やリスク分析等、幅広い業界業種・分野・使い方での業務利用が広がりつつあります。

一方学習時のデータに、品質が低い・量が少ない・古いなどの問題があるとハルシネーションが発生することもあり、特に業務利用のための生成AIでのハルシネーションは、顧客トラブルや間違った意思決定につながるリスクがあります。LLMの回答精度向上は生産性向上だけでなく、信頼性やコンプライアンスの点でも必須といえます。

AI精度向上を図る方法として、

・ RAG（Retrieval Augmented Generation）
・ファインチューニング
・プロンプトエンジニアリング

等複数の方法がありますが、ニーズによってそれぞれ最適な方法や強みに違いがあります。

RAG vs ファインチューニング vs プロンプトエンジニアリング

RAG（Retrieval Augmented Generation）、ファインチューニング、プロンプトエンジニアリングは、特定のビジネスユースケースでAIモデルを訓練するために最もよく使われる手法です。各方法には明確な利点があり、適切なアプローチ、またはアプローチの組み合わせを選択することで、AIアプリケーションの成功に大きな影響を与えることが可能です。

この記事では、各アプローチを分解し、それぞれの長所、限界、理想的なユースケースを検証します。それぞれの方法をどのような場合に使用するのか、どのように実施するのが効果的なのか、また、InterSystems IRISがどのように貴社の戦略をサポートできるのか、についてご紹介します。

AI の強化を始めたばかりでも、既存のアプリケーションの最適化を検討している場合でも、このガイドを読めば、AI 導入のアプローチについて十分な情報を得た上で意思決定することができます。

基準

プロンプトエンジニアリング

RAG

ファインチューニング

インプリメンテーション

簡単

ミディアム

コンプレックス

コスト

低い

中程度

高い

精度

可変

高い

メンテナンス

低い

中程度

高い

違いの簡単なまとめ

各手法は、大規模言語モデル（LLM）の性能を向上させるための独自の利点を備えています：

プロンプトエンジニアリング：言語モデルの反応を導くために具体的な指示を作成する基本的なアプローチ
RAG（Retrieval Augmented Generation）：外部の知識ソースに接続することで、LLMのアウトプットを強化。
ファインチューニング：追加トレーニングにより、事前にトレーニングされたモデルを特定のタスクに適応させます。

これら3つのアプローチはそれぞれ異なるニーズに応えるものであり、単独で使うことも、一緒に使うことも可能です。プロンプトエンジニアリングは、実装への最短経路を提供し、初期のAIプロジェクトやテストに最適です。

RAGは、AIの応答を検証済みの情報源に接続することで信頼性を高め、誤った出力を防止し、応答を最新の状態に保つのに役立ちます。

ファインチューニングにはより多くの初期作業が必要ですが、特定のタスクに対して一貫した性能を発揮する、高度に専門化されたAIモデルを作成することができます。多くの上手くいっているAI導入では、複数のアプローチを組み合わせています。例えば、RAGを使用して正確な情報を提供する一方で、微調整を活用して一貫性のある応答形式を維持します。

迅速なエンジニアリングの基礎

プロンプトエンジニアリングは、実装への最短経路を提供し、初期のAIプロジェクトに最適です。

どのようなもので、どのように機能するのか

プロンプト・エンジニアリングでは、LLMが望ましいアウトプットを生み出すための明確な指示を作成します。これは効果的なAI対話の基礎であり、言葉遣いや構成に細心の注意を払う必要がありますります。

主要コンポーネント

効果的なプロンプトエンジニアリングは、いくつかの重要な要素が連携して機能することに依存しています。

1. 明確な指示

その根底にあるのは、LLMに何をしてほしいかを正確に伝える明確な指示です。これらの指示は具体的かつ明確であるべきで、一貫性のない結果につながるような曖昧な指示は避けるべきです。

2. コンテクスト設定

コンテクスト設定は、LLMの役割と目的に関する背景情報を提供します。例えば、LLMはデータベースシステムに精通したテクニカルサポートのスペシャリストであるべきだと指定したり、ターゲットとする読者に向けて特定のトーンで書くべきだと指示したりすることができます。

3. 例

フューショット学習と呼ばれる例では、LLMに優れた出力がどのようなものかを示します。質の高い質問と回答の例を2-3個提示することで、モデルが従うべきパターンを理解できるようになります。この方法は、特定の書式や一貫した回答スタイルが必要な場合に特に効果的です。

4. 出力フォーマット仕様

出力形式の指定は、LLMにその応答をどのように構成するかを正確に伝えます。これには、JSONフォーマット、特定のヘッダー、情報を整理する特定の方法などの要件が含まれることもあります。明確なフォーマット・ガイドラインにより、LLMのアウトプットは、あなたの申請書の他の部分で簡単に処理することができます。

Analyst or Scientist uses a computer and dashboard for analysis of information on complex data sets on computer.

利点と限界

利点：

導入が簡単：プロンプトの作成に必要なのは、基本的なライティングスキルとLLMの理解だけです。技術的な知識がなくても、誰でもプロンプトを作ることができます。
追加インフラ不要：APIキーとLLMサービスへのアクセスだけで、プロンプトエンジニアリングの利用を開始できます。データベースやサーバー、複雑な技術的設定は必要ありません。
迅速な変更とテスト：プロンプトの変更は即座に行うことができ、実際のクエリで即座にテストすることができます。この迅速な反復により、AIアプリケーションの反応を素早く改良することができます。
費用対効果の高い出発点：追加インフラ・コストをかけずにAPI使用料のみを支払うため、プロンプト・エンジニアリングは最小限の投資でAIプロジェクトを開始する実用的な方法を提供します。

制限：

コンテキストウィンドウサイズによる制限：各LLMは、一度に処理できるトークンの最大数を持っています。つまり、1回のプロンプトに大量の情報や長い会話を含めることはできません。
プロンプト作成の専門知識が必要：プロンプトを作り始めるのは簡単だが、一貫して効果的なプロンプトを作成するには、LLMがどのように指示を解釈するかを深く理解し、練習する必要があります。言葉遣いを少し変えるだけで、結果に大きな影響を与えることがあります。
結果に一貫性がない可能性：厳密な管理を行わないと、同じプロンプトでも毎回異なる回答が返ってくる可能性があります。このようなばらつきは、一貫した出力品質を維持することを困難にします。
モデルに新しい知識を加えることができない：モデルは元のトレーニングデータからの情報しか使えませｎません。新しい事実や更新があれば、その都度プロンプトに含める必要があるため、最新の、あるいは専門的な知識を多く必要とするアプリケーションには非効率的です。

プロンプトエンジニアリングを使用する時

以下にYESと答えられる場合は、プロンプトエンジニアリングを選択します：

あなたのタスクはプロンプトで明確に説明できますか？
一般的な知識で十分ですか？
返答に多少のばらつきがあっても大丈夫ですか？
迅速なソリューションが必要ですか？
予算は限られていますか？

これらの質問のうち2つ以上にNOと答えた場合は、代わりにRAGまたはファインチューニングアプローチを検討してください。

注意

プロンプトエンジニアリングは、次のような場合には最良の選択ではないかもしれない：

LLMが訓練を受けていない大量の具体的な情報を参照する必要がある
アプリケーションは完全に一貫した出力を必要とする
機密データや極秘データを扱っている
リアルタイムまたは最新の情報が必要
アプリケーションは1時間に何千ものリクエストを処理する
複雑で多段階の推論を高い精度で行う必要がある

Retrieval Augmented Generation (RAG: 検索拡張生成)

RAGは、LLMのパワーとリアルタイムのデータアクセスを組み合わせたもので、最新の情報を必要とするアプリケーションに最適です。

RAGの仕組み

What is RAG? (Retrieval Augmented Generation)

RAGは、LLMと外部のデータソースを組み合わせることで、オリジナルのトレーニングには含まれていない情報にリアルタイムでアクセスできるようにします。そのため最新の知識や専門的な知識を必要とする用途には特に有効です。

システムコンポーネント

1. ナレッジベースまたはドキュメントストア

RAGシステムの核となるのは、システムがアクセスできるすべての情報を格納する知識ベースです。このコンポーネントは、組織の文書、記事、マニュアル、その他のテキストベースのリソースを保存します。この情報の質と構成は、システムの応答の精度に直接影響します。

Female IT specialist, male coder talking to connect internet, information update and cloud computing

2. ベクトルデータベース

ベクトルデータベースは、RAGシステムのインテリジェントな検索エンジンとして機能します。単語を正確にマッチングさせる従来のデータベースとは異なり、ベクトル・データベースはテキストの背後にある意味を理解します。情報を数学的なフォーマットで保存しているため、類似検索が素早く行え、元のクエリとは異なる表現でも関連情報を見つけることができます。

3. 埋め込みモデル

埋め込みモデルは、人間の言葉をコンピュータが効率的に処理できる形式に変換するトランスレーターとして機能します。保存されているドキュメントや入力されたクエリからテキストを取り出し、コンテンツの意味をとらえる数値ベクトルに変換します。これらのベクトルによって、システムは異なるテキスト断片間の関係や類似性を理解することができ、セマンティック検索が可能になりますります。

4. 検索システム

検索システムはコーディネーターとして働き、コンポーネント間の情報の流れを管理します。質問が入ってくると、このシステムは埋め込みモデルを通してその質問を処理し、ベクトルデータベースを検索し、LLMに渡す前に、検索されたデータが適切であることを確認します。

5. 大型言語モデル

LLMは専門家のコミュニケーターとして機能し、ユーザーの質問と検索された関連情報の両方を受け取ります。この組み合わせられた入力を処理して、検索された知識を組み込んだ自然で首尾一貫した応答を生成します。 LLMは、検索された情報に基づいた正確な回答だけでなく、構造化された理解しやすい回答を保証します。

利点と課題

利点

最新情報へのアクセス：LLMはナレッジベースの最新情報を参照・利用できるため、製品詳細や企業方針など最新データを必要とするアプリケーションに最適です。
幻覚の減少：実際の文書やデータに基づいた回答をすることで、RAGはLLMが誤った情報をでっち上げる可能性を大幅に減少させます。
検証可能な回答: すべての回答は、ナレッジベース内の特定のソースまで遡ることができるため、回答の正確性を検証しやすく、ユーザーとの信頼関係を構築しやすくなります。
拡張可能な知識ベース：新しい文書や情報を追加しても、モデルの再トレーニングを必要とせず、ニーズに応じてシステムを成長させることができます。

課題：

より複雑な実装：RAGシステムのセットアップには複数のコンポーネントが連動する必要があり、単純なプロンプトエンジニアリングよりも技術的に難しくなります。
処理時間の追加：関連情報を検索して取得する必要があるため、各クエリに余分なステップが追加され、LLMを直接呼び出すよりも応答時間が長くなる可能性があります。
データ管理のオーバーヘッド：ナレッジベースを最新の状態に保ち、適切にフォーマットし、よく整理するためには、継続的な努力とデータの品質に細心の注意を払う必要があります。

RAGを使用するケース

How to set up RAG - Retrieval Augmented Generation (demo)

以下にYESと答えられる場合はRAGを選択ください：

特定の文書やデータソースを参照する必要がありますか？
あなたのアプリケーションにとって、事実の正確さは重要ですか？
ナレッジベースは頻繁に更新されていますか？
回答には検証可能なソースが必要ですか？
ドメイン固有の情報や専有情報を扱っていますか？
適切なインフラ整備に投資できますか？

これらの質問のうち2つ以上にNOと答えた場合は、代わりにシンプルなプロンプトエンジニアリングを使うか、ファインチューニングを検討ください。

注意

RAGは、次のような場合には最良の選択ではないかもしれません：

あなたの情報は、標準的なプロンプトの長さに簡単に収まる
ナレッジベースの維持にリソースを割けない
お客様のユースケースは、最小限の待ち時間で即座に応答する必要がある
セットアップやメンテナンスのための技術リソースが不足している
正確な情報よりも、一貫性のある書式が求められる
予算が必要なインフラをサポートできない
データベースへのアクセスを必要としないオフライン機能が必要

ファインチューニング　さらに詳しく

ファインチューニングとは、新しい事実を教えることではなく、新しい行動を教えることです。

プロセスの概要

ファインチューニングは、特定のデータを使用して事前に訓練されたモデルのパラメータを調整し、目標とするタスクのパフォーマンスを向上させます。これにより、特定の要件に沿った、より特化したモデルが生まれます。

仕組み

ファインチューニングは、熟練したプロフェッショナルに新しい専門分野を教えるのと同じように、既存のAIモデルの能力をベースに構築されます。このプロセスは、すでに言語を理解し、幅広い知識を持つ、事前に訓練された大規模な言語モデルから始まります。このベースモデルは、一般教養が専門トレーニングの基礎となるのと同じように、基礎としての役割を果たします。

実際の微調整プロセスは、モデルに何を学ばせたいかを正確に示す例を集めることから始まります。これらの例は、インプット（モデルに質問する内容）とアウトプット（モデルにどう答えてほしいか）のペアになっています。ここでは量よりも質が重要で、数千の凡庸な例よりも数百のよく練られた例のほうがうまくいく場合が多いです。

Abstract image of AI brain in technology tunnel.

ファインチューニングを始めると、モデルはこれらの例に基づいて内部接続を調整し始めます。ゼロから言語を学習するのではなく、あなたの特定のパターンや嗜好を学習します。

このプロセスは「低ランク適応」（LoRA）と呼ばれるテクニックを使っており、驚くほど効率的です。 LoRAは、モデルの全パラメータを修正するのではなく、小さな戦略的なコネクションを調整します。このアプローチは、優れた結果を達成しながら、時間とコンピューティングリソースを節約します。

トレーニング中、モデルはあなたの例を繰り返し処理し、あなたが望むスタイルや形式に一致する応答を生成する能力を徐々に向上させます。あなたの入力に対して正しい出力を予測しようとし、その答えをあなたの例と照らし合わせてチェックし、間違いを犯したところに基づいてアプローチを調整します。

このプロセスでは、「オーバーフィッティング」（モデルがあなたの特定の例に集中しすぎて、新しい、わずかに異なる状況に対応する能力を失うこと）を防ぐために、注意深く監視する必要があります。これは、生徒が特定の答えを暗記するのではなく、一般的な原則を学べるようにするようなものだ。

ファインチューニングが完了すると、元のモデルの幅広い能力はそのままに、特定のタスクに特化したバージョンができあがります。この新しいモデルでは、あなたが望む動作がパラメータに組み込まれているため、プロンプトの詳細な指示は少なくて済みます。しかし、ファインチューニングは新たな事実知識を追加するのではなく、主にモデルに新たな行動パターンや書式、特殊な反応方法を教えます。

ファインチューニングを使う場合

以下にYESと答えられるなら、微調整を選択します：

一貫性の高い出力フォーマットやスタイルが必要か？
同じようなリクエストを大量に処理していないか？
質の高いトレーニング例を作成できるか？
このモデルを長期間使用するか？
機械学習の専門知識を利用できるか？
プロンプトの長さと推論コストの削減は重要か？

これらの質問のうち2つ以上にNOと答えた場合は、代わりにプロンプト・エンジニアリングまたはRAGの使用を検討してください。

注意

次のような場合は、微調整は最善の選択ではないかもしれない：

ユースケースが頻繁に変更される、または常に更新が必要
少なくとも50～100の質の高いトレーニング例を作成できない
現在またはリアルタイムの情報を参照する必要がある
初期研修費用を予算で賄えない
数日以内にソリューションを導入する必要がある
モデルメンテナンスのための技術的リソースが不足している（微調整にはリソースが必要になることが多い）
タスクの要件がまだ明確に定義されていない
透明性のあるソースベースの対応が必要

理想的なシナリオ

ファインチューニングが最も効果的なのは次のような場合です：

一貫したカスタマーサービスの対応
標準化された文書（報告書、電子メール、サマリー）の作成
データを特定の形式に変換する
特定のブランドの声やスタイルで書く
大量の類似依頼を処理する
特定のビジネスルールやポリシーの導入
反復作業の運用コストを削減

インターシステムズIRISがAI強化戦略を強化する方法

プロンプト・エンジニアリング、RAG、ファインチューニングのいずれかを選択することは、複雑な決断である必要はない。 InterSystems IRISは、ご自身の特定のニーズや目的を基に、これらのアプローチの何れかを導入する場合でも、組み合わせる場合でも、導入の柔軟性を提供します。

InterSystems IRIS の特長は、単一のプラットフォームで、3 つの AI 強化手法のすべてを包括的にサポートしていることです。複数のシステムを組み合わせたり、複雑な統合について心配したりする必要はありません。シンプルなプロンプト・エンジニアリングから始める場合でも、洗練されたRAGシステムを構築する場合でも、InterSystems IRISは必要な基盤を提供します。

今すぐInterSystems IRISをお試しいただき、進化するニーズを理解し適応するプラットフォームのサポートにより、組織がこれらのAI強化アプローチを効果的に活用する方法をご確認ください。

ベクトル検索によるセマンティック検索と生成AI

InterSystems IRIS Data Platform 2024.1がベクトル検索機能を提供、

セマンティック検索とジェネレーティブ検索を簡単に追加できる強力な新機能です。

AI機能をあなたのアプリケーションに。

詳細はこちら

RAG vs ファインチューニング vs プロンプト・エンジニアリング：知っておくべきすべて

AI(LLM)精度向上のために

RAG vs ファインチューニング vs プロンプトエンジニアリング

違いの簡単なまとめ