LLMのRAG のバックアップ(No.13) - .NET 開発基盤部会 Wiki

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る
- ChatGPT
- OSSのLLM
- LLMのPE
- LLMのRAG
- LangChain
- LlamaIndex

目次 †

目次
概要
詳細
参考
- 理論
- 実装

↑

概要 †

RAG（Retrieval-Augmented Generation）

LLMと情報検索を組み合わせた技術。
情報取得や質問応答の分野で強力。

↑

開発方法 †

フレームワークやVDBを使用する。

↑

機能・コンポーネント †

↑

チャンク（Chunk） †

Chunkは、大量のデータを小さなSegment（Chunk）に分割する。
このプロセスにより、特定の情報を検索し易くなる。
各Chunkは、独立して検索可能な単位となる。

↑

埋め込み（Embedding） †

Embeddingは、テキストデータを数値ベクトルに変換するプロセス。
ベクトル化により、テキストデータの意味的な類似性を計算が容易になる。
RAGでは、Embeddingを使用して、検索QueryとDB内のChunkとの類似性を計算し、最も関連性の高いChunkを特定する。

↑

検索（Retrieval） †

検索部分では、Queryに対して関連性の高い情報をDBから取得する。
具体的には、プロンプトに対して最も関連性の高いChunkを検索エンジンや埋め込みベクトルの類似性に基づいて見つけ出す。

↑

拡張（Augmented） †

ユーザ入力＋取得した情報を統合して拡張。

↑

生成（Generation） †

生成部分では、統合情報を入力し、LLMがユーザーに回答を提供する。

↑

プロセス †

↑

知識情報の分割 †

ユーザーが知識情報を入力

↑

知識情報の埋め込み †

Embeddingで知識情報を埋め込みベクトルに変換

↑

質問の入力（Query Input） †

ユーザーが質問を入力

↑

質問の埋め込み（Query Embedding） †

Embeddingで質問を埋め込みベクトルに変換

↑

情報の検索（Information Retrieval） †

質問の埋め込みベクトルを使用して、DB内の関連Chunkを検索

↑

情報の生成（Information Generation） †

検索されたChunkを基にプロンプトを生成
LLMが生成されたプロンプトを元に回答を生成

↑

回答の提供（Answer Delivery） †

最終的にユーザーに回答を提供

↑

キーワード †

↑

埋め込みベクトル（Embedding Vector） †

Embeddingで、テキストをベクトルに変換した表現方法。

↑

類似性計算（Similarity Calculation） †

埋め込みベクトル間の類似性を内積、距離などで計算するプロセス。

↑

詳細 †

RAGの拡張手法について

↑

手法 †

代表的な手法

↑

Chunk拡張 †

非常に単純な手法で、検索でヒットしたChunkの前後のChunkもコンテキストに含めてLLMに渡すという方法
Chunkサイズを大きくする場合と効果は似ているが、Chunkサイズを大きくすると、検索精度が落ちる問題があった。

↑

Re-Rank †

検索で得たChunkに対して、クエリとの類似度が高い順に並び変え再度ランク付けをする手法
Chunkを得るための検索はベクトルの内積計算にして、Re-RankでTransformerやLLMを使用する。
これにより、高コストの処理を減らし、消費するリソースを削減できる。

↑

RAG-Fusion †

入力クエリに類似したクエリをLLMにより幾つか生成し、それぞれのクエリの検索結果を統合する方法。
類似クエリでも上位に来るChunkは重要なChunkだと言う仮定から、投票制で重要なChunkを取得する。

↑

Hybrid-Query †

ハイブリッド・サーチ、ハイブリッド検索

性質の異なる複数の検索方式（例えばベクトル検索とキーワード検索）を組み合わせて検索精度を向上させる手法
キーワードベースの検索とベクトル検索を組み合わせたハイブリッド検索で精度が高く出るという結果が報告されている。

検索技術

キーワード検索
- TF-IDF
- BM25（TF-IDFの進化系）

ベクトル検索は
- BERT
- Sentence-Transformers

↑

Sub Query †

入力クエリが複雑な場合や、複合的な意味を持っている場合に有効な手法
入力クエリをSub Queryに分解し、それぞれのSub Queryでのレスポンスを最後に合成して回答する

入力クエリ

「XとYの意味をそれぞれ教えて」

LLMによって生成されたSub Query

Sub Query1

Xの詳細な定義とその意味は何ですか？

Sub Query2

Yの詳細な定義とその意味は何ですか？

最終レスポンス

Sub Query1への回答＋Sub Query2への回答

↑

Multi Step Query †

クエリの分解と段階的な推進により、複数のChunkを取得して回答を洗練させる手法

例
- データソース: 著者に関する質問に答える

入力クエリ: 著者が始めた事業共創プログラムの最初のメンバーには誰が参加しましたか?

クエリの分解1:
- Q：著者はどのような事業共創プログラムを開始しましたか?
- A：著者は、Y Combinator (YC) という事業共創プログラムを開始しました。

クエリの分解2:
- Q：Y Combinator の事業共創プログラムの最初のメンバーは誰ですか?
- 2005 年に開始された Y Combinator の事業共創プログラムの最初のバッチには、次のようなスタートアップ企業が含まれていました。

クエリの分解3:
- Q：なし（これ以上の質問はありません）。
- A：

最終的な回答:
Y Combinator 事業共創プログラムの最初のバッチには、
Reddit (Steve Huffman と Alexis Ohanian によって設立)、
Loopt、Weebly、Twitch (Justin Kan によって設立) などのスタートアップが含まれていました。

↑

HyDE †

Hypothetical Document Embeddingsの略で、LLMに仮の回答を作らせて、その仮の回答をベクトル化して検索に使うという方法。
本来はQ＆AでQからA（が書かれているだろうChunk）を当てに行くが、QからLLMで生成したA'を使用してAを当てに行く。
LLMが「A」についての基礎知識を有しており「A'」を肉付けしたものが「A」になるようなケースで利用できる可能性がある。

↑

Stepback Prompt †

入力Promptを一段抽象化させたStepback Promptをクエリに用いてChunk検索した結果と合成する。
Promptに対してピンポイントなChunkがないケースでもStepback Promptで推論が可能になるケースがある。
- Stepback Promptで定義、歴史、計算式などの「基礎的なChunk」を取得して回答を行う。
- 入力PromptでChunk検索した結果の「派生のChunk」を使用すると不適切な回答が生成される事がある。

例
- X氏は19XX年のY月～Z月まで何をしていたか？と言う質問があったとする。
- X氏に関して、19XX年と言う文字列に該当する経歴の情報が無い場合がある。
- ステップバック質問でX氏の経歴情報を取得する。ココに 19YY < 19XX < 19ZZ の情報が書かれていれば回答可能。

↑

Pandas Dataframe †

PandasのDFをChunkに分割せず、テーブル構造を保持したまま処理する。
文字列としてではなくLLM を使用しプロンプトからPandas Pythonコードの回答を得てコレを実行した結果から回答を取得する。
LlamaIndexではTextToSQLと共に、構造化データを処理する機能の一部。

↑

TextToSQL †

Pandas DataframeのRDB + SQLバージョン。
LlamaIndexではPandas Dataframeと共に、構造化データを処理する機能の一部。

↑

体系 †

以下は各種、手法の分類

Query Translation
Routing
Query Construction

Indexing

Retrieval
Generation

↑

Query Translation †

適切なChunkを取得できるようにクエリを適切な形式に変換するプロセス
手法例：Multi-query（Hybrid-Query、Sub Query（Decomposition）、Multi Step Query）、RAG-Fusion、HyDE、Stepback Prompt

↑

Routing †

適切なChunkを取得できるようにデータストアやプロンプト（システム・プロンプト、プロンプト・テンプレート）を選択するプロセス
手法例：Logical Routing（データストア）、Semantic Routing（システム・プロンプト、プロンプト・テンプレート）

↑

Query Construction †

適切なChunkを取得できるようにRoutingの結果でクエリをデータストアに適合した形式に変換するプロセス
手法例：TextToSQL、TextToCypher、Self-query Retriever

↑

Indexing - Chunking †

適切なChunkを取得できるようにIndexingプロセス「のChunkingを」工夫する。

Fixed Size Chunking
- 難易度１
- 文書を固定長でChunking

Recursive Chunking
- 難易度２
- 設定サイズを下回るまで再帰的にChunking
- 分割は区切り文字的なモノを目安に行う。

Document Based Chunking
- 難易度３
- 文書ごと(MarkdownやPythonプログラムなど)にChunking

Semantic Chunking
- 難易度４
- 文単位で分割・Embeddingをして、次の文との類似度が大きく「異なる」箇所でChunking
- EmbeddingにはLLMを使用、コサイン類似度を計算し、ClusteringアルゴリズムでChunking

Agentic Chunking
- 難易度５
- LLMで文書から命題を作り、命題内容に応じたChunk作成(Dense Xと同じ)

↑

Indexing - Embedding †

適切なChunkを取得できるようにIndexingプロセス「のEmbeddingを」工夫する。

Summary Embedding
- LLMが元文書を要約し要約でIndexing
- Index対象：元文書の要約(LLMが要約)
- Retrireve対象：元文書

Specialized Embeddings
特別なEmbedding方法

Fine-tuning Indexing
クエリと文書をEmbeddingするモデルをファインチューニング

ColBERT Indexing
クエリと文書をToken単位でEmbeddingし、両者の最大類似度でスコアリング

↑

Indexing - Indexing †

適切なChunkを取得できるようにIndexingプロセス「のIndexingを」工夫する。

Multi-representation Indexing
文書をRetrieveしやすい単位・複数形式に変換してIndexing

Parent Document Indexing
- 文書(Parent)を文書(Child)に分割
- Index対象：文書(Child)
- Retrireve対象：文書(Parent)

Dense X Indexing
LLMが元文書を複数の命題に変換し、これらの命題でIndexing
- Index対象：元文書の命題(LLMが命題に変換)
- Retrireve対象：元文書
- 質問: ピサの斜塔の角度は何ですか？
  - 文章: 1990 年から 2001 年にかけて修復工事が行われる前は、塔は 5.5 度傾いていましたが、現在は[約 3.99 度傾いています。]
    これは、ピサの斜塔の頂上が中心から水平方向に 3.9 メートル (12 フィート 10 インチ) ずれていることを意味します。
  - 文　: 1990 年から 2001 年にかけて修復工事が行われる前は、塔は 5.5 度傾いていましたが、現在は[約 3.99 度傾いています。]
  - 命題: [ピサの斜塔は現在約 3.99 度傾いています。]

Hierarchical Indexing
再帰的抽象化処理による階層的なツリー構造のIndexing

RAPTOR Indexing
元文書をEmbedding、Clustering、要約を繰り返しルート要約Embeddingまで作成して検索
- Index対象：要約文書の
- Retrireve対象：元文書のリーフ

↑

Retrieval †

Chunkを検索・取得するRetrievalプロセスを工夫する。
手法例：Ranking（Re-Rank, RankGPT, RAG-Fusion）、Refinement（CRAG）、Active Retrieval（CRAG）

↑

Generation †

RAG内で使用するLLMのGenerationプロセスを工夫する。
手法例：Active Retrieval（Self-RAG、RRR）

↑

GraphRAG †

TextToCypherはGraphDBを使用してRAGする。

↑

参考 †

深層学習についてのレポート（LLM編）
https://www.osscons.jp/joho108j0-537/#_537

↑

理論 †

RAGをはじめるならここから（仕組みを図解、超入門） #rag - Qiita
https://qiita.com/Kahiro/items/56545a93bb99d8bdd8e3
RAGの精度を上げるために参考にした文献や情報など #rag - Qiita
https://qiita.com/oggata/items/0a21f63dbb5156d484de

RAGの秘密を解き明かす：LLMの能力を最大化する実践ガイド(1) #rag - Qiita
https://qiita.com/dennis_wang/items/d40b848a21e4d8239472
ゼロからはじめるRAG：クラウドに頼らない完全ローカル構築ガイド #AI - Qiita
https://qiita.com/dennis_wang/items/04251529a2f4fe12aa31

RAGの実装戦略まとめ #Python - Qiita
https://qiita.com/jw-automation/items/045917be7b558509fdf2
RAG精度向上のための6つのポイント #LLM - Qiita
https://qiita.com/hmkc1220/items/01efb6a669ba262ee514
RAG入門: 精度改善のための手法28選 #Python - Qiita
https://qiita.com/FukuharaYohei/items/0949aaac17f7b0a4c807

GraphRAGをわかりやすく解説 #LLM - Qiita
https://qiita.com/ksonoda/items/98a6607f31d0bbb237ef
GraphRAGを使った生成AIチャットアプリを作ってみた #LLM - Qiita
https://qiita.com/ssfujita/items/65a952f299190f4c1e6a

↑

実装 †

OpenAIのAssistants APIでRAG(検索拡張生成)を実装してみた #Python - Qiita
https://qiita.com/nabata/items/db8890da03df1d81997a

【令和6年最新版】Azure OpenAI でRAG構築〜各種パラメータと機能についてまとめてみた〜
https://zenn.dev/aidemy/articles/cd79fe964ebbff