RAGチャンキングビジュアライザー

RAG-Chunking-Visualizer
Copied!
Input text
Chunk size (characters)
Chunk count
0 chunk(s)
Chunk 1 Chunk 2 Chunk 3 Chunk 4
Highlighted text (by chunk)

長文がどのように重複するチャンクに分割されるかを示す無料のRAGテキストチャンキング可視化ツールです。チャンクサイズとオーバーラップ(文字数)を設定し、同じテキストが交互の色でチャンクごとにハイライト表示される様子を確認できます。全文をコピーするか、チャンクをJSON配列としてエクスポートできます。すべてブラウザ内で実行され、サーバーは不要です。検索拡張生成(RAG)パイプラインの構築やチャンクサイズ・オーバーラップの調整時に便利です。

このRAGチャンキングツールを使用する理由

  • 視覚的: 各チャンクの開始と終了位置、およびオーバーラップの仕組みを正確に確認できます。
  • 調整可能: チャンクサイズとオーバーラップを調整し、ビューを即座に更新できます。
  • エクスポート: 全文をコピーするか、アプリで使用するためにチャンクをJSON配列としてコピーできます。
  • プライベート: すべての処理はあなたのブラウザ内で行われます。

主な機能

  • チャンクサイズとオーバーラップ: 文字数ベースのチャンクサイズとオーバーラップを設定します。このツールはスライディングウィンドウ(ステップ = サイズ − オーバーラップ)を使用します。
  • カラーハイライト: 最大4つの交互に変わる背景色で、チャンクの境界を確認できます。
  • チャンク数: 生成されたチャンクの数を表示します。
  • 全文をコピー / JSON配列としてコピー: 元のテキストまたはチャンク文字列の配列をコピーします。

仕組み

このツールは、スライディングウィンドウを使用して入力文字列をセグメントに分割します:各チャンクの長さは「チャンクサイズ」です。次のチャンクは、前のチャンクの開始位置から「チャンクサイズ − オーバーラップ」文字後に開始されるため、連続するチャンクは「オーバーラップ」文字分重なります。各セグメントは、4つの背景色のいずれかを適用するクラスを持つspanタグで囲まれます。JSON配列は、順序付けられたチャンク文字列のリストです。

RAGチャンキングビジュアライザーを試す

テキストを貼り付け、チャンクサイズとオーバーラップを設定してください。入力や値の変更に応じて、ハイライトされたチャンクが更新されます。凡例を使用して色をチャンクの順序に対応させ、コピーボタンを使用して全文またはチャンクのJSON配列を取得してください。