公開日:2026/02/10
会話形式で会社案内を行う音声チャットLLM RAG調整レポート
会話音声チャットのRAG(検索拡張生成)の検証・調整
- 音声インターフェース(xusux X2AIプラットフォーム)を通じて会社(IR情報)の内容を円滑に把握できるよう、RAG型音声AIシステムの応答品質向上を目的として検証を行いました。
- 主に回答内容の正確性と音声発語の分かりやすさの向上を目指して検証を行っております。
レポート対象範囲
・検索対象となるテキストデータの整備、及びAIへの指示(プロンプト)の調整
・チャンクオーバーラップ(Chunk Overlap)の最適化
実施内容
【検索対象テキストの改善】
RAGにより参照されるテキストデータについて、AIが必要な情報を適切に取得できるよう、内容および構造の見直しをし、検索時に関連性の高い情報が抽出されやすくなるよう調整しました。また、想定される問い合わせに対して適切な文書がヒットするかを確認しながら修正を重ねました。
<具体例>
・情報の粒度が大きすぎる文章の分割
・不要な説明文や文脈と無関係な記述の除去
・意味単位を意識したテキスト整理
【プロンプトの調整】
主に以下の点を意識して調整を実施しました。
・回答時の前提条件を明示
・出力形式や回答方針を具体的に指示
・曖昧な表現を避け、役割や目的を明確化
これにより、意図しない回答を避け、質問に対して簡潔かつ適切な応答が行われるよう改善を試みました。
検証結果
検証を通じ、RAGを使用した音声AIシステムにおける応答品質は、検索対象テキストの構造および数値データの表現方法に依存する傾向にあることが確認されました。また、音声出力を伴うシステムにおいては、テキストチャットとは異なる課題があると推測されます。
【音声出力特有の課題】
テキストチャットと音声応答では回答内容や精度に差が生じるケースが確認され、音声出力を前提とした検証が必須であることが分かりました。また、PDF由来の漢字や記号が読み上げ精度に影響を与える傾向があり、必ず正確に読み上げたい文言を含むデータについては、PDF形式の投入を避け、テキストベースで整備する方が安定することが分かりました。具体的には下記のように対応し、音声の揺れの抑制に努めています。
| 音声出力の課題 |
|---|
| 単位の読み上げが不安定になる |
| AIが正しく認識している数値でも、発語時に誤りが生じる |
| 対応 |
|---|
| 発語が難しい単語をひらがな表記に変更 |
| 記号的な単位表現を音の読み(カナ)に変換 |
| △などの記号を「マイナス」と明示的に置換 |
【数値データにおける誤認識と改善】
財務関連の質問において、本来は合計値を求めているにもかかわらず、特定の数値のみを抜き出して回答するケースが見られた為、データ構造を再設計しました。
| 予想される原因 |
|---|
| 数値に年度・単位・属性(グループ全体/単体)が付随していない |
| 表形式データがチャンク分割により分断されている |
| 対応 |
|---|
| 数値1つ1つに年度・単位・区分を明示 |
| 「カテゴリ > 項目 > 年度 > 数値」というフルパス構造で記載 |
| 単位は実際の数値に展開後、個別に付与。金額については、百万円単位表記を「○億○万円」のように実数ベースへ変換 |
また、前期・当期や複数年にまたがる財務データについては1行に集約することで、AIが前後関係を把握しやすくなり、「前年と比較して増減を説明する」といった回答が可能となりました。
【類似データ混在による回答揺れへの対策】
グループ全体と会社単体の数値、あるいは類似項目が並存する場合、AIがそれらを混同する傾向が確認された為、下記の対応を行い、同一項目に見えるデータ同士の混乱を抑制しました。
| 対応 |
|---|
| フルパスの先頭に属性タグを付与 |
| 各数値に「グループ全体」「単体」の区分を明示 |
| 「グループ全体」「単体」別のファイルを作成 |
| 項目名内にも区分文言を含め記載 |
【テキスト構造とチャンク取得に関する気づきと対応】
| 気づき | 対応 |
|---|---|
| 取得チャンクは、質問内容に関連する文章量が多い部分が優先的に選ばれる傾向がある | 役員情報など箇条書きになりやすい領域については、「役員一覧」「各役員個別」「 役職別」といった形でファイルを分割し、総量としての情報密度を高めた |
| 箇条書き形式よりも長文調の方がAIにとって情報密度が高いと判断されやすく、取得チャンクに選択されやすい | リスト形式の記述は文章量が多いと認識されるように情報を1行集約の形式に変更 |
| 表形式のデータは情報がチャンク分割で分断されやすい | チャンク分割を意識し、重要なキーワードと数値が近接するよう配置を調整 |
| ファイル名も回答生成時の参照対象となる | 読み上げたい文言を含む場合はひらがな表記に変更 |
【図表・グラフデータの扱い】
・図やグラフについては、Geminiを用いた文字起こし後、人が読むためではなくAIが理解しやすい形式を意識してマークダウン化を実施
・単位統一、桁数の補正、注釈位置の調整などを行い、AIが誤認識しやすい要素を事前に除去することで、回答精度の向上を図る
【プロンプト調整に関する知見】
プロンプトによる音声読み上げ制御は限定的な効果に留まり、テキスト側の前処理の方が影響度が高いことが分かりました。また、同一文言の重複読み上げ禁止についても、プロンプト指定により発生頻度を低減できましたが、完全な防止には至りませんでした。一方で、一定の効果が確認された事例もありました。
| 対応 |
|---|
| 年度の明示 |
| 現在・前年・来年の対応関係の指定 |
| 役員が複数いる場合は全員回答する指示 |
| キャラクター設定の整理 |
今後の課題
・現在の日付に関する質問に対して、実際と一日異なる日付を回答する事例が確認された。これはタイムゾーン設定の影響による可能性が高いと予想される。
・組織図やガバナンス体制などの関係図については、テキスト化や構造整理を行っても、AIに正確な関係性を認識させることが難しい場面が多く見られた。
・正確な数値が表示されていないグラフについては、今回テキストデータ化ができていない。そこも含めデータ化するのであれば、前段階での細かい数値資料の取得が必要。
全体所感
今回、RAGを用いた音声AIシステムに初めて触れる中で、精度向上において特に重要だと感じたのは、「いかにAIが理解しやすい形で情報を渡すか」です。
実際の検証では、数値データの属性付与やフルパス化、音声発話を考慮した表記統一など、データ側の改善を重ねることで、回答の正確性および音声での分かりやすさが大きく変化することを確認しました。
Other case
導入事例