Skip to content

Latest commit

 

History

History
146 lines (111 loc) · 9.96 KB

README_jp.md

File metadata and controls

146 lines (111 loc) · 9.96 KB
ロゴ

Question and Answer based on Anything

英語 | 簡体字中国語 | 日本語

         

              

    

目次

🚀 重要な更新

重要なことは三度言います。

ビジネスに関するお問い合わせ:

010-82558901

QAnythingとは?

QAnything(Question and Answer based on Anything) は、さまざまなファイル形式やデータベースをサポートするローカル知識ベースの質問応答システムで、オフラインでのインストールと使用が可能です。

QAnythingを使用すると、任意の形式のローカルファイルをドロップするだけで、正確で迅速かつ信頼性の高い回答を得ることができます。

現在サポートされている形式には、PDF(pdf)Word(docx)PPT(pptx)XLS(xlsx)Markdown(md)電子メール(eml)TXT(txt)画像(jpg、jpeg、png)CSV(csv)、**ウェブリンク(html)**などがあります。さらに多くの形式が近日中にサポートされる予定です。

主な特徴

  • データセキュリティ、インストールと使用の全過程でネットワークケーブルを抜いた状態でのサポート。
  • クロスランゲージQAサポート、ドキュメントの言語に関係なく、中国語と英語のQAを自由に切り替えることができます。
  • 大量データQAのサポート、2段階の検索ランキングにより、大規模データ検索の劣化問題を解決。データが多ければ多いほど、パフォーマンスが向上します。
  • 高性能なプロダクショングレードのシステム、企業アプリケーションに直接デプロイ可能。
  • ユーザーフレンドリー、面倒な設定は不要。ワンクリックでのインストールとデプロイ、すぐに使用可能。
  • 複数の知識ベースQAのサポート、複数の知識ベースを選択してQ&Aを行うことができます。

アーキテクチャ

qanything_system

なぜ2段階の検索なのか?

知識ベースのデータ量が多いシナリオでは、2段階のアプローチの利点は非常に明確です。第1段階の埋め込み検索のみを使用すると、データ量が増加するにつれて検索の劣化が発生します。以下のグラフの緑色の線で示されています。しかし、第2段階の再ランキング後、精度が安定して向上します。つまり、データが多ければ多いほど、パフォーマンスが向上します

two stage retrievaal

QAnythingが使用している検索コンポーネントBCEmbeddingは、そのバイリンガルおよびクロスリンガルの能力で際立っています。BCEmbeddingは、中国語と英語の言語間のギャップを埋めることに優れており、以下を実現しています。

1段階目の検索(埋め込み)

モデル 検索 STS ペア分類 分類 再ランキング クラスタリング 平均
bge-base-en-v1.5 37.14 55.06 75.45 59.73 43.05 37.74 47.20
bge-base-zh-v1.5 47.60 63.72 77.40 63.38 54.85 32.56 53.60
bge-large-en-v1.5 37.15 54.09 75.00 59.24 42.68 37.32 46.82
bge-large-zh-v1.5 47.54 64.73 79.14 64.19 55.88 33.26 54.21
jina-embeddings-v2-base-en 31.58 54.28 74.84 58.42 41.16 34.67 44.29
m3e-base 46.29 63.93 71.84 64.08 52.38 37.84 53.54
m3e-large 34.85 59.74 67.69 60.07 48.99 31.62 46.78
bce-embedding-base_v1 57.60 65.73 74.96 69.00 57.29 38.95 59.43

2段階目の検索(再ランキング)

モデル 再ランキング 平均
bge-reranker-base 57.78 57.78
bge-reranker-large 59.69 59.69
bce-reranker-base_v1 60.06 60.06

LlamaIndexによるRAG評価(埋め込みと再ランキング)

注記:

  • WithoutReranker設定では、私たちのbce-embedding-base_v1が他のすべての埋め込みモデルを上回ります。
  • 埋め込みモデルを固定した場合、私たちのbce-reranker-base_v1が最高のパフォーマンスを達成します。
  • bce-embedding-base_v1bce-reranker-base_v1の組み合わせがSOTAです
  • 埋め込みと再ランキングを個別に使用したい場合は、BCEmbeddingを参照してください。

LLM

オープンソース版のQAnythingはQwenLMに基づいており、多数の専門的な質問応答データセットで微調整されています。QwenLMのベースに基づいて、質問応答の能力を大幅に強化しています。 商用目的で使用する場合は、QwenLMのライセンスに従ってください。詳細については、QwenLMを参照してください。

🚀 最新の更新

  • 2024-05-20: OpenAI APIと互換性のある他の大規模モデルサービスをサポートし、最適化された強力なPDFパーサーを提供します。 - 詳細はこちら👉 v1.4.1
  • 2024-04-26: ウェブ検索、FAQ、カスタムボット、ファイルトレーサビリティプレビューなどをサポートします。 - 詳細はこちら👉 v1.4.0
  • 2024-04-03: 純粋なPython環境でのインストールをサポートします。ハイブリッド検索をサポートします。 - 詳細はこちら👉 v1.3.0
  • 2024-01-29: **カスタム大規模モデルのサポート、OpenAI APIおよび他のオープンソース大規模モデルを含む、最小GPU要件をGTX 1050