Lower default chunking max segment sizes #15

melw66 · 2024-11-04T21:48:13Z

For each embedding model, lowered the default chunking max segment size in characters from the max character limit to a lower value for each Bedrock embedding model so that model token count limits are not hit with the default configuration.

Amazon Titan Text Embeddings V1
- Token limit: 8,192 tokens
- Max character limit: 50,000
- New default character limit: 16,000
Amazon Titan Text Embeddings V2
- Token limit: 8,192 tokens
- Max character limit: 50,000
- New default character limit: 16,000
Amazon Titan Multimodal Embeddings G1
- Token limit: 128 tokens
- Max character limit: 100,000
- New default character limit: 50,000
Cohere Embed English
- Token limit: 512 tokens
- Max character limit: 2048
- New default character limit: 1000
Cohere Embed Multilingual
- Token limit: 512 tokens
- Max character limit: 2048
- New default character limit: 1000

lower default max segment size for chunking for each embedding model

3d7304f

melw66 requested a review from vaibhavisobti November 4, 2024 21:48

vaibhavisobti approved these changes Nov 4, 2024

View reviewed changes

melw66 merged commit 195b1e5 into main Nov 4, 2024
1 check passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Lower default chunking max segment sizes #15

Lower default chunking max segment sizes #15

melw66 commented Nov 4, 2024

Lower default chunking max segment sizes #15

Lower default chunking max segment sizes #15

Conversation

melw66 commented Nov 4, 2024