Como Criar e Usar AWS Knowledge Base com S3 Vector Store – Guia Prático

Introdução

Neste tutorial, você aprenderá a criar uma Knowledge Base na AWS utilizando o S3 como Vector Store. Vamos construir um exemplo prático com descrições de jogos populares e testar a busca semântica diretamente no console da AWS.

O que é AWS Knowledge Base?

AWS Knowledge Base é um serviço gerenciado que permite criar aplicações de busca semântica e RAG (Retrieval-Augmented Generation) usando seus próprios dados. Ele utiliza embeddings vetoriais para encontrar informações relevantes baseadas no significado, não apenas em palavras-chave.

Pré-requisitos

  • Conta AWS ativa
  • Acesso ao console AWS
  • Permissões para criar recursos no S3, Bedrock e IAM

Passo 1: Preparar os Arquivos de Dados

Primeiro, vamos criar 10 arquivos de texto com o conteúdo desejado, no meu caso, utilizei jogos populares apenas para exemplificar. Cada arquivo conterá informações sobre gênero, gameplay e características principais dos jogos.

Exemplo de arquivo:

Passo 2: Criar um Bucket S3

1. Acesse o console AWS e navegue até o serviço S3

2. Clique em “Create bucket

3. Configure o bucket:

  • Bucket name: “knowledge-base-jogos-demo-otavio-blog” (escolha um nome único)
  • AWS Region: Selecione a região mais próxima (ex: us-east-1)
  • Block Public Access: Mantenha todas as opções marcadas (recomendado)

4. Clique em “Create bucket

Passo 3: Fazer Upload dos Arquivos para o S3

1. Acesse o bucket criado

2. Clique em “Upload

3. Clique em “Add files” ou “Add Folder” e selecione todos os 10 arquivos .txt

4. Clique em “Upload

Dica: Você pode criar uma pasta dentro do bucket (ex: “jogos/”) para organizar melhor seus arquivos.

Passo 4: Criar a Knowledge Base

  • No console do Amazon Bedrock, navegue até “Knowledge bases” no menu lateral
  • Clique em “Create” e Knowledge Base with Vector Store

4.1 – Detalhes da Knowledge Base

  • Knowledge base name: `KB-Jogos-Demo`
  • Description: “Knowledge base para busca semântica de informações sobre jogos”
  • IAM Role: Selecione “Create and use a new service role”
  • Data Source Type: Amazon S3
  • Clique em “Next”

4.2 – Configurar Data Source

  • Data source name: “S3-Jogos”
  • S3 URI: Navegue e selecione o bucket criado (ex: `s3://knowledge-base-jogos-demo-otavio-blog`)
  • Para esse exemplo, você pode manter os demais valores como “default”
  • Clique em “Next”

4.3 – Escolher o Modelo de Embeddings e Configurar Vector Store

Esta é uma etapa crucial, pois para realizar busca semântica é necessário escolher o modelo adequado. O modelo recomendado é o Amazon Titan Embeddings G1 – Text, por ser otimizado para busca semântica tanto em português quanto em inglês, oferecendo uma boa relação custo-benefício. Ele trabalha com 1536 dimensões, o que garante alta precisão nos vetores gerados, e suporta textos de até 8.192 tokens. Portanto, nas configurações, o modelo de embeddings deve ser definido como Amazon Titan Embeddings G1 – Text, utilizando 1536 como dimensão padrão dos vetores. Escolha a opção Quick create a new vector store, que permite criar automaticamente um repositório vetorial de forma simplificada. Neste caso, selecione em “Vector Store Type” a opção “Amazon S3 Vectors“, que é uma alternativa mais simples e econômica para determinados cenários.

Após a configuração do modelo e vector store, você poderá revisar as informações e se estiver tudo conforme o esperado, é só clicar em “Create Knowledge Base“.

Passo 5: Sincronizar os Dados

Na página da Knowledge Base clique em “KB-Jogos-Demo”

Selecione o data source `S3-Jogos`, clique em “Sync” e aguarde a sincronização completar.

Passo 6: Testar a Knowledge Base

Agora vem a parte divertida! Vamos testar a busca semântica.

Na página da Knowledge Base, clique na aba “Test knowledge base

Depois que você clicou, você verá a interface do chat e terá que selecionar um modelo, recomendo utilizar o modelo Nova 2 Lite, após isso, você está livre para testar a Knowledge Base com quaisquer perguntas que desejar.

Parabéns! Agora você sabe como criar uma Knowledge Base completa na AWS utilizando o Amazon S3 como fonte de dados e aplicando busca semântica para recuperar informações de forma inteligente e contextual.

No próximo post, vamos evoluir ainda mais essa arquitetura, realizando buscas utilizando metadados para tornar os resultados ainda mais precisos e filtráveis.

Para se aprofundar, consulte também a documentação oficial da Amazon Web Services:
https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-base.html

Quer uma solução personalizada para seu negócio?

Nossos especialistas em cloud computing analisam seu caso e criam uma estratégia sob medida.

Compartilhe essa publicação
Sobre o autor