• início
  • confira
  • sobre nós
  • serviços
  • contato
  • flash!

Jabuticaba

Significado da palavra Jabuticaba

Jabuticaba é um dataset mais extenso e completo corpus da língua portuguesa já desenvolvido com foco em Large Language Models (LLMs). Com mais de 669 GB de dados textuais limpos e 139 bilhões de tokens, o Jabuticaba foi criado pela equipe da SoberanIA, uma iniciativa brasileira que visa desenvolver inteligência artificial de ponta em português, respeitando os aspectos culturais, linguísticos e institucionais do Brasil.

O que é o Dataset Jabuticaba?

O Jabuticaba é um dataset construído exclusivamente com textos em português, cuidadosamente selecionados, limpos e desduplicados. A base possui:

  • Mais de 669 GB de texto puro;
  • Cerca de 3.500 arquivos no formato .jsonl;
  • 139 bilhões de tokens, utilizando o tokenizador tiktoken, da OpenAI.

Essa base de dados foi construída com o propósito de alimentar modelos de linguagem de grande escala que operam integralmente em português, como o modelo SoberanIA, o primeiro LLM brasileiro treinado com corpus nacional.

Por que o nome “Jabuticaba”?

O nome “Jabuticaba” carrega um simbolismo importante. Trata-se de um fruto típico do Brasil, frequentemente usado para se referir a fenômenos únicos da realidade brasileira. Nesse contexto, o nome expressa com precisão o propósito do dataset: oferecer uma base de dados genuinamente brasileira, voltada às necessidades do nosso idioma, cultura e sociedade.

Origem e contexto institucional

A construção do Jabuticaba está vinculada ao projeto SoberanIA, desenvolvido pela Secretaria de Inteligência Artificial, Economia Digital, Ciência, Tecnologia e Inovação (SIA) do estado do Piauí. A execução técnica foi liderada pelo Instituto de Tecnologia do Piauí (PIT), com apoio da Empresa de Tecnologia da Informação do Piauí (ETIPI).

O projeto tem como objetivo fomentar a soberania tecnológica brasileira, oferecendo alternativas nacionais aos grandes modelos estrangeiros como ChatGPT, Gemini ou Claude. O SoberanIA já está sendo utilizado em diversas áreas do governo estadual, incluindo:

  • Atendimento ao cidadão;
  • Educação;
  • Saúde;
  • Segurança pública;
  • Jurídico e governança.

Metodologia de construção

A criação do dataset Jabuticaba seguiu uma metodologia rigorosa e baseada em padrões internacionais, com etapas específicas para garantir qualidade, diversidade e segurança dos dados. Veja a seguir os principais passos:

Coleta de dados

A base foi formada por meio de raspagem e curadoria de textos públicos, com destaque para conteúdos em domínio público ou sob licenças permissivas. As principais fontes incluem:

  • Artigos jornalísticos;
  • Textos acadêmicos;
  • Documentos públicos;
  • Leis e decisões jurídicas;
  • Literatura;
  • Poesia;
  • Música;
  • Páginas da Wikipédia em português.

Detecção de idioma

Foi utilizada uma ferramenta de identificação automática de idioma para garantir que todos os textos fossem em português. Qualquer conteúdo em outros idiomas foi descartado.

Filtragem e limpeza

Nesta etapa, o foco foi remover ruídos, como:

  • Spam;
  • Comentários automáticos de internet;
  • Textos mal formatados;
  • Sequências incoerentes.

Foram aplicados modelos e heurísticas para classificar e manter somente os textos com coerência linguística e relevância semântica.

Remoção de toxicidade

Um dos diferenciais do Jabuticaba é o compromisso com a ética e segurança no treinamento de IA. Foram removidos textos contendo:

  • Discurso de ódio;
  • Conteúdo ofensivo;
  • Assédio ou violência;
  • Termos sexualmente explícitos ou racistas.

A filtragem foi feita com auxílio de classificadores automáticos de toxicidade e revisão humana em amostras aleatórias.

Normalização de texto

Após a limpeza, os textos passaram por normalização, que inclui:

  • Unificação de codificação (UTF-8);
  • Padronização de acentuação e pontuação;
  • Remoção de símbolos desnecessários;
  • Correção de espaçamentos e quebras de linha.

Desduplicação

Para evitar redundância e viés estatístico, foi feita uma desduplicação automática utilizando técnicas de comparação de similaridade textual. Isso garante que o modelo seja treinado com dados únicos, otimizando seu desempenho e reduzindo o custo computacional.

Tokenização

A última etapa foi a tokenização, feita com o tokenizador tiktoken, utilizado em modelos da OpenAI. Esse processo converte os textos em sequências de tokens, que são as unidades básicas de linguagem processadas por LLMs.

Estrutura técnica

O dataset Jabuticaba está disponível no formato .jsonl (JSON linha a linha), ideal para ingestão em pipelines de NLP e frameworks de treinamento como Hugging Face Transformers, PyTorch ou TensorFlow.

Cada arquivo possui no máximo 200 MB, somando cerca de 3.500 arquivos, totalizando 669 GB.

A base é classificada e organizada por tipo de conteúdo e origem, o que facilita filtragens e experimentos específicos com subconjuntos.

Licença e acesso

A base é distribuída sob a licença Creative Commons BY-SA 4.0, o que permite:

  • Uso comercial;
  • Compartilhamento;
  • Modificação;

Desde que sejam atribuídos os devidos créditos aos autores e mantida a mesma licença nos derivados.

O acesso é restrito (gated) na plataforma Hugging Face, sendo necessário solicitar autorização para download. O objetivo, segundo os idealizadores, é garantir uso responsável e monitorado, especialmente em ambientes governamentais e acadêmicos.

Impacto e aplicações

1. Treinamento de LLMs

O Jabuticaba é a base do treinamento do modelo SoberanIA, que já opera com qualidade comparável a modelos internacionais, mas com vocabulário, contexto jurídico e expressões idiomáticas 100% brasileiros.

2. Uso em políticas públicas

Ao incorporar esse modelo a sistemas governamentais, o estado do Piauí já utiliza IA para:

  • Atendimento automatizado com linguagem natural;
  • Análise de documentos públicos;
  • Geração de relatórios técnicos;
  • Apoio à formulação de políticas públicas.

3. Educação e pesquisa

O Jabuticaba é um marco para a pesquisa em linguística computacional, com potencial para ser usado por universidades e centros de pesquisa em áreas como:

  • Processamento de linguagem natural (PLN);
  • Mineração de texto;
  • Tradução automática;
  • Análise de sentimentos;
  • Geração de texto.

4. Soberania tecnológica

Ao criar um LLM treinado com base brasileira, o país dá um passo crucial para reduzir sua dependência de big techs estrangeiras, reforçando:

  • Segurança cibernética;
  • Autonomia na produção de conhecimento;
  • Inovação local com identidade nacional.

Avanços futuros: SoberanIA 2.0

A equipe da SoberanIA já planeja a próxima etapa do projeto: o modelo Soberano II, que terá:

  • 1 trilhão de tokens;
  • Capacidade multimodal (texto, som, imagem e vídeo);
  • Lançamento previsto até dezembro de 2026.

Esse avanço exigirá novos datasets, maior capacidade computacional e expansão das parcerias com universidades e centros de supercomputação no Brasil.

Conclusão

O Dataset Jabuticaba é um marco histórico para o Brasil no campo da inteligência artificial. Sua construção ética, técnica e contextualizada oferece um recurso estratégico para governos, universidades e empresas que desejam treinar modelos de linguagem em português de forma soberana, eficiente e alinhada com os valores nacionais.

Com mais de 139 bilhões de tokens, o Jabuticaba mostra que é possível competir globalmente em IA, respeitando as particularidades da nossa língua e cultura. Ele representa, antes de tudo, um compromisso com a inovação tecnológica brasileira com identidade própria.

Palavras relacionadas ao termo Jabuticaba:

  • dataset
  • IA
  • inovação
  • inteligência artificial
  • LLM
  • SoberanIA
  • tecnologia
  • TensorFlow
  • token
  • tokens

Glossário A-Z

  • A
  • B
  • C
  • D
  • E
  • F
  • G
  • H
  • I
  • J
  • K
  • L
  • M
  • N
  • O
  • P
  • Q
  • R
  • S
  • T
  • U
  • V
  • W
  • X
  • Y
  • Z
Compartilhar
Fechar

Compartilhar

  • Facebook
  • Twitter
  • LinkedIn
  • WhatsApp
  • o mundo muda na velocidade de um raio. se inscreva na Flash!, nossa newsletter

    • início
    • confira
    • sobre nós
    • serviços
    • contato
    • flash!
    DESDE 2006
    • Política de privacidade
    • Aviso legal
    • LinkedIn
    • Instagram
    • Pinterest