Significado da palavra Jabuticaba
Jabuticaba é um dataset mais extenso e completo corpus da língua portuguesa já desenvolvido com foco em Large Language Models (LLMs). Com mais de 669 GB de dados textuais limpos e 139 bilhões de tokens, o Jabuticaba foi criado pela equipe da SoberanIA, uma iniciativa brasileira que visa desenvolver inteligência artificial de ponta em português, respeitando os aspectos culturais, linguísticos e institucionais do Brasil.
O Jabuticaba é um dataset construído exclusivamente com textos em português, cuidadosamente selecionados, limpos e desduplicados. A base possui:
.jsonl
;Essa base de dados foi construída com o propósito de alimentar modelos de linguagem de grande escala que operam integralmente em português, como o modelo SoberanIA, o primeiro LLM brasileiro treinado com corpus nacional.
O nome “Jabuticaba” carrega um simbolismo importante. Trata-se de um fruto típico do Brasil, frequentemente usado para se referir a fenômenos únicos da realidade brasileira. Nesse contexto, o nome expressa com precisão o propósito do dataset: oferecer uma base de dados genuinamente brasileira, voltada às necessidades do nosso idioma, cultura e sociedade.
A construção do Jabuticaba está vinculada ao projeto SoberanIA, desenvolvido pela Secretaria de Inteligência Artificial, Economia Digital, Ciência, Tecnologia e Inovação (SIA) do estado do Piauí. A execução técnica foi liderada pelo Instituto de Tecnologia do Piauí (PIT), com apoio da Empresa de Tecnologia da Informação do Piauí (ETIPI).
O projeto tem como objetivo fomentar a soberania tecnológica brasileira, oferecendo alternativas nacionais aos grandes modelos estrangeiros como ChatGPT, Gemini ou Claude. O SoberanIA já está sendo utilizado em diversas áreas do governo estadual, incluindo:
A criação do dataset Jabuticaba seguiu uma metodologia rigorosa e baseada em padrões internacionais, com etapas específicas para garantir qualidade, diversidade e segurança dos dados. Veja a seguir os principais passos:
A base foi formada por meio de raspagem e curadoria de textos públicos, com destaque para conteúdos em domínio público ou sob licenças permissivas. As principais fontes incluem:
Foi utilizada uma ferramenta de identificação automática de idioma para garantir que todos os textos fossem em português. Qualquer conteúdo em outros idiomas foi descartado.
Nesta etapa, o foco foi remover ruídos, como:
Foram aplicados modelos e heurísticas para classificar e manter somente os textos com coerência linguística e relevância semântica.
Um dos diferenciais do Jabuticaba é o compromisso com a ética e segurança no treinamento de IA. Foram removidos textos contendo:
A filtragem foi feita com auxílio de classificadores automáticos de toxicidade e revisão humana em amostras aleatórias.
Após a limpeza, os textos passaram por normalização, que inclui:
Para evitar redundância e viés estatístico, foi feita uma desduplicação automática utilizando técnicas de comparação de similaridade textual. Isso garante que o modelo seja treinado com dados únicos, otimizando seu desempenho e reduzindo o custo computacional.
A última etapa foi a tokenização, feita com o tokenizador tiktoken, utilizado em modelos da OpenAI. Esse processo converte os textos em sequências de tokens, que são as unidades básicas de linguagem processadas por LLMs.
O dataset Jabuticaba está disponível no formato .jsonl
(JSON linha a linha), ideal para ingestão em pipelines de NLP e frameworks de treinamento como Hugging Face Transformers, PyTorch ou TensorFlow.
Cada arquivo possui no máximo 200 MB, somando cerca de 3.500 arquivos, totalizando 669 GB.
A base é classificada e organizada por tipo de conteúdo e origem, o que facilita filtragens e experimentos específicos com subconjuntos.
A base é distribuída sob a licença Creative Commons BY-SA 4.0, o que permite:
Desde que sejam atribuídos os devidos créditos aos autores e mantida a mesma licença nos derivados.
O acesso é restrito (gated) na plataforma Hugging Face, sendo necessário solicitar autorização para download. O objetivo, segundo os idealizadores, é garantir uso responsável e monitorado, especialmente em ambientes governamentais e acadêmicos.
O Jabuticaba é a base do treinamento do modelo SoberanIA, que já opera com qualidade comparável a modelos internacionais, mas com vocabulário, contexto jurídico e expressões idiomáticas 100% brasileiros.
Ao incorporar esse modelo a sistemas governamentais, o estado do Piauí já utiliza IA para:
O Jabuticaba é um marco para a pesquisa em linguística computacional, com potencial para ser usado por universidades e centros de pesquisa em áreas como:
Ao criar um LLM treinado com base brasileira, o país dá um passo crucial para reduzir sua dependência de big techs estrangeiras, reforçando:
A equipe da SoberanIA já planeja a próxima etapa do projeto: o modelo Soberano II, que terá:
Esse avanço exigirá novos datasets, maior capacidade computacional e expansão das parcerias com universidades e centros de supercomputação no Brasil.
O Dataset Jabuticaba é um marco histórico para o Brasil no campo da inteligência artificial. Sua construção ética, técnica e contextualizada oferece um recurso estratégico para governos, universidades e empresas que desejam treinar modelos de linguagem em português de forma soberana, eficiente e alinhada com os valores nacionais.
Com mais de 139 bilhões de tokens, o Jabuticaba mostra que é possível competir globalmente em IA, respeitando as particularidades da nossa língua e cultura. Ele representa, antes de tudo, um compromisso com a inovação tecnológica brasileira com identidade própria.
Palavras relacionadas ao termo Jabuticaba: