Jabuticaba é um dataset mais extenso e completo corpus da língua portuguesa já desenvolvido com foco em Large Language Models (LLMs). Com mais de 669 GB de dados textuais limpos e 139 bilhões de tokens, o Jabuticaba foi criado pela equipe da SoberanIA, uma iniciativa brasileira que visa desenvolver inteligência artificial de ponta em português, respeitando os aspectos culturais, linguísticos ...
+ Saiba mais