Bolsa de TT-V em Inteligência Artificial

Level 5-Technical Training Fellowship in Artificial Intelligence

Nº: 7158

Área de conhecimento: Ciência da Computação

Field of knowledge: Computer science

Nº do processo FAPESP: 2023/10100-4

FAPESP process: 2023/10100-4

Título do projeto: Desenvolvimento de Grandes Modelos de Língua para Aplicações no Domínio Jurídico

Project title: Development of Large Language Models for Applications in the Legal Domain

Área de atuação: Inteligência Artificial, Processamento de Linguagem Natural, Grandes Modelos de Língua

Working area: Artificial Intelligence, Natural Language Processing, Large Language Models

Quantidade de vagas: 1

Number of places: 1

Pesquisador responsável: Ricardo Marcacini

Principal investigator: Ricardo Marcacini

Unidade/Instituição: Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo (ICMC-USP)

Unit/Instituition: Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo (ICMC-USP)

Data limite para inscrições: 19/07/2024

Deadline for submissions: 2024-07-19

Publicado em: 19/06/2024

Publishing date: 2024-06-19

Localização: Avenida Trabalhador São-carlense, 400 (LABIC/ICMC-USP e LAB3/PRFN3), São Carlos

Locale: Avenida Trabalhador São-carlense, 400 (LABIC/ICMC-USP e LAB3/PRFN3), São Carlos

E-mail para inscrições: ricardo.marcacini@icmc.usp.br

E-mail for proposal submission: ricardo.marcacini@icmc.usp.br

  • Resumo

    O bolsista atuará em um projeto apoiado pela FAPESP por meio do Programa de Pesquisa em Políticas Públicas (PPPP) da Fundação. O objetivo do projeto é desenvolver Grandes Modelos de Língua (LLMs, sigla do inglês Large Language Models) para o domínio jurídico, em parceria com o Laboratório de Tecnologia da Informação e Inovação (LAB3/PRFN3) da Procuradoria-Geral da Fazenda Nacional (PGFN).

    O bolsista deverá investigar técnicas de aprimoramento de LLMs pré-treinadas para o domínio jurídico em português brasileiro, visando tarefas de suporte à decisão, como (1) automatizar a classificação das matérias presentes nas petições iniciais dos processos, uma vez que a classificação manual é demorada e propensa a erros; e (2) estimar o êxito dos processos em diferentes instâncias judiciais, visando o planejamento estratégico e a alocação adequada de recursos.

    Requisitos obrigatórios:

    - Graduação na grande área de computação, com doutorado na área de inteligência artificial;
    - Domínio de Python;
    - Experiência em projetos de inteligência artificial;
    - Dedicação de 40 horas semanais.

    Requisitos desejáveis:

    - Experiência em pacotes para LLMs abertas (llama.cpp, ollama, kobold, LLM Studio e similares);
    - Experiência em projetos envolvendo HuggingFace.

    Diferencial:

    - Experiência em técnicas para fine-tuning de LLMs e quantização de modelos.

    Mais informações:

    - Duração: 24 meses (a depender do desempenho);
    - Bolsa FAPESP de Treinamento Técnico nível cinco (TT-V) - valor conforme a tabela de valores de bolsas FAPESP (https://fapesp.br/3162);
    - Modalidade: híbrida.