Bolsa de PD em Modelagem Matemática, Aprendizado de Máquina e Mineração de Textos

Post-Doctoral Fellowship in Machine Learning and Text Mining

Nº: 5039

Área de conhecimento: Ciência da Computação

Field of knowledge: Computer science

Nº do processo FAPESP: 2013/07375-0

FAPESP process: 2013/07375-0

Título do projeto: CeMEAI – Centro de Pesquisa em Ciências Matemáticas Aplicadas à Indústria

Project title: CeMEAI – Center for Research in Mathematical Sciences Applied to Industry

Área de atuação: Modelagem Matemática, Aprendizado de Máquina e Mineração de Textos

Working area: Machine Learning and Text Mining

Quantidade de vagas: 1

Number of places: 1

Início: 01/07/2022

Start: 2022-07-01

Pesquisador responsável: José Alberto Cuminato

Principal investigator: José Alberto Cuminato

Unidade/Instituição: ICMC-USP

Unit/Instituition: ICMC-USP

Data limite para inscrições: 25/05/2022

Deadline for submissions: 2022-05-25

Publicado em: 13/04/2022

Publishing date: 2022-04-13

Localização: Avenida do Trabalhador São-carlense, 400, São Carlos

Locale: Avenida do Trabalhador São-carlense, 400, São Carlos

E-mail para inscrições: jacuminato@gmail.com

E-mail for proposal submission: jacuminato@gmail.com

  • Resumo Summary

    Uma vaga está aberta para atuar em projeto no âmbito do Centro de Pesquisa em Ciências Matemáticas Aplicadas à Indústria (CeMEAI), um dos Centros de Pesquisa, Inovação e Difusão (CEPIDs) apoiados pela FAPESP, com sede no Instituto de Ciências Matemáticas e de Computação da USP em São Carlos.

    O candidato selecionado atuará em projeto que envolve o desenvolvimento de modelos para fiscalização de compras a partir de grandes bases de dados com Notas Fiscais Eletrônicas, visando a fiscalização governamental, identificação prévia de fraudes e detecção de sobrepreços. Métodos de mineração de textos serão investigados e desenvolvidos especificamente para extrair características e melhorar as informações constantes nas notas fiscais eletrônicas. Essas informações são utilizadas por métodos de aprendizado de máquina para classificar determinados segmentos em textos das notas fiscais eletrônicas e agrupar compras similares. Espera-se identificar riscos relacionados às compras públicas, explorar relações entre empresas, municípios, órgãos públicos e outras entidades envolvidas nos processos de compras descritas nas notas fiscais eletrônicas. É previsto o estudo de pré-processamento de textos, métodos de agrupamento, detecção de outliers e anomalias, e classificação one-class. É recomendável que o candidato tenha experiência prática em aprendizado de máquina e mineração de textos, especialmente em pacotes Python atualmente utilizados para estas atividades, como SkLearn, Keras e/ou PyTorch. Ainda, é recomendado que o usuário conheça técnicas de visualização baseado em grafos e ambiente Neo4J.

    A bolsa é inicialmente por um ano e pode ser renovada dependendo do desempenho. Data de início a partir de 1º de Julho de 2022. Para se candidatar, envie um CV e uma carta de referência para jacuminato@gmail.com. Inscrições até 25 de maio de 2022.

    A vaga está aberta a brasileiros e estrangeiros. O selecionado receberá Bolsa de Pós-Doutorado da FAPESP no valor de R$ 8.479,20 mensais e Reserva Técnica equivalente a 10% do valor anual da bolsa para atender a despesas imprevistas e diretamente relacionadas à atividade de pesquisa.

    One post-doctoral position is available within the scope of the Center for Research in Mathematical Sciences Applied to Industry (CeMEAI), one of the Research, Innovation and Dissemination Centers (RIDCs) supported by the São Paulo Research Foundation (FAPESP). CeMEAI is hosted by the University of São Paulo's Institute of Mathematical Sciences and Computing in São Carlos, Brazil.

    The selected candidate will join a project involving the development of models for automatic inspection from large databases with electronic invoices. The objective is to identify fraud and detect overpricing in government data. Text mining methods will be investigated and developed specifically to extract features and improve the information contained in electronic invoices. This information is used by machine learning methods to classify textual segments of electronic invoices, as well as to improve electronic invoices data clustering. It is expected to identify risks, explore relationships between companies, public agencies and other entities described in the electronic invoices. The candidate will investigate methods for text pre-processing, data clustering, outlier and anomaly detection, and one-class classification. It is recommended that the candidate has expertise in Python packages currently used for these activities, such as SkLearn, Keras and/or PyTorch, as well as graph-based visualization techniques using the Neo4J environment.

    The post is initially for one year and can be renewed depending on performance. Starting date is from 1st July 2022. To apply, please send a CV and a reference letter to jacuminato@gmail.com. Applications are open until May 25, 2022.

    This opportunity is open to candidates of any nationality. The selected candidate will receive a FAPESP’s Post-Doctoral fellowship in the amount of R$ 8,479.20 monthly and a research contingency fund, equivalent to 10% of the annual value of the fellowship which should be spent in items directly related to the research activity.