NounBank.DS

O NounBank.DS é um repositório de nomes predicadores extraídos de um corpus de tweets do mercado financeiro (DANTEStocks). Para cada nome predicador identificado, o recurso reúne exemplos anotados com a sua valência semântica (Arg0..Arg4) e com a realização sintática observada (rótulos UD como nsubj, nmod, obj, etc.).

O objetivo deste projeto é fornecer um inventário pesquisável de frames nominais em Português do Brasil que sirva tanto para investigação linguística (lexicografia e semântica de predicados nominais) quanto para aplicações em PLN — por exemplo, expansão de recursos léxicos, desambiguação semântica e análise de eventos em textos sociais.

Cada entrada contém: roleset em português, mapeamento para um roleset do NomBank em inglês, descrições dos papéis e exemplos reais do corpus com marcação dos argumentos e uma estatística agregada das realizações sintáticas encontradas. Os dados são também disponibilizados em formato JSON além das páginas individuais para consulta.

Agradecimentos

Este trabalho foi realizado no Centro de Inteligência Artificial da Universidade de São Paulo (C4AI), com apoio da Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP, processo nº 2019/07665-4) e da IBM Corporation. O projeto também contou com o apoio do Ministério da Ciência, Tecnologia e Inovações, com recursos da Lei nº 8.248, de 23 de outubro de 1991, no âmbito do PPI-SOFTEX, coordenado pela Softex e publicado como Residência em TIC 13, DOU 01245.010222/2022-44.

Como citar

Barbosa, B.K.S., Di Felippo, A. (2025). NounBank.DS: a Lexical Repository of Nominal Frames from Stock Market Tweets in Brazilian Portuguese. In the Proceedings of the 16th Symposium in Information and Human Language Technology (STIL). September, 29-03. Fortaleza-CE, Brazil. Available soon, 2025.