quinta-feira, 17 de abril de 2014

A importância do corpus para a tradução



O que é um corpus?

Um corpus ou corpora é uma coletânea de textos em formato eletrônico, compilada segundo critérios específicos, considerada representativa de uma língua e destinada à pesquisa.



Hoje vou apresentar uma ferramenta que utilizo com frequência, o Corpus do Português dos professores Mark Davies, da Brigham Young University, e Michael J. Ferreira, da Georgetown University. Eles publicaram na rede um corpus do português com 45 milhões de palavras numa compilação de textos que abrangem o período do século XIV ao XX.



De que forma podemos usufruir dessa ferramenta?



Quantas vezes temos dúvidas quanto à combinação de algumas palavras? 
Às vezes certa combinação soa familiar numa língua, mas não temos certeza se ela está correta ou de seu correspondente na língua de chegada. 

O corpus eletrônico permite consultar uma coletânea de textos diversos de vários gêneros: acadêmico, notícias, ficção, oral, etc., tanto em português brasileiro como em português europeu, o que permite obter exemplos reais de uso de forma automática.



Antes da computação e da Internet, isso só seria possível reunindo uma infinidade de livros físicos e realizando uma exaustiva pesquisa manual.



O corpus do português



Para acessar a interface você deve inserir o endereço http://www.corpusdoportugues.org/.Clique na opção “Português”. Será exibida a página principal da aplicação:


Para aprender a usar os diferentes recursos, faça um tour pelo site. Para isso, clique na caixa de texto Ajuda / Informação / Contatar.
 
Além da busca por palavras ou expressões, é possível realizar pesquisas mais avançadas, por sinônimos, categorias gramaticais e combinações de palavras. Em termos de consultas básicas, o usuário pode pesquisar palavras exatas, lemas (formas de uma palavra), frases e fazer pesquisas mais complexas como verbos com des* ou formas de querer + pronome + infinitivo.



Vou mostrar aqui duas opções bem básicas:

1)   O resultado de uma busca pela palavra “misterioso”:


 2)   O resultado de uma busca pelos adjetivos mais comuns perto da palavra “riso”:


Uma colocação é o modo como as palavras se combinam numa língua para produzir um discurso natural (cartão de crédito, tomar uma decisão, prestar atenção, acreditar plenamente, pedir encarecidamente, cinema mudo, ódio mortal, amor cego, etc.). 

Em português, por exemplo, dizemos “responsável por”, em espanhol, “responsable de”; em português dizemos “ministrar aulas”, em espanhol “impartir clases”, em português “estar apaixonado por”, em espanhol “estar enamorado de”; em português “pisar na bola”, em espanhol “meter la pata”; em português “sorriso amarelo”, em espanhol “sonrisa forzada” e assim por diante.



Se você ainda não conhece esta ferramenta, o que está esperando? Acesse já! (sim, quando encontramos algo assim, precisamos fazer propaganda ao melhor estilo Walter Mercato, lembra-se dele?).





Para saber mais acerca da linguística de corpus leia o livro Linguística de Corpus de Stella E O Tagnin.


Além do Corpus do português, utilizo também com muita frequência o Corpus do espanhol (http://www.corpusdelespanol.org/), desenvolvido também pelo professor Mark Davies.

2 comentários:

  1. Que feliz he quedado yo :)

    Muchísimas gracias por compartir esa información ;)

    ResponderExcluir
  2. Acredito que o Corpus não só seja útil para tradução, mas também para melhorar a própria escrita!

    ResponderExcluir