05 - Tradução para dublagem de videogame

Como tradução para dublagem funciona e quais as limitações existentes.

A dublagem de videogame não traz muitas novidades para quem já fez tradução para dublagem de outras mídias, mas alguns aspectos são diferentes (e mais fáceis) dependendo de cada situação. Porém, antes de mergulhar nesse ponto, vale a pena tocar no assunto da legendagem.

Não existe legendagem para videogame

Citei isso rapidamente na newsletter anterior e volto a repetir aqui: legendagem, ao estilo do cinema e TV, não existe em videogame. O texto que é traduzido para dublagem é o mesmo texto que aparece como legenda caso mantenha o áudio em inglês. Existem alguns motivos para isso:

  • O jogador pode alterar livremente a combinação de idioma de áudio e idioma escrito, e portanto não faria sentido existir duas versões escritas para o mesmo idioma. Não só poderia gerar inconsistências dentro do próprio idioma, como dobraria o custo da tradução do jogo. Também seria estranho ter a legenda sendo alterada de acordo da combinação de opções que o jogador escolheu.
  • O texto para dublagem é traduzido antes das cenas existirem e serem gravadas. Muitas vezes, é traduzido antes de sequer o áudio em inglês existir. Para fazer uma legenda "de verdade" partindo do inglês, seria necessário traduzir depois de todos os diálogos do jogo estarem finalizados. Não haveria tempo hábil para isso, especialmente se considerar que grande parte dos jogos costuma durar 10 ou 20 vezes mais que um filme.
  • Tudo que acontece em videogame é dinâmico, incluindo a exibição do texto, e isso torna extremamente complexo formatar de maneira adequada para múltiplos sistemas de escrita. Esse aspecto merece uma explicação à parte, porque é uma questão técnica que muita gente não sabe que existe.

O texto dinâmico

Basicamente, em cinema e TV, a legenda é uma camada estática extra que é sobreposta ao vídeo rodando por baixo e sincronizada linha a linha. Já em videogame, o texto é renderizado em tempo real, junto com tudo que acontece na tela do jogo — isso significa que a caixa de texto e a fonte são carregados "da mesma forma" que os modelos 3D ou 2D dos personagens. Indo um pouco além, a forma da renderização do texto acontecer não é padronizada, porque nada em produção de videogames é padronizado: tudo é feito sob medida para cada projeto em particular. Isso é uma característica específica fácil de entender se lembrarmos que videogame é um software, e não existe padronização de como fazer as coisas funcionarem em um computador.

No fim das contas, é impossível padronizar legendas entre jogos diferentes porque a forma que elas são renderizadas na tela muda de jogo para jogo. Seria como querer padronizar peças de carros: uma Ferrari e um Uno são carros, têm quatro rodas, um motor, consomem gasolina, mas isso não significa que dá para usar as peças de um no outro sem fazer alterações drásticas neles. Exibição de texto em videogame é igual, exceto que as "peças" são virtuais: não é só porque uma coisa é um pedaço de código que dá para copiar e colar em outro lugar, ou que certos requisitos vão ser facilmente aplicáveis em qualquer situação. Não é só porque algo parece fácil de resolver, que quer dizer que é.

Enfim, como qualquer coisa pode ser dublada, seja um diálogo simples ou uma história de 3 páginas dentro do jogo, não é possível definir regras gerais de como abordar cada situação. O texto que você traduz é o texto que será dublado e exibido, seja como legenda ou não. Talvez isso valha uma análise mais minuciosa no futuro apontando os problemas técnicos e quais as dificuldades em superar eles. Por ora, vamos ao que importa.

Tradução para dublagem

A principal diferença entre tradução para dublagem de videogame e a de outras mídias é que nem sempre é preciso sincronizar o som e fonemas com o a movimentação de boca e áudio original. Essa alteração de pré-requisitos pode acontecer por alguns motivos que serão falados mais abaixo e são definidos pelos desenvolvedores — afinal, só eles sabem onde cada áudio será usado. Como jogos são frequentemente traduzidos enquanto são produzidos (uma informação que vou sempre repetir à exaustão, desculpa), é preciso haver uma sinalização sobre tipos de cenas/áudios para que os tradutores saibam como abordar cada caso. Geralmente, cada linha possui um comentário indicando se precisa de "sound sync", se possui algum limite de restrição aproximada, ou se não há limite algum. Falando por cima sobre cada tipo, temos algo mais ou menos assim:

  • Sound sync: indica que os rostos são bem detalhados e mostrados de perto, frequentemente implicando que há movimento fino de lábios e exigindo respeitar pausas e uso de consoantes bilabiais para reduzir estranhamento ou "falta de sincronia" entre movimento da boca e som.
  • Limite com restrição aproximada: rostos ainda podem aparecer de perto na câmera, mas o movimento de boca vai ter menos detalhes; ou os personagens aparecem de longe e o movimento de boca não importa tanto, mas pausas e duração ainda são importantes. Costuma haver espaço para variação de timing e uso de certos fonemas. Geralmente, a variação é indicada como porcentagem, tipo ±15% sobre o limite original.
  • Sem limite: comum em texto narrado onde o personagem não aparece na tela. Apesar de não ter limite, é boa prática tentar não exagerar na diferença de tamanho para não influenciar a duração de outras cenas — ou na quantidade de texto que aparece e é atualizado na tela.

Muitas vezes, texto é traduzido antes da dublagem original sequer ser gravada, então os limites são considerados pela quantidade de caracteres — e eu sei, não faz sentido, mas é uma medida para guiar apenas (eu, secretamente, conto sílabas) (não espalha) — e cabe ao tradutor usar o máximo possível do bom senso, além de seus conhecimentos sobre fonética, para tentar medir se o inglês e o português estão muito diferentes na duração. Não há como ter certeza de que se está tomando as melhores decisões — isso, só os dubladores vão saber — mas há um punhado de "regrinhas de bom senso" que ajudam a ter o melhor resultado.

Convém dizer que os termos que uso nessa divisão não são universais e cada empresa pode usar uma nomenclatura própria.

Sound sync

Esse é o tipo mais trabalhoso de tradução para dublagem porque é preciso levar em consideração o timing — ou seja, pausas e duração da fala — e o movimento de boca. De maneira geral, mas bem geral mesmo, o português do Brasil e o inglês têm muitas palavras que se combinam, principalmente quando o inglês usa vocabulário de mesma origem etimológica estrangeira que sofreu poucas mudanças e é cognato do português. Palavras como "mine", "my", "name", "television", por exemplo, podem ser facilmente substituídas pela contraparte em português que vão se encaixar bem na dublagem.

Quando começamos a entrar no inglês mais informal, vale a pena expandir o vocabulário do português para algo que se encaixe melhor e tenha o mesmo sentido semântico — um "yeah", de resposta positiva, pode muito bem virar um simples "é" em vez de um "sim", porque os dois fonemas são mais parecidos e a boca se move de maneira semelhante; um "yup" de confirmação pode virar um "isso", que não tem um movimento labial tão parecido, mas engana o suficiente.

Dito isso, o mais importante é tentar fazer os fonemas se encaixarem no início de frases ou depois de pausas, por ser o momento onde registramos o início do movimento da boca e causa a maior má impressão caso esteja desalinhado. Existe uma certa ordem preferencial nesse caso, no qual fonemas bilabiais — as letras b, p, e m no português — devem se encaixar nos dois idiomas, seguido pelas labiodentais— letras v e f no português. Vogais devem ser aproximadas quando possível também — ou seja, se no inglês há um u no início da frase, no português daria para usar um u ou um o, mas um a já poderia causar estranhamento.

Nota: estou usando itálico para destacar as letras no parágrafo acima, mas o foco é no som que essas letras quando são pronunciadas. Letras são representações imprecisas de fonemas, e por questões de acessibilidade para quem nunca estudou o assunto, achei melhor usar essa abordagem, em vez de utilizar caracteres do alfabeto fonético internacional.

Isso pode parecer meio complicado, mas a aplicação é relativamente simples. Por exemplo:

  • "Hey, man, what did you do?"
  • "Aê, meu, o que você fez?"

Logo de cara, dá pra notar que o som de "hey" e "aê" não começam iguais, mas a posição da boca é aproximada o suficiente para não ser tão estranho. Há a possibilidade de usar "ei", que encaixaria melhor, mas isso não é algo que as pessoas comumente falam — mesmo em contextos informais — "aê" e "ô/ôu" é o que costumamos usar no lugar.

Como não sei se a vírgula antes de "man" vai ser uma pausa na fala, decidi usar "meu" — por começar com consoante bilabial — por precaução, mas também poderia ser "mano" ou "brother/bróder", por exemplo, dependendo do sotaque referencial. Caso não seja uma pausa, é possível usar "cara" tranquilamente como alternativa.

Em "what", simplesmente fui de "o", já que as duas palavras iniciam com movimento de boca parecido, e o resto da frase não importa muito por não conter pausas, desde que tenha mais ou menos a mesma duração. A forma com que leio as duas frases, a duração parece bater bem. Usar "o que foi que você fez?" faria a tradução ficar um pouquinho mais longa — porém, "o que que 'cê fez?" seria uma alternativa viável.

Como dá para notar, muito desse tipo de tradução envolve suposições cuidadosas sobre quais interpretações a linha pode ter quando ganhar voz. Ainda assim, vale dizer que, às vezes, por mais que tentemos, não vai ser possível combinar os fonemas de maneira adequada, e que não há nada de errado em deixar isso escapar ocasionalmente.

Outros tipos

O limite com restrição aproximada é o caso em que o movimento de boca não importa tanto, mas as pausas ainda devem ser respeitadas. Embora seja uma boa prática tentar fazer os fonemas combinarem como indicado acima, não costuma ser estritamente necessário, o importante é garantir que a frase não fique muito mais longa ou muito mais curta que a original, já que as cenas ou duração do texto na tela permanecem iguais ao idioma original. É costume informar uma porcentagem aproximada do quanto o tamanho do texto pode variar. No exemplo dado em "sound sync", a frase "Aê, cara, o que foi que você fez?" seria perfeitamente aceitável, por exemplo.

Os casos sem limite são os menos preocupantes, pois o tradutor não precisa pensar em fonética ou timing e pode traduzir como se fosse um texto qualquer, embora idealmente não deva se distanciar demais do tamanho original. Não há muito o que dizer sobre esse tipo, exceto "use o bom senso".

Convém dizer que cada projeto é único e cada cliente é diferente, então volto a repetir que a nomenclatura para os tipos pode variar. Além disso, há sempre a possibilidade dos desenvolvedores inventarem algum tipo a mais, com requistos próprios ultraespecíficos que não são usados em nenhum outro projeto. O tradutor tem que estar sempre preparado para se adaptar à demanda do cliente.

Pós-tradução

Quando a tradução é finalizada e as linhas finalmente são enviadas para gravação, não é incomum o estúdio de dublagem fazer alterações, seja para se encaixar melhor em alguma cena ou para expressar melhor a intenção do original — que, nessa altura, já está com dublagem gravada também. Quando essas alterações são feitas, elas voltam para o tradutor confirmar se está tudo certo ou apresentar alguma justificativa caso rejeite elas. Isso acontece apenas para evitar inconsistências com outros aspectos da história ou do jogo, já que o tradutor, nesse ponto, está melhor informado e tem muito mais tempo com o projeto do que o estúdio de dublagem.

Vale ressaltar que, a partir daí, o trabalho é colaborativo e multidisciplinar. Mesmo que os tradutores nunca entrem em contato com o estúdio de dublagem — o padrão, porque não há muito a se ganhar com isso e todo mundo está extremamente ocupado com outras coisas — as duas equipes colaboram em especialidades diferentes para criar o melhor resultado possível. É preciso confiar que os dubladores e o diretor de dublagem sabem o que estão fazendo para dar vida às frases traduzidas, e é preciso confiar nas escolhas lexicais dos tradutores para aquelas linhas e personagens. Por conta disso, tradutores raramente rejeitam alterações feitas pela dublagem, agindo assim apenas em casos onde alguma mudança seja muito drástica e acabe influenciando outras partes da tradução (ou do próprio jogo).

É importante ressaltar que linhas enviadas para a dublagem não podem mais ser editadas depois de gravadas, ou seja: todo mundo deve estar 100% confiante no trabalho que fez. Qualquer correção que seja necessária depois disso pode acabar custando caro — literalmente — e isso se for possível corrigir.

Novas tecnologias

Existe um interesse genuíno em permitir que tradução para dublagem (e subsequente dublagem em si) deixem de depender de timing e fonemas da língua original. O conceito é simples: um programa capaz de reconhecer fonemas e puxar a animação correta para a boca automaticamente. Há muitos recursos voltados para pesquisa e desenvolvimento, e quem quiser ter uma noção de como funciona, pode clicar aqui para ver um vídeo explicando a tecnologia usada em Cyberpunk 2077 para esse fim.

A CDPR, aparentemente, está tentando solucionar a questão de timing das frases, permitindo que diferentes idiomas possam traduzir e dublar as mesmas linhas sem se importar com a duração da fala de cada uma, e o jogo, então, ajustar automaticamente a duração das cenas para comportar isso. Esse trecho aqui, de uma apresentação de alguns meses atrás, mostra na prática como isso funciona.

Note como os vídeos saem de sincronia rapidamente. Isso acontece porque cada um dos idiomas tem frases de tamanhos diferentes. Em um trabalho comum, tradutores e dubladores têm que fazer a tradução caber no tempo da frase original mas, nesse exemplo, isso já não seria necessário. Note também como a boca dos personagens parece se mover de forma natural para os fonemas usados em cada idioma. Isso é atualizado pela engine, possivelmente utilizando a tecnologia do link que coloquei anteriormente.

Porém, enquanto esse tipo de aplicação não se populariza para o resto da indústria, a sincronia labial ainda é algo que precisa ser resolvido "na mão" por tradutores e dubladores.


Post scriptum

Já falei algumas vezes que, para ser um bom tradutor, é preciso saber escrever bem. Também já falei que conhecer o básico de linguística é essencial, e a questão fonética é um bom exemplo de como saber o mínimo pode fazer uma grande diferença. Infelizmente, não tenho materiais para recomendar sobre o assunto, e sequer sei como abordar isso adequadamente com a atenção que merece. Fonética e fonologia são campos grandes dentro da linguística, e minha recomendação é — se possível — se inscrever nessas matérias na universidade mais próxima. Aprender realmente o básico do básico, como entender a diferença entre letra e fonema, e como a articulação da boca funciona na produção de sons, já dá uma grande vantagem ao trabalhar com jogos que serão dublados.

A próxima newsletter ainda deve sair no primeiro domingo de janeiro, dia 4, mas como estou de mudança e o mês está caótico, pode haver algum atraso. Nela, vou abordar o uso de tags na tradução de videogames.

Até lá.