Assinar
rosto do professor da universidade de estocolmo francisco lacerda

Francisco Lacerda

Professor na Universidade de Estocolmo

Falar é fácil! Ouvir falar

A capacidade de detetar diferenças acústicas entre sons da fala é complexa e está fortemente ligada à experiência linguística do falante.

Um aspeto essencial da comunicação falada são os sons que se criam coordenando os movimentos articulatórios da língua, do maxilar, do velum e dos lábios e controlando fluxos de ar, como o do ar que se escapa dos pulmões para a atmosfera. O objetivo dessas manobras articulatórias é produzir sons que possam ser percebidos e interpretados por ouvintes e para transmitir informação linguística, os sons da fala têm que ser detetáveis e suficientemente diferentes uns dos outros. Porém, a capacidade de detetar diferenças acústicas entre sons da fala é complexa e está fortemente ligada à experiência linguística do falante. Por exemplo, distinguir entre “r” e “l” é muito fácil para falantes de português, mas difícil para falantes de mandarim (chinês), que por sua vez distinguem entre diferentes tons que para falantes do português são difíceis de diferenciar. Outro exemplo é a distinção “evidente” entre “queixo” e “queijo” em português que é difícil para falantes de sueco enquanto a diferença de som entre “i” e “y” ou entre vogais curtas e longas, que fazem parte do sueco, passam despercebidas a falantes de português. De facto, falar fluentemente uma língua oral exige especialização na produção e deteção dos sons do reportório fonético dessa língua – para além da competência sociolinguística que está na base da escolha adequada de expressões, prosódia e regras implícitas de interação entre falantes. Os sons de uma língua são sempre um subconjunto dos sons possíveis e formam um sistema coerente de contrastes que é otimizado na sua totalidade e todos têm a mesma capacidade linguística.

Vamos então estudar mais de perto as características acústicas de alguns destes sons para tentar descobrir quais são os detalhes a que prestamos atenção quando conseguimos ouvir sons diferentes e quais os detalhes que ignoramos quando percebemos como idênticos sons que na realidade são acusticamente diferentes. Começamos por examinar um [r] e um [l], articulados no contexto simétrico formado por duas vogais [a]. Clique no ficheiro de som para ouvir os exemplares de [ara] e [ala] que iremos analisar.

Para falantes de português é muito fácil identificar o [r] e o [l] e ouvi-los como sons distintos, mas vamos agora tentar determinar as características acústicas dos sons que acabamos de ouvir. Para isso é conveniente criar representações gráficas dos sons que gravámos. Por exemplo, as representações da forma de onda do sinal da fala podem ajudar-nos a delimitar os diferentes sons da fala que acabamos de ouvir e a delimitação permite-nos medir as durações das vogais e consoantes que o falante usou para pronunciar [ara] e [ala]. A figura seguinte mostra dois tipos de representações gráficas importantes para o estudo das características acústicas dos sons.

Na figura há dois painéis que com diferentes tipos de informação sobre o sinal. O painel superior mostra um chamado espectrograma da sequência de sons e o painel inferior mostra a própria forma de onda. O painel inferior mostra a própria forma de onda, i.e., as variações de pressão captadas pelo microfone quando o falante disse “arra” e logo a seguir “ala”. O eixo horizontal da figura representa a dimensão de tempo, que é comum a ambos os painéis. A escala de tempo inserida entre os dois painéis indica que a duração total da gravação é aproximadamente 1,5 s. Os eixos verticais mostram dimensões diferentes, consoante o painel a que estão associados. No painel superior, o eixo vertical indica frequências, que vão de zero a 8 kHz. As linhas horizontais vermelhas têm um espaçamento de 1 kHz O espectrograma apresenta uma análise das frequências (espectro) presentes no sinal representado no painel inferior e a escala de cinzentos do espectrograma indica a intensidade das diferentes frequências. O eixo vertical do painel inferior mostra a amplitude das variações de pressão captadas pelo microfone.

O espectrograma e a forma de onda são duas perspetivas de informação sobre o mesmo sinal que estão alinhadas no tempo e que podemos usar para delimitar os elementos sonoros de [ara ala] – quatro vogais [a], um [r] e um [l], como indicam as etiquetas ao longo da base do espectrograma. Por exemplo, a transição da primeira vogal (com a etiqueta a_1) para o [r] dá-se aos 0,23 s da gravação, o som [r] realiza-se entre os 0,23 s e os 0,42 s, e o espectrograma e forma de onda do som [l] vêem-se entre na figura no intervalo entre 0,96 s e 1,22 s. As etiquetas a_2, a_3 e a_4 indicam as diferentes realizações da vogal [a].

Estudar a forma de onda dá boa informação sobre a periodicidade associada à vibração das cordas vocais. A frequência de vibração típica das cordas vocais chama-se frequência fundamental e para um falante adulto é cerca de 120 Hz. A frequência fundamental é a base da melodia (entoação ou prosódia) e por isso varia normalmente muito ao longo de uma frase para realçar palavras, indicar perguntas ou marcar o fim de frases. No material que estamos a estudar, o falante tenta manter uma entoação constante (o que dá a sensação, correta, de que as expressões [ara] e [ala] não estão naturalmente ligadas como estariam se fossem palavras de uma frase) e os impulsos glotais sucessivos que se vêm na forma de onda são mais ou menos regulares e distintos na escala de tempo da figura. Por exemplo, entre 0,10 s e 0,20 s, um intervalo de 100 ms, a forma de onda da vogal [a] tem cerca de 12 impulsos, e por isso teria 12 × 10 impulsos num segundo, se a frequência de vibração se mantivesse, o que significa uma frequência de vibração de 120 Hz. Se em vez do primeiro [a] tivéssemos considerado o [l], teríamos visto que o falante produziu esse som com uma frequência de vibração das cordas vocais mais baixa porque os impulsos glotais estão agora mais afastados uns dos outros na parte inicial do [l].

Mas enquanto a frequência fundamental pode ser genericamente apreciada a partir de uma forma de onda como a da figura, é extremamente difícil analisar visualmente as oscilações com frequências mais altas, relacionadas com as reflexões dos impulsos glotais no trato vocal. As periodicidades dominantes dessas reflexões correspondem exatamente às frequências de ressonância do trato vocal – os chamados formantes – que são centrais para caracterizar a qualidade fonética dos sons da fala. Um espectrograma é uma representação gráfica do resultado da análise matemática da forma de onda que é decomposta em intervalos de tempo sucessivos que são analisados sistematicamente. Para cada porção da forma de onda que se analisa matematicamente, o espectrograma representa a contribuição relativa que as diversas frequências fazem nesse curto intervalo de tempo. A análise espectral da forma de onda é equivalente à que se faz ao decompor a luz com um prisma para ver quais são as cores do arco-íris que caracterizam essa luz. O espectrograma mostra, num determinado momento, quais são as frequências de ressonância do trato vocal que mais contribuem para criar o sinal que se vê na forma de onda. No caso dos sons com estrutura harmónica, regular, que se ilustram no espectrograma da figura vemos que há algumas frequências dominantes, como se fossem algumas cores básicas que se teriam que misturar para obter a “cor” representada pela forma de onda. Em geral, quanto mais irregulares são as formas de onda, mais frequências são necessárias para a descrever.

A análise de quatro vogais [a] com a mesma qualidade fonética que se vê no espectrograma sugere que a vogal se pode caracterizar pelas suas três primeiras frequências formantes, aproximadamente F1 = 800 Hz, F2 = 1200 Hz e F3 = 2800 Hz no meio das vogais, mas nota-se também que as frequências dos formantes se alteram no inicio e no fim das vogais, principalmente junto às transições entre as vogais e o [r] ou [l] adjacentes. Essas alterações das frequências formantes das vogais são a consequência direta do movimento da língua ao passar da posição articulatória correspondente à vogal para a articulação da consoante intervocálica. Clique nos sons da lista que se segue para ouvir isoladamente cada um dos sons marcados no espectrograma e note que ao ouvir algumas das vogais parece também ouvir-se uma consoante adicional.

Que consoantes lhe pareceu ouvir? Há alguma relação entre essas consoantes e o [r] e [l] que o falante de facto articulou? Visite https://foto.vermelho.se/blogg/falar-e-facil/ para discutir este tema.

As frequências dos formantes caracterizam também as consoantes, como o [r] e o [l] que se vêm no espectrograma, mas a intensidade relativa dos formantes durante uma consoante pode ser bastante diferente da que se observa em vogais. De um modo geral, as características de ressonância das consoantes são mais complexas do que as das vogais porque envolvem também antirressonâncias, para além das ressonâncias propriamente ditas. As antirressonâncias surgem sempre que há interação entre duas cavidades ressonantes, como no caso de [r] e [l] em que o ápice da língua divide o trato vocal em duas passagens laterais ou quando o som gerado pelas cordas vocais pode passar simultaneamente pela cavidade oral e nasal, ou ainda como no caso de fricativas em que há uma cavidade “atrás” da fonte de ruído que suga energia nas suas frequências de ressonância. Estas situações são mais complicadas do que as das vogais e por agora vamos limitar-nos a observar diretamente as frequências formantes do [r] e do [l] que se mostram no espectrograma, sem aprofundar mais o tema.

As frequências dos formantes de [r] e [l] são mais difíceis de definir do que as das vogais adjacentes, mas as transições dos formantes das vogais adjacentes para o [r] e o [l] dão uma indicação genérica das diferenças entre as propriedades acústicas de [r] e [l]. E ignorando a complexidade criada pela vibração da lâmina da língua durante o [r], vemos que as transições das vogais indicam que as diferenças acústicas fundamentais entre [r] e [l] estão relacionadas com uma ligeira concentração de energia a cerca de 2 kHz no caso deste [r] enquanto a energia de [l] se distribui por cerca de 1200 Hz e, inicialmente, também 2800 Hz. São diferenças como essas, relativamente subtis, que os falantes de línguas sem contrate fonológico /r/-/l/ aprendem a ignorar.

Clique aqui para ouvir o [r] e o [l] sem o contexto vocálico em que foram produzidos.

A figura seguinte mostra o espectrograma e a forma de onda da “palavra” [bɛb]. Clique no ficheiro de áudio para a ouvir.

Note a diferença entre as frequências dos formantes desta vogal [ɛ] e as das vogais [a] do primeiro espectrograma. O primeiro formante da vogal [ɛ] tem uma frequência mais baixa do que o primeiro da vogal [a] enquanto que o segundo formante do [ɛ] tem frequência mais alta que a do [a]. São diferenças desse tipo nas frequências dos formantes que caracterizam as diferentes qualidades fonéticas das vogais, mas as diferenças acústicas são interpretadas de maneira diferente por falantes de línguas com diferentes sistemas de vogais. Numa próxima edição iremos analisar alguns exemplos dessas diferenças de interpretação, mas por agora ficamos por aqui e vamos só ouvir como é que soam os diferentes sons de [bɛb] quando se ouvem isoladamente.

Os [b] mal se ouvem quando apresentados sem a vogal, o que indica que muito da informação é de facto dada pelo movimento dos formantes da vogal. É sempre assim com os sons da fala. Ao contrário do que acontece com as letras como as deste texto, os sons da fala são produzidos em sequência e por isso sons adjacentes têm quase sempre vestígios dos sons vizinhos. Isso é um dos segredos da comunicação falada que a torna tão eficiente porque muitas vezes não é preciso articular distintamente os todos os sons quando as transições dos formantes já por si indicam qual é o som que o falante se prepara para articular.

Visite a minha página Falar é fácil: Phonetics questions and answers – Fotostories (vermelho.se) se quiser continuar a discutir estas questões ou se o calor do Verão lhe despertar curiosidade sobre fenómenos fonéticos!

Até breve!