Assinar
rosto do professor da universidade de estocolmo francisco lacerda

Francisco Lacerda

Professor na Universidade de Estocolmo

Falar é fácil! Os sons da fala

As cordas vocais desempenham um papel central nas línguas naturais e uma breve análise do seu funcionamento pode talvez oferecer uma perspetiva interessante sobre as forças envolvidas no processo de fonação

Quando pedi a um amigo para me dizer o que entendia por “sons fala” a resposta espontânea foi que eram sons que se produziam com a boca, mais especificamente vogais e consoantes. A resposta é correta, mas complicou-se rapidamente quando ele tentou definir mais precisamente o que eram vogais ou consoantes, pensando nas línguas que tinha aprendido a falar. É que de um modo geral, qualquer som que se possa criar na parte superior do aparelho respiratório, entre as cordas vocais e os lábios, pode ser usado na comunicação falada e há nas línguas naturais muito mais possibilidades de articulação do que as de que ele conhecia.

Sons da fala são criados pelo fluxo de ar que se gera quando o ar contido no aparelho respiratório passa de uma zona (volume) com pressão do ar mais alta para uma zona adjacente, em que a pressão do ar é inferior. Se o fluxo é continuo e rápido, cria-se uma fonte de ruído, como quando se pronunciam as fricativas [s] ou [f]; se o fluxo de ar se inicia ou interrompe bruscamente, gera-se uma fonte de ruído momentânea, um impulso, como no caso de [p] ou [t]. Quando o fluxo de ar é interrompido periodicamente cria-se uma fonte sonora harmónica – uma sequência de impulsos que se caracteriza pela frequência da periodicidade. A vibração das “cordas” vocais constitui a fonte harmónica de vogais, como [a] ou [i]. Mas todos estes sons são produzidos usando o ar expirado dos pulmões – como acontece com os sons do português – e há muitas outras línguas em que as consoantes se articulam durante a inspiração ou mesmo sem usar o ar dos pulmões, como é o caso dos cliques do Zulu, criados pela libertação súbita de vácuo criado entre a língua e o palato, e das consoantes ejectivas de Navajo, que usam a pressão criada numa coluna de ar entre as cordas vocais (fechadas) e o ponto de articulação da consoante na boca.

As cordas vocais desempenham um papel central nas línguas naturais e uma breve análise do seu funcionamento pode talvez oferecer uma perspetiva interessante sobre as forças envolvidas no processo de fonação. Com tensão muscular suficiente, as cordas vocais (que de facto são membranas que protegem os pulmões) não vibram e impedem a passagem do ar entre os pulmões e a boca. É uma função importante e necessária para dar estabilidade suficiente à caixa torácica de forma a que as costelas inferiores possam servir de suporte estável aos músculos abdominais durante um esforço, como por exemplo ao levantar um objeto pesado. Nestas condições é possível produzir cliques, ejectivas ou uma consoante glotal, mas não se cria uma fonte harmónica. No entanto, ajustando a tensão das cordas vocais e a pressão do ar nos pulmões pode criar-se o equilíbrio instável característico de uma fonte harmónica que interrompe intermitentemente a passagem do ar que sai dos pulmões para a boca e atmosfera. É um equilíbrio muito delicado e a pressão típica do ar nos pulmões durante a fala normal é aproximadamente a pressão que se sente equilibrando num dedo indicador duas folhas de papel A4 vulgar (80 g/m2).

Fechando os lábios para criar uma obstrução total à passagem do ar enquanto mantendo a vibração das cordas vocais, pronuncia-se uma consoante, que será um [b] – ou um [m], no caso de se ter baixado o velum para que o ar saia pelo nariz. Se a obstrução na boca for parcial cria-se uma fonte de ruído que pode ou não ser combinada com a vibração das cordas vocais, como por exemplo em [z] e [s].

A capacidade de produção de possíveis sons da fala é enorme, mas as línguas naturais exploram só subgrupos desse enorme domínio. É uma limitação prática imposta pela utilização eficiente de sons na comunicação falada.

Som

Os sons da fala são criados pelo chamado “aparelho fonador”, mas do ponto de vista físico resultam da propagação de pequenas perturbações da pressão atmosférica do ar que nos rodeia, tal como qualquer outro som. A particularidade dos sons da fala está na forma como as diferenças na qualidade dos sons que o aparelho fonador gera é usada simbolicamente para partilhar informação linguística. As línguas naturais recombinam cerca de duas dúzias de sons da fala ao criar um número ilimitado de palavras, frases ou discursos – semelhante aos doze semitons que se combinam no caso da música – em que o significado do que se diz vem da forma como os sons da fala são combinados e não por cada um dos sons individuais. Em geral, a relação entre os sons das palavras e o que elas significam não é direta. É um dos aspetos essenciais do “aprender a falar” que iremos abordar numa próxima edição. Por agora o meu objetivo é apresentar uma explicação simplificada do próprio processo de produção de sons da fala.

Os sons que ouvimos no dia-a-dia são o resultado de pequenas perturbações da pressão do ar que nos rodeia que são captadas pelo nosso sistema auditivo. Do ponto de vista acústico, a atmosfera em que vivemos, a troposfera, é um meio elástico, que podemos visualizar como partículas ligadas umas às outras por molas que formam uma malha a três dimensões. Quando não há som (nem vento) as partículas de ar (moléculas) podem considerar-se igualmente espaçadas no volume, sendo a distância entre as partículas inversamente proporcional à pressão atmosférica (i.e., quanto maior a pressão é, mais juntas ficam as partículas). Perturbações deste estado de equilíbrio perfeito do meio elástico levam sempre a alterações da densidade das partículas na região onde se dá a perturbação. Se a perturbação é uma descida súbita de pressão as partículas na região afetada afastam-se umas das outras; se a perturbação é uma subida de pressão, as partículas aproximam-se umas das outras.  Embora muito leve, o ar tem peso e as partículas de ar à superfície da terra estão sujeitas ao peso do ar da atmosfera acima delas.  A pressão atmosférica standard na superfície da terra e ao nível do mar são cerca de 1000 hPa (1 hPa=100 Pascal). Pascal é a unidade de pressão do Sistema Internacional e 10 Pa correspondem aproximadamente ao peso de uma coluna de água com 1 mm de altura e 1 cm2 de base. 1000 hPa = 100000 Pa, é o peso de uma coluna de água com aproximadamente 10 m.

Para fazer estudos acústicos da fala é preciso controlar o sinal que se grava para que não seja contaminado quer por ruídos externos quer por reflexões do próprio sinal que se está a produzir. Uma solução seria gravar os falantes no pico de uma montanha e sem vento, mas uma alternativa mais prática e fiável é fazer as gravações numa câmara anecoica como a que se vê na figura.

Nesta câmara as paredes, o teto e o chão são revestidos de uma espécie de cunhas de material absorvente de energia acústica para que as ondas sonoras que incidem nas superfícies da câmara sejam absorvida de modo a não se criarem reflexões. Dessa forma, o ambiente acústico dentro da câmara anecoica é como se estivesse no espaço, sem superfícies que contaminem o sinal com reflexões indesejadas. Uma câmara anecoica é uma infraestrutura cara mas necessária para registar sinais acústicos tão “limpos” quanto possível mas mesmo nessas condições a análise detalhada do sinal da fala é complicada.

Sons da fala

A figura acima é uma representação gráfica dos sons que eu produzi ao dizer “É mossa”. O microfone capta variações de pressão no ar ambiente e converte-as num sinal elétrico que podemos medir e representar como nesta figura. Os sons que ouvimos são variações da pressão atmosférica, mas as ondas sonoras são variações muitíssimo pequenas e rápidas em relação às variações de pressão atmosférica grandes e lentas que estão associadas às mudanças de tempo. Do ponto de vista acústico, a pressão atmosférica do ar à nossa volta pode ser vista como praticamente invariável (“estática”) e irrelevante para a perceção e representação de sons e corresponde à linha de zero na figura – quando não há som, nem o microfone nem o ouvido humano pode detetar desvios em relação à pressão atmosférica estática e por isso a curva de pressão sonora mostra um nível de pressão igual a zero.

Vogais

A figura mostra a “forma de onda” ou “sinal” correspondente às variações de pressão que eu gerei ao pronunciar a frase com o correspondente espectrograma (representação da análise espectral) do sinal. O eixo horizontal mostra o tempo e o eixo vertical do painel da forma de onda mostra as medidas de pressão (em relação à pressão atmosférica) instantânea feitas pelo microfone. O eixo vertical do espectrograma mostra as diferentes frequências que vão sendo observadas no sinal.

A forma de onda de “É mossa” [ɛˈmɔsɐ] muda de aspeto ao longo do tempo. Durante a maior parte do tempo, a forma de onda é regular, periódica. A periodicidade que se vê na forma de onda vem dos sons da fala que se produzem com vibração das cordas vocais. Neste caso todos os sons envolvem vibração das cordas vocais, excepto o [s] de “mossa” que mostra uma forma de onda irregular, característica de ruídos.

A vibração das cordas vocais é de facto um abrir e fechar da glote (o espaço entre as cordas vocais) que interrompe periodicamente o fluxo de ar que numa expiração silenciosa teria saído continuamente dos pulmões para a atmosfera. Num vozeamento normal, cria-se um impulso glotal cada vez que as cordas vocais interrompem bruscamente o fluxo de ar que vai saindo dos pulmões. Quando as cordas vocais se afastam uma da outra a glote abre e deixa passar o ar dos pulmões para a boca, mas a própria passagem do ar pela glote causa um efeito de sucção (efeito de Bernoulli) que leva as cordas vocais a fechar bruscamente a glote. É esta travagem brusca do fluxo de ar que cria o impulso mais forte de excitação do trato vocal (o equivalente às forças que se sentem num carro que trava bruscamente logo que ganha um pouco de velocidade). Cada um desses impulsos é como uma “explosão” que ecoa no trato vocal e a qualidade do som que se ouve depende das características de ressonância que são impostas pela geometria que o trato vocal tem imediatamente a seguir à explosão.

Contando o número de impulsos que se veêm na forma de onda entre, por exemplo 0,25 e 0,35 segundos podemos calcular a frequência de vibração das minhas cordas vocais durante a articulação da vogal [ɔ] de “mossa”. Como são aproximadamente doze picos durante esse período de um décimo de segundo, as minhas cordas vocais teriam vibrado 120 vezes se eu tivesse mantido esse som durante 1 segundo. Por outras palavras, a minha frequência fundamental durante a produção dessa vogal foi de 120 Hz.

Observando os detalhes da forma de onda durante a produção de “É mó”, vemos que são diferentes porque o trato vocal assumiu configurações diferentes para articular esses três sons. Essas configurações resultam em ressonâncias diferentes, o que se vê no espectrograma acima da forma de onda. A escala de frequência do espectrograma mostra, em cada momento quais são as frequências de ressonância do trato vocal. As linhas horizontais têm um espaçamento de 1000 Hz e a intensidade das diferentes frequências num determinado momento é indicada pelo cinzento do espectrograma.

Há muito mais a dizer sobre isto mas por agora ficamos por aqui enquanto aguardo eventuais perguntas de leitores no meu blog de diálogo online.

Este filme mostra, em camara lenta (400 imagens/s), o movimento de vibração das minhas cordas vocais durante uma vogal. A tiroide vê-se na parte superior da imagem. A figura seguinte mostra uma simulação da variação do fluxo glotal que se poderia observar quando a frequência de vibração das cordas vocais é 100 Hz. Imagine que a curva mostra a velocidade de um carro em que viaja e imagine as forças que sentiria ao viajar com esse perfil de velocidade…

Clique no ficheiro áudio para ouvir 0.3 s do som que corresponde ao gráfico da figura. Este é de facto muito próximo do som que geram as cordas vocais quando vibram normalmente a 100 Hz.

Para demonstrar isso, veja o vídeo que se segue para ver o que acontece quando eu uso um vibrador mecânico, em vez das minhas cordas vocais, para estimular o meu trato vocal.

Conseguiu perceber o que eu disse? As minhas cordas vocais não vibraram e só usei a boca para fazer os gestos articulatórios que eu teria usado normalmente. Esta experiência mostra que os sons da fala (como os sons de instrumentos de sopro) são criados por uma fonte sonora (neste caso o vibrador) que interage com o sistema de ressonância criado pelas cavidades do trato vocal. No caso de um clarinete, por exemplo, a fonte sonora é a palheta que, como a glote, interrompe periodicamente o fluxo do ar e a cavidade de ressonância é o corpo do clarinete, cuja forma se altera abrindo ou fechando os orifícios. No trato vocal alteramos, felizmente, as características de ressonância movimentando a língua, o velum, os lábios, a mandíbula e regulando a tensão das bochechas!

Fricativas e oclusivas

Na frase “É mossa” que estivemos a considerar há um som que não foi produzido com vibração das cordas vocais. É a fricativa “surda” (i.e., sem vibração das cordas vocais) [s] que aparece como uma onda irregular, de ruído, entre 0,40 s e 0,60 s. Pondo o indicador e o polegar levemente sobre a tiroide enquanto se diz lentamente a frase “É mossa” nota-se facilmente que não há vibração das cordas vocais durante o [s].

Este ruído é criado pela turbulência do ar que passa por uma passagem de ar estreita que se forma entre a lâmina da língua e a região alveolar, atrás dos dentes incisivos superiores. É uma fonte de ruído semelhante à que se cria ao tocar flauta transversal (ou ao assobiar) e esse ruído “ecoa” na pequena cavidade formada pelo volume da boca à frente da região alveolar. Sendo uma cavidade de pequenas dimensões, os intervalos de tempo com que se dão as reflexões da energia acústica nessa cavidade são também muito curtos, o que significa que há muitas reflexões por unidade de tempo, ou seja, que as frequências das reflexões vão ser altas. É o que se vê no espectrograma da frase.

Agora que sabemos que o [s] de “É mossa” é a fricativa que se vê no espectrograma entre 0,40 s e 0,60 s, vamos ver o que acontece quando substituímos por silêncio o ruído da fricativa entre cerca 0,40 s e 0,57 s, deixando tudo o resto sem alteração. O resultado é ilustrado na figura seguinte. Clique para ouvir o som correspondente.

O que é que ouviu?

Alguma ideia sobre porque é que a palavra na expressão se alterou dessa maneira?

Participe na discussão acedendo ao meu fórum de perguntas e respostas sobre estes temas em Falar é fácil: Phonetics questions and answers – Fotostories (vermelho.se) .

Até breve!