Intervalo

MP3: Um pouco de sua história

comente:

, ,


Márcio GirãoMárcio Girão


.

No início dos anos 90, a empresa Lexikon, da qual eu era sócio, desenvolvia e comerciava em obras eletrônicas de referência, entre as quais os conhecidos Dicionário Aurélio e o Dicionário Inglês-português Webster’s de Antônio Houaiss.

Certo dia, recebemos uma encomenda do jornal O Globo que queria distribuir o Webster’s entre seus assinantes e leitores. Deparamos, porém, com um enorme problema, já que a pronúncia dos verbetes ocupava um arquivo que ultrapassava a capacidade do CD-ROM. Estavam em formato wav (correspondente aos CDs de música), e O Globo exigia sua presença no pacote em um único CD.

Pesquisa daqui e dali, descobrimos um artigo do Instituto alemão Fraunhofer, organização de pesquisa administrada pelo Estado, discorrendo sobre um algoritmo desenvolvido em suas dependências e que comprimia drasticamente os arquivos de música. Sem nada a perder, escrevemos ao Instituto solicitando tal algoritmo. Para nossa surpresa e alegria, o recebemos logo depois sem nenhum custo.

O resultado foi um sucesso e conseguimos comprimir o arquivo de pronúncias a menos de 1/10 de seu tamanho original e O Globo pôde premiar 130 mil leitores com o melhor dicionário bilíngue do mercado.

Sem imaginar que éramos, provavelmente, os primeiros no país a se utilizar desse ainda quase desconhecido algoritmo (mp3), que revolucionou as indústrias ligadas aos sons, sequer vislumbramos que poderíamos ter gerado um enorme negócio caso tivéssemos desenvolvido um tocador de músicas comprimidas como, tempo depois em 1997, Justin Frankel, calouro de 19 anos da Universidade de Utah, EUA, o fez com o software Winamp e associou-se à AOL, adicionando US$ 60 milhões ao seu patrimônio.

Lição aprendida: foco no negócio às vezes atrapalha quando nos impede de alargar horizontes!

ilustraçao-principal

Software Winamp: primeiro sucesso do mp3

Afinal, por que me lembrei, justo agora, dessa passagem de minha vida profissional? Pois acabo de adquirir o excelente livro “Como a Música Ficou Grátis” de Stephen Witt, Editora Intrínseca, onde três de seus capítulos são dedicados à saga da criação e consolidação do mp3 como padrão de mercado para compressão de arquivos sonoros.

Também é uma demonstração da superação dos obstáculos para transformar ciência em tecnologia, ou seja, custo em riqueza, retornando milhares de vezes os investimentos feitos no projeto, enriquecendo a si próprios e sua nação, ao mesmo tempo, transformando profundamente a forma como hoje se transmite, negocia e ouve-se música.

Baseado no livro citado, segue um breve resumo dessa saga.

PSICOACÚSTICA

No início dos anos 70, o pesquisador da Universidade Erlangen-Nuremberg na Alemanha chamado Eberhard Zwicker liderava os estudos de uma nova ciência denominada Psicoacústica, cujo objetivo era o estudo da percepção dos sons pelos seres humanos.

Segundo suas descobertas, o ouvido é um órgão adaptativo e, como tal, fora forjado para o objetivo primordial de ouvir e interpretar a linguagem e como um sistema de alerta contra os predadores naturais do ser humano. Logo, tinha várias limitações que ele chamava de “falhas”. Uma dessas, por exemplo, ocorre quando dois cliques são emitidos num intervalo na casa dos milissegundos, fazendo o ouvido interpretá-los como um só. Vários desses efeitos, denominados genericamente “mascaramento psicoacústico” significam que nós, de fato, não ouvimos toda a verdade que nos é transmitida pelos sons.

ilustraçao-principal

Dieter Seitzer, o precursor

Um de seus orientandos na tese de doutorado foi o cientista da computação Dieter Seitzer. Enquanto Zwicker era analógico, Seitzer era digital. Logo lhe surgiu a ideia de aproveitar as “falhas” do ouvido humano para armazenar sons de alta fidelidade em pequenos volumes de dados, ou seja, aquilo que o ouvido mascarava não precisava ser gravado.

Até aquele momento, os CDs de música surgidos em 1982 armazenavam todas as informações sonoras que se conseguisse detectar nos processos de gravação, limitando apenas entre 20 Hz e pouco mais do dobro da frequência de 20 kHz, que é o limite do ouvido humano (ver Teorema de Nyquist).

Para Seitzer, isso era um exagero e muito poderia ser descartado pois que o ouvido humano já o fazia. Seu sonho era reduzir o tamanho de um CD a 1/12 do original (de cerca de 1,5 milhão de bits para meros 128 mil bits).

O problema é que Seitzer não conseguira ainda transformar o mapeamento das limitações do ouvido humano em equações matemáticas de forma a obter o algoritmo adequado à implementação de suas ideias.

O LÍDER e o CAMINHO

Foi aí que surgiu o principal artífice do mp3: Karlheinz Brandenburg. Aluno de Engenharia Elétrica, descoberto por Seitzer como uma mente brilhante, foi a quem confiou a tarefa de equacionar a Psicoacústica de forma a aplicá-la por meio de algoritmos computacionais.

Embora cético a princípio, dada a complexidade da tarefa e o orçamento limitado de então, Brandenburg aceitou o desafio, já vislumbrando a importância que teria em caso de sucesso.

ilustraçao-principal

Karlheinz Brandenburg, o líder

Trabalhou durante três anos, quase infrutíferos, até que em 1986 veio-lhe a intuição de um novo caminho designando-o “abordagem por síntese”, e ao qual dedicou semanas insones formulando as equações matemáticas correspondentes. A estrada estava traçada, faltava-lhe o pavimento.

Na abordagem por síntese, o áudio é fragmentado em frações de segundo e em partições de diferentes frequências com a utilização de um banco de filtros. É similar a um prisma que separa as diferentes cores de uma luz.

Com isso equacionado, foi possível implementar a análise e compressão de quatro importantes falhas do ouvido humano identificadas por Zwicker:

1ª) A audição foi otimizada na faixa de frequência da voz humana (entre 50 e 4.000 Hz). Quanto mais longe o som dessa frequência, pior a percepção auditiva logo, poderiam ser reservados cada vez menos bits para armazená-los.

2ª) Tons (frequências) muito próximos no tempo tendem a se anular; em particular, os mais graves anulam os mais agudos. Logo, podem-se associar menos bits aos mais anuláveis, como os do violino tocado ao mesmo tempo que um violoncelo.

3ª) Um ruído muito alto (p. ex. de um prato na orquestra) tende a anular os sons que lhes seguem, ou seja, menos bits para os milissegundos de sons em sequência.

4ª) O inesperado: os sons anteriores a um ruído alto também tendem a se anular. O futuro interferindo no passado? Sim, pois o ouvido precisa de tempo para processar o que escuta e é interrompido bruscamente pelo ruído alto. Logo, menos bits para os tons anteriores.

Depois desse primeiro e importante passo, embora com alta dose de empirismo, veio o segundo na descoberta de que a compressão poderia ser aumentada em vários passos sucessivos, isto é, podia-se usar um resultado para reaplicação do algoritmo eliminando assim mais alguns bits. Obviamente, a qualidade do resultado ia decaindo a cada passo e isso estabelecia um limite para o aceitável.

ilustraçao-principal

Algoritmo de Huffman

Outro método de compressão aplicável a qualquer tipo de arquivo não sonoro foi também utilizado para complementar os índices de compressão obtidos com a psicoacústica. O “algoritmo de Huffman” desenvolvido na década de 50 por David Huffman no MIT, aproveitava os padrões repetidos de bits contíguos para armazená-los apenas uma vez, substituindo-os onde ocorressem por referências de endereço.

Brandenburg desenvolveu, aos 31 anos, o seu primeiro programa de computador como exemplo dessa abordagem em 1986. Antes mesmo da defesa de sua tese de doutorado, conseguiu sua primeira patente. Ali, já se revelara o empreendedor além do acadêmico brilhante.

DA ACADEMIA PARA A TECNOLOGIA

Seitzer, pela experiência em ambientes empresariais e já detentor de várias patentes, ao perceber o enorme progresso de seu pupilo, o incentivou a migrar da universidade para a o Instituto Fraunhofer, uma espécie de incubadora tecnológica por ele supervisionada.

Controlada pelo Estado, sua missão era transformar as pesquisas acadêmicas em tecnologia fazendo acordos comerciais com grandes firmas industriais de bens de consumo. Ali, Brandenburg teve acesso a computadores de última geração, equipamentos de acústica e, o mais importante, uma equipe altamente qualificada de engenheiros, entre eles aquele que seria o seu principal transformador de equações matemáticas em algoritmos computacionais, Bernhard Grill, tipo nerd de 26 anos e que tinha uma única paixão: a música. Para completar o sexteto original havia ainda: Heinz Gerhäuser, supervisor do grupo de áudio; Harald Popp, especialista em hardware; Ernst Eberlein, especialista em processamento de sinal; e Jürgen Herre, um talento da matemática. Era o ano de 1987. Seu objetivo: comprimir arquivos sonoros numa taxa de 12:1.

Foi um processo lento e cheio de obstáculos tecnológicos, testando diversos instrumentos musicais e muitas decepções com os resultados obtidos. Logo se concluiu que a matemática não retratava suficientemente a realidade da percepção humana. Recorreram a cobaias humanas e à enorme coleção de CD de Grill, até canto de pássaros, além de muita heurística na busca da compressão com qualidade aceitável. Foram milhares e milhares de ensaios duplo-cego (contraste às cegas entre a audição do original e do modificado).

Um ano depois, a taxa de compressão razoavelmente aceitável era de 4:1, longe da meta proposta. Brandenburg até tentou numa gravação de piano solo bem simples a compressão objetivada 12:1. O resultado foi simplesmente pavoroso, com muitos erros e, conforme o próprio, parecendo um bêbado ao piano. Ainda assim, ele acreditou que curaria a ressaca do pianista e continuou mais animado ainda a perseguir a meta de Seitzer.

Ajudados também pela Lei de Moore, ou seja, pelos avanços na capacidade de processamento, mais um ano de pesquisas e, ao final de 1988, foi feita a primeira experiência comercial: uma pequena estação de rádio de missionários na longínqua ilha micronésia de Saipan.

Entretanto, essa experiência mostrou que a compressão da voz humana era mais complexa que a de uma orquestra. Para analisar o problema, usaram então a voz da cantora Suzanne Vega na música Tom´s Dinner.
Como todos já ouvimos, a voz de Vega é indiscutível, porém, os primeiros resultados a transformaram em “ratos arranhando a fita”.

Brandenburg defendeu sua tese de Ph.D em 1989.

A TECNOLOGIA SE ESPALHA – MPEG entra em cena

Logo depois, teve uma breve, mas profícua experiência como bolsista no Bell Labs da AT&T nos EUA, onde conheceu James Johnston, especialista em codificação de voz. Em parceria, conseguiram eliminar o “arranhar de ratos” da voz humana. Ao retornar à Alemanha em 1990, o produto estava quase pronto.

Nesse momento, a Psicoacústica já era conhecida e prometia inovações importantes no mercado de distribuição de produtos sonoros. Formaram-se vários grupos de pesquisadores na Europa, Japão e EUA em seu entorno e grandes corporações já competiam nessa corrida.

Tanto a AT&T quanto a empresa francesa de bens eletrônicos de consumo Thomson apoiaram o Fraunhofer com recursos e suporte técnico nessa tecnologia.

Pela necessidade de padronizar a associação de imagens e sons com a tecnologia digital, a Organização Internacional de Padronização – ISO criou em 1988 um comitê especial denominado: Moving Picture Experts Group, conhecido como MPEG.

A diversidade de tecnologias surgidas e a urgência do mercado em sua padronização levaram o MPEG a promover um concurso em junho de 1990 em Estocolmo, com testes formais de audição dos resultados das tecnologias candidatas. Para o ganhador, o mercado estava ávido e os lucros pelo licenciamento, enormes.

Os testes envolviam dez sons de referência: solo do saxofonista Ornette Coleman; Fast Car de Tracy Chapman; solo de trompete; solo de glockenspiel; explosão de fogos; dois solos de baixo; amostras de castanholas; trecho de um noticiário e; gravação de Suzane Vega cantando Tom´s Diner (lógico que sugerido pelo Fraunhofer). Havia 14 concorrentes.

O resultado foi surpreendente, pelo menos para Brandenburg, que se imaginava à frente de todos pelo histórico de seu trabalho junto ao formulador da Psicoacústica. Deu empate entre duas concorrentes: Fraunhofer e Musicam.

A Musicam era um consórcio formado por pesquisadores de quatro universidades europeias, entre eles, alguns alemães que haviam tido contato com as pesquisas de Zwicker. Porém, o mais convincente, tinham forte conexão com a poderosa Philips, empresa holandesa que já detinha as patentes do CD.

Na combinação de critérios, a tecnologia Fraunhofer produzia melhor qualidade com mais compressão porém, a Musicam utilizava menos capacidade de processamento. A Lei de Moore favorecia em médio prazo a solução Fraunhofer, mas esse argumento dito e repetido por Brandenburg na ocasião, não surtiu efeito.

Após meses de espera, o MPEG propôs ao Fraunhofer que mesclasse sua tecnologia com a da Musicam, utilizando o seu banco de filtros em vez do próprio para, assim, lhe conceder certos endossos para o mercado. Não por acaso, a Philips detinha a patente do código a ser mesclado, o que significava compartilhar os lucros auferidos pelo Instituto. Mesmo a contragosto e piorando o seu algoritmo original, só restou a Brandenburg aceitar a oferta. Salvaram-se os anéis.

Somente dez meses depois (abril de 1991), o MPEG publicou os resultados do concurso com três métodos aprovados e assim denominados:

– MPEG Audio Layer I para compressão em fita cassete digital (natimorto);

– MPEG Audio Layer II (depois conhecido por mp2) que correspondia ao da Musicam;

– MPEG Audio Layer III (idem mp3) correspondente ao Fraunhofer modificado.

A guerra de formatos estava declarada: parecia que ia se repetir a disputa entre o Betamax e o VHS nos anos 80 em que o vencedor não seria o melhor, mas aquele com maior força política (a Musicam/Philips).

Confirmando essa hipótese, nos anos seguintes o Fraunhofer foi derrotado sem apelação em mais cinco competições. O MPEG escolheu o mp2 para rádio FM-digital, CD-ROM interativos, Video Compact Disc, Digital Audio Tape e transmissão sem fio para HDTV. O mp3 nada levou e a desculpa era a mesma: exigia excesso de processamento causado principalmente pela mesclagem de tecnologia exigida no parecer original.

A situação foi ficando cada vez mais crítica internamente no Instituto e externamente com forte campanha da Philips e boatos sobre graves falhas na tecnologia Fraunhofer.

Brandenburg não desistiu e ganhou força extra com sua promoção em 93 para Diretor do Instituto. Ampliou as pesquisas e sua liderança fez todos vestirem a camisa do projeto. Conta-se que um roubo de equipamentos do Instituto de madrugada só teve um departamento que se salvou: o dos pesquisadores do mp3 que lá estavam trabalhando e, como estavam com seus fones de ouvido, nada perceberam.

Como resultado, em 1994 o mp3 já era visivelmente superior ao mp2 e a taxa meta de compressão 12:1 havia sido atingida com surpreendente qualidade de áudio. O mercado de PC crescia vertiginosamente, e isso animava as perspectivas de sucesso. Porém, mais uma derrota os esperava, e de peso considerável. Em 1995 o mp2 foi escolhido como padrão dos DVDs de áudio doméstico. 6 x 0. Os problemas internos tornaram-se ainda mais críticos e começou-se a questionar seriamente sobre o retorno dos milhões de marcos já investidos na tecnologia mp3. Havia, nessa época, não mais do que 100 usuários (provavelmente, nossa empresa no Brasil era um deles).

Restava uma última esperança em outra competição, ainda em 1995, para seleção da tecnologia de um subsistema de frequências transmitidas em multicast (entrega simultânea de informação para múltiplos destinatários) em uma banda de rádio europeia. A confiança na vitória era grande dada a enorme distância de qualidade que os separava da tecnologia Musicam. Foram recebidos com euforia e até recomendados por um subgrupo de áudio do comitê. Seu relatório continha 50 páginas detalhando as vantagens, inclusive em velocidade de processamento, e qualidades intrínsecas da tecnologia Fraunhofer.

O relatório da Musicam continha meras duas páginas e um lembrete sobre a simplicidade do mp2. Ao longo das discussões, Brandenburg sentiu o peso da influência política mais uma vez e, finalmente, veio o argumento arrasador do representante da Philips: dois padrões de rádio gerariam medo, incerteza e dúvida; se existe um padrão, ele tem que ser único; e concluiu, pedindo que não desestabilizassem o sistema que já tinha o mp2 como padrão em outros projetos. O voto do Comitê foi pelo abandono do mp3. 7 X 0.

A guerra dos formatos estava perdida. O MPEG os expulsara do VCD e DVD e os comitês de radiodifusão das ondas de rádio. Brandenburg reuniu sua equipe e disse apenas: os comitês cometeram um erro. E seguiu em frente.

A PALAVRA dos USUÁRIOS…

Perdendo o mercado corporativo, exceto as ligas de Hóquei dos EUA para transmissão em tempo real, Brandenburg voltou os olhos para o mercado ascendente de PC e, ainda em 1995, encomendou a Grill um aplicativo capaz de codificar e tocar arquivos mp3. Nasceu o Level 3 Encoder (abreviado L3Enc). Com ele, os usuários poderiam criar seus próprios arquivos mp3 e tocá-los no PC. O software que cabia num disquete de 3,5 pol., representava uma década de pesquisas e, literalmente, suor e lágrimas nesse período.

Para o usuário, era o milagre de pegar 12 CDs e reduzi-los a 1 sem qualquer controle de direitos autorais e sem perda significativa de qualidade. Foram produzidos milhares de disquetes e distribuídos de graça pelo mundo afora.

Com o lançamento do novo sistema operacional da Microsoft, Windows 95, Grill recebeu nova missão de escrever para ele um tocador de mp3. Um mês depois, nasceu o Winplay3. Era um software desajeitado e com interface pouco amigável e sem lista de músicas. Mas foi nesse momento que nasceu o termo mp3 que, por exigência de três letras do sistema Windows, tornou-se a extensão dos arquivos gerados pelo programa. Enquanto isso, os arquivos gerados com a tecnologia Musicam receberam a extensão mp2. Muitos usuários pensaram que o mp2 fora sucedido por uma nova versão melhorada do mp3 e o desprezaram. Quanta ironia.

Porém, agora o Instituto queria faturar com o software Winplay3. Por isso, após 20 execuções, ele se autodestruía com a mensagem de que o usuário deveria pagar uma taxa e receber um número de série. Ficaram esperando a caixa tilintar.

ilustraçao-principal

Winplay, o desajeitado software original

Em vão. Esqueceram que não havia ainda suficiente quantidade de arquivos mp3 que pudessem ser tocados. A indústria fonográfica nem queria falar sobre o assunto. Mesmo assim, insistiram. E o preço original de US$ 125 caiu para US$ 5 ao final de 1995. Ao mesmo tempo, criaram um site na internet onde ofereciam como shareware (no modelo de doação) o codificador L3Enc, que permitia gerar os arquivos mp3 para serem tocados no Winplay3. Tal mendicância, criticada por muitos da equipe, rendeu meros US$ 500 enquanto existiu.

Embora sem sucesso comercial, o mp3 chamou a atenção dos fabricantes de software que distribuíam arquivos sonoros. A Macromedia e a Microsoft licenciaram o decodificador mp3 para seus respectivos produtos Flash e Windows Media Player.

Mesmo assim, as receitas não compensaram os custos do projeto e o Instituto Fraunhofer estava em vias de abandoná-lo de vez ao final de 1996. Ainda mais que ele havia fechado alguns acordos importantes com empresas (Sony, AT&T e Dolby) sobre a evolução do mp3 para uma nova tecnologia denominada Advanced Audio Coding – AAC utilizando a mesma equipe.

… e dos PIRATAS

Em 27 de maio de 1997, durante uma visita de Brandenburg aos EUA para uma conferência, aconteceu a primeira menção ao mp3 na grande imprensa norte-americana. Mas estava longe do que ele esperava. Numa página interna do jornal USA Today havia uma matéria intitulada “Avanços no Som Abrem as Portas à Pirataria”. Na reportagem, entrevistaram um aluno da Universidade de Stanford que colocara 110 arquivos de mp3 no seu computador pessoal integrado na rede da Universidade, gerando cerca de duas mil visitas diárias, o que acabou congestionando o tráfego da rede de Stanford.

ilustraçao-principal

Napster: primeiro grande distribuidor mp3

Antes disso, a equipe de Brandenburg, ao que parece, não percebeu o enorme aumento de downloads dos programas L3Enc e Winplay3 de seus servidores, nem as invasões para roubar os números de série dos mesmos. Ao final de 1996, tais programas rodavam libertos mundo afora da internet.

Voltando à Alemanha, Brandenburg convocou uma reunião emergencial com a poderosa RIAA, representante da indústria fonográfica, para debater o assunto e procurar uma saída. Nela, opinou que a melhor solução seria a indústria aderir à tecnologia e protegê-la contra cópias ilegais. A lacônica resposta foi que a indústria fonográfica não acreditava na distribuição eletrônica de música.

Mais uma vez, o mínimo bom senso de um empreendedor era atropelado pela arrogância da grande indústria estabelecida. Tempos depois, tentaram justificar o erro dizendo que Brandenburg estava ali apenas defendendo seus lucros futuros nos acordos comerciais dali advindos. Talvez, uma explicação plausível e até razoável viria da resistência dos engenheiros de som das grandes gravadoras a adotarem uma tecnologia que alterasse para menos a qualidade de seu trabalho. De fato, eles não gostavam do mp3, até porque a versão pirata do L3Enc não produzia ainda áudio de alta qualidade.

Talvez fosse agora a guerra dos artistas (engenheiros de som) contra os cientistas. Enquanto para os primeiros, o som é algo codificado no cérebro emocional, para os últimos são ondas mecânicas se deslocando pelo ar.

Mas os usuários ouvintes não estavam em estúdios de som, e sim em suas casas com equipamentos de pouca sofisticação, discos arranhados e não se importaram com essa guerra. O que eles queriam era a música em larga escala e a baixo custo.

O resto da história, todos conhecemos. Do Winamp, já citado, passando pelo Napster, como o maior distribuidor gratuito de músicas em mp3, até os dias atuais com a grande indústria fonográfica finalmente aderindo de vez ao formato mp3, distribuindo por streaming um acervo de mais de 30 milhões de arquivos a um preço irrisório em torno de R$ 14 mensais.

Tudo isso pela perseverança quase heroica de um pequeno grupo de cientistas e de um país que acredita na tentativa e erro como insumo básico do desenvolvimento tecnológico.

ilustraçao-principal

A equipe do mp3, na frente: Prof. Dr.-Ing. Karlheinz Brandenburg, Dr.-Ing. Bernhard Grill, Prof. Dr.-Ing. Jürgen Herre e outros

REFERÊNCIA E FINAL

Atualmente, Karlheinz Brandenburg dirige o Instituto Fraunhofer para Mídia Digital, fundado em 2004, empregando mais de 100 pesquisadores no campo de mídia audiovisual.

Antes de encerrar este artigo, olho para minha coleção encaixotada de mais de 2.000 CD e vinis importados na loja Modern Sound (fechada), sempre escutados com enorme prazer e ritual, e sinto vontade sincera de chorar por pura nostalgia. Que será agora do meu sonho irrealizado inspirado na música “Casa no Campo” de Zé Rodrix e Tavito, magistralmente interpretada por Elis onde, numa casa no campo eu possa plantar meus amigos, meus discos e livros e nada mais? Amigos ainda os tenho, o resto basta um tablet.