Desafios para a representação visual de dados da Covid-19

Na última quarta-feira, dia 23/06, a Júlia Giannella participou do ciclo de webinars “O que o Design pode informar sobre a Covid-19” organizado pelo Laboratório de Visualidade e Visualização (Labvis/EBA) e que se propõe a debater visualizações de dados, infográficos e ilustrações criadas no contexto do novo coronavírus.

No webinar (que pode ser assistido aqui), ela comentou sobre desafios e responsabilidades envolvidos no processo de representação e comunicação de dados da Covid-19 e como designers da informação participam desse processo. Neste post, compartilhamos os principais pontos dessa discussão.

Em grande parte os desafios e responsabilidades começam com o “simples” ato de contar. Mas por quê?

Deborah Stone é uma cientista política e professora norte-americana e em 2018 ela publicou um artigo sobre a ética da contagem. No artigo, ela traz uma metáfora bastante interessante para o ato de contar a partir da imagem abaixo.

Se perguntarmos quantas ervilhas são apresentadas nessa imagem, talvez vocês comecem a contar uma a uma da esquerda pra direita, de cima pra baixo e cheguem há um consenso: há 54 ervilhas. Mas talvez alguns de vocês se perguntem se deveriam contabilizar as duas ervilhazinhas menores, na primeira e última fileira. Seriam então 52 ervilhas? E aí chegamos ao cerne da problemática de contar: contar não é apenas atribuir números às coisas. Contagem requer classificação. E somente após a classificação a gente pode contar. 

Só que essa noção da classificação é facilmente esquecida e a gente tem o costume de pensar em números como representações objetivas e inquestionáveis. A visualização de dados, assim como os números que ela representa, carrega uma aura de confiabilidade e autoridade no seu discurso servindo tanto à tomada de decisão de gestores da administração pública como ao esclarecimento de fenômenos complexos para os indivíduos leigos. Mas quando essa autoridade é exercida de maneira simplista demais, equivocada ou até mesmo irresponsável, ela pode ser mal interpretada, ela pode esgotar a confiança do público e até mesmo impedir que as pessoas consigam extrapolar os números e enxergar o que realmente importa.

A partir dessa problemática maior, a Júlia identificou cinco desafios pra comentar e mostrar exemplos sobre a representação visual de dados da atual pandemia. Esses desafios dizem respeito a conceitos, contagem, comparação, contexto e incerteza dos dados.

Desafio 1: como comunicar os efeitos de uma pandemia quando não há dados concretos?

Quando o novo coronavírus deflagrou mundialmente, em meados de março, não haviam dados concretos nem metodologias de coleta suficientes para construir visualizações de dados sobre a evolução da doença. E foi nessa época que, primeiramente as organizações de saúde, e logo em seguidas os veículos de comunicação, se voltaram para o desafio de visualizar e comunicar os conceitos epidemiológicos por de trás da pandemia. Conceitos esses essenciais para a compreensão das causas e implicações do vírus.

Nós já comentamos sobre esse assunto aqui no portal, então não vamos nos repetir. Os posts Visualização de dados hipotéticos e Achatando a curva oferecem uma boa cobertura sobre o desafio 1.

Desafio 2: como comunicar a propagação da Covid-19?

Uma vez que o vírus começou a se propagar exponencialmente e os órgãos de saúde – em suas diferentes instâncias – iniciaram os processos de testagem, coleta e divulgação dos resultados, os comunicadores e designers da informação passaram a ter um segundo desafio que é o de comunicar a propagação da Covid-19. 

Agora estamos falando de contagens concretas e de todas as suposições que elas carregam. No dia 21 de junho, o Brasil chegou ao triste marco de 50 mil mortos e os veículos de comunicação enxergaram a oportunidade de noticiar esse número por meio de visualizações de dados estampadas em larga escala em suas capas. E como essas contagens absoluta foram visualizadas? Os jornais O Estado de S. Paulo e a A Folha de S. Paulo optaram por estratégias diferentes.

O Estadão trouxe o número exato de mortos – 50.058 – escrito numericamente e, mais impactante, a representação das vidas perdidas através de 50.058 pontos individualizados e organizados semanalmente, de 18 de março a 20 de junho. Quando escaneamos a página de cima pra baixo, percebemos o aumento gradual da altura e da densidade das faixas que indica o aumento exponencial de mortes à medida que o tempo passa.

Já A Folha optou por sumarizar as mais de 50 mil vítimas por estado onde essas mortes aconteceram. A visualização de dados utilizada trata-se de um cartograma. Nesse tipo de representação, as formas dos estados são substituídas por formas geométricas – no caso quadrados – cujas as áreas mapeiam a quantidade de vidas perdidas. O cartograma também tem a preocupação de manter uma lógica espacial dos estados, sobretudo em termos das fronteiras entre os estados.

A contagem absoluta, sobretudo quando estamos falando de vidas perdidas, chama a atenção e escancara a gravidade do problema. A contagem absoluta é sintética e cumpre a função social de impactar e de, certa forma, incita que a população cumpra medidas preventivas como o distanciamento social.

No entanto, a contagem absoluta pode ser reducionista em certas circunstâncias. Estatísticas individuais não contam a história toda e podem inclusive impedir a compreensão mais aprofundada do fenômeno, sobretudo quando a gente analisa os efeitos da pandemia comparativamente. E aí que a contagem relativa entra em jogo.

Em Epidemiologia, algumas das medidas mais utilizadas para expressar contagem relativas são a letalidade, a mortalidade e a incidência. Sem entrar em detalhes sobre a diferença entre elas, o que elas têm em comum é que são medidas obtidas através da razão entre duas grandezas.

No contexto de visualizações de dados da Covid-19, temos visto recorrentemente o cálculo de taxa letalidade, de mortalidade e de incidência por 100 mil habitantes. A taxa de mortalidade, por exemplo, é calculada dividindo-se o número de vítimas pelo número de população local e multiplicando-se por 100 mil. E o interessante de se pensar contagens dessa forma relativa é que ela torna possível medir o impacto da epidemia por faixa etária e por outros parâmetros demográficos. 

A seguir, temos dois mapas complementares publicados em uma matéria da Folha em seu website.

No primeiro mapa, vemos o volume de vítimas fatais por município, indicado por meio da da altura da linha. No segundo mapa, vemos uma mapa coroplético que exibe a taxa de mortalidade por município. Por meio deste últimos percebemos que alguns municípios do Amazonas, do Pará e do Maranhão possuem taxas muito maiores do que São Paulo e Rio Janeiro. E quando associamos esse novo dado ao fato de que, historicamente, municípios do Norte e Nordeste possuem uma sistema de saúde público mais precário que os do sul e do sudeste, passamos a compreender que, comparativamente, números absolutos não contam toda a história.

Desafio 3: como comparar a propagação do vírus em diferentes locais?

No último exemplo, estávamos de certa forma comparando dados da Covid-19 em diferentes municípios brasileiros. Mas epidemias são fenômenos intrinsecamente ligados à passagem do tempo. A noção de que uma doença viral como a Covid-19 se propaga exponencialmente a cada número x de dias é fundamental pra compreensão de que diferentes locais estão em diferentes estágios da pandemia. Mas se mapas, então, não dão conta de comunicar isso, qual seria a representação ideal?

No dia 11 de março  o repórter especializado em visualização de dados John Burn-Murdoch, do Financial Times, publicou o gráfico a seguir que convencionou a maneira de se comparar a trajetória do novo coronavírus em diferentes locais. A partir de então, diversos veículos passaram a adotar a convenção criada pelo Financial Times.

Este gráfico tras três importantes estratégias visuais. A primeira é o alinhamento, no eixo x, das linhas a partir do marco zero da doença. Esse marco zero é contabilizado a partir do centésimo caso, quer dizer, o dia em que 100 casos da Covid-19 foram identificados. Esse alinhamento é o que permite comparar a trajetória do vírus em diferentes locais. Por exemplo, você olha o dia 10 e percebe que Coréia do Sul supera a Itália em números cumulativos. Mas no dia 15 a situação se inverte.

A segunda estratégia é a adoção da escala logarítmica. Em uma escala linear, a escala que estamos mais acostumados a ver, o valor entre os intervalos no eixo y é constante, o que pode acarretar em picos acentuados tratando-se de um crescimento exponencial. Já a escala logarítmica fixa uma mesma medida visual pro aumento exponencial dos intervalos no eixo y. Cada escala tem seus prós e contras, mas uma das vantagens da escala logarítmica é que você consegue plotar e comparar linhas com alturas extremas – por exemplo Hong Kong com pouco mais de 100 casos e Itália com mais 10 mil – em um espaço visual reduzido. Só uma observação, esse gráfico está representando o retrato da pandemia no dia 11 de março. Atualmente, o Financial Times tem uma versão interativa do gráfico que é atualizada diariamente.

A terceira estratégia é o uso de anotações dentro do gráfico pra dar contexto e explicação. Então, ao lado das linhas, o jornalista adicionou comentários sobre as medidas de proteção adotadas em cada país. E a linha pontilhada, legendada como 33% de crescimento diário, funciona como uma delimitação. Países representados por linhas que estão acima da linha pontilhada possuem um crescimento superior a 33% ao dia, e países representados por linhas que estão abaixo possuem um crescimento inferior. Essa linha é fundamental para ajudar pessoas menos familiarizadas com esse tipo de escala a ler os dados.

Desafio 4: como comunicar o impacto desproporcional da Covid-19 em segmentos mais vulneráveis?

Mas o gráfico do Financial Times está comparando nações inteiras e sabemos que a pandemia atinge a população com intensidades diferentes. Então como comunicar o impacto desproporcional da Covid-19 em segmentos mais vulneráveis da sociedade?

Para comentar sobre esse desafio, a Júlia citou dois trabalhos de visualização de dados. Primeiro, a contribuição da jornalista e editora de dados do The Guardian, Mona Chalabi, de quem já falamos no post Crítica social e autorreflexão.

O outro trabalho de visualização de dados é da Federica Fragapane, uma renomada designer da informação italiana. A designer teve um trabalho comissionado pela Surgo Foundation para criar visualizações de dados para um índice de vulnerabilidade desenvolvido pela Fundação com uma metodologia própria.

Esse é um trabalho que mostra vulnerabilidade dos municípios dos Estados Unidos diante do enfrentamento da pandemia o que de certa forma, extrapola a mera contagem de casos positivos e número de mortes. O trabalho busca cruzar contagens com outras estatísticas, oferecendo um retrato mais contextualizado e profundo da situação. É uma visualização de dados interativa e que permite ao usuário explorar mapas. Na imagem abaixo o município de Lincoln, no Arkansas, é destacado. O município apresenta duplamente um alto índice de vulnerabilidade e um alto número de casos confirmados por 100 mil habitantes.

Desafio 5: como comunicar os dados que não sabemos?

Para finalizar, o webinar trás um último e talvez mais difícil desafio de ser solucionado que é o da incerteza. 

Percebemos uma acelerada produção de dados sobre a pandemia. Talvez nunca na história uma pandemia tenha sido vivida, divulgada e analisada simultaneamente assim como a que estamos vivendo neste momento. No entanto, esses dados são muitas vezes incertos, incompletos e difíceis de serem analisados porque estão em contínua atualização e revisão metodológica. Vide a a recente polêmica gerada no Brasil.  No dia 6 de junho, o Ministério da Saúde retirou os dados acumulados sobre o número de infectados e mortos pela Covid-19 do site oficial sobre a pandemia do novo coronavírus. No entanto, os números voltaram ao balanço da pasta no dia 9 de junho, após ordem do Supremo Tribunal Federal (STF).

Isso sem falar na subnotificação. A subnotificação não é um problema de design, é um problema de testagem e de classificação que são problemas políticos. Mas se há, por um lado, a provável subnotificação de casos de Covid-19, há, por outro lado, o benefício da dúvida que deveria ser arma de questionamento e enfrentamento por parte dos comunicadores e designers. E nesse sentido, começamos a ver, talvez ainda de forma tímida mais existente, algumas estratégias nessa direção.

No dia que o Brasil bateu 50 mil mortos, A Folha e o Estadão optaram por visualizar esse número em suas capas impressas. O Jornal O Globo optou por um caminho um pouco diferente que foi o de levantar a dúvida se o número de 50 mil não poderia ser maior.

A capa em si não é tão impactante como a do Estadão e a da Folha – até pelo espaço dedicado à visualização de dados que é de apenas ⅓ da página. Além disso, podemos nos sentir tentados a criticar o layout, os espaçamentos, as cores e até mesmo o tipo de visualização elegido para a representação que é um gráfico de área. Contudo o dado em si visualizado é o fator impactante e não deixa de ser comunicado nesta página.

O que estamos visualizando é o aumento de mortes por Síndrome Respiratória Aguda Grave (SRAG) sem causa determinada e que cresceu 16 vezes em 2020 em relação à média dos 7 últimos anos. Esse crescimento seria coincidência? Ou seria uma evidência de que os casos de Covid-19 no Brasil estão sendo subnotificados? 

Gostaríamos de terminar o post com esse último desafio e com uma reflexão. Designers e comunicadores projetam e analisam visualizações de dados muitas vezes focados estritamente em questões formais e tecnológicas. De fato, designers dominam os princípios visuais gráficos e instrumentos para criar visualizações de dados que comunicam e informam. Essa é sua especialidade e ela é fundamental. Mas designer também devem ser mais críticos, responsáveis e participativos quanto ao conteúdo também.