Conhecendo os Dados

No bloco “Desvendando” consideramos de maneira geral os dados relacionados com a pandemia do novo Coronavirus e propusemos uma conceituação que chamamos de Ciclo de Dados.

Naquele arcabouço conceitual, dividimos os dados em 3 tipos: Dados Primários; Dados Secundários e Dados Pessoais. Subsequentemente, terminamos o bloco com uma análise de visualizações baseadas em dados secundários.

Neste bloco, temos por objetivo estudar mais a fundo os dados primários. Eles tem importância fundamental, pois se referem aos aspectos sanitários da doença – ou seja: o processo epidêmico da Covid-19 e seus efeitos diretos.

Assim, qualquer ação efetiva a ser tomada concernente à pandemia deve se basear em ultima instância nesses dados e na sua evolução. Os dados primários são os insumos essenciais para a modelagem matemática do fenômeno, bem como os elementos geradores das visualizações – seja para entender melhor a natureza da doença, estudar as características da contaminação, controlar a sua propagação, ou mesmo informar a população.

Como vimos na seção precedente deste bloco, o acesso aos dados e a sua utilização responsável tem implicações politicas, sociais e econômicas para toda a sociedade. Por isso, compreende-los em suas várias dimensões se torna instrumental para atingir os objetivos maiores de enfrentamento da pandemia.

Dados Primários

Os dados primários se originam do processo de contaminação pelo vírus da Covid-19. Para analisarmos mais profundamente podemos dividi-los segundo uma estratificação em dois níveis, a saber: Dados Brutos e Dados Derivados.

Os Dados Brutos refletem o estado da doença na população. Eles são produzidos pelo sistema de saúde com o resultado de testes clínicos e laboratoriais. Temos então os casos:

  • Confirmados: indivíduos infectados pela Covid-19.
  • Mortes: pacientes que faleceram devido ao Novo Coronavírus.
  • Recuperados: pessoas que contraíram a doença e se curaram.
Painel Covid-19: fonte de dados primários no contexto brasileiro.

Os Dados Derivados consistem de informações associadas a condições da doença e ao contexto da contaminação. Podemos interpreta-los como Metadados, os quais revelam as múltiplas dimensões do impacto da pandemia nos indivíduos, na sociedade e no sistema de saude. Eles serão discutidos a seguir.

As Dimensões dos Dados

Dependendo de como são coletados os dados da doença nos indivíduos, uma multitude de informações adicionais são originadas. Metodologicamente, uma boa estratégia consiste em agrupá-las em categorias de acordo com a sua natureza. Temos então dimensões distintas dos dados primários que facilitam o seu entendimento a partir de diversos pontos de vista.

Nesse sentido, enumeramos abaixo algumas das dimensões relevantes dos dados primários:

  • Doença:
    • tipos de sintoma
    • gravidade da doença
  • Sistema de Saúde:
    • número de internações
    • capacidade dos hospitais (leitos de UTI, etc)
    • percentual de agentes da saúde infectados
  • Pessoas:
    • gênero
    • raça
    • nível social
  • Geográfico:
    • região
    • urbano / campo

A partir de dados derivados é possível realizar análises mais profundas como a realizada pela Revista Época sobre a vítima-padrão de Covid-19 no Brasil. A partir de dados do Opendatasus, a análise conclui que o perfil de brasileiros que perderam a vida em maior número por causa da pandemia é homem, pardo e de baixa renda.

Regiões brasileiras apresentam diferenças na composição racial dos mortos pela Covid-19. Fonte: Época com dados do Opendatasus.

As Fontes de Dados

Para se ter um correto entendimento do perfil e abrangência dos dados primários relativos à pandemia do novo coronavírus, tais como mortes, confirmações pacientes internados, pessoas em observação e recuperadas, equipamentos distribuídos, temos que seguir o longo caminho pelo qual eles passam.

No Brasil, as fontes de dados primários da Covid-19 são as autoridades locais de saúde – i.e., Municípios e Estados da federação. Tanto agentes de unidades publicas, quanto privadas devem registrar os casos de pessoas que foram diagnosticadas com Covid-19, hospitalizadas ou cuja evolução termine em morte.

Esses casos, são reportados pelos agentes de saúde para as secretarias municipais e estas repassam para as secretarias estaduais que os enviam para o Ministério da Saúde através de sistemas eletrônicos do SUS (Serviço Único de Saúde).

Para a coleta e análise de informações, a definição chave para inclusão de um paciente como caso de Covid-19 está relacionada a dois tipos de condição: a Síndrome Gripal e a Síndrome Gripal Aguda Grave (SRAG).

Quando o paciente tem um quadro leve, é considerado um caso de Síndrome Gripal, sua ficha é inserida no sistema SUS-VE na Internet, que foi criado por causa da pandemia. Já os pacientes com casos mais sérios tem que ser registrados em um outro sistema: o SIVEP-Gripe, que foi criado na época da da pandemia do H1N1 e está sendo usado agora para vigiar também a Covid-19.

Devido ao fato do Brasil ser um país de grande diversidade, dependendo das condições locais as fichas dos pacientes podem ser preenchidas e encaminhadas de formas diferentes. Elas podem ser inseridas diretamente na Internet, quando existe esse acesso disponível; ou alternativamente num computador para ser depois repassada e transmitida; e até mesmo preenchida em papel para ser levada fisicamente aos Departamentos de Vigilância em Saúde que se encarregam de passar as informações para o sistema do SUS.

Os dados, tanto de pessoas infectadas quanto de mortes, só entram no sistema depois de confirmados por meio de testes ou diagnósticos, que são: teste laboratorial RT-PCR para detectar a presença do virus; teste sorológico para mapear a anticorpos indicando a existência do virus; e finalmente a confirmação pelo “critério clínico-epidemiologico” baseado na avaliação de vários quesitos.

Deve-se ressaltar que há no Brasil uma subnotificação grande de pessoas infectadas, principalmente por dois motivos: primeiro, pelo fato de mais de 80% das pessoas com coronavírus não apresentarem sintomas; segundo, pela dificuldade de testagem.

APIs de Dados

As informações sobre a Covid-19, depois de coletadas alimentam bases de dados eletrônicas para serem utilizados posteriormente. O sistema do Ministério da Saude, descrito acima congrega municípios, estados e governo federal para formar uma base de dados única que fica disponível publicamente na nuvem. Além dessa base de dados do governo, existem também outras que são mantidas por organizações independentes.

Esses dados podem ser acessados por meio de três formas:

  • Interface Web: manualmente, através de consultas interativas em paginas na Internet feita por humanos.
  • Download de Dados: pela cópia de arquivos de dados feita de modo semi-automático a partir de URLs (Universal Record Locator) na nuvem.
  • APIs (Application Program Interface): automaticamente, usando transferência direta por programas que enviam requisições de computadores clientes para sistemas de servidores de banco de dados na Internet.

As APIs que funcionam na Web são baseadas numa arquitetura de software para a criação de serviços conhecida como REST (Representational State Transfer), ou em português “Transferência Representacional de Estado”. Essa arquitetura foi projetada para garantir a introperabilidade entre sistemas de computadores na Internet. Em geral, ela opera num contexto Cliente-Servidor, onde os clientes acessam representações textuais de recursos da Web usando um conjunto de operações sem estado.

Nesse contexto, os conceitos importantes são: recursos (elementos de informação) que estão associados a um URI (identificador global) ou “endpoint”, os quais são manipulados pelos componentes de rede (clientes e servidores). Assim, a API consiste de um conjunto de endpoints expostos publicamente definindo um sistema de mensagens requisição-resposta na Web.

Em um serviço Web RESTfull, as solicitações são feitas ao URI (Uniform Resource Identifier) de um recurso e geram uma resposta num formato padronizado, como HTML, XML, ou JSON. A importância das APIs está no fato delas permitirem incorporar o acesso aos dados de maneira uniforme em uma vasta gama de aplicações.

No contexto brasileiro, o Painel Covid-19, mencionado anteriormente, permite somente o acesso via interface web e download de dados em arquivo de tipo CSV. Uma alternativa para acesso de dados da Covid-10 via API é mantida pela Brasil.io, um repositório de dados públicos disponibilizados em formato acessível.

API de dados da Covid-19 elaborada e disponibilizada pelo Brasil.io.

Passamos agora a analisar a visualização dos dados brutos.