A caminho da ciência de dados

Telma Aisengart

É impressionante como tudo tem se transformado tão rapidamente à nossa volta nos últimos anos, tanto em nossas vidas domésticas cotidianas como do ponto de vista profissional. As principais  mudanças estão relacionadas ao acesso e à geração de dados e informações. No cotidiano temos acesso a praticamente qualquer tipo de informação na ponta de nossos dedos consultando o Google em nossos celulares, tablets e computadores e da mesma forma geramos uma grande quantidade de informações como fotos, vídeos, e-mails, mensagens de texto (whatsapp, SMS) além do intercambio de informações via Dropbox, Google drive e outros aplicativos similares. Os números que refletem a explosão de dados são impressionantes

  • 48 – Horas de vídeo carregadas no YouTube a cada minuto, somando aproximadamente 8 anos de conteúdo por dia.
  • 7 Milhões – Número de DVDs que seriam necessários para gravar a informação trafegando pela internet a cada hora.
  • 3 Bilhões – Número de pessoas online em 2015, gerando 8 zetabytes de dados. (1ZB=1021B).
  • 30 Bilhões – Conteúdo compartilhado diariamente no Facebook.
  • 247 Bilhões – Número de mensagens de email enviadas por dia, aproximadamente 80% são spam.
  • 90% - Percentual de dados criados no mundo nos últimos 2 anos.
  • Existem quase tantos bits de informação no universo digital quanto estrelas no nosso universo.

Fonte: http://www.datamentors.com/blog/big-data-%E2%80%93-take-look-numbers

Fonte: http://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm

Recentemente ouvi a seguinte frase em uma apresentação: “O futuro dos dados é sempre mais dados”. Realmente, esta afirmativa está bem alinhada com a visão da Microsoft (*) de que estamos lidando com uma grande transformação nas ciências, vivendo o quarto paradigma científico. Primeiro tivemos a ciência empírica, totalmente baseada na observação, em seguida veio a teoria - o uso da matemática para criação de modelos dos fenômenos observados (Lei de Kepler, Leis de Newton, Equações de Maxwell, etc.), depois o uso da computação para simular fenômenos já que  os modelos foram se tornando cada vez mais  complexos e impossíveis de resolver analiticamente. Agora estamos entrando na era da ciência dos dados ou Exploração de Dados (eScience) que unifica observação, teoria, experimento e simulação lidando comdados capturados por instrumentos ou gerados, dados processados por software, informação/ conhecimento armazenados em computador. Para a exploração dos dados, os cientistas precisam analisar grande número de bases de dados e arquivos e consequentemente necessitam acesso aos sistemas de dados e ferramentas de análise.

Quando pensamos no ponto de vista profissional, embora como geofísicos ou profissionais ligados à geofísica temos certa vantagem por já lidarmos a muito tempo com grandes volumes de dados, tanto o Volume como a Variedade são surpreendentes. Estes dois “V”s são os primeiros dois atributos usados para a definição de Big data de que tanto se fala e que, para nós, não é realmente uma grande novidade. O ano internacional da Geofísica de 1957-1958 foi um esforço internacional para coordenar a coleção de dados geofísicos de todo o mundo, contando com a participação de 67 países e pesquisando 11 campos da geofísica: aurora, luminescência fotoquímica (airglow), raios cósmicos, geomagnetismo, glaciologia, gravidade, física da ionosfera, determinações de longitude e latitude, meteorologia, oceanografia, sismologia e atividade solar. Processar grandes volumes de dados não é nenhuma novidade para os geofísicos, geólogos e engenheiros de reservatório que vem utilizando intensamente a capacidade de processamento paralelo proporcionada pela computação de alto desempenho (High-Performance Computing), desde o final dos anos 90, para analisar  petabytes de dados usados pela exploração.

Outros dois importantes atributos são Velocidade e Veracidade, completando os quatro V’s normalmente utilizados para caracterização de Big data. Quando pensamos, especificamente, nos dados geofísicos usados para Exploração mineral e na indústria de petróleo, o volume e a variedade de dados são muito grandes já que o número de diferentes métodos aplicados a áreas de interesse é crescente, assim como, o aumento de resolução dos equipamentos de aquisição, gerando arquivos cada vez maiores. A velocidade é de certa forma a essência da questão de Big data, já que todo este conteúdo tem que ser processado rapidamente gerando resultados que possam ser analisados, muitas vezes em tempo real. A Veracidade ou o Valor dos dados estão diretamente relacionados com a qualidade dos dados e, para isso, os metadados são de extrema importância.

Os metadados são a chave para a busca e para estabelecer a confiabilidade e a relevância dos dados encontrados.  O conceito de MDM – Master Data Management que já vem sendo implantado em grandes empresas, para integração de todos os diferentes bancos de dados de gestão de diferentes tipos de informações, ainda não inclui os dados técnicos/científicos, mas esta é uma tendência irreversível na nossa caminhada rumo ao quarto paradigma científico. Para acompanhar a evolução, acreditamos que é muito importante aderir aos padrões de metadados que vem sendo definidos pela indústria.

Um dos impasses que vemos ocorrer com maior frequência na busca por uma solução de gestão de dados geocientíficos é a busca por uma única solução para todos os tipos de dados. Os dados de Exploração englobam tanto dados estruturados como não estruturados, o que faz com que seja muito difícil adotar uma única solução adequada a todos. No nosso ponto de vista, é muito mais simples e eficaz adotar soluções desenhadas especificamente para cada um dos tipos de dados gerenciados e desenvolver um portal único que permita ao usuário buscar os dados e informações necessários para o seu trabalho a partir de um único ponto de acesso.  A chave para implementar um sistema como esses é a integração dos metadados.

Um exemplo interessante desenvolvido recentemente pela Geosoft é o da Cameco que  implantou um portal único para acesso a todos os dados de exploração e estima que os geocientistas da empresa poderão utilizar um dia a mais por semana buscando novas minas em vez de usar este tempo buscando dados.

Outro exemplo interessante é o do Serviço Geológico de Queensland. A Austrália tem uma tradição de disponibilizar, pública e gratuitamente, muitos dos dados levantados pelos Serviços Geológicos incluindo o de Queensland. O problema enfrentado por eles era o tempo e a quantidade de recursos técnicos que eram alocados à atividade de fornecimento dos dados. Ao implantar um portal de autosserviço que permite ao usuário buscar, verificar e fazer o download dos dados de interesse, o tempo destes funcionários foi liberado para atividades mais criativas e produtivas. O site é http://qdexdata.dnrm.qld.gov.au/flamingo/ e lá estão disponíveis os dados geocientíficos da província de Queensland, Austrália.

A decisão de adoção de estratégias de gestão de dados é apenas parte do processo que envolve a escolha dos sistemas, seguidos pelo desenho e implantação das soluções. Uma vez implantadas ainda será necessário fazer a carga de dados atuais e a carga inicial dos dados históricos. Considerando que os dados históricos coletados ao longo da existência de uma empresa irá requerer um grande esforço inicial, mas que de toda forma trará benefícios adicionais. O departamento de Serviços Profissionais da Geosoft vem ajudando a Hudbay, empresa canadense de mineração, a limpar, organizar e catalogar seus dados históricos que estão sendo reprocessados, utilizando novas técnicas de processamento e inversão atualmente disponíveis para permitir a tomada de decisão no sentido de manter ou liberar as áreas que detém os direitos de exploração. Este artigo traz a história completa da recuperação de dados da Hudbay. Segundo o seu diretor de exploração, a próxima mina deles virá dos dados históricos e não de novos levantamentos!

De acordo com os resultados de uma pesquisa recente conduzida pela Geosoft sobre gerencia de dados de exploração, 85% dos entrevistados consideram a gerencia de dados como sendo a questão crítica ou entre as cinco questões críticas para o seu grupo de exploração, o que mostra que a maioria das empresas já tem consciência da importância de uma politica de gestão de dados, embora muitas ainda não tenham uma solução implantada. Lembrando que, a gerência de dados precisa levar em consideração a particularidade de cada tipo de dado, de maneira a garantir sua maior relevância aos trabalhos de exploração e isso é feito idealmente respeitando o ambiente de geração e armazenamento e ao mesmo tempo garantindo a busca e permitindo sua utilização no ambiente de trabalho do profissional que irá usar o dado.

*O Quarto Paradigma: descobertas científicas na era da eScience – Tony Hey, Stewart Tansley, Kristin Tolle (orgs.);tradução Leda Maria Marques Dias Beck – São Paulo:Oficina de Textos, 2011

Back to top