Usamos cookies para melhorar sua experiência de navegação no Portal Dataprev. Para ter mais informações sobre como isso é feito, acesse nosso Aviso de Privacidade. Ao continuar navegando, você confirma que leu, compreendeu e consente com a utilização de cookies.
Dataprev Explica - Data Lake
Tecnologia se diferencia do modelo tradicional de armazenamento pela capacidade de trabalhar grandes volumes de dados de diferentes formatos
O Dataprev Explica desta sexta-feira (3) traz o tema data lake, ou lago de dados, na forma traduzida. Essa tecnologia se diferencia do modelo tradicional de armazenamento, em data warehouse, pela capacidade de trabalhar grandes volumes de dados de diferentes formatos. Está sendo cada vez mais usada, especialmente em inteligência artificial e analytics. É nesse lago que essas ferramentas vão extrair conclusões, previsões, fazer cruzamento de dados, etc.
O data lake é um repositório centralizado, destinado a armazenar, processar e proteger um volume significativo de dados. Sua principal característica está na capacidade e na possibilidade de processar dados estruturados (planilhas de Excel, tabelas) junto com os não estruturados (imagens, arquivos de áudio, mensagens de celular, PDFs) ou semiestruturados (arquivos XML, páginas da Web).
Muito escalonável, acomoda diferentes tipos de dado, de diferentes sistemas e volumes. E faz o processamento em tempo real ou em lote. O modelo do data warehouse opera apenas com dados estruturados.
Os grandes lagos ampliam as possibilidades de análises, que podem ser feitas a partir de diferentes linguagens, como SQL, Python, R ou ferramentas de código aberto. E a operação pode ser feita sem a necessidade de mover os dados para um sistema analítico separado.
Ao ser capaz de lidar com grandes volumes de dados variados (Big Data) e de facilitar análises mais aceleradas e cruzamentos diversificados, o data lake é eficiente para trabalhar com novas tecnologias de Inteligência Artificial (IA) e Aprendizado de Máquina (Machine Learning), que dependem diretamente da disponibilidade farta de dados.
O Painel de Indicadores do Observatório Brasil de Igualdade de Gênero, construído por meio da parceria entre o Ministério das Mulheres e a Dataprev, é um exemplo de solução que utiliza dados armazenados no data lake. A solução permite impulsionar a aplicação de ciência de dados e Inteligência Artificial, para gerar diagnósticos que vão subsidiar políticas públicas.
Sobre o Dataprev Explica - A Dataprev lançou o Dataprev Explica no início de março. O objetivo é esclarecer e traduzir termos, tecnologias ou temas relevantes da TI e da transformação digital. O conteúdo é publicado quinzenalmente nos canais oficiais da empresa. Confira alguns dos temas já abordados:
Infraestrutura Pública Digital (IPD)