AWS PORTFOLIO – PROJECT 01

Post Views: 15

Problema de negócio

Uma empresa de Seguros possui um sistema inflexível, onde é impossível aceder a dados de cadastro de clientes categorizados por sector de atividade. O Sistema também não prevê validação de campo, permitindo ao técnico de cadastro efetuar aberturas de clientes de modo não padronizado.

Solução

A solução técnica rápida e confiável consistiu em carregar um ficheiro .csv contendo as classificações e normalizações necessárias, para alimentar e enriquecer os dados disponíveis no Datalake a partir da integração com o sistema da empresa de Seguros.

Assim sendo, foi criado o seguinte fluxo:

Img. 01 – Fluxograma simplificado

A Base de Dados Oracle está conectada ao Data Lake onde foram criados os buckets. No bucket datalake-autorizador foi criada a pasta CENSUS_CLASSIFICACAO, onde carrega-se o ficheiro apoio_census.cvs.

S3://data-autorizador/CENSUS_CLASSIFICACAO/

Img. 02 – Pastas organizacionais do Bucket S3

Img. 03 – Ficheiro .csv carregado

Após o carregamento do .csv, se corre o job Glue.

Img. 04 – Script do job census_vidas_tmp_classificacao_auxiliar

Este job cria os ficheiros parquet que ficam salvos na pasta census_classificacao/ dentro do S3.

Img. 05 – Ficheiros parquet

Uma vez criada a tabela de apoio denominada census_classificacao já é possível escrever a query no Athena, para o enriquecimento dos dados presentes na view denominada vw_census_vidas_tmp.

SELECT
vw_census_vidas_tmp.apolice AS ID
,vw_census_vidas_tmp.empresa AS COMPANY
,vw_census_vidas_tmp.inicio_vigencia AS CONTRACT_START
,vw_census_vidas_tmp.fim_vigencia AS CONTRACT_END
--,COUNT (vw_census_vidas_tmp.exposicaohoje) AS Vidas
,census_classificacao.empresa AS REVIEWED_COMPANY
,census_classificacao.setoratividadeempresa AS SECTOR
,census_classificacao.tipocontrato AS CONTRACT_TYPE
FROM vw_census_vidas_tmp 
LEFT JOIN census_classificacao ON vw_census_vidas_tmp.apolice = census_classificacao.apolicemit
WHERE 
vw_census_vidas_tmp.situacao_beneficiario = 'Ativo' AND vw_census_vidas_tmp.situacao_da_apolice = 'Ativa'
GROUP BY 
vw_census_vidas_tmp.apolice
,vw_census_vidas_tmp.empresa
,vw_census_vidas_tmp.inicio_vigencia
,vw_census_vidas_tmp.fim_vigencia
,census_classificacao.empresa
,census_classificacao.setoratividadeempresa
,census_classificacao.tipocontrato
ORDER BY tipocontrato DESC

Criando uma view a partir da query acima, se consegue a partir do ODBC conectar os dados ao Power BI e montar visuais já normalizados e enriquecidos. Por questões de privacidade de dados apresentaremos apenas o quadro central extraído do dashboard Power BI.

Conclusão

Implementado pipeline de dados escalável, com recurso a AWS Glue para conversão de volumes de dados CSV para Parquet.
Redução de 70% no volume de dados processados.
Estruturação de queries otimizadas no Amazon Athena para servir de base para relatórios gerenciais.
Conexão do ecossistema AWS ao Power BI via ODBC, permitindo a visualização de KPIs em tempo real para a tomada de decisão.

Post Views: 15