Analise de Dados Empresarial

Realizar a analise de dados de PDF com a biblioteca PDF Plumber para extrair e manipular informações de diversos relatórios em pdf ao mesmo tempo.

Vamos utilizar o Google Colab neste projeto.

Repositório do Github

Pré-requisitos

  • Instalar a biblioteca do PDF Plumber
!pip install pdfplumber -q

Desenvolvimento

  • importando os pacotes necessários
from google.colab import drive
import pdfplumber
import os
  • mudar para diretório com pdfs da semana
relatorios = '../../docs/modulo_02-projeto/relatorios/'
  • listar os relatorios
arquivos_semana = os.listdir(relatorios)
print(arquivos_semana)
  • abrir um relatório de exemplo
relatorio = pdfplumber.open(relatorios + '/20200801.pdf')
pagina = relatorio.pages[0]
  • extrair o texto da primeira página do primeiro relatório
texto = pagina.extract_text()
print(texto)
  • buscando o valor da receita
float(texto.split('\n')[3].split('R$')[1])
  • criando a função para percorrer a lista e buscar os valores
soma = 0

for arquivo in arquivos_semana:
    relatorio = pdfplumber.open(arquivo)
    pagina = relatorio.pages[0]
    texto = pagina.extract_text()
    valor = texto.split('\n')[3].split('R$')[1]
    valor = float(valor)
    soma = soma + valor
    print(arquivo, "--->", valor)