Analise de Dados Empresarial
Realizar a analise de dados de PDF com a biblioteca PDF Plumber para extrair e manipular informações de diversos relatórios em pdf ao mesmo tempo.
Vamos utilizar o Google Colab neste projeto.
Pré-requisitos
- Instalar a biblioteca do PDF Plumber
!pip install pdfplumber -q
Desenvolvimento
- importando os pacotes necessários
from google.colab import drive
import pdfplumber
import os
- mudar para diretório com pdfs da semana
relatorios = '../../docs/modulo_02-projeto/relatorios/'
- listar os relatorios
arquivos_semana = os.listdir(relatorios)
print(arquivos_semana)
- abrir um relatório de exemplo
relatorio = pdfplumber.open(relatorios + '/20200801.pdf')
pagina = relatorio.pages[0]
- extrair o texto da primeira página do primeiro relatório
texto = pagina.extract_text()
print(texto)
- buscando o valor da receita
float(texto.split('\n')[3].split('R$')[1])
- criando a função para percorrer a lista e buscar os valores
soma = 0
for arquivo in arquivos_semana:
relatorio = pdfplumber.open(arquivo)
pagina = relatorio.pages[0]
texto = pagina.extract_text()
valor = texto.split('\n')[3].split('R$')[1]
valor = float(valor)
soma = soma + valor
print(arquivo, "--->", valor)