@Rudi van Els @ setembro 2019
Este trabalho pretende fazer o passo a passo para trabalhar com o banco de dados de produção científica do Banco de teses da Capes. A demenda surgiu quando eu queria avaliar como foi a produção científica nas Universidades na região Norte do Brasil sobre Açai (Nome Científico) num artigo sobre Produtos da Sociobiodiversidade para Suriname.
O primeiro passo foi "brincar" com o catalogo de teses da capes no link : https://catalogodeteses.capes.gov.br/catalogo-teses/#!/
Fazendo a pesquisa com a palavra "Açai" chegamos a ter 855 resultados.
Refinando a pesquisa selelcionando somente instituições da região norte, resultou em 303 resultados.
So que neste site não é possível extrair os registros selecionados de forma automática, e tampouco tem com ter acesso aos dados de forma estruturado. O site fornece uma listagem com os nome do autor, título de trabalho, universidade, ano e quando tiver, um link para a plataforma sucupira.
O proximo passo foi procurar uma forma de ter acesso diretamenta a base de dados.
O portal de dados aberto da Capes é https://dadosabertos.capes.gov.br que foi desenvolvido usando CKAN: http://ckan.org/.
Os dados estão organizados em temas e grupos. Com um pouco de pesquisa consegui localizar o grupo Catalogo de Teses e Dissertações no portal no seguinte endereço: https://dadosabertos.capes.gov.br/group/banco.
Este catálogo está dividio em 3 conjunto de dados. O primeiro tem dissertações de 1987 a 2012. O segundo abrange 2013-2016 e finalmente o terceiro engloba toda a produção de 2017.
Em cada conjunto de dados, há arquivos organizado para cada ano indivudual no formato CSV, XLS, PDF e HTML.
O tamanho dos arquivos pode variar. Por exemplo, o tamanho arquivo em excel da produção do ano 1993 é de 6.4Mbytes enquanto o arquivo de 2012 tem 83.6Mbytes.
Ou seja, o dowload destes arquivos e sua pesquisa local no computador seria muito pesado.
Vamos ter que procurar de meios para filtrar estes dados na hora de baixar os registros para o nosso computador de forma a não carregerar os recursos de rede e memória da minha máquina.
Numa primeira ação para entender como usar Python para acessar estes dados, fizemos uma cópia do arquivo com as dissertações e teses do ano 1987 para nosso computador, mas como ele ainda é grande para trabalhar, gravamos somente as primeiras xxx registros.
O arquivo datacapestest1.csv foi gravado no diretorio deste Jupiter Notebook e vamos usar a biblioteca do Pandas para explora-lo.
import pandas as pd
Com este comando abrimos a biblioteca e podemos ter acesso a várias funções.
Para ler o arquivo gravado vamos usar a função read_csv do Pandas
Na primeira tentativa tive um erro na leitura do arquivo relacionado ao encoding = UTF-8. Esso foi resolvido colocando uma parametro extra na função de leitura com encoding = "ISO-8859-1"
data = pd.read_csv('datacapestest1.csv',';', encoding = "ISO-8859-1")
# imprime o tipo do data
print (type(data))
# imprime o tamanho do dataframe = quantidade de colunas multiplicado pela quantidade de linhas
print (data.size)
# imprime a quantidade de linhas e colunas do dataframe
print (data.shape)
# imprime o nome das colunas do dataframe
print (data.columns)
# uma maneira simples, mas não muito elegante de visualizar os dados
# visualiza os primeiros 5 linhas de dados
data.head(5)
Falta melhorar a visualização dos dados no Python com a acentação correta no sistema.
Vamos ver se conseguimos listar as palavras chaves dessa tabela e sorta-las.
data['PalavrasChave']
data.loc[2,'PalavrasChave']
Com isso temos conseguido importar um arquivo CSV e analisar a sua estrutura com Pandas. O próximo desafio é como filtrar os dados no banco de dados e somente baixar os dados que se precisa para fazer a nossa análise de produção científica sobre Açai nas Universidades da Região Norte.