Python

Selecionar linha específica no Pandas

Escrito por Erick Faria · 2 min. >
selecionar linha especifica no pandas

Em alguns casos nós precisamos selecionar linha específica no Pandas. É como selecionar um determinado caso, para que nós possamos investigar mais a fundo o que está acontecendo com um determinado caso. Para isso nós usamos uma função nativa do pandas que se chama iloc[]. Com o iloc[] você conseguirá selecionar um caso específico e poder dar uma olhada mais a fundo naquela linha específica.

Selecionar linhas de um DataFrame no Pandas

Quando nós fazemos a importação de um dataset no Pandas, é importante que nós verifiquemos os dados, antes de começar a realizar as análises que desejamos. Entre as análises preliminares, nós costumamos começar pela Estatística Descritiva, onde nós teremos um diagnóstico da dispersão e de métricas importantes sobre o conjunto de dados que estamos trabalhando. Se você ainda não sabe como fazer análise de estatística descritiva no python utilizando o pandas, veja em Estatística Descritiva no Python, como fazer.

Antes de fazer a seleção de uma linha, é importante que você respeite as etapas anteriores que é fazer a importação do pandas, importar o DataFrame que você deseja trabalhar e depois disso fazer a seleção da linha que você deseja.

Se você está conversando agora e não fez as etapas anteriores, tão pouco sabe como fazer. Recomendo que você comece pelas etapas descritas abaixo e veja esse material para que você consiga realizar todas as etapas anteriores.

  1. O que é pandas?
  2. Abrir arquivo no Pandas
  3. Estatística Descritiva no Pandas

Após fazer a importação dos seus dados, você estará pronto(a) para seguir ao próximo passo e selecionar uma linha específica no Pandas.

Selecionar linha específica no Pandas

Importando dataset no Pandas

Antes aprendermos a selecionar linha específica no Pandas, precisamos fazer a importação de um conjunto de dados. Vou sugerir um exemplo para fins didáticos desse post, mas você está livre para selecionar o seu próprio dataset.

Para esse exemplo, vou utilizar o dataset de espécies de pinguins, que você consegue acessar por meio desse link: Dataset Pinguins. Para fazer a importação desse Dataset automáticamente no seu python você deve copiar os seguintes comandos.

import pandas as pd

df = pd.read_csv('https://raw.githubusercontent.com/balaiocientifico/dataset/main/penguins.csv')

Com o código acima você fará a importação do dataset automaticamente em seu python. Caso você prefira é possível fazer o download do dataset em seu diretório local e fazer a importação localmente. Independentemente da maneira que preferir, não irá interferir no resultado.

Antes de prosseguirmos para a próxima etapa, sugiro que você execute o comando df.head() para ter certeza de que os dados foram importados corretamente. Veja a seguir o comando.

df.head()

Ao executar o comando acima você verá as cinco primeiras linhas. Se todas as colunas foram importadas corretamente, você está pronto(a) para aprender a selecionar linha específica no pandas.

Comando iloc[]

Após fazer a importação dos dados, chegou o momento de selecionarmos uma linha baseado no índice do DataFrame. Nessa etapa vamos utilizar o comando iloc[]. Veja a seguir um exemplo de código que criei para selecionar a linha 5 do DataFrame que acabamos de importar.

df.iloc[5]

Com o comando acima você verá todos os dados que estão presentes na linha 5. Você pode selecionar qualquer linha desse DataFrame, simplesmente mudando o número da linha que você deseja ver. Veja outro exemplo, agora selecionando a linha 7.

df.iloc[7]

É possível selecionar um conjunto de linhas de uma só vez, utilizando o sinal de dois pontos entre a linha que você deseja começar a selecionar e até a última linha que você deseja incluir. Veja um exemplo:

df.iloc[1:5]

No exemplo acima eu selecionei todas as linhas entre 1 e 5, incluindo as linhas 1 e 5. Você pode testar outras combinações e selecionar outras linhas para praticar e fixar o conteúdo.

Lembre-se que essa seleção se dá por meio do índice do DataFrame que está situado à esquerda da tabela que você importou. Em Pandas todos os DataFrames tem uma contagem que chamamos de índice e se refere a posição da linha no DataFrame.

Se você gostou desse conteúdo, saiba que você também pode ver a minha videoaula sobre como selecionar linha especifica no Pandas. Não perca nenhum conteúdo e se inscreva no meu canal. Veja o vídeo a seguir:

Vídeoaula sobre selecionar linha específica no Pandas
Escrito por Erick Faria
Engenheiro de Dados com Ph.D. em Geografia e experiência em análise espacial e geoprocessamento. Expertise em processamento de grandes volumes de dados geoespaciais, imagens de satélite e dados de mercado, utilizando ferramentas como Spark, Databricks e Google Earth Engine. Experiência em projetos de mercado de carbono, modelos preditivos para investimentos agrícolas e liderança de projetos de dados em saúde pública. Habilidades em Python, R, SQL e diversas ferramentas de engenharia de dados. Profile