Python

Selecionar coluna no Pandas

Escrito por Erick Faria · 3 min. >
Selecionar Coluna no Pandas

Neste post, detalhamos como selecionar coluna no Pandas, uma poderosa biblioteca Python usada para análise de dados. Inicialmente, criamos um DataFrame como exemplo e, em seguida, exploramos várias técnicas para selecionar colunas, começando com o método mais comum usando colchetes. Também discutimos a seleção de colunas com os métodos .loc e .iloc, que se baseiam em rótulos e posições respectivamente. Além disso, mencionamos a opção de selecionar colunas como atributos, caso o nome da coluna seja um identificador Python válido.

Conhecendo o Pandas

Pandas é uma biblioteca em python incrível e versátil, que revolucionou a forma como trabalhamos com manipulação e análise de dados em Python. Sua origem remonta a 2008 e o termo “Pandas” é uma referência a “Panel Data”, uma terminologia usada em econometria para se referir a conjuntos de dados que incluem observações ao longo do tempo.

Se você é usuário(a) frequente do blog, provavelmente você já ouviu falar do Pandas? Caso não, convido você a entender o que é o Pandas visitando este link. Aqui, você encontrará uma introdução completa ao Pandas, um aliado inestimável para a ciência de dados.

As duas estruturas de dados principais no Pandas são as Series e os DataFrames. As Series são estruturas unidimensionais, que podem acomodar qualquer tipo de dados. Já os DataFrames são estruturas bidimensionais, como uma tabela de banco de dados ou uma planilha do Excel. Ambos são fundamentais quando o assunto é selecionar colunas no Pandas.

O Pandas é altamente eficiente, sendo amplamente aplicado em ciência de dados, aprendizado de máquina e análise de dados. Ele permite manipular grandes conjuntos de dados com facilidade, selecionar colunas no Pandas é um processo simples e intuitivo. Você pode aprender mais sobre como selecionar uma linha específica no Pandas aqui.

Outra grande vantagem do Pandas é a sua capacidade de ler e escrever dados em vários formatos, como CSV, Excel e bancos de dados SQL. Ele também oferece ferramentas para limpar, filtrar, agrupar e combinar dados. Se estiver interessado, confira nosso post sobre estatística descritiva no Python neste link.

Além disso, o Pandas também oferece funcionalidades para recodificar variáveis. Acesse aqui para aprender mais. E caso esteja interessado em criar gráficos no Python, confira este link. Por fim, não se esqueça de explorar o recurso da tabela dinâmica (Pivot Table) no Pandas aqui.

Agora que nós vimos um pouco sobre o que é pandas, vamos ver como selecionar coluna no Pandas.

Selecionar Coluna no Pandas

Criando um DataFrame

Antes de selecionar coluna no Pandas, precisamos de um DataFrame para trabalhar. DataFrames são estruturas de dados bidimensionais no Pandas, semelhantes a uma tabela em um banco de dados ou uma planilha do Excel. Para este exemplo, vamos criar um DataFrame simples:

import pandas as pd

data = {
    'Nome': ['João', 'Ana', 'Carlos', 'Marta'],
    'Idade': [23, 45, 36, 41],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Salvador']
}

df = pd.DataFrame(data)

Selecionar Coluna no Pandas Usando Colchetes [ ]

A maneira mais comum de selecionar coluna no Pandas é usando colchetes. Se você quiser selecionar uma única coluna, pode usar a sintaxe df[‘Nome_da_coluna’]. Por exemplo, para selecionar a coluna ‘Nome’, você faria:

df['Nome']

A maneira mais comum de selecionar coluna no Pandas é usando colchetes. Se você quiser selecionar uma única coluna, pode usar a sintaxe df['Nome_da_coluna']. Por exemplo, para selecionar a coluna ‘Nome’, você faria:

df[['Nome', 'Cidade']]

Selecionar Coluna no Pandas Usando o Método .loc

O método .loc é um método de indexação baseado em rótulos, o que significa que você precisa passar o nome das colunas que deseja selecionar. Para selecionar colunas usando .loc, você precisa passar um slice (:) como argumento para as linhas e uma lista com os nomes das colunas. Para selecionar todas as linhas das colunas ‘Nome’ e ‘Cidade’, você faria:

df.loc[:, ['Nome', 'Cidade']]

Selecionar Coluna no Pandas Usando o Método .iloc

O método .iloc é um método de indexação baseado em posição. Para selecionar colunas usando .iloc, você precisa passar a posição das colunas que deseja selecionar. As colunas são numeradas a partir de 0, então, para selecionar a primeira e a terceira colunas, você faria:

df.iloc[:, [0, 2]]

Selecionar Coluna no Pandas Usando Atributos

Se o nome da coluna for um identificador Python válido, você também pode selecionar colunas no Pandas como um atributo. Para selecionar a coluna ‘Nome’ como um atributo, você faria:

df.Nome

Considerações Finais

Espero que você tenha encontrado este guia útil para aprender como selecionar coluna no Pandas. A prática, como dizem, leva à perfeição. Portanto, encorajamos você a usar o que aprendeu aqui para aprimorar suas habilidades com o Pandas, experimentando e se familiarizando com a seleção de colunas em seus próprios projetos de análise de dados.

No entanto, para realmente dominar o Pandas e se tornar eficiente na manipulação e análise de dados, é fundamental ter uma sólida compreensão do Python. Se você está começando ou precisa reforçar seus conhecimentos em Python, temos a recomendação perfeita para você: o livro “Fundamentos em Python: Para Iniciantes em Programação e Computação”.

Este livro, disponível na Amazon, é um dos mais vendidos em sua categoria e tem recebido excelentes críticas dos leitores. Ele apresenta uma introdução sólida e abrangente ao Python, tornando-o a escolha ideal para quem deseja aprimorar suas habilidades em programação e análise de dados.

Além disso, convidamos você a se juntar à nossa crescente comunidade de entusiastas de Python e ciência de dados seguindo-nos no Twitter e se inscrevendo no nosso canal do YouTube. Aqui, você terá acesso a uma variedade de recursos adicionais, incluindo tutoriais, dicas e discussões que ajudarão a aprofundar ainda mais seu conhecimento em Python e Pandas.

Continuaremos a compartilhar mais guias e tutoriais como este para ajudar você em sua jornada de aprendizado em ciência de dados. Por isso, fique atento, continue praticando e não deixe de se envolver com a comunidade. Juntos, podemos nos aperfeiçoar e avançar em nossa compreensão da ciência de dados.

Escrito por Erick Faria
Engenheiro de Dados com Ph.D. em Geografia e experiência em análise espacial e geoprocessamento. Expertise em processamento de grandes volumes de dados geoespaciais, imagens de satélite e dados de mercado, utilizando ferramentas como Spark, Databricks e Google Earth Engine. Experiência em projetos de mercado de carbono, modelos preditivos para investimentos agrícolas e liderança de projetos de dados em saúde pública. Habilidades em Python, R, SQL e diversas ferramentas de engenharia de dados. Profile