Skip to main content
 首页 » 人工智能

pandas数据框loc属性语法及示例

2022年07月19日165lexus

pandas.DataFrame.loc[] 是数据框的属性,通过指定标签或布尔数组来访问数据框的一组行和列。pandas.DataFrame是带有轴标签的二维表数据结构,如列和行。从数据框选择列结果是新的数据框,它仅包括特性从原数据框中选择的列。

pandas.DataFrame.loc 的关键说明:

  • loc用于通过标签选择或过滤行和列
  • 当选择行时,选哟提供索引标签
  • 也提供了其他方法选择行和列,如:范围、交替选择
    在这里插入图片描述

pandas.DataFrame.loc[] 语法及用法

loc用于通过数据框的名称(标签)选择行列,是数据框最常用的属性。数据框的主要优点是容易使用,当你使用pandas.DataFrame.loc[] 属性去选择或过滤数据框时,你会认同这个优势。

df.loc[start:stop:step, start:stop:step]

第一个start:stop:step用于通过名称或标签选择行,后面的用于通过名称或标签选择列。

  • start 是行列标签的名称
  • stop 是最后一个取用的行列标签的名称
  • step 是每次抽取后索引前进数量
    在这里插入图片描述

关键点说明:

  • 不指定start行列,loc[]从起始点开始
  • 不指定stop,loc[]从开始标签起选择所有行列
  • 同时提供start和stop,选择两种之间的所有行列

下面创建数据框,并学习如何使用loc[]。

import pandas as pd 
technologies = { 
    'Courses':["Spark","PySpark","Hadoop","Python","pandas"], 
    'Fee' :[20000,25000,26000,22000,24000], 
    'Duration':['30day','40days','35days','40days','60days'], 
    'Discount':[1000,2300,1200,2500,2000] 
              } 
index_labels=['r1','r2','r3','r4','r5'] 
df = pd.DataFrame(technologies,index=index_labels) 
print(df) 
 
# Outputs 
#r1    Spark  20000    30day      1000 
#r2  PySpark  25000   40days      2300 
#r3   Hadoop  26000   35days      1200 
#r4   Python  22000   40days      2500 
#r5   pandas  24000   60days      2000 

loc示例

下面通过几个实例展示如何使用loc.

通过标签选择单行/列

loc可以通过标签选择行、列,也支持选择多行、列,即两行之间的记录,两列之间列。下面示例通过标签选择行列:

# 选择第一行的所有列 
print(df.loc['r1', :]) 
 
# Courses     Spark 
# Fee         20000 
# Duration    30day 
# Discount     1000 
# Name: r1, dtype: object 
 
 
 
# 选择所有行的Courses列 
print(df.loc[:, "Courses"]) 
 
#Outputs 
#    Courses 
#r1    Spark 
#r2  PySpark 
#r3   Hadoop 
#r4   Python 
#r5   pandas 

选择多行/列

 
下面示例使用loc属性通过标签选择多行/列: 
 
# 通过标签选择多行 
print(df.loc[['r2','r3']]) 
 
# Outputs 
#    Courses    Fee Duration  Discount 
#r2  PySpark  25000   40days      2300 
#r3   Hadoop  26000   35days      1200 
 
 
# 通过标签选择多列 
print(df.loc[:, ["Courses","Fee","Discount"]]) 
 
# Outputs 
#    Courses    Fee  Discount 
#r1    Spark  20000      1000 
#r2  PySpark  25000      2300 
#r3   Hadoop  26000      1200 
#r4   Python  22000      2500 
#r5   pandas  24000      2000 

范围选择

loc支持范围选择,指定两个标签,返回包括两者之间的所有行或列:

# 指定俩个行标签,返回包括两者之间的行记录 
print(df.loc['r1':'r4']) 
 
# 输出结果 
#    Courses    Fee Duration  Discount 
#r1    Spark  20000    30day      1000 
#r2  PySpark  25000   40days      2300 
#r3   Hadoop  26000   35days      1200 
#r4   Python  22000   40days      2500 
 
# 选择两个列之间的所有列 
print(df.loc[:,'Fee':'Discount']) 
 
# 输出结果 
#      Fee Duration  Discount 
#r1  20000    30day      1000 
#r2  25000   40days      2300 
#r3  26000   35days      1200 
#r4  22000   40days      2500 
#r5  24000   60days      2000 

交替选择

与范围类型,loc也支持交替选择:

 
# 按行交替选择,每两行选一次 
print(df.loc['r1':'r4':2]) 
 
# 输出结果: 
#   Courses    Fee Duration  Discount 
#r1   Spark  20000    30day      1000 
#r3  Hadoop  26000   35days      1200 
 
# 交替选择列 
print(df.loc[:,'Fee':'Discount':2]) 
 
# 输出结果: 
#      Fee  Discount 
#r1  20000      1000 
#r2  25000      2300 
#r3  26000      1200 
#r4  22000      2500 
#r5  24000      2000 
 

需要特别说明的是step还支持负数,表示逆序选择:

import pandas as pd 
 
print(df.loc[::-1, :]) 
 
#     Courses    Fee Duration  Discount 
# r5   pandas  24000   60days      2000 
# r4   Python  22000   40days      2500 
# r3   Hadoop  26000   35days      1200 
# r2  PySpark  25000   40days      2300 
# r1    Spark  20000    30day      1000 
 

我们看到结果正好逆序输出,读者也可以尝试修改-1为其他负数理解反向交替选择的机理。

条件选择

根据条件选择:

# 使用条件,选择fee列大于24000的记录 
print(df.loc[df['Fee'] >= 24000]) 
 
# 输出结果 
#    Courses    Fee Duration  Discount 
#r2  PySpark  25000   40days      2300 
#r3   Hadoop  26000   35days      1200 
#r5   pandas  24000   60days      2000 

总结

本文学习了pandas数据框的loc语法及其用法,并通过示例展示了如何选择/过滤行列数据。


本文参考链接:https://blog.csdn.net/neweastsun/article/details/125133515