一文带你解密Python可迭代对象的排序问题
作者:古明地觉 发布时间:2023-11-26 00:53:13
假设有一个可迭代对象,现在想要对它内部的元素进行排序,我们一般会使用内置函数 sorted,举个例子:
data = (3, 4, 1, 2, 5)
print(
sorted(data)
) # [1, 2, 3, 4, 5]
data = (3.14, 2, 1.75)
print(
sorted(data)
) # [1.75, 2, 3.14]
data = ["satori", "koishi", "marisa"]
print(
sorted(data)
) # ['koishi', 'marisa', 'satori']
如果可迭代对象里面的元素是数值,那么会按照数值的大小进行排序;如果是字符串,那么会按照字符串的字典序进行排序,并且 sorted 函数会返回一个新的列表。
sorted 函数默认是升序排序,如果想要降序,那么可以传递一个关键字参数 reverse=True。
data = [(3, 4),
(3, 1),
(2, 3)]
print(
sorted(data)
) # [(2, 3), (3, 1), (3, 4)]
如果可迭代对象里面都是元组的话,也是可以的,元组在比较大小的时候,会先按照元组的第一个元素比较;第一个元素相等,再按照第二个元素比较,依次类推。
因此在使用 sorted 函数的时候,可迭代对象内部的元素,要满足彼此之间都是可比较的,否则报错。
data = [123, 456, "123"]
try:
print(sorted(data))
except TypeError as e:
print(e)
"""
'<' not supported between instances of 'str' and 'int'
"""
data = [{"a": 1}, {"b": 2}]
try:
print(sorted(data))
except TypeError as e:
print(e)
"""
'<' not supported between instances of 'dict' and 'dict'
"""
我们看到,由于 data 里面存在不可比较的元素,因此报错了。那么问题来了,假设有这样一个列表:
data = [{"name": "satori", "age": 17},
{"name": "marisa", "age": 15},
{"name": "koishi", "age": 16}]
# 字典是不可比较大小的,因此直接使用 sorted 会报错
# 我们希望按照字典内部的 "age" 字段进行排序
# 得到下面的结果
[{'name': 'marisa', 'age': 15},
{'name': 'koishi', 'age': 16},
{'name': 'satori', 'age': 17}]
如果是你的话,你会怎么做呢?很明显,我们将每个 "age" 字段的值取出来,和所在的字典拼接成一个元组(或列表)不就行了,然后对元组进行排序,举个例子:
data = [{"name": "satori", "age": 17},
{"name": "marisa", "age": 15},
{"name": "koishi", "age": 16}]
data = [(d["age"], d) for d in data]
print(data)
"""
[(17, {'name': 'satori', 'age': 17}),
(15, {'name': 'marisa', 'age': 15}),
(16, {'name': 'koishi', 'age': 16})]
"""
# 由于 data 内部的元素是一个元组
# 所以排序的时候会按照元组的第一个元素排序
sorted_data = sorted(data)
print(sorted_data)
"""
[(15, {'name': 'marisa', 'age': 15}),
(16, {'name': 'koishi', 'age': 16}),
(17, {'name': 'satori', 'age': 17})]
"""
# 此时顺序就排好了,然后再把字典取出来
sorted_data = [tpl[-1] for tpl in sorted_data]
print(sorted_data)
"""
[{'name': 'marisa', 'age': 15},
{'name': 'koishi', 'age': 16},
{'name': 'satori', 'age': 17}]
"""
显然这样就实现了基于字典内部某个字段的值,来对字典进行排序,只不过上面的代码还有一点点缺陷。我们说元组在比较的时候会先比较第一个元素,第一个元素相同的话,会比较第二个元素。
而我们上面 data 里面的元组,由于第一个元素都不相等,所以直接就比较出来了。但如果是下面这种情况呢?
data = [{"name": "satori", "age": 17},
{"name": "marisa", "age": 16},
{"name": "koishi", "age": 16}]
data = [(d["age"], d) for d in data]
print(data)
"""
[(17, {'name': 'satori', 'age': 17}),
(16, {'name': 'marisa', 'age': 16}),
(16, {'name': 'koishi', 'age': 16})]
"""
try:
sorted_data = sorted(data)
except TypeError as e:
print(e)
"""
'<' not supported between instances of 'dict' and 'dict'
"""
此时就报错了,因为第二个元组和第三个元组内部的第一个元素都是 16,所以第一个元素相等,那么会比较第二个元素。而第二个元素是字典,字典之间无法比较,所以报错了。
但我们只是希望让字典的 "age" 字段的值参与比较,如果相等的话,那么就不用再比较了,相对顺序就保持现状。所以我们可以这么做:
data = [{"name": "satori", "age": 17},
{"name": "marisa", "age": 16},
{"name": "koishi", "age": 16}]
# 我们将索引也加进去
data = [(d["age"], i, d) for i, d in enumerate(data)]
print(data)
"""
[(17, 0, {'name': 'satori', 'age': 17}),
(16, 1, {'name': 'marisa', 'age': 16}),
(16, 2, {'name': 'koishi', 'age': 16})]
"""
# 如果 "age" 字段的值、或者说元组的第一个元素相等
# 那么就按照索引比较,索引一定是不重复的
sorted_data = sorted(data)
print(sorted_data)
"""
[(16, 1, {'name': 'marisa', 'age': 16}),
(16, 2, {'name': 'koishi', 'age': 16}),
(17, 0, {'name': 'satori', 'age': 17})]
"""
# 此时就成功排好序了
# 并且 "age" 字段的值相等的字典之间的相对顺序
# 在排序之前和排序之后都保持一致
# 这正是我们想要的结果
sorted_data = [tpl[-1] for tpl in sorted_data]
print(sorted_data)
"""
[{'name': 'marisa', 'age': 16},
{'name': 'koishi', 'age': 16},
{'name': 'satori', 'age': 17}]
"""
再比如,我们想要对元组排序,但我们希望按照元组的第二个元素进行排序:
data = [("satori", 17),
("marisa", 15),
("koishi", 16)]
data = [(tpl[1], i, tpl) for i, tpl in enumerate(data)]
print(data)
"""
[(17, 0, ('satori', 17)),
(15, 1, ('marisa', 15)),
(16, 2, ('koishi', 16))]
"""
sorted_data = sorted(data)
print(sorted_data)
"""
[(15, 1, ('marisa', 15)),
(16, 2, ('koishi', 16)),
(17, 0, ('satori', 17))]
"""
sorted_data = [tpl[-1] for tpl in sorted_data]
print(sorted_data)
"""
[('marisa', 15),
('koishi', 16),
('satori', 17)]
"""
所以当可迭代对象内部的元素无法进行排序,或者说我们不希望基于整个元素进行排序,那么就可以使用上面这个方法。将用来排序的值、索引、原始值放在一个元组里面,然后对元组排序,排完了再把最后一个值(也就是原始值)筛出来即可。
或者我们还可以做的再复杂一些:
data = [-3, -2, 3, 2, -1, 1, 0]
"""
对 data 进行排序,排序规则如下
先按照内部元素的正负进行排序,排序之后正数在后面
如果符号一样,再按照绝对值的大小进行排序
也就是说,排完之后是下面这样一个结果
[-1, -2, -3, 0, 1, 2, 3]
"""
# 如果只按照正负排序
data1 = [(n >= 0, i, n) for i, n in enumerate(data)]
sorted_data = sorted(data1)
print(sorted_data)
"""
[(False, 0, -3), (False, 1, -2), (False, 4, -1),
(True, 2, 3), (True, 3, 2), (True, 5, 1), (True, 6, 0)]
"""
sorted_data = [tpl[-1] for tpl in sorted_data]
# 此时正数就排在了负数的后面
print(
sorted_data
) # [-3, -2, -1, 3, 2, 1, 0]
# 如果只按照绝对值排序
data2 = [(abs(n), i, n) for i, n in enumerate(data)]
sorted_data = sorted(data2)
print(sorted_data)
"""
[(0, 6, 0), (1, 4, -1), (1, 5, 1),
(2, 1, -2), (2, 3, 2), (3, 0, -3), (3, 2, 3)]
"""
sorted_data = [tpl[-1] for tpl in sorted_data]
# 此时绝对值大的数,就排在了绝对值小的数的后面
print(
sorted_data
) # [0, -1, 1, -2, 2, -3, 3]
# 同时按照正负和绝对值排序
data3 = [(n >= 0, abs(n), i, n) for i, n in enumerate(data)]
sorted_data = sorted(data3)
print(sorted_data)
"""
[(False, 1, 4, -1), (False, 2, 1, -2),
(False, 3, 0, -3), (True, 0, 6, 0),
(True, 1, 5, 1), (True, 2, 3, 2), (True, 3, 2, 3)]
"""
sorted_data = [tpl[-1] for tpl in sorted_data]
# 大功告成
print(
sorted_data
) # [-1, -2, -3, 0, 1, 2, 3]
那么接下来,我们就可以封装一个属于我们自己的 my_sorted 函数了。
def my_sorted(data, *, key=None, reverse=False):
"""
:param data: 可迭代对象
:param key: callable
:param reverse: 是否逆序
:return:
"""
if key is not None:
data = [(key(item), i, item)
for i, item in enumerate(data)]
sorted_data = sorted(data)
if key is not None:
sorted_data = [tpl[-1] for tpl in sorted_data]
if reverse:
sorted_data = sorted_data[:: -1]
return sorted_data
# 下面来测试一下
data = [-3, -2, 3, 2, -1, 1, 0]
print(
my_sorted(data, key=lambda x: (x >= 0, abs(x)))
) # [-1, -2, -3, 0, 1, 2, 3]
data = [{"name": "satori", "age": 17},
{"name": "marisa", "age": 16},
{"name": "koishi", "age": 16}]
print(my_sorted(data, key=lambda x: x["age"]))
"""
[{'name': 'marisa', 'age': 16},
{'name': 'koishi', 'age': 16},
{'name': 'satori', 'age': 17}]
"""
结果一切正常,当然啦,实际工作中我们肯定不会专门封装一个 my_sorted 函数,因为内置的 sorted 已经包含了我们上面的所有功能。
data = [-3, -2, 3, 2, -1, 1, 0]
print(
sorted(data, key=lambda x: (x >= 0, abs(x)))
) # [-1, -2, -3, 0, 1, 2, 3]
print(
sorted(data, key=lambda x: (x >= 0, abs(x)), reverse=True)
) # [3, 2, 1, 0, -3, -2, -1]
内置函数 sorted 除了接收一个可迭代对象之外,还接收两个关键字参数 key 和 reverse,含义就是我们介绍的那样。在 sorted 的内部,它的处理方式和我们上面是一致的,如果指定了 key,也就是自定义排序规则,那么在底层会将可迭代对象内部的值封装成元组,然后对元组排序。排完序之后,再将元组的最后一个值、也就是原始值取出来,并返回。
所以这就是 sorted 函数的全部秘密,它里面的参数 key 赋予了 sorted 函数强大的能力,有了这个参数,我们想怎么排序,就怎么排序。
class A:
def __init__(self, a):
self.a = a
def __repr__(self):
return f"self.a = {self.a}"
def __hash__(self):
return self.a
a1 = A(1)
a2 = A(2)
a3 = A(3)
a4 = A(4)
data = [a2, a3, a1, a4]
print(data)
"""
[self.a = 2, self.a = 3, self.a = 1, self.a = 4]
"""
# A 的实例对象无法比较,我们希望按照内部的属性 a 进行比较
print(sorted(data, key=lambda x: x.a))
"""
[self.a = 1, self.a = 2, self.a = 3, self.a = 4]
"""
# 或者按照哈希值比较,此时仍相当于按照 self.a 比较
print(sorted(data, key=lambda x: hash(x), reverse=True))
"""
[self.a = 4, self.a = 3, self.a = 2, self.a = 1]
"""
因此我们想怎么比就怎么比,参数 key 赋予了我们极大的自由,key 接收一个函数(当然其它 callable 也可以,但大部分场景都是匿名函数),此函数接收一个参数,该参数会对应可迭代对象里面的每一个元素。而函数的返回值,决定了 sorted 的比较逻辑。
比如,我们不光可以对元组、列表排序,还可以对字典内部的键值对排序。
d = {"satori": 17, "marisa": 15, "koishi": 16}
# 对字典调用 sorted,针对的是字典里面的键
# 所以返回的也是键
print(sorted(d)) # ['koishi', 'marisa', 'satori']
# 匿名函数里面的参数 x 对应可迭代对象里面的每一个元素
# 这里就是字典的键,函数返回 d[x] 表示按照值来排序
# 但排序之后得到的仍然是键
print(
sorted(d, key=lambda x: d[x])
) # ['marisa', 'koishi', 'satori']
# 此时的 x 就是键值对组成的元组
# 这里按照值来排序
print(
sorted(d.items(), key=lambda x: x[1])
) # [('marisa', 15), ('koishi', 16), ('satori', 17)]
# 如果排序的时候,还希望键值对调换顺序,可以这么做
print(
sorted(zip(d.values(), d.keys()), key=lambda x: x[0])
) # [(15, 'marisa'), (16, 'koishi'), (17, 'satori')]
当然啦,还有很多其它排序方式,比如按照数量排序:
string = "a" * 4 + "b" * 3 + "c" * 5 + "d" * 2
data = ["a", "b", "c", "d"]
print(
sorted(data, key=lambda x: string.count(x))
) # ['d', 'b', 'a', 'c']
最后再来介绍一个知识点,sorted 在对可迭代对象内部的元素进行排序的时候,肯定要有大小比较的过程,这是肯定的。但问题是比较的时候,用的什么方式呢?举个例子,我想判断 a 和 b 的大小关系(假设不相等),无论是执行 a > b 还是 a < b,根据结果我都能得出它们谁大谁小。
而 sorted 在比较的时候是怎么做的呢,这里给出结论:每次在比较两个对象的时候,都会调用左边对象的 __lt__ 方法。其实关于 sorted 内部是怎么比的,我们无需太关注,但之所以说这一点,是因为在极端场景下可能会遇到。举个例子:
# 第一个元素表示 "商品名称"
# 第二个元素表示 "销量"
data = [("apple", 200),
("banana", 200),
("peach", 150),
("cherry", 150),
("orange", 150)]
# 我们需要先按照 "销量" 的大小降序排序
# 如果 "销量" 相同,则按照 "商品名称" 的字典序升序排序
# 该怎么做呢?
# 由于一部分升序,一部分降序
# 我们无法直接使用 reverse 参数,所以就默认按照升序排
# 虽然 "销量" 要求降序排,但可以对它取反
# 这样值越大,取反之后的值就越小,从而实现降序效果
print(
sorted(data, key=lambda x: (~x[1], x[0]))
)
"""
[('apple', 200),
('banana', 200),
('cherry', 150),
('orange', 150),
('peach', 150)]
"""
可能有小伙伴觉得这也没什么难的,那么我们将问题稍微换一下。如果让你先按照 "销量" 升序排序,如果 "销量相同",再按照 "商品名称" 的字典序降序排序,你要怎么做呢?
显然这个问题的难点就在于字符串要怎么降序排,整数可以取反,但字符串是无法取反的。所以我们可以自定义一个类,实现它的 __lt__ 方法。
data = [("apple", 200),
("banana", 200),
("peach", 150),
("cherry", 150),
("orange", 150)]
class STR(str):
def __lt__(self, other):
# 调用 str 的 __lt__,得到布尔值
# 然后再取反,当然,把 not 换成 ~ 也是可以的
# 因此:"apple" < "banana" 为 True
# 但是:STR("apple") < STR("banana") 为 False
return not super().__lt__(other)
# 销量升序排,直接 x[1] 即可
# 但是商品名称降序排,需要使用类 STR 将 x[0] 包起来
print(
sorted(data, key=lambda x: (x[1], STR(x[0])))
)
"""
[('peach', 150),
('orange', 150),
('cherry', 150),
('banana', 200),
('apple', 200)]
"""
# 事实上,如果你的思维够灵活,你会发现
# "销量"降序排、"商品名称"升序排,排完之后再整体取反
# 就是这里 "销量"升序排、"商品名称"将序排 的结果
print(
sorted(data, key=lambda x: (~x[1], x[0]), reverse=True)
==
sorted(data, key=lambda x: (x[1], STR(x[0])))
) # True
# 当然这个思路也很巧妙
由于默认是调用 __lt__ 进行比较的,因此我们需要实现 __lt__。
来源:https://mp.weixin.qq.com/s/NhWD21UR5agWOJCNR7RVpw
猜你喜欢
- 如何实现自定义一个异常python内置了许多异常类,为编写代码划定红线,才使调试代码时能及时发现错误。那么我们编写一个模块也可以为使用此模块
- 本文实例讲述了PHP使用星号隐藏用户名,手机和邮箱的实现方法。分享给大家供大家参考,具体如下:PHP使用星号替代用户名手机和邮箱这个在许多的
- 这两天做了一个判断浏览器类型和版本号的业务,记录下相关的js代码: function allinfo(){ var ua = navigat
- 我一直不很明白在中国国内流行的设计风格,象在国外的很多地方都有鲜明的设计大方向,比如韩国站点设计一般比较花哨,所以动画很多,我们常常看到韩国
- 常规的异常捕获方式在 Promise 提供了一个 .catch 方法用来捕获异常,假设有很多异步请求,通常会把 .catch 方法放在链式调
- 还记得曾经被“滑稽”刷屏的场景吗?在这个各种表情包横行的时代,emoji表情还能依然占据一定的地位!这篇文章将带你了解一下,python与e
- ASP访问数据库的方式有哪些?在ASP中可以通过三种方式访问数据库:1、IDC(Internet Database Connec
- 本文实例讲述了Go语言实现的简单网络端口扫描方法。分享给大家供大家参考。具体实现方法如下:package mainimport (
- 目前在网络上多是单个条形图堆叠,没看到一组的条形图堆叠。代码如下:import numpy as npimport pandas as pd
- 一、题目描述题目内容:题目示例:题目解析:1 <= nums.length <= 104-107 <= nums
- 一、前言既然在Pathlib库中提到了glob()函数,那么我们就专门用一篇内容讲解文件名的匹配。其实我们有专门的一个文件名匹配库就叫:gl
- 实例如下:</pre><pre name="code" class="python"
- 一、决策树原理决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。 决策树的根结点是所有样本中信息量最大的属性。树的中间结点是该结点
- python爬虫学习之定向爬取淘宝商品价格,供大家参考,具体内容如下import requestsimport redef getHTMLT
- 为表和字段取别名阿文之前介绍过MySQL的分组查询、集合函数查询和嵌套子查询,在编写SQL语句时有的地方使用到AS关键字为查询结果中的某一列
- 如何制作K线图?也不难,代码和说明见下:<%@ Language=VBScript %><%Respo
- 学习前言我发现不仅有很多的Keras模型,还有很多的PyTorch模型,还是学学Pytorch吧,我也想了解以下tensor到底是个啥。Py
- Django Model的外键自关联在django的model定义中,有时需要某个Field引用当前定义的Model,比如一个部门(Depa
- 在异步应用程序中发送和接收信息时,可以选择以纯文本和 XML 作为数据格式。掌握 Ajax 的这一期讨论另一种有用的数据格式 JavaScr
- Linux+apache+mysql+python+mod_python+Django说明:系统rhel 5.3,默认安装httpd、mys