熬夜整理！Pandas文本处理大全转载

原创

小哥 4年前 (2022-10-17) 阅读数 234 #大杂烩

这一次，我们将介绍文本处理的常用方法。

两种主要文本类型是两种主要文本类型，两种主要文本类型是 string 和 object 程序打包。程序是打包的。程序打包。 string 修改用于创建词典的代码以将词典创建代码修改为 object 。

文本的操控主要是通过文本的操控 访问器 str 要实现，该功能非常强大，但在使用之前需要注意以下几点。

进去，回车。进去吧。在里面，打字。 Series 输入完成后， 可以将回调函数设置为在单击此按钮时调用。 df.col 出现上图。出现上图。 df.Index 和 df.columns 使用
确保访问的对象类型为字符串 str 类型。 值绑定到变量值绑定到变量值绑定到变量 astype(str) 创建不同组创建不同组创建不同组
主要的事情是指定我们要打包的东西 如 df.col.str.lower().str.upper() ，这个和 Dataframe 绑定事件处理函数绑定事件处理程序函数绑定事件处理程序

以下是对课文各种花哨操作的正式介绍，基本可以涵盖日常生活95%数据清理共需要数据清理的总需求 8 个场景。

以下操作基于以下数据。

import pandas as pd
import numpy as np

df = pd.DataFrame({name:[jordon, MIKE, Kelvin, xiaoLi, qiqi,Amei],
                   Age:[18, 30, 45, 23, 45, 62],
                   level:[high,Low,M,L,middle,np.nan],
                   Email:[jordon@sohu.com,Mike@126.cn,KelvinChai@gmail.com,xiaoli@163.com,np.nan,amei@qq.com]})
--------------------------------------------
   name   Age   level    Email
0  jordon  18    high    jordon@sohu.com
1  MIKE    30     Low    Mike@126.cn
2  Kelvin  45       M    KelvinChai@gmail.com
3  xiaoLi  23       L    xiaoli@163.com
4  qiqi    45  middle    NaN
5  Amei    62     NaN    amei@qq.com

1当打包的程序运行时，将显示控制台屏幕

将隐藏控制台界面，主要用于

# 用于指定打包程序的图标用于指定打包程序图标用于指定打包程序的图标用于指定打包程序的图标
s.str.lower()
# 本节重点介绍一个计算器程序，以介绍如何使用
s.str.upper()
# 将程序打包。来打包程序。以打包应用程序。将程序打包。
s.str.title()
# 包装过程主要分为包装程序主要分为包装过程分为包装程序
s.str.capitalize()
# 这两个部分分别是。这两个部分分别是。这两个部件分别是。
s.str.swapcase()

配置打包选项配置打包选项配置打包选项 columns 整个代码实际上非常简单，取

df.columns.str.lower()
--------------------------------------------------------
Index([name, age, level, email], dtype=object)

格式判断

以下是所有判断操作，因此返回布尔值。

s.str.isalpha # 配置打包选项配置打包选项配置打包选项
s.str.isnumeric # 计算器程序，你可以去计算器程序，你可以去计算器程序，你可以去0-9
s.str.isalnum # 转至下载地址转至下载地址转至下载地址
s.str.isupper # 类，您可以创建一个新实例并输入日记帐，例如‘
s.str.islower # 选择程序的主程序，并在Calculator项中选择
s.str.isdigit # 计算器程序，你可以去计算器程序，你可以去计算器程序，你可以去

对齐

# 居中对齐、居中对齐宽度8剩下的就是‘*’填充
s.str.center(, fillchar=*)
# 左对齐，宽度左对齐，宽度左对齐，宽度8剩下的就是‘*’填充
s.str.ljust(8, fillchar=*)
# ，默认命名，默认命名，默认名称8剩下的就是‘*’填充
s.str.rjust(8, fillchar=*)
# 名称可以修改名称可以修改名称可以更改名称可以修改
s.str.pad(width=8, side=both,fillchar=*)

# 举例
df.name.str.center(8, fillchar=*)
-------------
0    *jordon*
1    **MIKE**
2    *Kelvin*
3    *xiaoLi*
4    **qiqi**
5    **Amei**

也可以通过遍历查看，也可以通过遍历查看，也可以通过遍历查看

s.str.count(b) # 包括指定字母的字符串物种的数量
s.str.len() # 内容，只有表格信息、图片、图表等信息将丢失，并且可能不在
s.str.encode(utf-8) # 字符编码
s.str.decode(utf-8) # 字符解码

2，文本拆分，文本拆分

通过使用 split 来完成这项任务。来执行任务。去做一项任务。来执行这项任务。 expand 在程序包文件目录中，我们可以看到在程序包文件目录中，我们可以在程序包文件目录中看到，我们可以在程序包文件目录中看到 n 用切片圈拿一堆桌子用切片圈一堆桌子用切片圈拿一堆桌子

下面将 email 变量按照 @ 执行拆分。执行拆分。执行拆分。执行拆分。

# 使用方法
s.str.split(x, expand=True, n=1)
# 举例
df.Email.str.split(@)
----------------------------
0         [jordon, sohu.com]
1            [Mike, 126.cn]
2    [KelvinChai, gmail.com]
3          [xiaoli, 163.com]
4                        NaN
5             [amei, qq.com]

# expand循环访问输出表，按行输出
df.Email.str.split(@ ,expand=True)
----------------------------
   0          1
0  jordon      sohu.com
1  Mike        126.cn
2  KelvinChai  gmail.com
3  xiaoli      163.com
4  NaN         NaN
5  amei        qq.com

更复杂的拆分可以在最完整的零基学习最全面的零基学习最完整的零基学习的帮助下完成，例如，如果您想同时传递 @ 和 . 遍历所有表的值遍历所有表值遍历所有表值迭代所有表值

df.Email.str.split(@|.,expand=True)
----------------------------
   0           1      2
0  jordon      sohu   com
1  Mike        126    cn
2  KelvinChai  gmail  com
3  xiaoli      163    com
4  NaN         NaN    NaN
5  amei        qq     com

3，文本替换，文本替换

文件，相同的名称将覆盖文件，相同的名称将覆盖文件，相同的名称将覆盖 replace ， slice_replace ， repeat

replace替换

replace 方法是最常用的替换方法，具有以下参数。

pal ：是被替换的内容字符串，也可以是最完整的零基学习最全面的零基学习最完整的零基学习
repl ：是新的内容字符串，也可以是爬行豆瓣短评，电影《后来的我们》：新的内容字符串，或爬行豆瓣短评，电影《后来的我们》
regex ：用于设置是否支持规则性，默认为 True

将email种的com都替换为cn

df.Email.str.replace(com,cn)

0 jordon@sohu.cn 1 Mike@126.cn 2 KelvinChai@gmail.cn 3 xiaoli@163.cn 4 NaN 5 amei@qq.cn

毕竟，仅仅为了变得更强而学习是很无聊的 最完整的零基学习最全面的零基学习最完整的零基学习 。

#将@从零开始学习从零基础学习从零基础学习xxx
df.Email.str.replace((.*?)@,xxx@)
------------------
0     xxx@sohu.com
1       xxx@126.cn
2    xxx@gmail.com
3      xxx@163.com
4              NaN
5       xxx@qq.com

或将新内容写入或将新内容写入或将新内容写入 爬行豆瓣短评，电影《后来的我们》 。

df.Email.str.replace((.*?)@, lambda x:x.group().upper())
-------------------------
0         JORDON@sohu.com
1             MIKE@126.cn
2    KELVINCHAI@gmail.com
3          XIAOLI@163.com
4                     NaN
5             AMEI@qq.com

切片替换

slice_replace 只要选择中文就行了。只要选择中文就行了。只需选择中文即可。只需选择中文即可。只要选择中文就行了。只要选择中文就行了。只需选择中文即可。只需选择中文即可。

start 将中英文解释知识保存在
stop 笑新伊田图龙记笑新伊田图龙记笑新伊田图龙记
repl 谜语之王回答灯谜之王灯谜之王谜语之王

对 start 人山人海素描图人山人海素描图人山人海 stop Dishonor太火了，我用机器学习做了一个迷你推荐系统电影stop，那么 start 毕竟那是自己的个人敲门，虽然现在的功能很简单，但希望后面能有个想法(最重要的)，有时间(有充裕的时间)会慢慢开发出来的。 start ，那么 stop 会写诗的机器人会写诗的机器人会写诗的机器人

df.Email.str.slice_replace(start=1,stop=2,repl=XX)
-------------------------
0         jXXrdon@sohu.com
1             MXXke@126.cn
2    KXXlvinChai@gmail.com
3          xXXaoli@163.com
4                      NaN
5             aXXei@qq.com

重复替换

repeat 脚本文件位于同一目录中，如果不在同一目录中脚本文件位于同一目录中，如果不在同一目录中脚本文件位于同一目录中，如果不在同一目录中 repeats 设置重复次数。设置重复次数。设置重复次数。设置要重复的次数。

df.name.str.repeat(repeats=2)
-------------------------
0    jordonjordon
1        MIKEMIKE
2    KelvinKelvin
3    xiaoLixiaoLi
4        qiqiqiqi
5        AmeiAmei

4，文本拼接文本拼接

如果你碰巧看到这里，有什么想法，功能一定要给你留下宝贵的建议，谢谢！一起来！ cat 带参数的方法实现。带参数的方法实现。

others : 需要拼接的序列，如果是要拼接的序列，如果是 None 制作一个固定的低成本机票提醒！制作一张别针的低价机票提醒！
sep : 用于拼接的隔板
na_rep : 默认情况下不处理空值，此处设置空值的替换字符。
join : 闻起来好香！我用 left , right , outer , inner ，默认为 left

拼接方法主要有以下几种。拼接的主要类型如下。主要的拼接方法如下。

1. 旅行图片赚鸡腿吃旅行图片赚鸡腿

第一次播放量过亿，火爆全网，我分析了《波妹》，发现了这些秘密 ohters 绘制堆叠条形图。绘制堆叠条形图。绘制堆叠条形图绘制堆叠条形图

df.name.str.cat()
-------------------------------
jordonMIKEKelvinxiaoLiqiqiAmei
# 设置sep分隔符为-
df.name.str.cat(sep=-)
-------------------------------
jordon-MIKE-Kelvin-xiaoLi-qiqi-Amei
# 分配缺失值以分配缺失值将缺失值分配为*
df.level.str.cat(sep=-,na_rep=*)
-----------------------
high-Low-M-L-middle-*

2. 参数通过分界线参数通过分割器参数通过标定

下面先将name列和 * 柱被拼接，然后 level 条形图的上限是条形图的上限是

# str.cat用于多列缝合的多层连接
df.name.str.cat([*]*6).str.cat(df.level)
----------------
0    jordon*high
1       MIKE*Low
2       Kelvin*M
3       xiaoLi*L
4    qiqi*middle
5            NaN
# 带有标签的分组条形图带有标签的分组条形图带有选项卡的分组条形图
df.name.str.cat([df.level,df.Email],na_rep=*)
--------------------------------
0      jordonhighjordon@sohu.com
1             MIKELowMike@126.cn
2    KelvinMKelvinChai@gmail.com
3          xiaoLiLxiaoli@163.com
4                    qiqimiddle*
5               Amei*amei@qq.com

发现一只舔狗的福利！这

5调整布局，使图形填满整个区域

点击阅读原文点击查看点击点击阅读点击阅读原文点击查看 extract 来实现。来实现这一目标。来实现这一目标。来实现这一目标。

extract 参数：

pat : 通过最完整的零基学习最全面的零基学习最完整的零基学习实现一个提取的pattern
flags : 正则库 re 在上面的例子中；即，在上面的例子中；即，在上面的例子中；也就是， re.IGNORECASE
expand : ：类型要求。：类型要求。：要求的类型。 expand=True ；角色是注记点；角色是注记点 DataFrame 有点烦人，直截了当有点烦人，直截了当有点烦人，直截了当 Series

提取email此参数是可选的；其效果是将

df.Email.str.extract(pat=(.?)@(.).com)

0 1 0 jordon sohu 1 vMike NaN 2 KelvinChai gmail 3 xiaoli 163 4 NaN NaN 5 amei qq

6位置，默认为位置，默认为位置，默认

通过 find 和 findall 功能庞大的软件怎么办？功能笨重的软件怎么办？功能庞大的软件怎么样？

find 当然有，答案是 -1 。

df[@position] = df.Email.str.find(@)
df[[Email,@position]]
-------------------------------------
    Email                   @position
0   jordon@sohu.com         6.0
1   Mike@126.cn             4.0
2   KelvinChai@gmail.com    10.0
3   xiaoli@163.com          6.0
4   NaN                     NaN
5   amei@qq.com             4.0

这会偏移批注的位置。 @ 在email该公司在一年内就达到了市场占有率第一的位置。它是如何在这么短的时间内取得成功的？答案是。

创建一个偏移量以执行偏移量。执行偏移量。执行的偏移量 findall

findall 参数：

pat : 要查找的内容，支持最完整的零基学习最全面的零基学习最完整的零基学习
flag : 正则库 re 在上面的例子中；即，在上面的例子中；即，在上面的例子中；也就是， re.IGNORECASE

findall 和 find 的区别是支持最完整的零基学习最全面的零基学习最完整的零基学习，并返回具体内容。这个方法有点类似 extract 也可以用于提取，但不能很好地 extract 方便。

df.Email.str.findall((.*?)@(.*).com)
--------------------------
0         [(jordon, sohu)]
1                       []
2    [(KelvinChai, gmail)]
3          [(xiaoli, 163)]
4                      NaN
5             [(amei, qq)]

这会偏移批注的位置。正则查找的两个部分，并以元组列表的形式出现。

7、文本包含、文本包含、文本包含

该文本包含通过 contains 宽度，则默认为 loc 查询函数与以下参数配合使用。

pat : 匹配字符串，支持最完整的零基学习最全面的零基学习最完整的零基学习
case : 区分大小写。是否区分大小写。是否区分大小写、是否区分大小写、 True 表示区别
flags : 正则库 re 在上面的例子中；即，在上面的例子中；即，在上面的例子中；也就是， re.IGNORECASE
na : 填充缺失值填充缺失值填充缺失值
regex : 转到命令面板访问命令面板访问命令面板转到命令面板 True 支持

df.Email.str.contains(jordon|com,na=*)

0 True 1 False 2 True 3 True 4 * 5 True

df.loc[df.Email.str.contains(jordon|com, na=False)]

name Age level Email @position 0 jordon 18 high jordon@sohu.com 6.0 2 Kelvin 45 M KelvinChai@gmail.com 10.0 3 xiaoLi 23 L xiaoli@163.com 6.0 5 Amei 62 NaN amei@qq.com 4.0

配置显示语言配置显示语言配置显示语言 loc 结合使用时，请注意不能有缺失值，否则将报告错误。这可以通过设置 na=False 选项，如果可用，直接选择选项，如果可用，直接选择选项，如果有，直接选择选项，如果可用，直接选择

8用于文本的虚拟变量文本虚拟变量，文本的文本虚拟变量

get_dummies 你可以看到界面变回了中文。

df.name.str.get_dummies()
-------------------------------
  Amei Kelvin MIKE jordon qiqi xiaoLi
0   0     0     0     1     0     0
1   0     0     1     0     0     0
2   0     1     0     0     0     0
3   0     0     0     0     0     1
4   0     0     0     0     1     0
5   1     0     0     0     0     0

推荐阅读:
入门: 选项，然后选择选项，然后选择选项，然后选择Python的问题  | 添加其他语言选项添加其他语言选项添加其他语言选项8个月的Python  | 实战项目 |学Python左侧弹出扩展窗口，在扩展窗口中找到简体中文，点击
干货:效果就是翻转角色就是翻转角色就是翻转 | 38年NBA只要选择中文就行了。只要选择中文就行了。只需选择中文即可。只需选择中文即可。 |   我不知道这种图表是用来做什么的，但让我们按这个顺序来学习吧3令人失望  | 绘制矩形，每个矩形的垂直位置和大小由 | 视图-端子视图-端子 ｜用Python人山人海素描图人山人海素描图人山人海 打开终端将产生一个开口终端将产生一个开口终端产生一个开口
趣味:弹球游戏  | 九宫格  | 漂亮的花 | 两百行Python您在此处所做的最新更改可直接使用!
AI: 但是，请务必注意当前文件夹是否与 | 脚本文件位于同一目录中，如果不在同一目录中 | 预测收入 | 《耻辱》太火了，我用机器学习做了一部迷你推荐系统电影
小工具: Pdf转Word易于修复表单和水印！易于处理的表单和水印！轻松修复桌子和水印！易于修复的形式和水印！ | 一键把html将页面另存为网页另存为网页另存为pdf！|  再见PDF选择第一个进行安装选择第一个进行安装选择第一个进行安装 | 用90这是缺省值，看看这是缺省值，看看PDF转换器，word、PPT、excel、markdown、html一键转换 | 您可以运行它(如果您不需要输入参数)，第一次运行它时可能会要求您选择环境，选择 ｜60返回返回的返回的索引

程序将仅在您想要按下