正则表达式

1 概述

  • 学习动机

  1. 文本数据处理已经成为常见的编程工作之一

  2. 对文本内容的搜索,定位,提取是逻辑比较复杂的工作

  3. 为了快速方便的解决上述问题,产生了正则表达式技术

  • 定义

即文本的高级匹配模式,其本质是由一系列字符和特殊符号构成的字串,这个字串即正则表达式。

  • 原理

通过普通字符和有特定含义的字符,来组成字符串,用以描述一定的字符串规则,比如:重复,位置等,来表达某类特定的字符串,进而匹配。

  • 学习目标

  1. 熟练掌握正则表达式元字符

  2. 能够读懂常用正则表达式,编辑简单的正则规则

  3. 能够熟练使用re模块操作正则表达式

 

Python 中的文件处理

1 引入

  • 什么是文件

    文件是保存在持久化存储设备(硬盘、U盘、光盘..)上的一段数据,一个文本,一个py

    文件,一张图片,一段视······ 这些都是文件。

  • 文件分类

    • 文本文件:打开后会自动解码为字符,如txt文件,word文件,py程序文件。

    • 二进制文件:内部编码为二进制码,无法通过文字编码解析,如压缩包,音频,视频,图片等。

  • 字节串类型

    • 概念 : 在python3中引入了字节串的概念,与str不同,字节串以字节序列值表达数据,更方便用来处理二进程数据。

    • 字符串与字节串相互转化方法

      - 普通的英文字符字符串常量可以在前面加b转换为字节串,例如:b'hello'
      - 变量或者包含非英文字符的字符串转换为字节串方法 :str.encode()
      - 字节串转换为字符串方法 : bytes.decode()

      注意:python字符串用来表达utf8字符,因为并不是所有二进制内容都可以转化为utf8字符,所以不是所有字节串都能转化为字符串,但是所有字符串都能转化成二进制,所以所有字符串都能转换为字节串。