Python中的并发 - 线程
一般来说,我们知道线是一种非常细的扭曲的线,通常由棉或丝织物制成,用于缝制衣服等。相同的术语“线程”也用于计算机编程领域。现在,我们如何将用于缝制衣服的线与用于计算机编程的线联系起来呢?两种线程执行的角色在这里是相似的。在衣服中,线将布料固定在一起,而在计算机编程中,线将计算机程序固定在一起,并允许程序一次执行顺序操作或多个操作。
线程是操作系统中最小的执行单元。它本身不是一个程序,而是在程序中运行。换句话说,线程彼此不独立,并且与其他线程共享代码段、数据段等。这些线程也称为轻量级进程。
线程的状态
为了深入了解线程的功能,我们需要了解线程的生命周期或不同的线程状态。通常,一个线程可以存在于五个不同的状态中。不同的状态如下所示:
新线程
一个新线程从新状态开始其生命周期。但是,在此阶段,它尚未启动,也没有分配任何资源。我们可以说它只是一个对象的实例。
可运行
当新创建的线程启动时,线程变为可运行状态,即等待运行。在此状态下,它拥有所有资源,但任务调度程序尚未将其安排运行。
运行
在此状态下,线程取得进展并执行任务,该任务已被任务调度程序选中以运行。现在,线程可以进入终止状态或不可运行/等待状态。
不可运行/等待
在此状态下,线程被暂停,因为它正在等待某些I/O请求的响应,或者正在等待其他线程执行完成。
终止
当可运行线程完成其任务或以其他方式终止时,它将进入终止状态。
下图显示了线程的完整生命周期:
线程的类型
在本节中,我们将看到不同类型的线程。类型如下所述:
用户级线程
这些是用户管理的线程。
在这种情况下,线程管理内核不知道线程的存在。线程库包含用于创建和销毁线程、在线程之间传递消息和数据、调度线程执行以及保存和恢复线程上下文的代码。应用程序以单个线程启动。
用户级线程的示例包括:
- Java线程
- POSIX线程
用户级线程的优点
以下是用户级线程的不同优点:
- 线程切换不需要内核模式权限。
- 用户级线程可以在任何操作系统上运行。
- 调度可以在用户级线程中特定于应用程序。
- 用户级线程创建和管理速度快。
用户级线程的缺点
以下是用户级线程的不同缺点:
- 在典型的操作系统中,大多数系统调用都是阻塞的。
- 多线程应用程序无法利用多处理。
内核级线程
操作系统管理的线程作用于内核,内核是操作系统的核心。
在这种情况下,内核执行线程管理。应用程序区域中没有线程管理代码。内核线程由操作系统直接支持。任何应用程序都可以编程为多线程。应用程序中的所有线程都支持在一个进程内。
内核维护整个进程以及进程内各个线程的上下文信息。内核的调度以线程为基础进行。内核在内核空间执行线程创建、调度和管理。内核线程的创建和管理通常比用户线程慢。内核级线程的示例包括Windows和Solaris。
内核级线程的优点
以下是内核级线程的不同优点:
内核可以同时在多个进程上调度来自同一进程的多个线程。
如果进程中的一个线程被阻塞,内核可以调度同一进程的另一个线程。
内核例程本身可以是多线程的。
内核级线程的缺点
内核线程的创建和管理通常比用户线程慢。
从同一进程中的一个线程到另一个线程的控制转移需要切换到内核模式。
线程控制块 - TCB
线程控制块(TCB)可以定义为操作系统内核中的数据结构,该结构主要包含有关线程的信息。存储在TCB中的特定于线程的信息将突出显示有关每个进程的一些重要信息。
考虑以下与TCB中包含的线程相关的事项:
线程标识 - 它是分配给每个新线程的唯一线程ID(tid)。
线程状态 - 它包含与线程的状态(运行、可运行、不可运行、终止)相关的信息。
程序计数器(PC) - 它指向线程的当前程序指令。
寄存器集 - 它包含分配给线程进行计算的寄存器值。
堆栈指针 - 它指向进程中的线程堆栈。它包含线程作用域内的局部变量。
指向PCB的指针 - 它包含指向创建该线程的进程的指针。
进程与线程之间的关系
在多线程中,进程和线程是两个非常密切相关的术语,具有相同的目标,即使计算机能够一次执行多项操作。一个进程可以包含一个或多个线程,但相反,线程不能包含进程。然而,它们都仍然是两个基本的执行单元。一个程序执行一系列指令,启动进程和线程。
下表显示了进程和线程之间的比较:
进程 | 线程 |
---|---|
进程是重量级或资源密集型的。 | 线程是轻量级的,比进程占用更少的资源。 |
进程切换需要与操作系统交互。 | 线程切换不需要与操作系统交互。 |
在多处理环境中,每个进程执行相同的代码,但具有自己的内存和文件资源。 | 所有线程可以共享相同的打开文件集、子进程等。 |
如果一个进程被阻塞,则在第一个进程解除阻塞之前,任何其他进程都无法执行。 | 当一个线程被阻塞并等待时,同一任务中的第二个线程可以运行。 |
不使用线程的多个进程使用更多资源。 | 多个线程进程使用更少的资源。 |
在多个进程中,每个进程独立于其他进程运行。 | 一个线程可以读取、写入或更改另一个线程的数据。 |
如果父进程发生任何更改,则不会影响子进程。 | 如果主线程发生任何更改,则可能会影响该进程的其他线程的行为。 |
为了与兄弟进程通信,进程必须使用进程间通信。 | 线程可以直接与该进程的其他线程通信。 |
多线程的概念
正如我们之前讨论的那样,多线程是CPU能够通过同时执行多个线程来管理操作系统使用的一种能力。多线程的主要思想是通过将进程划分为多个线程来实现并行。更简单地说,我们可以说多线程是利用线程概念实现多任务处理的一种方式。
可以通过以下示例理解多线程的概念。
示例
假设我们正在运行一个进程。该进程可能是为了打开MS Word来编写一些内容。在这样的进程中,一个线程将被分配来打开MS Word,另一个线程将需要进行写入。现在,假设如果我们想编辑某些内容,则需要另一个线程来执行编辑任务,依此类推。
下图帮助我们了解内存中如何存在多个线程:
我们可以在上图中看到,在一个进程中可以存在多个线程,其中每个线程都包含自己的寄存器集和局部变量。除此之外,进程中的所有线程共享全局变量。
多线程的优点
现在让我们看看多线程的一些优点。优点如下:
通信速度 - 多线程提高了计算速度,因为每个核心或处理器同时处理单独的线程。
程序保持响应 - 它允许程序保持响应,因为一个线程等待输入,而另一个线程同时运行GUI。
访问全局变量 - 在多线程中,特定进程的所有线程都可以访问全局变量,如果全局变量发生任何更改,则其他线程也可以看到。
资源利用率 - 在每个程序中运行多个线程可以更好地利用CPU,并且CPU的空闲时间减少。
数据共享 - 每个线程不需要额外的空间,因为程序内的线程可以共享相同的数据。
多线程的缺点
现在让我们看看多线程的一些缺点。缺点如下:
不适合单处理器系统 - 与在多处理器系统上的性能相比,多线程难以在单处理器系统上实现计算速度方面的性能。
安全问题 - 正如我们所知,程序中的所有线程共享相同的数据,因此始终存在安全问题,因为任何未知线程都可以更改数据。
复杂度增加 − 多线程可以增加程序的复杂度,并且调试变得困难。
可能导致死锁状态 − 多线程可能导致程序存在陷入死锁状态的风险。
需要同步 − 需要同步来避免互斥。这会导致更多的内存和CPU利用率。