月度归档 2月 18, 2025

【Linux】调度策略和优先级

作者 stormwind

一、背景

在Linux中，线程是一种轻量级的执行单元，可以在进程内独立运行。线程可以分为普通线程和实时线程，它们之间的区别在于其调度和优先级设置。

SCHED_OTHER，普通的调度（非实时线程），应用层设置优先级0，调度器总会给此类线程分配一定的CPU资源，只不过是被分配到的频次和时间片长度较少。每1s中实时线程和普通线程的时间比例是95 ：5。

普通线程没有固定的响应时间要求，它们的优先级由系统动态调整。Linux使用CFS调度器来管理普通线程。CFS调度器采用一种称为红黑树的数据结构来维护线程的优先级。每个线程都有一个vruntime值，它表示线程在运行队列中消耗的虚拟时间。CFS调度器会根据线程的vruntime值来确定运行的顺序。优先级较高的线程vruntime值较小，因此能够更早地获得CPU的时间片。

适用场景：实时性要求不高，但要求必须能被执行的线程。

SCHED_FIFO，抢占式调度（实时线程），实时先行，应用层设置优先级1-99，同一优先级的多个线程中，一旦某个抢占式线程获取CPU，除非被更高优先级线程抢占（比如在非实时线程中创建一个更高优先级的实时线程），或该线程主动让出CPU资源，否则该线程将会一直占用CPU（但总会分配一点资源给SCHED_OTHER非实时线程）。

适用场景：实时性要求高，不希望被频繁打断的任务。

SCHED_RR，轮询式调度（实时线程），实时循环，设置优先级1-99，以循环方式运行，每个线程都有一个时间片来执行任务，时间片耗尽后，该线程将被放入队列的末尾，而较低优先级的线程有机会执行。

适用场景：实时性要求高，允许被频繁打断的任务。

在Linux中，可以使用sched_setscheduler函数。这个函数允许我们选择普通线程或实时线程。对于普通线程，可以使用nice函数来动态调整优先级。对于实时线程，可以使用sched_setscheduler函数来设置其类型和优先级。

关于优先级高低和数值大小的关系，在应用层和内核中二者是相反的。

设置线程的优先级需要谨慎，因为过高的优先级可能会导致系统资源的过度占用，从而影响其他线程和进程的正常运行。另外，需要注意的是，只有具有足够权限的用户才能设置较高的实时线程优先级。

总结起来，Linux中的线程分为普通线程和实时线程。普通线程的优先级由系统动态调整，而实时线程的优先级由用户显式设置。通过合理地设置线程的优先级，可以提高系统的性能和响应时间。然而，设置线程的优先级需要慎重考虑，以避免影响其他线程和进程的正常运行。

二、方法

    pthread_t pis_task;
    pthread_attr_t attr;
    struct sched_param sched_param;
// 初始化线程属性
    pthread_attr_init(&attr);

    // 设置线程为实时线程
    pthread_attr_setinheritsched(&attr, PTHREAD_EXPLICIT_SCHED);
    pthread_attr_setschedpolicy(&attr, SCHED_FIFO);

    // 设置线程优先级
    sched_param.sched_priority = THREAD_PRIORITY;
    pthread_attr_setschedparam(&attr, &sched_param);

    pthread_create(&pis_task, &attr, PrtMgr_Decode_Task, (void *)&PrintMgr_Init_colorId);
    pthread_setname_np(pis_task, "name");

【python】python爬取新闻资讯

作者 stormwind

# 导入爬虫库
import requests
# 导入pyquery（数据提取）
from pyquery import PyQuery as pq
# 用于延时请求
import  time


# 请求头
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.9 Safari/537.36',
          'Cookie':'aliyungf_tc=AQAAACrtMHyGHA4ARxkbZ27Kgw3kCofh; route=ac205598b1fccbab08a64956374e0f11; JSESSIONID=5B42F8C6E712092B9A963E3F0532AD21; uuid=9065c880-0293-4758-86a8-0a228c6cfb2c; SERVERID=srv-omp-ali-portal10_80; Hm_lvt_94a1e06bbce219d29285cee2e37d1d26=1587280903; Hm_lpvt_94a1e06bbce219d29285cee2e37d1d26=1587280903; UM_distinctid=17191507d62338-03d1defec13f5f-721f3a40-144000-17191507d63400; CNZZDATA1261102524=262517629-1587279306-null%7C1587279306; __ads_session=6NY9VLMBdgmIzmsFHgA=',
          'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
          'Host':'www.thepaper.cn'}

# 封装一个获取新闻内容的函数
def get_news(href,title):
    # 对新闻内容网址发送请求
    response = requests.get(href,headers=headers).text
    # 数据初始化
    doc =pq(response)
    # 通过类选择器news_txt提取新闻内容
    news = doc(".index_cententWrap__Jv8jK").items()
    # 遍历数据
    for x in news:
        # 取出数据中的文本数据，获取到新闻信息
        new = x.text()
        print(new)

# 封装一个获取新闻内容网址和新闻标题的函数
def get_news_title():
    # 新闻网首页的链接
    url = 'https://www.thepaper.cn/channel_25951'
    # 对首页发送请求，并返回文本数据
    respoonse = requests.get(url, headers=headers,).text
    time.sleep(1)
    # 数据初始化
    doc = pq(respoonse)
    # 通过类选择器news_li 下级标签 h2 a 定位数据
    # .itens把数据变成可遍历的数据
    a = doc(".small_toplink__GmZhY a").items()
    print(a)
    # 遍历数据
    for x in a:
        # 通过属性href提取出新闻网址
        href = "https://www.thepaper.cn/" + x.attr("href")
        print(href)
        # 提取数据中的文本 获取新闻标题
        title = x.text()
        print(title)
        get_news(href,title)

if __name__ == '__main__':
    get_news_title()

天英科技创新协会

15AH, San Francisco

California, United States.

Send Your Mail At:

tianyingkejishe@sina.cn

Working Hours

Mon-Sat: 9.30am To 7.00pm

归档标题

月度归档 2月 18, 2025

【Linux】调度策略和优先级

一、背景

二、方法

【python】python爬取新闻资讯