新手必看!手把手教你在无界面 Linux 服务器上运行 DrissionPage
新手必看!手把手教你在无界面 Linux 服务器上运行 DrissionPage
一、引言:为什么要在无界面 Linux 服务器上用 DrissionPage?
在自动化办公、网页数据采集、UI 自动化测试等场景中,DrissionPage 是一款极具优势的 Python 工具——它融合了 Selenium 和 Requests 的核心能力,既支持模拟浏览器渲染动态页面,又能像 Requests 一样高效发送 HTTP 请求,还能自动处理 Cookie 同步、验证码识别(需配合插件)等复杂问题,对新手友好度远超传统工具。
而无界面 Linux 服务器(如 Ubuntu Server、CentOS)则是企业级自动化任务的常用载体:它资源占用低(无需运行图形界面)、稳定性强(可 7x24 小时不间断运行)、部署成本低(云服务器最低配置即可满足需求)。将 DrissionPage 部署在无界面 Linux 服务器上,能实现“脚本后台运行、结果自动存储、远程随时管理”的需求,比如定时爬取行业数据、自动生成日报、监控网页更新等。
但对新手而言,“无界面 Linux”+“浏览器自动化”的组合容易踩坑:比如不知道如何安装浏览器驱动、不理解“无头模式”配置、遇到依赖缺失报错时无从下手。本文将从“服务器准备”到“脚本部署上线”,用超详细的步骤和代码示例,帮你零门槛搞定整个流程,每个操作都附带“命令解释”和“错误解决方法”,确保你能跟着做、做必成。
二、准备工作:你需要这些工具和环境
在开始操作前,我们先理清需要准备的“硬件”和“软件”——新手不用慌,大部分工具都是免费的,且配置步骤非常简单。
2.1 核心工具清单
| 工具/环境 | 作用说明 | 推荐选择 | 新手友好度 |
|---|---|---|---|
| 无界面 Linux 服务器 | 运行 DrissionPage 脚本的“主机” | 阿里云轻量应用服务器(Ubuntu 22.04) | ★★★★★ |
| SSH 连接工具 | 远程控制 Linux 服务器(输入命令、传文件) | FinalShell(Windows/Mac) | ★★★★★ |
| 本地电脑 | 编写脚本、通过 SSH 连接服务器 | Windows 10/11 或 MacOS | —— |
| Python 环境 | 执行 DrissionPage 脚本的基础 | Python 3.8~3.11(推荐 3.10) | ★★★★☆ |
| 浏览器+驱动 | DrissionPage 模拟浏览器的依赖 | Chrome + ChromeDriver | ★★★★☆ |
2.2 服务器购买与初始化(以阿里云为例)
如果你还没有 Linux 服务器,推荐选择 阿里云轻量应用服务器(新手优惠价低至 99 元/年),步骤如下:
- 打开阿里云官网(https://www.aliyun.com/),注册并登录账号;
- 搜索“轻量应用服务器”,进入购买页面,按以下参数配置:
- 地域:选择离你最近的地区(如“华东 1-上海”),延迟更低;
- 操作系统:Ubuntu 22.04 LTS 64位(LTS 版本长期支持,稳定性强,适合新手);
- 实例规格:入门选择“1核2G”即可(运行 DrissionPage 足够,后续可升级);
- 存储:默认 40G 云盘(无需修改);
- 购买时长:按需求选择(新手建议先买 1 个月试手);
- 支付完成后,进入“轻量应用服务器控制台”,找到你的服务器,记录 公网 IP 地址(后续连接需要);
- 初始化登录密码:点击“远程连接”→“设置密码”,设置一个复杂密码(包含大小写字母、数字、符号),记住这个密码(SSH 连接时用)。
2.3 SSH 工具安装与服务器连接(以 FinalShell 为例)
FinalShell 是免费的 SSH 工具,支持可视化文件传输(不用记复杂的 scp 命令),新手必用:
- 下载 FinalShell:进入官网(https://www.hostbuf.com/),根据本地电脑系统(Windows/Mac)下载对应版本;
- 安装 FinalShell:双击安装包,按默认步骤下一步即可(Windows 需注意勾选“添加到桌面快捷方式”);
- 连接服务器:
- 打开 FinalShell,点击左上角“文件夹”图标→“新建连接”→“SSH 连接”;
- 填写连接信息:
- 名称:自定义(如“我的 Linux 服务器”);
- 主机:输入服务器的“公网 IP 地址”(从阿里云控制台复制);
- 端口:默认 22(Linux SSH 标准端口,无需修改);
- 用户名:Ubuntu 默认用户名是 ubuntu(CentOS 是 root,注意区分);
- 密码:输入你在阿里云设置的服务器登录密码;
- 点击“确定”,然后双击左侧列表中的连接,首次连接会提示“是否信任主机”,点击“信任”,稍等 1-2 秒,即可成功连接(下方黑色窗口是命令行,右侧是文件管理器)。
2.4 基础 Linux 命令预习(新手必记)
后续操作需要在命令行输入 Linux 命令,先记住这几个核心命令,后续会反复用到:
ls:查看当前目录下的文件/文件夹(类似 Windows 的“查看文件列表”);cd 路径:切换目录(如cd /home/ubuntu切换到 ubuntu 用户的主目录);sudo 命令:以管理员权限执行命令(很多操作需要权限,比如安装软件,输入后会提示输密码,输密码时不会显示,输完按回车即可);apt update:更新 Ubuntu 的软件源列表(安装软件前先执行,确保能下载到最新版本);apt install 软件名:安装软件(如apt install python3安装 Python3);python3 --version:查看 Python3 版本(验证是否安装成功);pip3 --version:查看 pip3 版本(pip 是 Python 的包管理工具,用来装 DrissionPage)。
三、环境搭建:从 0 到 1 配置 Linux 服务器
这是最关键的一步——我们需要在无界面 Linux 上安装 Python3、Chrome 浏览器(无头版)、ChromeDriver 驱动,以及 DrissionPage 本身。每个环节都有“避坑指南”,一定要按步骤来。
3.1 第一步:安装 Python3 和 pip3
Ubuntu 22.04 自带 Python3,但可能没有安装 pip3,需要手动补充:
-
打开 FinalShell 的命令行窗口,先更新软件源(确保安装不报错):
sudo apt update执行后会显示一堆更新信息,等待 10-30 秒(取决于网络速度),最后显示“完成”即可。
-
安装 Python3 和 pip3(如果已安装,会提示“已最新”):
sudo apt install python3 python3-pip -y解释:
-y表示“所有确认项都选 yes”,不用手动按 y 确认;这条命令会同时安装 Python3 和 pip3。 -
验证安装是否成功:
python3 --version # 查看 Python 版本,应显示 3.10.x(如 3.10.12) pip3 --version # 查看 pip 版本,应显示 22.x 或更高(如 22.0.2)如果两条命令都能显示版本号,说明 Python 环境没问题;如果提示“command not found”,重新执行步骤 2(可能是网络问题导致安装中断)。
3.2 第二步:安装 Chrome 浏览器(无头版)
无界面 Linux 不能运行带图形的 Chrome,所以需要安装“无头版 Chrome”(即 chromium-browser,Ubuntu 官方维护的开源版本,与 Chrome 功能一致,支持无头模式):
-
安装 chromium-browser 和依赖库(解决“缺失 lib 库”报错):
sudo apt install chromium-browser chromium-chromedriver -y解释:这条命令会同时安装“无头 Chrome”和“对应版本的 ChromeDriver”,避免后续手动匹配驱动版本(新手最容易踩的坑就是“浏览器和驱动版本不匹配”,这条命令直接帮你搞定)。
-
验证 Chrome 是否安装成功:
chromium-browser --version # 查看浏览器版本,如 112.0.5615.49 chromedriver --version # 查看驱动版本,应与浏览器版本一致(如 112.0.5615.49)关键:浏览器版本和驱动版本必须完全一致(至少前几位一致,如 112.0.5615),如果不一致,后续运行 DrissionPage 会报错。
-
测试无头模式是否可用:
执行以下命令,让 Chrome 在无头模式下打开百度(无界面环境下不会弹出浏览器窗口):chromium-browser --headless=new --no-sandbox --disable-dev-shm-usage https://www.baidu.com解释:
--headless=new:启用新的无头模式(比旧模式更稳定,支持所有 Chrome 功能);--no-sandbox:关闭沙箱模式(Linux 无界面环境必须加,否则会报错);--disable-dev-shm-usage:禁用共享内存(避免小内存服务器出现“内存不足”报错);
执行后如果没有报错,等待 5 秒按Ctrl+C退出,说明无头模式可用。
3.3 第三步:安装 DrissionPage
DrissionPage 是 Python 库,用 pip3 安装即可,步骤超简单:
-
直接用 pip3 安装最新版本:
pip3 install drissionpage -i https://pypi.tuna.tsinghua.edu.cn/simple解释:
-i https://pypi.tuna.tsinghua.edu.cn/simple是使用清华镜像源,下载速度比默认源快 10 倍(避免因网络慢导致安装失败)。 -
验证安装是否成功:
进入 Python 交互模式,导入 DrissionPage 并查看版本:python3 # 进入 Python 交互模式(命令行显示 >>> 表示进入成功) from drissionpage import __version__ # 导入版本模块 print(__version__) # 打印版本号,应显示 4.x 或更高(如 4.1.2) exit() # 退出 Python 交互模式,回到 Linux 命令行如果没有报错且能显示版本号,说明 DrissionPage 安装成功;如果提示“ModuleNotFoundError: No module named ‘drissionpage’”,重新执行步骤 1(可能是镜像源问题,换用阿里云镜像源:
-i https://mirrors.aliyun.com/pypi/simple/)。
四、核心操作:编写第一个 DrissionPage 脚本(无界面运行)
环境搭好后,我们来写一个“无界面运行”的脚本——功能是:用 DrissionPage 打开百度,搜索“DrissionPage”,获取搜索结果的标题和链接,最后将结果保存到本地文件。
4.1 步骤 1:在服务器上创建脚本文件
我们用 FinalShell 的“可视化文件管理器”创建脚本,不用记 vim 命令(新手用 vim 容易误操作):
- 在 FinalShell 右侧的文件管理器中,进入
/home/ubuntu目录(ubuntu 用户的主目录,权限足够,适合存脚本); - 右键点击空白处→“新建文件”,文件名输入
baidu_search.py(后缀.py表示 Python 脚本); - 双击打开
baidu_search.py文件,进入编辑模式(和记事本一样,直接输入代码)。
4.2 步骤 2:编写脚本代码(附带详细注释)
将以下代码复制到 baidu_search.py 中,每个步骤都有注释,新手能看懂每一行的作用:
# 1. 导入 DrissionPage 的核心类(Chromium 用于控制浏览器,Session 用于发送 HTTP 请求,这里用 Chromium)
from drissionpage import Chromium
# 导入 time 模块(用于加延迟,避免操作太快被反爬)
import time
# 2. 配置 Chrome 无头模式参数(关键:无界面运行必须加这些参数)
chrome_options = {
# 启用无头模式(无界面运行)
"headless": True,
# 关闭沙箱模式(Linux 无界面环境必填,否则报错)
"no_sandbox": True,
# 禁用共享内存(小内存服务器必填,避免内存不足)
"disable_dev_shm_usage": True,
# 禁用 GPU 加速(无界面环境不需要 GPU,禁用后更稳定)
"disable_gpu": True,
# 设置浏览器窗口大小(可选,部分网站需要固定大小才能正常渲染)
"window_size": (1920, 1080)
}
# 3. 创建 Chromium 浏览器对象(传入无头模式参数)
# 注意:Linux 上 Chromium 的可执行文件路径是 "/usr/bin/chromium-browser",需要指定 executable_path
browser = Chromium(
executable_path="/usr/bin/chromium-browser",
options=chrome_options
)
try:
# 4. 打开百度首页
browser.get("https://www.baidu.com")
# 加 2 秒延迟,等待页面加载完成(动态页面需要等 JS 渲染)
time.sleep(2)
print("成功打开百度首页")
# 5. 定位搜索框并输入关键词(DrissionPage 定位元素超简单,支持 ID、XPATH、CSS 等)
# 百度搜索框的 ID 是 "kw",用 "id=kw" 直接定位
search_box = browser.ele("id=kw")
# 输入关键词 "DrissionPage"
search_box.input("DrissionPage")
print("成功在搜索框输入关键词")
# 6. 定位搜索按钮并点击(百度搜索按钮的 ID 是 "su")
search_btn = browser.ele("id=su")
search_btn.click()
# 加 3 秒延迟,等待搜索结果加载完成
time.sleep(3)
print("成功点击搜索按钮,等待结果加载")
# 7. 提取搜索结果(百度搜索结果的标题和链接在 class 为 "result-op c-container xpath-log new-pmd" 的div中)
# 用 "class=result-op" 定位所有搜索结果(elems 返回列表,包含所有匹配的元素)
result_list = browser.elems("class=result-op")
# 创建一个列表存储结果
output_data = []
# 遍历结果列表,提取标题和链接
for i, result in enumerate(result_list, start=1):
# 提取标题(标题在 result 下的 h3 标签中,用 "tag=h3" 定位)
title = result.ele("tag=h3").text if result.ele("tag=h3") else "无标题"
# 提取链接(链接在 result 下的 a 标签中,用 "tag=a" 定位,获取 href 属性)
link = result.ele("tag=a").get_attr("href") if result.ele("tag=a") else "无链接"
# 将结果添加到列表中,格式为 "第 N 条:标题 - 链接"
output_data.append(f"第 {i} 条:{title} - {link}")
# 在命令行打印结果(方便实时查看)
print(f"第 {i} 条:{title} - {link}")
# 8. 将结果保存到本地文件(保存到 /home/ubuntu 目录下,文件名为 baidu_result.txt)
with open("/home/ubuntu/baidu_result.txt", "w", encoding="utf-8") as f:
# 将列表中的内容用换行符连接,写入文件
f.write("
".join(output_data))
print(f"
成功将 {len(output_data)} 条搜索结果保存到 baidu_result.txt")
except Exception as e:
# 捕获所有异常,打印错误信息(方便排查问题)
print(f"脚本运行出错:{str(e)}")
finally:
# 无论脚本是否报错,都关闭浏览器(避免占用服务器资源)
browser.quit()
print("浏览器已关闭")
4.3 步骤 3:运行脚本(无界面模式)
回到 FinalShell 的命令行窗口,执行以下命令运行脚本:
python3 /home/ubuntu/baidu_search.py
运行过程中,命令行会实时打印日志(如“成功打开百度首页”“成功输入关键词”),等待 10-20 秒(取决于网络速度),最后显示“浏览器已关闭”,说明脚本运行完成。
4.4 步骤 4:查看运行结果
- 查看命令行输出:如果没有报错,会显示“成功将 N 条搜索结果保存到 baidu_result.txt”,并列出每条结果的标题和链接;
- 查看保存的文件:在 FinalShell 右侧的文件管理器中,进入
/home/ubuntu目录,会看到新增的baidu_result.txt文件,双击打开即可查看所有搜索结果(中文不会乱码,因为脚本中指定了encoding="utf-8")。
4.5 常见报错与解决方法(新手必看)
如果运行脚本时出现报错,不用慌,按以下方法排查:
| 报错信息示例 | 原因分析 | 解决方法 |
|---|---|---|
chromedriver executable needs to be in PATH | 未指定 Chrome 可执行文件路径 | 脚本中 Chromium() 必须加 executable_path="/usr/bin/chromium-browser" |
Failed to create sandbox | 未关闭沙箱模式 | 在 chrome_options 中添加 "no_sandbox": True |
DevToolsActivePort file doesn't exist | 共享内存不足或未禁用 GPU | 加 "disable_dev_shm_usage": True 和 "disable_gpu": True |
元素定位不到(如 ele not found) | 页面加载未完成,或元素选择器错误 | 1. 增加 time.sleep() 延迟(如从 2 秒改为 5 秒);2. 检查元素选择器是否正确(用 Chrome 开发者工具复制) |
中文乱码 | 保存文件时未指定编码 | 打开文件时加 encoding="utf-8"(如 open("xxx.txt", "w", encoding="utf-8")) |
五、进阶操作:让脚本“后台运行+定时执行”
新手学会“手动运行脚本”后,下一步是实现“脚本后台运行(关闭 SSH 也不停止)”和“定时执行(比如每天 8 点自动运行)”——这才是服务器部署的核心价值。
5.1 后台运行脚本(nohup 命令)
默认情况下,用 python3 脚本.py 运行脚本时,关闭 FinalShell(SSH 连接断开)后,脚本会停止。用 nohup 命令可以让脚本在后台持续运行,步骤如下:
-
执行以下命令,后台运行
baidu_search.py,并将日志输出到script_log.txt:nohup python3 /home/ubuntu/baidu_search.py > /home/ubuntu/script_log.txt 2>&1 &命令解释:
nohup:忽略挂断信号(关闭 SSH 后脚本继续运行);> /home/ubuntu/script_log.txt:将脚本的打印信息(print 内容)保存到script_log.txt;2>&1:将错误信息也保存到script_log.txt(方便排查报错);- 最后一个
&:让脚本在后台运行(命令行可以继续输入其他命令)。
-
查看脚本是否在运行:
ps aux | grep python3 # 查看所有 Python3 进程执行后会显示所有 Python3 进程,如果能看到
/home/ubuntu/baidu_search.py,说明脚本正在后台运行。 -
查看运行日志(实时查看脚本输出):
tail -f /home/ubuntu/script_log.txt解释:
tail -f会实时显示日志文件的最新内容,按Ctrl+C可以退出查看。 -
停止后台运行的脚本:
如果需要手动停止脚本,先查进程 ID(PID):ps aux | grep python3 # 找到脚本对应的 PID(第二列数字) kill -9 PID # 替换 PID 为实际数字,如 kill -9 12345例如:如果进程信息是
ubuntu 12345 0.0 0.0 12345 6789 pts/0 S+ 10:00 0:00 python3 /home/ubuntu/baidu_search.py,则 PID 是 12345,执行kill -9 12345即可停止脚本。
5.2 定时执行脚本(crontab 命令)
如果需要脚本“每天固定时间运行”(如每天 8 点爬取数据),用 Linux 自带的 crontab 定时任务即可,步骤如下:
-
编辑 crontab 定时任务列表:
crontab -e首次执行会提示选择编辑器,新手推荐选
nano(输入1然后按回车)——nano 编辑器操作简单:按Ctrl+O保存,按Ctrl+X退出。 -
添加定时任务:
在 nano 编辑器中,按End键跳到最后一行,添加以下内容:0 8 * * * /usr/bin/python3 /home/ubuntu/baidu_search.py >> /home/ubuntu/daily_log.txt 2>&1命令解释:
0 8 * * *:定时规则,代表“每天 8 点 0 分执行”(格式:分 时 日 月 周,* 表示“任意”);- 举例:
30 9 * * 1-5表示“每周一到周五 9 点 30 分执行”;0 */2 * * *表示“每 2 小时执行一次”;
- 举例:
/usr/bin/python3:Python3 的绝对路径(用which python3命令可查看,一般是这个路径);/home/ubuntu/baidu_search.py:脚本的绝对路径;>> /home/ubuntu/daily_log.txt:将每次运行的日志追加到daily_log.txt(>>是追加,>是覆盖);2>&1:错误信息也追加到日志文件。
-
保存并退出 nano 编辑器:
- 按
Ctrl+O(字母 O,不是 0),然后按回车(确认保存路径); - 按
Ctrl+X退出编辑器。
- 按
-
查看 crontab 任务是否生效:
crontab -l # 列出当前所有定时任务如果能看到刚才添加的任务,说明配置成功。
-
检查定时任务日志(排查未执行问题):
如果到了时间脚本没执行,查看 crontab 日志:sudo grep CRON /var/log/syslog日志中会显示“任务是否执行”“执行结果”,比如
CRON[12345]: (ubuntu) CMD (/usr/bin/python3 /home/ubuntu/baidu_search.py >> ...)表示任务已执行;如果有报错,会显示错误原因(如路径错误、权限不足)。常见定时任务失败原因:
- 路径错误:Python 路径或脚本路径不是绝对路径(必须用
/usr/bin/python3,不能用python3); - 权限不足:脚本或日志文件没有写入权限,执行
chmod 755 /home/ubuntu/baidu_search.py给脚本加权限; - 环境变量问题:crontab 执行时环境变量与手动执行不同,脚本中所有路径必须用绝对路径(如保存文件不能用
baidu_result.txt,必须用/home/ubuntu/baidu_result.txt)。
- 路径错误:Python 路径或脚本路径不是绝对路径(必须用
六、实战案例:用 DrissionPage 爬取动态网页数据(无界面)
前面的案例是“静态搜索”,现在我们来实战一个“动态网页爬取”——爬取“豆瓣电影 Top250”(https://movie.douban.com/top250),这个网页是动态加载的(需要点击“下一页”或滚动加载),传统 Requests 无法爬取,DrissionPage 可以轻松搞定。
6.1 案例脚本:爬取豆瓣电影 Top250 数据
创建 douban_top250.py 脚本,代码如下(附带详细注释):
from drissionpage import Chromium
import time
import csv # 用于将数据保存为 CSV 文件(方便用 Excel 打开)
# 配置无头模式参数(和之前一致)
chrome_options = {
"headless": True,
"no_sandbox": True,
"disable_dev_shm_usage": True,
"disable_gpu": True,
"window_size": (1920, 1080)
}
# 创建浏览器对象
browser = Chromium(
executable_path="/usr/bin/chromium-browser",
options=chrome_options
)
# 存储所有电影数据的列表
movies_data = []
try:
# 豆瓣 Top250 第一页 URL
base_url = "https://movie.douban.com/top250?start={}&filter="
# 爬取 10 页(共 250 部电影),start 参数从 0、25、50...225
for page in range(10):
start = page * 25
url = base_url.format(start)
print(f"开始爬取第 {page+1} 页:{url}")
# 打开当前页
browser.get(url)
time.sleep(3) # 等待页面加载
# 定位当前页所有电影项(每个电影项的 class 是 "item")
movie_items = browser.elems("class=item")
# 遍历每个电影项,提取数据
for item in movie_items:
# 1. 排名(在 class 为 "pic" 的 div 下的 em 标签中)
rank = item.ele("class=pic").ele("tag=em").text
# 2. 电影名称(在 class 为 "hd" 的 div 下的 a 标签中,取第一个 span 的文本)
title = item.ele("class=hd").ele("tag=a").elems("tag=span")[0].text
# 3. 导演和演员(在 class 为 "bd" 的 div 下的 p 标签中,取第一行文本)
info = item.ele("class=bd").ele("tag=p").text.split("
")[0].strip()
# 4. 评分(在 class 为 "star" 的 div 下的 class 为 "rating_num" 的 span 中)
score = item.ele("class=star").ele("class=rating_num").text
# 5. 评价人数(在 class 为 "star" 的 div 下的最后一个 span 中,提取数字)
comment_num = item.ele("class=star").elems("tag=span")[-1].text.replace("人评价", "")
# 6. 简介(在 class 为 "inq" 的 span 中,没有则显示 "无简介")
quote = item.ele("class=inq").text if item.ele("class=inq") else "无简介"
# 将当前电影数据添加到列表
movies_data.append([rank, title, info, score, comment_num, quote])
print(f"已爬取:第 {rank} 名 - {title}(评分:{score})")
print(f"第 {page+1} 页爬取完成,累计爬取 {len(movies_data)} 部电影
")
# 将数据保存为 CSV 文件(Excel 可直接打开)
csv_path = "/home/ubuntu/douban_top250.csv"
with open(csv_path, "w", encoding="utf-8-sig", newline="") as f:
# 创建 CSV 写入器
writer = csv.writer(f)
# 写入表头(第一行)
writer.writerow(["排名", "电影名称", "导演/演员", "评分", "评价人数", "简介"])
# 写入所有电影数据
writer.writerows(movies_data)
print(f"豆瓣电影 Top250 爬取完成!共 {len(movies_data)} 部电影,数据已保存到 {csv_path}")
except Exception as e:
print(f"爬取过程出错:{str(e)}")
finally:
browser.quit()
print("浏览器已关闭")
6.2 运行脚本与查看结果
- 后台运行脚本并保存日志:
nohup python3 /home/ubuntu/douban_top250.py > /home/ubuntu/douban_log.txt 2>&1 & - 实时查看爬取进度:
会看到“开始爬取第 1 页”“已爬取:第 1 名 - 肖申克的救赎(评分:9.7)”等日志,爬取 10 页约需 1-2 分钟。tail -f /home/ubuntu/douban_log.txt - 查看结果文件:
爬取完成后,在/home/ubuntu目录下会生成douban_top250.csv文件,右键点击该文件→“下载”,下载到本地后用 Excel 打开,即可看到结构化的电影数据(排名、名称、评分等一目了然)。
七、常见问题汇总(新手避坑指南)
在无界面 Linux 上运行 DrissionPage 时,新手容易遇到各种小问题,这里汇总了 10 个高频问题及解决方案,帮你快速排查:
7.1 环境类问题
-
问题:执行
chromium-browser --version提示“command not found”
原因:Chrome 未安装或安装失败
解决:重新执行sudo apt install chromium-browser chromium-chromedriver -y,并检查网络是否正常。 -
问题:安装 DrissionPage 时提示“pip3: command not found”
原因:pip3 未安装
解决:执行sudo apt install python3-pip -y安装 pip3。 -
问题:脚本中指定
executable_path="/usr/bin/chromium-browser"但报错“文件不存在”
原因:Chrome 安装路径不对(不同 Linux 发行版路径可能不同)
解决:执行which chromium-browser查看实际路径,将脚本中的路径替换为查询结果。
7.2 脚本运行类问题
-
问题:运行脚本时提示“元素定位不到(ele not found)”
原因:1. 页面加载未完成;2. 元素选择器错误;3. 网页有反爬机制(如验证码、登录)
解决:- 增加
time.sleep()延迟(如从 2 秒改为 5 秒); - 用 Chrome 开发者工具重新复制元素选择器(步骤:本地 Chrome 打开网页→F12 打开开发者工具→选中元素→右键→Copy→Copy selector);
- 如果网页需要登录,用 DrissionPage 的
set_cookies()方法导入登录后的 Cookie(后续章节会讲)。
- 增加
-
问题:脚本运行时提示“内存不足(Out of memory)”
原因:服务器内存太小(如 1G 内存),Chrome 占用内存较高
解决:- 升级服务器内存(至少 2G);
- 在
chrome_options中添加"disable-extensions": True(禁用浏览器扩展,减少内存占用); - 用
Session模式替代Chromium模式(如果网页不需要动态渲染,Session 模式内存占用仅为 Chromium 的 1/10,后续章节会讲)。
-
问题:中文保存到文件后乱码
原因:未指定编码格式,Linux 默认编码是 ASCII,不支持中文
解决:打开文件时必须加encoding="utf-8"(保存 CSV 文件用encoding="utf-8-sig",Excel 打开不会乱码)。
7.3 后台与定时任务类问题
-
问题:用 nohup 后台运行脚本,关闭 SSH 后脚本停止
原因:nohup 命令格式错误,或脚本中用了相对路径
解决:- 重新执行 nohup 命令(确保格式正确:
nohup python3 绝对路径 > 日志绝对路径 2>&1 &); - 脚本中所有文件路径必须用绝对路径(如
/home/ubuntu/result.txt,不能用result.txt)。
- 重新执行 nohup 命令(确保格式正确:
-
问题:crontab 定时任务到时间不执行
原因:1. 路径不是绝对路径;2. 权限不足;3. 环境变量问题
解决:- 检查 Python 路径和脚本路径是否为绝对路径(用
which python3确认 Python 路径); - 给脚本加权限:
chmod 755 /home/ubuntu/脚本.py; - 在定时任务中指定环境变量:在
crontab -e中添加PATH=/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin(放在定时任务行前面)。
- 检查 Python 路径和脚本路径是否为绝对路径(用
-
问题:crontab 执行脚本报错“ModuleNotFoundError: No module named ‘drissionpage’”
原因:crontab 执行时用的 pip 环境与手动执行不同,DrissionPage 安装在用户目录下,crontab 无法找到
解决:- 用绝对路径的 pip3 安装 DrissionPage:
/usr/bin/pip3 install drissionpage; - 定时任务中用绝对路径的 Python3 执行脚本(如
/usr/bin/python3 /home/ubuntu/脚本.py)。
- 用绝对路径的 pip3 安装 DrissionPage:
-
问题:后台运行脚本时,日志文件很大,占满服务器空间
原因:脚本长期运行,日志不断追加
解决:- 定期清理日志(执行
rm /home/ubuntu/script_log.txt删除旧日志); - 在脚本中添加“日志轮转”逻辑(如只保留最近 7 天的日志);
- 用
logrotate工具自动管理日志(适合长期运行的脚本)。
- 定期清理日志(执行
八、总结与后续学习方向
通过本文的步骤,你已经掌握了“在无界面 Linux 服务器上运行 DrissionPage”的核心流程:从服务器购买、环境搭建,到脚本编写、后台运行、定时执行,甚至实战了动态网页爬取。现在你可以将这个流程应用到自己的需求中,比如:
- 定时爬取行业数据,生成 Excel 报表;
- 监控目标网页更新,有新内容时发送邮件提醒;
- 自动化填写表单、提交数据(如每日打卡、报表上报)。
后续学习方向
- DrissionPage 高级功能:学习
Session模式(高效爬取静态网页,内存占用低)、Cookie同步(登录后保持会话)、iframe切换(处理嵌套页面)、验证码识别(配合 ddddocr 库)等; - Linux 进阶操作:学习
shell脚本(批量管理多个 DrissionPage 脚本)、logrotate(日志轮转)、systemd(设置脚本开机自启)等; - 反爬与合规:爬取数据时遵守网站
robots.txt规则,避免频繁请求(添加随机延迟、使用代理 IP),不爬取敏感数据; - 结果可视化:将爬取的数据用
matplotlib或pyecharts生成图表,更直观地展示分析结果。
推荐资源
- DrissionPage 官方文档:https://gitee.com/g1879/DrissionPage(最权威的教程,包含所有功能示例);
- Ubuntu 官方文档:https://ubuntu.com/server/docs(学习 Linux 基础操作);
- FinalShell 教程:https://www.hostbuf.com/t/988.html(掌握文件传输、进程管理等技巧)。
只要跟着本文的步骤实践,再结合官方文档探索高级功能,你很快就能从“新手”成长为“能独立部署 Linux 自动化脚本”的高手。遇到问题时不要慌,先查看日志找报错原因,再对照本文的“常见问题汇总”排查,大部分问题都能快速解决!











