当前位置:首页 > 文章列表 > 文章 > python教程 > Python用dateparser解析非标准时间字符串

Python用dateparser解析非标准时间字符串

2026-05-30 11:03:43 0浏览 收藏
在网页爬虫开发中,面对五花八门、中英混杂、含相对表述(如“昨天”“2小时前”)和多时区的非标准时间字符串,`dateparser.parse()` 凭借无需预设格式、内置多语言支持、自动时区识别、精准相对时间推算及模糊表达理解等优势,显著优于需硬编码多种格式且完全无法处理动态语义的 `datetime.strptime()`;配合显式指定 `languages`、合理配置 `settings`(如 `RELATIVE_BASE` 和 `STRICT_PARSING`)、预清洗脏数据及针对性性能优化,它能以高鲁棒性和实用性成为爬虫时间解析的首选利器——但务必牢记:它给出的是智能推断结果,而非绝对权威,使用时需结合业务场景审慎判断与验证。

Python中如何处理爬虫抓取的非标准时间字符串_使用dateparser库转换

dateparser.parse() 为什么比 datetime.strptime() 更适合爬虫时间解析

爬虫拿到的时间字符串往往五花八门:"2024-03-15T14:23:08+08:00""昨天 16:42""2小时前""2024年3月15日 上午10:30",甚至混着英文和中文的 "Mar 15, 2024 at 2:30 PM"。用 datetime.strptime() 写一堆 try/except + 多种格式硬匹配,维护成本高、漏解析率高。

dateparser 的核心优势是「无需预设格式」——它内置了多语言支持、相对时间推算、时区自动识别和常见模糊表达理解。比如 dateparser.parse("上周三") 能结合当前日期准确回溯到具体日期,而 strptime() 根本无法处理。

注意:它默认返回 datetime 对象(带时区信息),不是字符串,后续做比较或存储前需确认是否要归一化时区。

安装与基础用法:别跳过 locale 和 settings 参数

直接 pip install dateparser 即可,但实际使用中不指定语言环境极易出错。网页内容可能是中文,但系统 locale 是 en_US,这时 dateparser.parse("昨天") 可能返回 None

推荐显式指定:

import dateparser
# 强制按中文解析
dateparser.parse("昨天 18:20", languages=['zh'])
# 或同时支持中英(适合混合内容)
dateparser.parse("Mar 15, 2024 | 3天前", languages=['zh', 'en'])
# 指定基准时间(避免“今天”“现在”依赖运行时刻)
dateparser.parse("2小时后", settings={'RELATIVE_BASE': datetime(2024, 3, 15, 12, 0)})
  • languages 必须传列表,单语言也写成 ['zh'],不能是字符串 'zh'
  • 未指定 languages 时,它会尝试自动检测,但对短字符串(如仅 "下午3点")大概率失败
  • settings 中的 RELATIVE_BASE 对测试和回溯历史页面特别关键;否则“昨天”永远基于 datetime.now()

常见失败场景及绕过技巧

不是所有字符串都能被完美解析。典型失败包括:含乱码的日期("2024-03-15??14:23")、嵌套 HTML 标签("2024-03-15")、超长无分隔符数字("20240315142308")。

不要让整个程序卡在一条坏数据上:

def safe_parse_date(text):
    if not isinstance(text, str) or not text.strip():
        return None
    # 预清洗:去标签、去多余空格、替换全角标点
    import re
    cleaned = re.sub(r'<[^>]+>|[\u3000\s]+', ' ', text).strip()
    cleaned = cleaned.replace(':', ':').replace('—', '-').replace('–', '-')
    return dateparser.parse(cleaned, languages=['zh'], settings={'STRICT_PARSING': False})
<h1>示例</h1><p>safe_parse_date("<time>2024年3月15日</time> 下午3:00")  # → datetime object</p>
  • STRICT_PARSING=False(默认)允许跳过无法识别的部分,比如 "2024-03-15 abc 14:23" 仍可能解析出日期时间
  • 遇到纯数字串(如 "20240315"),dateparser 默认不识别,需先正则补成分隔符:re.sub(r'^(\d{4})(\d{2})(\d{2})$', r'\1-\2-\3', s)
  • 返回 None 时,不要直接 .strftime(),务必判空

性能与线程安全要注意什么

dateparser 解析单条文本平均耗时约 5–20ms(视字符串复杂度),比 strptime() 慢一个数量级。高频抓取场景下,批量解析会明显拖慢 pipeline。

优化建议:

  • 避免在循环里反复调用 dateparser.parse() 处理相同格式的大量数据;可先用正则粗筛标准格式(如 ISO 8601),仅对非标字符串走 dateparser
  • 它本身是线程安全的,但内部有缓存机制;若在多进程(multiprocessing)中使用,每个子进程需独立初始化,不共享 parser 实例
  • 不建议全局缓存 dateparser 的结果(如用 @lru_cache),因为输入常含相对时间(“刚才”“明天”),缓存会导致时间漂移

真正麻烦的从来不是“能不能转”,而是“什么时候该信它的结果”——比如网页里写 "预计下周发布"dateparser 会给出一个未来日期,但你得知道这个日期只是推算值,不是权威发布时间。

以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于文章的相关知识,也可关注golang学习网公众号。

ESM模块异步加载流程图解析ESM模块异步加载流程图解析
上一篇
ESM模块异步加载流程图解析
苏宁金融账号如何注销?
下一篇
苏宁金融账号如何注销?
查看更多
最新文章
资料下载
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ChatExcel酷表:告别Excel难题,北大团队AI助手助您轻松处理数据
    ChatExcel酷表
    ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
    5880次使用
  • Any绘本:开源免费AI绘本创作工具深度解析
    Any绘本
    探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
    6313次使用
  • 可赞AI:AI驱动办公可视化智能工具,一键高效生成文档图表脑图
    可赞AI
    可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
    6116次使用
  • 星月写作:AI网文创作神器,助力爆款小说速成
    星月写作
    星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
    8089次使用
  • MagicLight.ai:叙事驱动AI动画视频创作平台 | 高效生成专业级故事动画
    MagicLight
    MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
    6543次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码