当前位置:首页 > 文章列表 > 文章 > python教程 > Databricks AutoML 如何指定特征列

Databricks AutoML 如何指定特征列

2025-09-07 16:19:47 0浏览 收藏

## Databricks AutoML 如何指定特征列?掌握Feature Store集成技巧 在使用 Databricks AutoML 进行模型训练时,如何高效地利用 Feature Store 并指定所需的特征列?本文针对在使用 Databricks AutoML 结合 Feature Store 时,直接传递 Feature Store lookups 可能遇到的问题,提供了一套完整的解决方案。通过 `fe.create_training_set` 和 `training_set.load_df()` 函数创建训练数据集,你可以精确控制 AutoML 使用的特征列,避免不必要的列包含。本文详细介绍了定义 Feature Lookups、创建训练数据集、加载 DataFrame 以及运行 AutoML 的步骤,并附带示例代码,助你轻松将 Feature Store 集成到 AutoML 工作流程中,提升模型性能。了解如何在Databricks AutoML中指定特征列,优化模型训练效果!

在 Databricks AutoML 中指定特征列的方法

本文档介绍了在使用 Databricks AutoML 与 Feature Store 结合时,如何正确指定特征列。 当直接将 Feature Store lookups 传递给 databricks.automl.regress 或 databricks.automl.classify 函数时,可能会遇到问题,特别是当你只想使用 Feature Table 中的部分特征时。本文提供了一种解决方案,通过使用 fe.create_training_set 和 training_set.load_df() 来创建训练数据集,从而允许你在 AutoML 中指定要使用的特征列。

使用 Feature Store 创建训练数据集并应用于 AutoML

在使用 Databricks AutoML 时,如果你的数据依赖于 Feature Store,并且你希望精确控制哪些特征列被用于训练,直接将 Feature Store lookups 传递给 AutoML 函数可能无法满足需求。这是因为 AutoML 的 regress 和 classify 函数在直接使用 feature_store_lookups 参数时,可能无法让你指定要包含的特征名称,并且排除列的功能可能不适用于 Feature Store 的列。

解决此问题的推荐方法是首先使用 Feature Store 的 API 创建一个训练数据集,然后将该数据集加载到 DataFrame 中,最后将该 DataFrame 传递给 AutoML 函数。

以下步骤展示了如何实现这一目标:

  1. 定义 Feature Lookups:

    首先,你需要定义一个 FeatureLookup 对象的列表,用于指定要从 Feature Store 中查找的特征。 这些对象指定了 Feature Table 的名称、查找键以及要包含的特征名称。

    from databricks import feature_store as fe
    from databricks.feature_store import FeatureLookup
    
    model_feature_lookups = [
        FeatureLookup(
          table_name="lakehouse_in_action.favorita_forecasting.oil_10d_lag_ft",
          lookup_key="date",
          feature_names="lag10_oil_price"
        ),
        FeatureLookup(
          table_name="lakehouse_in_action.favorita_forecasting.store_holidays_ft",
          lookup_key=["date","store_nbr"]
        ),
        FeatureLookup(
          table_name="lakehouse_in_action.favorita_forecasting.stores_ft",
          lookup_key="store_nbr",
          feature_names=["cluster","store_type"]
        ),
    ]

    请注意,feature_names 参数允许你指定要从每个 Feature Table 中包含的特定特征。

  2. 创建训练数据集:

    使用 fe.create_training_set 函数创建一个训练数据集。 此函数接受原始数据 DataFrame、FeatureLookup 对象的列表以及目标列的名称。

    training_set = fe.create_training_set(
        df=raw_data,
        feature_lookups=model_feature_lookups,
        label=label_name,
    )
  3. 加载 DataFrame:

    使用 training_set.load_df() 方法将训练数据集加载到 DataFrame 中。 此 DataFrame 包含原始数据以及从 Feature Store 中查找的特征。

    training_df = training_set.load_df()
  4. 运行 AutoML:

    现在,你可以将加载的 DataFrame 传递给 databricks.automl.regress 或 databricks.automl.classify 函数。 你还可以使用 exclude_cols 参数排除不需要的列。

    automl_data = training_df.filter("date > '2016-12-31'") # Optional: Filter data for faster execution
    
    summary = databricks.automl.regress(automl_data,
                                        target_col=label_name,
                                        time_col="date",
                                        timeout_minutes=6,
                                        exclude_cols=['id']
                                        )

    注意: exclude_cols 参数用于排除原始数据中的列,而不是 Feature Store 中查找的列。

示例代码

以下是完整的示例代码,展示了如何使用 Feature Store 创建训练数据集并将其应用于 AutoML:

from databricks import feature_store as fe
from databricks.feature_store import FeatureLookup

# 1. Define Feature Lookups
model_feature_lookups = [
    FeatureLookup(
      table_name="lakehouse_in_action.favorita_forecasting.oil_10d_lag_ft",
      lookup_key="date",
      feature_names="lag10_oil_price"
    ),
    FeatureLookup(
      table_name="lakehouse_in_action.favorita_forecasting.store_holidays_ft",
      lookup_key=["date","store_nbr"]
    ),
    FeatureLookup(
      table_name="lakehouse_in_action.favorita_forecasting.stores_ft",
      lookup_key="store_nbr",
      feature_names=["cluster","store_type"]
    ),
]

# 2. Create Training Dataset
training_set = fe.create_training_set(
    df=raw_data,
    feature_lookups=model_feature_lookups,
    label=label_name,
)

# 3. Load DataFrame
training_df = training_set.load_df()

# 4. Run AutoML
automl_data = training_df.filter("date > '2016-12-31'") # Optional: Filter data for faster execution

summary = databricks.automl.regress(automl_data,
                                    target_col=label_name,
                                    time_col="date",
                                    timeout_minutes=6,
                                    exclude_cols=['id']
                                    )

注意事项

  • 确保你已正确安装和配置了 Databricks Feature Store SDK。
  • 在 FeatureLookup 对象中,lookup_key 必须与原始数据 DataFrame 和 Feature Table 中的键列名称匹配。
  • feature_names 参数允许你选择要从 Feature Table 中包含的特定特征。 如果省略 feature_names,则将包含 Feature Table 中的所有特征。
  • exclude_cols 参数仅用于排除原始数据中的列,而不是 Feature Store 中查找的列。
  • 根据数据量和计算资源,调整 timeout_minutes 参数以获得最佳 AutoML 运行时间。

总结

通过使用 Feature Store API 创建训练数据集,你可以更灵活地控制哪些特征被用于 Databricks AutoML 训练。 这种方法允许你指定要包含的特征名称,并避免因包含不需要的列而导致的问题。 按照本文档中的步骤,你可以有效地将 Feature Store 集成到你的 AutoML 工作流程中,并获得更好的模型性能。

文中关于的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《Databricks AutoML 如何指定特征列》文章吧,也可关注golang学习网公众号了解相关技术文章。

赛酷体育弹框怎么开?详细教程分享赛酷体育弹框怎么开?详细教程分享
上一篇
赛酷体育弹框怎么开?详细教程分享
Python协议与ABC抽象基类区别解析
下一篇
Python协议与ABC抽象基类区别解析
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ljg-skills -
    ljg-skills
    ljg-skills 是李继刚开源的 AI 技能与提示词集合,面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板,适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。
    3072次使用
  • MELO音乐 - AI 音乐生成平台,支持多模态创作能力
    MELO音乐
    MELO音乐是一站式AI视频与音乐制作助手,对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐,MELO为你免费谱曲,轻松做同款!
    2832次使用
  • UniScribe - AI 免费在线音视频转文字平台
    UniScribe
    UniScribe 是一款 AI 音视频转文字与内容整理工具,支持上传音频、视频文件或粘贴 YouTube 链接,自动生成转写文本、摘要、思维导图和关键问题,并支持多格式导出,适合会议记录、课程学习、访谈整理和内容创作复盘。
    2778次使用
  • 剧云 - 免费 AI 智能中文剧本创作平台
    剧云
    剧云是专业中文剧本创作平台,安全稳定运行十余年,集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能,数据安全防护,轻松高效创作剧本。
    2996次使用
  • 万象有声 - AI 一站式有声内容创作平台
    万象有声
    万象有声,一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具,可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验,让有声书制作更简单!
    2952次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码