当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

来源:51CTO.COM 2023-04-27 21:50:12 0浏览 收藏

哈喽!今天心血来潮给大家带来了《sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading》,想必大家应该对科技周边都不陌生吧,那么阅读本文就都不会很困难,以下内容主要涉及到,若是你正在学习科技周边,千万别错过这篇文章~希望能帮助到你!

标签传播算法是一种半监督机器学习算法,它将标签分配给以前未标记的数据点。要在机器学习中使用这种算法,只有一小部分示例具有标签或分类。在算法的建模、拟合和预测过程中,这些标签被传播到未标记的数据点。

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading


LabelPropagation

LabelPropagation是一种在图中查找社区的快速算法。它只使用网络结构作为指导来检测这些连接,不需要预定义的目标函数或关于群体的先验信息。标签传播通过在网络中传播标签并基于标签传播过程形成连接来实现。

接近的标签通常会被赋予相同的标签。单个标签可以在密集连接的节点组中占主导地位,但在稀疏连接的区域中会遇到麻烦。标签将被限制在一个紧密连接的节点组中,当算法完成时,那些最终具有相同标签的节点可以被视为同一连接的一部分。该算法使用了图论,具体如下:-

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

LabelPropagation算法以下列方式工作:-

  • 每个节点都使用唯一的标签进行初始化。
  • 这些标签通过网络传播。
  • 在每次传播迭代中,每个节点都会将其标签更新为最大邻居数所属的标签。
  • 当每个节点具有其邻居的多数标签时,标签传播算法达到收敛。
  • 如果达到收敛或用户定义的最大迭代次数,则标签传播算法停止。

为了演示LabelPropagation算法的工作原理,们使用 Pima Indians 的数据集,创建程序时,我导入了运行它所需的库

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

复制一份数据并且将lable列作为训练目标

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

使用matplotlib可视化:

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

使用随机数生成器随机化数据集中70%的标签。然后随机标签被分配-1:-

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

在对数据进行预处理之后,定义因变量和自变量,分别为y和X。y变量是最后一列,X变量是剩下的所有部分:-

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

使用sklearn的LabelPropagation数来标记所有未标记的数据点:-

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

准确率为发现它是76.9%。

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

下面我们看看另外一个算法LabelSpreading。

LabelSpreading

LabelSpreading也是一种流行的半监督学习方法。创建一个连接训练数据集中样本的图,并通过图的边缘传播已知的标签来标记未标记的示例。

LabelSpreading是由 Dengyong Zhou 等人在他们 2003 年题为“Learning with Local and Global Consistency”的论文中提出的的。半监督学习的关键是一致性的先验假设,这意味着:附近的点可能具有相同的标签,并且同一结构上的点(通常称为簇流形)很可能具有相同的标签。

LabelSpreading可以认为是LabelPropagation的正则化形式。在图论中,拉普拉斯矩阵是图的矩阵表示,拉普拉斯矩阵的公式为:

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

L是拉普拉斯矩阵,D是度矩阵,A是邻接矩阵。

下面是一个简单的无向图标记的例子和它拉普拉斯矩阵的结果

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

本文将使用sonar数据集演示如何使用sklearn的LabelSpreading函数。

这里的库比上面的多,所以简单解释一下:

  • Numpy执行数值计算并创建Numpy数组
  • Pandas处理数据
  • Sklearn执行机器学习操作
  • Matplotlib和seaborn来可视化数据,为可视化数据提供统计信息
  • Warning,用于忽略程序执行期间出现的警告

导入完成后使用pandas将读入数据集:

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

我使用seaborn创建了热图:-

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

先做一个就简单的预处理,删除具有高度相关性的列,这样将列数从 61 减少到 58:

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

然后对数据进行打乱重排,这样在打乱的数据集中预测通常更准确,复制一个数据集的副本,并将 y_orig 定义为训练目标:

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

使用matplotlib来绘制数据点的2D散点图:-

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

使用随机数生成器随机化数据集中60%的标签。然后随机标签被分配-1:-

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

在对数据进行预处理之后,定义因变量和自变量,分别为y和X。y变量是最后一列,X变量是剩下的所有部分:-

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

然后使用sklearn的LabelSpreading算法对未标记的行进行训练和预测。

使用这种方法,能够达到87.98%的准确率:-

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

简单对比

1、labelspreading中含有alpha=0.2,alpha称为夹紧系数,指的是采用其邻居的信息而不是其初始标签的相对量,若为0,表示保留初始标签信息,若为1,表示替换所有初始信息;设置alpha=0.2,意味着始终保留80%的原始标签信息;

2、labelpropagation使用从数据中构造的原始相似矩阵,不做修改;labelspreading最小化具有正则化特性的损失函数,对噪声更加稳健,迭代了原始图的修改版,并通过计算归一化拉普拉斯矩阵来标准化边权重。

3、同时LabelSpreading非常占用CPU,物理内存占用率还好;LabelPropagation 的CPU占用率还好,非常占用物理内存,高纬度数据可能会有一些问题。

以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于科技周边的相关知识,也可关注golang学习网公众号。

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
5 个最好的 Windows 11 免费开始菜单替换应用程序5 个最好的 Windows 11 免费开始菜单替换应用程序
上一篇
5 个最好的 Windows 11 免费开始菜单替换应用程序
Windows 10 May Patch Tuesday (KB5013942) 已发布 — 这是新功能和损坏功能
下一篇
Windows 10 May Patch Tuesday (KB5013942) 已发布 — 这是新功能和损坏功能
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ljg-skills -
    ljg-skills
    ljg-skills 是李继刚开源的 AI 技能与提示词集合,面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板,适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。
    2818次使用
  • MELO音乐 - AI 音乐生成平台,支持多模态创作能力
    MELO音乐
    MELO音乐是一站式AI视频与音乐制作助手,对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐,MELO为你免费谱曲,轻松做同款!
    2608次使用
  • UniScribe - AI 免费在线音视频转文字平台
    UniScribe
    UniScribe 是一款 AI 音视频转文字与内容整理工具,支持上传音频、视频文件或粘贴 YouTube 链接,自动生成转写文本、摘要、思维导图和关键问题,并支持多格式导出,适合会议记录、课程学习、访谈整理和内容创作复盘。
    2550次使用
  • 剧云 - 免费 AI 智能中文剧本创作平台
    剧云
    剧云是专业中文剧本创作平台,安全稳定运行十余年,集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能,数据安全防护,轻松高效创作剧本。
    2785次使用
  • 万象有声 - AI 一站式有声内容创作平台
    万象有声
    万象有声,一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具,可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验,让有声书制作更简单!
    2733次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码