为什么机器学习中的数据要用向量/矩阵来表示?
珍惜时间,勤奋学习!今天给大家带来《为什么机器学习中的数据要用向量/矩阵来表示?》,正文内容主要涉及到等等,如果你正在学习科技周边,或者是对科技周边有疑问,欢迎大家关注我!后面我会持续更新相关内容的,希望都能帮到正在学习的大家!
在数据科学和机器学习中,我们经常将数据表示为向量和矩阵。在数学和物理中,向量被定义大小和方向的量(例如,距离向量)。然而,通常我们处理的数据不一定会遵循向量的定义,但但我们仍然用向量来表示数据。例如,我们可以将人口统计信息(例如,种族、年龄、性别等)的数据表示为一个向量,但这没有对大小或方向的纯几何解释。
同样,在数学中,矩阵是用来表示线性映射的,它被定义为两个向量空间之间的映射,两个向量空间保留了向量加法和标量乘法。然而,在数据科学/机器学习中如何使用矩阵的上下文与这种数学定义是不同的。
既然存在这种差异,那么为什么向量和矩阵在表示数据时被如此广泛地使用呢?在本文中,我们将探讨解释这一现象的几个原因。
计算效率
在处理数据时,我们通常想要将它们输入到机器学习模型中,这个过程涉及大量的计算,通常需要对许多数字进行加法和乘法运算。例如,在构建电影推荐系统时,您可能会收集用户观看库中每部电影的时长数据。然后你可以推荐那些平均观看时间较高的电影。这个平均值是通过所有用户观看电影的时间之和除以电影的数量计算出来的。执行这一过程可能会很慢,特别是当用户和电影数量越来越多时(比如优酷,它拥有超过2.67亿的用户,拥有近2万部影片)。
然而,计算机科学家已经开发出非常高效的线性代数算法,向量和矩阵的加法和乘法比传统的基于元素的加法/乘法要快得多。对于Python,用于科学计算和线性代数的NumPy库提供了更快的速度和效率。再次回顾我们的推荐系统问题,我们可以将每个用户与一个维度为n的观看时间向量相关联,其中n是电影的数量。然后我们的数据将是这些向量的一个矩阵集合,有n行m列,其中n是电影的数量,m是用户的数量。为了找到要推荐的电影,我们可以沿着行取平均值,找出所有用户观看每部电影的平均时间,然后根据平均观看时间最高的电影进行排序。由于高度优化的算法,用向量和矩阵实现这个问题可以加快计算速度。
为了演示,这里有一个Python脚本,比较了使用常规 Python 和 NumPy 库(对矩阵和向量进行了优化)计算行平均值所需的时间。为了评估计算效率,我们将测量程序运行一个包含 500 部电影和 200 个用户的数据集所需的时间。
# import necessary libraries
import random
import numpy as np
import time
# defining the dimensions for our data
n = 500 # number of movies
m = 200 # number of users
# generating the (random) data with n rows and m columns
data = []
for _ in range(n):
data.append(random.choices(range(0, 90), k = m)) # generate random watch time
# normal array iterations to calculate the means along the rows
start_time = time.time()
averages = []
for i in range(n):
row_average = 0
for j in range(m):
row_average += data[i][j]
row_average = row_average / m
averages.append(row_average)
end_time = time.time()
total_time = end_time - start_time # time for normal array implementation
# using NumPy
np_data = np.array(data) # convert data into numpy array
np_start_time = time.time()
np_average = np.mean(np_data, axis = 1) # using numpy mean function
np_end_time = time.time()
np_total_time = np_end_time - np_start_time # time for numpy array implementation
print(f"Regular Python: {total_time:4f}; NumPy: {np_total_time:4f}") # print results
可以将Python代码运行十次并对结果取平均值,常规 Python 耗时 9.088 毫秒,而 NumPy 耗时 0.427 毫秒。NumPy 实现比常规 Python 快大约 20 倍。
更进一步,我们在下面绘制Python和NumPy实现计算平均值的时间,同时将用户数量从1到1000进行变化,同时保持电影数量为500。

随着数据量的增加,常规Python和NumPy之间的差值会越来越大。我们还可以通过绘制两个实现之间的比率来可视化这一点。

随着数据量的增加,这个比例也在不断增加,这也证明了使用NumPy可以提高效率。对于非常大的数据来源或复杂的模型,这样效率更有价值。考虑一下越来越普遍的大数据领域,往往有数十亿到数万亿的数据点。对于深度神经网络模型,它可能由数百万个节点/参数组成,每个节点/参数的权重和偏差还要进行相乘或相加运算(例如,GPT-3语言模型有超过1750亿个参数)。
线性代数工具
使用向量/矩阵表示数据的另一个优点是,我们可以利用线性代数和数学工具。一个很好的例子是在计算机视觉中,矩阵被用来描述图像转换(例如,平移、旋转、反射、仿射、投影等)。
对于图像旋转,目标是确定一个函数,用于从图像的每个像素旋转某个角度。在线性代数中,旋转矩阵用于旋转向量/矩阵。通过将图像表示为矩阵,我们可以利用旋转矩阵。类似地,还有用于平移、反射和仿射变换的矩阵。
此外,将图像表示为矩阵也有助于进行投影变换,即从一个平面到另一个平面的线的映射。这对于图像拼接和制作全景照片很有用。此外,在处理3D图形图像时还有进一步的应用。
更加简洁
在处理复杂的数据情况时,使用向量和矩阵表示概念可以更加方便、清晰和简洁。我们可以将数据分组到指定的向量或矩阵中,而不是给每个数据点一个名称。此外,我们还可以使用向量/矩阵约定来表示对数据的操作。
例如,考虑有5个特征变量的多元线性回归的例子。这可以表示为:

使用向量/矩阵,我们可以传达相同的想法(特征和特征上的系数现在是向量):

注意,这个表示要短得多,并且仍然能捕捉到我们的线性回归模型。如果我们有更多的变量,这种表示仍然有效(对于10或1000个特征变量,它的表达式相同)。此外,向量和矩阵可以用来表示许多数据操作和模型(如逻辑回归、随机森林、神经网络等)。
此外,向量/矩阵的约定在许多领域(如物理、工程、计算等)都非常普遍。这意味着从业者通常都很熟悉,这减少了认知负担(因为他们不需要学习新的数据/模型约定)。
结论
许多数据和模型的操作用向量/矩阵表示的原因是:用向量和矩阵表示的数据可以实现高效、更快的计算,还可以使用线性代数技术。
今天关于《为什么机器学习中的数据要用向量/矩阵来表示?》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!
Windows 11 Release Preview build 22621.607 (KB5017389) 修复了 d3d9on12、Hyper-V 问题
- 上一篇
- Windows 11 Release Preview build 22621.607 (KB5017389) 修复了 d3d9on12、Hyper-V 问题
- 下一篇
- ChatGPT和生成式AI时代的五大AI风险
-
- 科技周边 · 人工智能 | 3天前 | AI绘画
- AI绘画工具安装与配置教程
- 339浏览 收藏
-
- 科技周边 · 人工智能 | 3天前 |
- 海螺AI语音功能测评与体验分享
- 260浏览 收藏
-
- 科技周边 · 人工智能 | 3天前 |
- ChatGPT读不了加密PDF?先解密再上传
- 438浏览 收藏
-
- 科技周边 · 人工智能 | 3天前 |
- 千问AI测试规范与覆盖率提升技巧
- 152浏览 收藏
-
- 科技周边 · 人工智能 | 3天前 |
- MiniMaxMusic2.0专业模式上线:音乐创作新神器
- 232浏览 收藏
-
- 科技周边 · 人工智能 | 3天前 |
- 即梦AI音乐可视化效果评测
- 280浏览 收藏
-
- 科技周边 · 人工智能 | 3天前 | 豆包AI 豆包AI助手
- 豆包AI写诗技巧与教程分享
- 152浏览 收藏
-
- 科技周边 · 人工智能 | 3天前 | openclaw
- OpenClawAI摘要生成技巧全解析
- 102浏览 收藏
-
- 科技周边 · 人工智能 | 3天前 |
- 百度发布DuMate智能体,李彦宏解读DAA新定义
- 247浏览 收藏
-
- 科技周边 · 人工智能 | 3天前 |
- 智谱清影制作鸟瞰街景镜头教程
- 306浏览 收藏
-
- 科技周边 · 人工智能 | 3天前 | openclaw
- OpenClaw框架解析与技术亮点揭秘
- 357浏览 收藏
-
- 科技周边 · 人工智能 | 3天前 |
- 即梦AI美妆详情页提示词技巧
- 334浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ChatExcel酷表
- ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
- 6069次使用
-
- Any绘本
- 探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
- 6485次使用
-
- 可赞AI
- 可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
- 6294次使用
-
- 星月写作
- 星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
- 8260次使用
-
- MagicLight
- MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
- 6892次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览

