前端技术
HTML
CSS
Javascript
前端框架和UI库
VUE
ReactJS
AngularJS
JQuery
NodeJS
JSON
Element-UI
Bootstrap
Material UI
服务端和客户端
Java
Python
PHP
Golang
Scala
Kotlin
Groovy
Ruby
Lua
.net
c#
c++
后端WEB和工程框架
SpringBoot
SpringCloud
Struts2
MyBatis
Hibernate
Tornado
Beego
Go-Spring
Go Gin
Go Iris
Dubbo
HessianRPC
Maven
Gradle
数据库
MySQL
Oracle
Mongo
中间件与web容器
Redis
MemCache
Etcd
Cassandra
Kafka
RabbitMQ
RocketMQ
ActiveMQ
Nacos
Consul
Tomcat
Nginx
Netty
大数据技术
Hive
Impala
ClickHouse
DorisDB
Greenplum
PostgreSQL
HBase
Kylin
Hadoop
Apache Pig
ZooKeeper
SeaTunnel
Sqoop
Datax
Flink
Spark
Mahout
数据搜索与日志
ElasticSearch
Apache Lucene
Apache Solr
Kibana
Logstash
数据可视化与OLAP
Apache Atlas
Superset
Saiku
Tesseract
系统与容器
Linux
Shell
Docker
Kubernetes
[预剪枝在决策树中的应用]的搜索结果
这里是文章列表。热门标签的颜色随机变换,标签颜色没有特殊含义。
点击某个标签可搜索标签相关的文章。
点击某个标签可搜索标签相关的文章。
转载文章
...】关注我们 最经典的决策树算法有ID3、C4.5、CART,其中ID3算法是最早被提出的,它可以处理离散属性样本的分类,C4.5和CART算法则可以处理更加复杂的分类问题,本文重点介绍ID3算法。 1、决策树基本流程 决策树 (decision tree) 是一类常见的机器学习方法。它是对给定的数据集学到一个模型对新示例进行分类的过程。下图所示为一个流程图的决策树,长方形代表判断模块(decision block),椭圆形代表终止模块(terminating block),表示已经得出结论,可以终止运行。从判断模块引出的左右箭头称作分支(branch),可以达到另一个判断模块或终止模块。 决策过程是基于树结构来进行决策的。如下图,首先检查邮件域名地址,如果地址为myEmployer.com,则将其分类为“无聊时需要阅读的邮件”。否则,则检查邮件内容里是否包含单词“曲棍球”,如果包含则归类为“需要及时处理的朋友邮件”,如果不包含则归类到“无需阅读的垃圾邮件” 流程图形式的决策树 显然,决策过程的最终结论对应了我们所希望的判定结果,例如"需要阅读"或"不需要阅读”。 决策过程中提出的每个判定问题都是对某个属性的"测试",如邮件地址域名为?是否包含“曲棍球”? 每个测试的结果或是导出最终结论,或是导出进一步的判定问题,其考虑范围是在上次决策结果的限定范围之内,例如若邮件地址域名不是myEmployer.com之后再判断是否包含“曲棍球”。 一般的,决策树包含一个根节点、若干个内部节点和若干个叶节点。根节点包含样本全集;叶节点对应于决策结果,例如“无聊时需要阅读的邮件”。其他每个结点则对应于一个属性测试;每个节点包含的样本集合根据属性测试的结果被划分到子结点中。 决策树学习基本算法 显然,决策树的生成是一个递归过程.在决策树基本算法中,有三种情形会导致递归返回: (1)当前结点包含的样本全属于同一类别,无需划分; (2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分; (3)当前结点包含的样本集合为空,不能划分。 2、划分选择 决策树算法的关键是如何选择最优划分属性。一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的"纯度" (purity)越来越高。 (1)信息增益 信息熵 "信息熵" (information entropy)是度量样本集合纯度最常用的一种指标,定义为信息的期望。假定当前样本集合 D 中第 k 类样本所占的比例为 ,则 D 的信息熵定义为: H(D)的值越小,则D的纯度越高。信息增益 一般而言,信息增益越大,则意味着使周属性 来进行划分所获得的"纯度提升"越大。因此,我们可用信息增益来进行决策树的划分属性选择,信息增益越大,属性划分越好。 以西瓜书中表 4.1 中的西瓜数据集 2.0 为例,该数据集包含17个训练样例,用以学习一棵能预测设剖开的是不是好瓜的决策树.显然,。 在决策树学习开始时,根结点包含 D 中的所有样例,其中正例占 ,反例占 信息熵计算为: 我们要计算出当前属性集合{色泽,根蒂,敲声,纹理,脐部,触感}中每个属性的信息增益。以属性"色泽"为例,它有 3 个可能的取值: {青绿,乌黑,浅自}。若使用该属性对 D 进行划分,则可得到 3 个子集,分别记为:D1 (色泽=青绿), D2 (色泽2=乌黑), D3 (色泽=浅白)。 子集 D1 包含编号为 {1,4,6,10,13,17} 的 6 个样例,其中正例占 p1=3/6 ,反例占p2=3/6; D2 包含编号为 {2,3,7,8, 9,15} 的 6 个样例,其中正例占 p1=4/6 ,反例占p2=2/6; D3 包含编号为 {5,11,12,14,16} 的 5 个样例,其中正例占 p1=1/5 ,反例占p2=4/5; 根据信息熵公式可以计算出用“色泽”划分之后所获得的3个分支点的信息熵为: 根据信息增益公式计算出属性“色泽”的信息增益为(Ent表示信息熵): 类似的,可以计算出其他属性的信息增益: 显然,属性"纹理"的信息增益最大,于是它被选为划分属性。图 4.3 给出了基于"纹理"对根结点进行划分的结果,各分支结点所包含的样例子集显示在结点中。 然后,决策树学习算法将对每个分支结点做进一步划分。以图 4.3 中第一个分支结点( "纹理=清晰" )为例,该结点包含的样例集合 D 1 中有编号为 {1, 2, 3, 4, 5, 6, 8, 10, 15} 的 9 个样例,可用属性集合为{色泽,根蒂,敲声,脐部 ,触感}。基于 D1计算出各属性的信息增益: "根蒂"、 "脐部"、 "触感" 3 个属性均取得了最大的信息增益,可任选其中之一作为划分属性.类似的,对每个分支结点进行上述操作,最终得到的决策树如圈 4.4 所示。 3、剪枝处理 剪枝 (pruning)是决策树学习算法对付"过拟合"的主要手段。决策树剪枝的基本策略有"预剪枝" (prepruning)和"后剪枝 "(post" pruning) [Quinlan, 1993]。 预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划 分并将当前结点标记为叶结点; 后剪枝则是先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。 往期回顾 ● 带你详细了解机器视觉竞赛—ILSVRC竞赛 ● 到底什么是“机器学习”?机器学习有哪些基本概念?(简单易懂) ● 带你自学Python系列(一):变量和简单数据类型(附思维导图) ● 带你自学Python系列(二):Python列表总结-思维导图 ● 2018年度最强的30个机器学习项目! ● 斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能(附195页PDF) ● 一文详解计算机视觉的广泛应用:网络压缩、视觉问答、可视化、风格迁移 本篇文章为转载内容。原文链接:https://blog.csdn.net/Sophia_11/article/details/113355312。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-08-27 21:53:08
284
转载
转载文章
...程编程在游戏领域中的应用越来越广泛。 例如,近日Unity Technologies发布了一项关于其最新版本引擎中对多线程优化和AI决策树强化学习功能的升级公告,使得开发者能够更加高效地创建具有智能行为的角色和更流畅的游戏体验。这与上述火柴人游戏中红色老女人随机移动并实现碰撞检测的机制不谋而合,体现出现代游戏开发中AI技术和并发处理的重要性。 同时,针对控制台游戏界面设计与用户体验的研究也在不断深入。有文章指出,即便是在简单的字符画风游戏中,通过精巧的图形渲染和交互设计也能营造出沉浸式的游戏氛围,正如该火柴人游戏中利用方向键操控角色移动,简洁直观的用户输入方式大大增强了游戏的可玩性。 此外,对于想深入了解游戏编程的读者,推荐参考《游戏编程精粹》系列丛书,其中详尽介绍了包括物理模拟、图形渲染、AI设计等多种关键技术,并结合实际案例解析如何将这些技术融入到游戏开发中。通过研读此类专业书籍,可以更好地理解并借鉴文中火柴人游戏的设计思路,为独立开发或者职业游戏编程打下坚实基础。 总之,从简单的火柴人游戏出发,我们能窥见游戏开发世界的一角,无论是实时系统、人工智能还是图形用户界面设计,都是构建丰富有趣游戏世界的基石,值得广大编程爱好者及专业人士深入探究。
2023-07-20 23:02:16
133
转载
转载文章
...竞赛领域中,对于这类决策性问题的探讨持续不断。最近的一次国际编程大赛上,就有参赛者利用类似题目展示了如何灵活运用DFS进行状态搜索,并对小规模数据实现了高效求解。 同时,随着计算资源的增长和优化技术的进步,动态规划方法在解决背包问题等组合优化问题上的应用也在不断拓展。例如,一篇2023年发表于《ACM Transactions on Algorithms》的研究论文,深入研究了在物品价值与体积相等情况下背包问题的特殊结构,揭示了其恰好装满状态下的复杂性和最优解特性。 此外,针对更大数据规模的问题,一些研究者正探索结合贪心策略、剪枝技术和近似算法以降低时间复杂度。比如,一项最新研究成果提出了一种基于分支限界法和预处理技巧改进的搜索算法,能够有效应对大规模子集和问题,为实际应用提供了新的解决方案。 在实际编程实践中,数组排序往往是提高搜索效率的关键步骤,通过合理排序可以减少不必要的搜索空间。而在教育领域,诸如LeetCode、Codeforces等在线平台上的相关题目讨论和解题报告,也为我们理解此类问题提供了丰富的实例参考和实战经验。 综上所述,无论是在学术研究前沿还是编程实战层面,对“能否从数组中选择若干个数使其和为目标值”的问题探究,都在持续推动着算法设计与优化技术的发展,展现了算法在解决实际问题中的强大生命力。
2023-02-03 18:37:40
75
转载
Spark
...据是指在传统数据处理应用软件无法有效获取、存储、管理和分析的大规模、高速率增长的数据集。在本文语境中,大数据的发展推动了机器学习技术的进步,使得Apache Spark等工具能够高效处理和挖掘这些海量数据中的模式与价值。 机器学习 , 机器学习是一种人工智能的应用,它允许系统通过从数据中自动“学习”规律和模式,而无需显式编程。文中提到的MLlib库提供了丰富的机器学习算法,使得用户可以基于Spark平台进行数据分析和模型训练,从而实现对数据的预测和分类任务。 监督学习 , 监督学习是机器学习的一种类型,在给定有标签的数据集(即已知输入和对应输出结果)的基础上,通过学习数据特征和标签之间的关系来构建一个模型。例如,线性回归和逻辑回归就是两种常见的监督学习算法,它们分别用于连续数值预测和二元分类问题,在Spark MLlib库中可以方便地调用并应用于实际场景。 集成学习方法 , 集成学习是一种统计学和机器学习的技术,通过组合多个模型(如决策树或随机森林中的单个决策树)以提高整体预测性能。在文中,随机森林被提及为一种集成学习方法,它通过构建并结合多个决策树的结果来获得更准确且稳定的预测能力。 特征选择 , 特征选择是机器学习预处理阶段的关键步骤之一,目的是从原始数据集中挑选出最具预测能力或信息量最大的特征子集。MLlib库支持特征选择功能,帮助用户剔除冗余或无关紧要的特征,优化模型表现并降低计算复杂度。
2023-11-06 21:02:25
149
追梦人-t
转载文章
...,通过构建并组合多个决策树进行分类任务。在文章语境中,研究者使用随机森林分类算法对钓鱼网页特征数据进行训练和预测,每个决策树基于随机选取的特征子集和样本集构建,最终通过多数投票或平均概率等方式综合所有决策树的结果得出最终预测类别,以此提高模型的泛化能力和准确率。 特征重要性 , 在机器学习模型中,特征重要性衡量的是各个特征对于模型预测结果的贡献程度。在本文研究中,利用随机森林分类器计算出各个特征的重要性得分,通过排序并可视化这些得分,研究者可以识别出哪些特征对于区分钓鱼网页与正常网页最为关键,从而筛选出最具价值的特征用于后续模型优化。 交叉验证 , 交叉验证是评估机器学习模型性能和选择最优模型参数的一种统计学方法。在文中,研究者采用交叉验证的方式多次划分训练集和测试集,确保模型在不同数据子集上的表现稳定,并能较为可靠地估计模型在未知数据上的泛化能力。通过对随机森林模型应用交叉验证,作者能够得到一个相对客观且稳定的分类准确率评估结果。 特征向量 , 在机器学习和数据挖掘领域,特征向量是指将原始数据经过预处理和特征提取后形成的、用于表示样本属性的数据结构。在本篇文章中,特征向量包含了针对钓鱼网页的一系列量化指标(如图片数量、表单数量等),通过对这些特征进行向量化处理,模型可以据此进行有效的分类分析。在特征筛选后,研究者重新选择了排名前9位的重要特征组成新的特征向量,用于改进后的模型训练,以期提升分类准确度。
2023-12-29 19:05:16
150
转载
Lua
...ua在游戏开发领域的应用日益增多,尤其是实时策略游戏和多人在线游戏,这得益于Lua的高效性、易于上手和模块化的特性。因此,我选择将“Lua在游戏开发中的应用”作为“延伸阅读”的主题。 在游戏开发中,Lua被广泛应用于脚本编写、配置管理、AI行为逻辑设计、状态机管理和游戏服务器脚本等方面。它为开发者提供了快速迭代和灵活调整游戏内容的能力,同时减轻了游戏引擎的负担,让游戏开发者能够专注于游戏的核心逻辑和创意设计。 例如,在实时策略游戏中,Lua可以用来定义单位的行为逻辑、资源管理、建筑建设规则等,通过简单的脚本就能实现复杂的决策树和条件判断,使得游戏AI更加智能和多样。此外,Lua还常用于游戏服务器的脚本,负责处理玩家行为、交易系统、排行榜更新等后台服务,保证游戏的稳定运行和公平竞争环境。 另一方面,Lua在多人在线游戏中也有着不可忽视的作用。它能够帮助开发者快速搭建和调整游戏服务器架构,实现跨平台兼容性,以及处理复杂的网络通信协议和玩家间交互逻辑。通过Lua,开发者可以轻松实现诸如匹配系统、聊天系统、物品交易等关键功能,同时保持代码的简洁和易于维护。 总之,Lua在游戏开发领域的应用不仅提升了开发效率,还增强了游戏的可扩展性和适应性,是现代游戏开发不可或缺的一部分。随着游戏技术的不断进步,Lua在游戏开发中的应用将会越来越广泛,为开发者提供更多的可能性和创新空间。
2024-08-29 16:20:00
89
蝶舞花间
Mahout
...取、模型训练以及模型应用。以下是一个简单的示例,展示如何将SequenceFile数据加载到Mahout中进行协同过滤推荐系统的构建: java // 加载SequenceFile数据 Path path = new Path("input/path"); SequenceFile.Reader reader = new SequenceFile.Reader(fs, path, conf); Text key = new Text(); DataModel model; try { // 创建DataModel实例,这里使用了GenericUserBasedRecommender model = new GenericDataModel(reader); } finally { reader.close(); } // 使用数据模型进行协同过滤推荐系统训练 UserSimilarity similarity = new PearsonCorrelationSimilarity(model); UserNeighborhood neighborhood = new NearestNUserNeighborhood(20, similarity, model); Recommender recommender = new GenericUserBasedRecommender(model, neighborhood, similarity); // 进行推荐操作... 4. 深度探讨与思考 数据迁移的过程并不止于简单的格式转换和加载,更重要的是在此过程中对数据的理解和洞察。在处理实际业务问题时,你得像个挑西瓜的老手那样,找准最合适的Mahout算法。比如说,假如你现在正在摆弄用户行为数据这块“瓜地”,那么协同过滤或者矩阵分解这两把“好刀”也许就是你的菜。再比如,要是你正面临分类或回归这两大“关卡”,那就该果断拿起决策树、随机森林这些“秘密武器”,甚至线性回归这位“老朋友”,它们都会是助你闯关的得力帮手。 此外,在实际操作中,我们还需关注数据的质量和完整性,确保迁移后的数据能够准确反映现实世界的问题,以便后续的机器学习模型能得出有价值的预测结果。 总之,将数据集迁移到Mahout是一个涉及数据理解、预处理、模型选择及应用的复杂过程。在这个过程中,不仅要掌握Mahout的基本操作,还要灵活运用机器学习的知识去解决实际问题。每一次数据迁移都是对数据背后故事的一次探索,愿你在Mahout的世界里,发现更多关于数据的秘密!
2023-01-22 17:10:27
67
凌波微步
Go Iris
...Auth2客户端授权决策构建策略决策树。对于那些对安全认证和授权机制超级感兴趣的朋友,这绝对是一趟不能错过的精彩之旅! 首先,让我们快速了解一下Iris框架。Iris是一个用Go语言编写的Web应用开发框架,它以其高效、简洁和灵活著称。JWT和OAuth2可是现在最火的两种认证和授权协议,把它们结合起来就像是给开发者配上了超级英雄的装备,让他们能轻松打造出既安全又可以不断壮大的应用。 2. JWT与OAuth2 安全认证的双剑合璧 2.1 JWT:信任的传递者 JWT是一种开放标准(RFC 7519),它允许在各方之间安全地传输信息作为JSON对象。这种信息可以通过数字签名来验证其真实性。JWT主要有三种类型:签名的、加密的和签名+加密的。在咱们这个情况里,咱们主要用的是签名单点登录的那种JWT,这样就不用老依赖服务器来存东西,也能确认用户的身份了。 代码示例:生成JWT go package main import ( "github.com/kataras/iris/v12" jwt "github.com/appleboy/gin-jwt/v2" ) func main() { app := iris.New() // 创建JWT中间件 jwtMiddleware, _ := jwt.New(&jwt.GinJWTMiddleware{ Realm: "test zone", Key: []byte("secret key"), Timeout: time.Hour, MaxRefresh: time.Hour, IdentityKey: "id", }) // 定义登录路由 app.Post("/login", jwtMiddleware.LoginHandler) // 使用JWT中间件保护路由 app.Use(jwtMiddleware.MiddlewareFunc()) // 启动服务 app.Listen(":8080") } 2.2 OAuth2:授权的守护者 OAuth2是一个授权框架,允许第三方应用获得有限的访问权限,而不需要提供用户名和密码。通过OAuth2,用户可以授予应用程序访问他们资源的权限,而无需共享他们的凭据。 代码示例:OAuth2客户端授权 go package main import ( "github.com/kataras/iris/v12" oauth2 "golang.org/x/oauth2" ) func main() { app := iris.New() // 配置OAuth2客户端 config := oauth2.Config{ ClientID: "your_client_id", ClientSecret: "your_client_secret", RedirectURL: "http://localhost:8080/callback", Endpoint: oauth2.Endpoint{ AuthURL: "https://accounts.google.com/o/oauth2/auth", TokenURL: "https://accounts.google.com/o/oauth2/token", }, Scopes: []string{"profile", "email"}, } // 登录路由 app.Get("/login", func(ctx iris.Context) { url := config.AuthCodeURL("state") ctx.Redirect(url) }) // 回调路由处理 app.Get("/callback", func(ctx iris.Context) { code := ctx.URLParam("code") token, err := config.Exchange(context.Background(), code) if err != nil { ctx.WriteString("Failed to exchange token: " + err.Error()) return } // 在这里处理token,例如保存到数据库或直接使用 }) app.Listen(":8080") } 3. 构建策略决策树 智能授权 现在,我们已经了解了JWT和OAuth2的基本概念及其在Iris框架中的应用。接下来,我们要聊聊怎么把这两样东西结合起来,搞出一棵基于策略的决策树,这样就能更聪明地做授权决定了。 3.1 策略决策树的概念 策略决策树是一种基于规则的系统,用于根据预定义的条件做出决策。在这个情况下,我们主要根据用户的JWT信息(比如他们的角色和权限)和OAuth2的授权状态来判断他们是否有权限访问某些特定的资源。换句话说,就是看看用户是不是有“资格”去看那些东西。 代码示例:基于JWT的角色授权 go package main import ( "github.com/kataras/iris/v12" jwt "github.com/appleboy/gin-jwt/v2" ) type MyCustomClaims struct { Role string json:"role" jwt.StandardClaims } func main() { app := iris.New() jwtMiddleware, _ := jwt.New(&jwt.GinJWTMiddleware{ Realm: "test zone", Key: []byte("secret key"), Timeout: time.Hour, MaxRefresh: time.Hour, IdentityKey: "id", IdentityHandler: func(c jwt.Manager, ctx iris.Context) (interface{}, error) { claims := jwt.ExtractClaims(ctx) role := claims["role"].(string) return &MyCustomClaims{Role: role}, nil }, }) // 保护需要特定角色才能访问的路由 app.Use(jwtMiddleware.MiddlewareFunc()) // 定义受保护的路由 app.Get("/admin", jwtMiddleware.AuthorizeRole("admin"), func(ctx iris.Context) { ctx.Writef("Welcome admin!") }) app.Listen(":8080") } 3.2 结合OAuth2与JWT的策略决策树 为了进一步增强安全性,我们可以将OAuth2的授权状态纳入策略决策树中。这意味着,不仅需要验证用户的JWT,还需要检查OAuth2授权的状态,以确保用户具有访问特定资源的权限。 代码示例:结合OAuth2与JWT的策略决策 go package main import ( "github.com/kataras/iris/v12" jwt "github.com/appleboy/gin-jwt/v2" "golang.org/x/oauth2" ) // 自定义的OAuth2授权检查函数 func checkOAuth2Authorization(token oauth2.Token) bool { // 这里可以根据实际情况添加更多的检查逻辑 return token.Valid() } func main() { app := iris.New() jwtMiddleware, _ := jwt.New(&jwt.GinJWTMiddleware{ Realm: "test zone", Key: []byte("secret key"), Timeout: time.Hour, MaxRefresh: time.Hour, IdentityKey: "id", IdentityHandler: func(c jwt.Manager, ctx iris.Context) (interface{}, error) { claims := jwt.ExtractClaims(ctx) role := claims["role"].(string) return &MyCustomClaims{Role: role}, nil }, }) app.Use(jwtMiddleware.MiddlewareFunc()) app.Get("/secure-resource", jwtMiddleware.AuthorizeRole("user"), func(ctx iris.Context) { // 获取当前请求的JWT令牌 token := jwtMiddleware.TokenFromRequest(ctx.Request()) // 检查OAuth2授权状态 if !checkOAuth2Authorization(token) { ctx.StatusCode(iris.StatusUnauthorized) ctx.Writef("Unauthorized access") return } ctx.Writef("Access granted to secure resource") }) app.Listen(":8080") } 4. 总结与展望 通过以上讨论和代码示例,我们看到了如何在Iris框架中有效地使用JWT和OAuth2来构建一个智能的授权决策系统。这不仅提高了应用的安全性,还增强了用户体验。以后啊,随着技术不断进步,咱们可以期待更多酷炫的新方法来简化这些流程,让认证和授权变得超级高效又方便。 希望这篇探索之旅对你有所帮助,也欢迎你加入讨论,分享你的见解和实践经验!
2024-11-07 15:57:06
56
夜色朦胧
转载文章
...特性,比如对动态分区剪枝的改进、对Catalyst查询优化器的增强以及对Structured Streaming功能的扩展,这些都将为数据分析工作者提供更加强大且易用的工具。 与此同时,跨系统数据迁移与整合也是现代企业数据架构中的关键环节。近期,业界领先的云服务商如AWS、阿里云等相继推出了基于Spark的无缝数据集成服务,支持从Hadoop、MySQL等多种数据源到目标数据库的高效迁移,同时强化了数据转换、清洗以及合规性检查等功能,使得在整个数据生命周期管理中,数据工程师能够更加便捷地实现异构数据源之间的同步与融合。 此外,针对电商领域的数据分析实战,可参考某电商平台公开的年度报告,了解其如何运用Spark SQL结合各类大数据技术挖掘用户行为模式、预测销售趋势,并依据地区、时间等维度精细化运营策略,从而提升整体业务表现。这将有助于读者对照实际案例,深化对文中所述统计分析方法在实际场景中的应用理解。 综上所述,紧跟大数据技术和应用的发展趋势,持续探索Spark SQL在数据处理及跨系统迁移方面的最佳实践,结合行业实例深入解析,将助力我们更好地应对日益增长的数据挑战,为企业决策提供强有力的数据支撑。
2023-09-01 10:55:33
319
转载
Kylin
...测模型,如线性回归、决策树等。哎呀,咱们就拿线性回归做个例子,就像用个魔法棒一样,这魔法棒就是Python里的Scikit-learn库。咱们得先找个好点的地方,比如说数据集,然后咱们就拿着这个魔法棒在数据集上挥一挥,让它学习一下规律,最后啊,咱们就能得到一个模型了。这模型就好比是咱们的助手,能帮咱们预测或者解释一些事情。怎么样,听起来是不是有点像在玩游戏? python from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_split 假设df是包含特征和目标变量的数据框 X = df.drop('target', axis=1) y = df['target'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) model = LinearRegression() model.fit(X_train, y_train) 3. 预测结果生成 将训练好的模型应用于Kylin Cube中的数据,生成预测结果。 python 生成预测值 predictions = model.predict(X_test) 将预测结果存储回Kylin Cube model.save_predictions(predictions) 4. 结果展示 通过Kylin的Web界面查看和分析预测结果。 四、案例分析 假设我们正在对一个电商平台的数据进行分析,目标是预测用户的购买行为。嘿!你听说过Kylin这个家伙吗?这家伙可是个数据分析的大拿!我们能用它来玩转各种模型,就像是线性回归、决策树和随机森林这些小伙伴。咱们一起看看,它们在预测用户会不会买东西这件事上,谁的本领最厉害!这可是一场精彩绝伦的模型大比拼呢! python 创建多个模型实例 models = [LinearRegression(), DecisionTreeClassifier(), RandomForestClassifier()] 训练模型并比较性能 for model in models: model.fit(X_train, y_train) score = model.score(X_test, y_test) print(f"Model: {model.__class__.__name__}, Score: {score}") 五、结论 通过上述步骤,我们不仅能够在Kylin中实现多模型的数据分析和预测,还能根据实际业务需求灵活选择和优化模型。哎呀,Kylin这玩意儿可真牛!它在处理大数据分析这块儿,简直就是得心应手的利器,灵活又强大,用起来那叫一个顺手,简直就是数据分析界的扛把子啊!哎呀,随着咱手里的数据越来越多,做事儿也越来越复杂了,这时候,学会在Kylin这个工具里搭建和优化各种数据分析模型,就变得超级关键啦!就像是厨房里,你会做各种菜,每道菜的配料和做法都不一样,对吧?在Kylin这里也是一样,得会根据不同的需求,灵活地组合和优化模型,让数据分析既快又准,效率爆棚!这不仅能让咱们的工作事半功倍,还能解锁更多创新的分析思路,是不是想想都觉得挺酷的呢? --- 请注意,上述代码示例为简化版本,实际应用时可能需要根据具体数据集和业务需求进行调整。
2024-10-01 16:11:58
130
星辰大海
转载文章
...4天 Python是应用机器学习发展最快的平台之一。 在本小课程中,您将发现如何在14天内使用Python入门,建立准确的模型以及自信地完成预测建模机器学习项目。 这是重要的职位。您可能要为其添加书签。 在我的新书中,通过16个循序渐进的教程,3个项目和完整的python代码,探索如何用熊猫准备数据,使用scikit-learn拟合和评估模型,以及更多内容。 让我们开始吧。 2016年10月更新:更新了sklearn v0.18的示例。 2018年2月更新:更新Python和库版本。 2018年3月更新:增加了备用链接以下载一些数据集,因为原始文件似乎已被删除。 2019年5月更新:修复了scikit-learn最新版本的警告消息。 Dave Young的 Python机器学习迷你课程 照片,保留一些权利。 迷你课程面向谁? 在开始之前,请确保您在正确的位置。 下面的列表提供了有关本课程针对谁的一些一般指导。 如果您没有完全匹配这些点,请不要惊慌,您可能只需要在一个或另一个区域刷牙以跟上。 知道如何编写一些代码的开发人员。这意味着,一旦您了解基本语法,就可以选择像Python这样的新编程语言,这对您来说并不重要。这并不意味着您是一名向导编码员,而是可以毫不费力地遵循基本的类似于C的语言。 懂一点机器学习的开发人员。这意味着您了解机器学习的基础知识,例如交叉验证,一些算法和偏差方差折衷。这并不意味着您是机器学习博士,而是您知道地标或知道在哪里查找。 这门迷你课程既不是Python的教科书,也不是机器学习的教科书。 从一个懂一点机器学习的开发人员到一个可以使用Python生态系统获得结果的开发人员,Python生态系统是专业机器学习的新兴平台。 在Python机器学习方面需要帮助吗? 参加我为期2周的免费电子邮件课程,发现数据准备,算法等(包括代码)。 单击立即注册,并获得该课程的免费PDF电子书版本。 立即开始免费的迷你课程! 迷你课程概述 该微型课程分为14节课。 您可以每天完成一堂课(推荐),也可以在一天内完成所有课程(核心!)。这实际上取决于您有空的时间和您的热情水平。 以下是14个课程,可帮助您入门并提高使用Python进行机器学习的效率: 第1课:下载并安装Python和SciPy生态系统。 第2课:深入了解Python,NumPy,Matplotlib和Pandas。 第3课:从CSV加载数据。 第4课:了解具有描述性统计信息的数据。 第5课:通过可视化了解数据。 第6课:通过预处理数据准备建模。 第7课:使用重采样方法进行算法评估。 第8课:算法评估指标。 第9课:现场检查算法。 第10课:模型比较和选择。 第11课:通过算法调整提高准确性。 第12课:利用集合预测提高准确性。 第13课:完成并保存模型。 第14课:Hello World端到端项目。 每节课可能需要您60秒钟或最多30分钟。花点时间按照自己的进度完成课程。提出问题,甚至在以下评论中发布结果。 这些课程希望您能开始学习并做事。我会给您提示,但每节课的重点是迫使您学习从哪里寻求有关Python平台的帮助(提示,我直接在此博客上获得了所有答案,请使用搜索特征)。 在早期课程中,我确实提供了更多帮助,因为我希望您树立一些信心和惯性。 挂在那里,不要放弃! 第1课:下载并安装Python和SciPy 您必须先访问平台才能开始使用Python进行机器学习。 今天的课程很简单,您必须在计算机上下载并安装Python 3.6平台。 访问Python主页并下载适用于您的操作系统(Linux,OS X或Windows)的Python。在计算机上安装Python。您可能需要使用特定于平台的软件包管理器,例如OS X上的macports或RedHat Linux上的yum。 您还需要安装SciPy平台和scikit-learn库。我建议使用与安装Python相同的方法。 您可以使用Anaconda一次安装所有内容(更加容易)。推荐给初学者。 通过在命令行中键入“ python”来首次启动Python。 使用以下代码检查所有您需要的版本: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Python version import sys print('Python: {}'.format(sys.version)) scipy import scipy print('scipy: {}'.format(scipy.__version__)) numpy import numpy print('numpy: {}'.format(numpy.__version__)) matplotlib import matplotlib print('matplotlib: {}'.format(matplotlib.__version__)) pandas import pandas print('pandas: {}'.format(pandas.__version__)) scikit-learn import sklearn print('sklearn: {}'.format(sklearn.__version__)) 如果有任何错误,请停止。现在该修复它们了。 需要帮忙?请参阅本教程: 如何使用Anaconda设置用于机器学习和深度学习的Python环境 第2课:深入了解Python,NumPy,Matplotlib和Pandas。 您需要能够读写基本的Python脚本。 作为开发人员,您可以很快选择新的编程语言。Python区分大小写,使用哈希(#)进行注释,并使用空格指示代码块(空格很重要)。 今天的任务是在Python交互环境中练习Python编程语言的基本语法和重要的SciPy数据结构。 练习作业,在Python中使用列表和流程控制。 练习使用NumPy数组。 练习在Matplotlib中创建简单图。 练习使用Pandas Series和DataFrames。 例如,以下是创建Pandas DataFrame的简单示例。 1 2 3 4 5 6 7 8 dataframe import numpy import pandas myarray = numpy.array([[1, 2, 3], [4, 5, 6]]) rownames = ['a', 'b'] colnames = ['one', 'two', 'three'] mydataframe = pandas.DataFrame(myarray, index=rownames, columns=colnames) print(mydataframe) 第3课:从CSV加载数据 机器学习算法需要数据。您可以从CSV文件加载自己的数据,但是当您开始使用Python进行机器学习时,应该在标准机器学习数据集上进行练习。 今天课程的任务是让您轻松地将数据加载到Python中并查找和加载标准的机器学习数据集。 您可以在UCI机器学习存储库上下载和练习许多CSV格式的出色标准机器学习数据集。 练习使用标准库中的CSV.reader()将CSV文件加载到Python 中。 练习使用NumPy和numpy.loadtxt()函数加载CSV文件。 练习使用Pandas和pandas.read_csv()函数加载CSV文件。 为了让您入门,下面是一个片段,该片段将直接从UCI机器学习存储库中使用Pandas来加载Pima Indians糖尿病数据集。 1 2 3 4 5 6 Load CSV using Pandas from URL import pandas url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = pandas.read_csv(url, names=names) print(data.shape) 到现在为止做得很好!等一下 到目前为止有什么问题吗?在评论中提问。 第4课:使用描述性统计数据理解数据 将数据加载到Python之后,您需要能够理解它。 您越了解数据,可以构建的模型就越精确。了解数据的第一步是使用描述性统计数据。 今天,您的课程是学习如何使用描述性统计信息来理解您的数据。我建议使用Pandas DataFrame上提供的帮助程序功能。 使用head()函数了解您的数据以查看前几行。 使用shape属性查看数据的维度。 使用dtypes属性查看每个属性的数据类型。 使用describe()函数查看数据的分布。 使用corr()函数计算变量之间的成对相关性。 以下示例加载了皮马印第安人糖尿病发病数据集,并总结了每个属性的分布。 1 2 3 4 5 6 7 Statistical Summary import pandas url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = pandas.read_csv(url, names=names) description = data.describe() print(description) 试试看! 第5课:通过可视化了解数据 从昨天的课程继续,您必须花一些时间更好地了解您的数据。 增进对数据理解的第二种方法是使用数据可视化技术(例如,绘图)。 今天,您的课程是学习如何在Python中使用绘图来单独理解属性及其相互作用。再次,我建议使用Pandas DataFrame上提供的帮助程序功能。 使用hist()函数创建每个属性的直方图。 使用plot(kind ='box')函数创建每个属性的箱须图。 使用pandas.scatter_matrix()函数创建所有属性的成对散点图。 例如,下面的代码片段将加载糖尿病数据集并创建数据集的散点图矩阵。 1 2 3 4 5 6 7 8 9 Scatter Plot Matrix import matplotlib.pyplot as plt import pandas from pandas.plotting import scatter_matrix url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = pandas.read_csv(url, names=names) scatter_matrix(data) plt.show() 样本散点图矩阵 第6课:通过预处理数据准备建模 您的原始数据可能未设置为最佳建模形式。 有时您需要对数据进行预处理,以便最好地将问题的固有结构呈现给建模算法。在今天的课程中,您将使用scikit-learn提供的预处理功能。 scikit-learn库提供了两个用于转换数据的标准习语。每种变换在不同的情况下都非常有用:拟合和多重变换以及组合的拟合与变换。 您可以使用多种技术来准备数据以进行建模。例如,尝试以下一些方法 使用比例和中心选项将数值数据标准化(例如,平均值为0,标准偏差为1)。 使用范围选项将数值数据标准化(例如,范围为0-1)。 探索更高级的功能工程,例如Binarizing。 例如,下面的代码段加载了Pima Indians糖尿病发病数据集,计算了标准化数据所需的参数,然后创建了输入数据的标准化副本。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Standardize data (0 mean, 1 stdev) from sklearn.preprocessing import StandardScaler import pandas import numpy url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] dataframe = pandas.read_csv(url, names=names) array = dataframe.values separate array into input and output components X = array[:,0:8] Y = array[:,8] scaler = StandardScaler().fit(X) rescaledX = scaler.transform(X) summarize transformed data numpy.set_printoptions(precision=3) print(rescaledX[0:5,:]) 第7课:使用重采样方法进行算法评估 用于训练机器学习算法的数据集称为训练数据集。用于训练算法的数据集不能用于为您提供有关新数据的模型准确性的可靠估计。这是一个大问题,因为创建模型的整个思路是对新数据进行预测。 您可以使用称为重采样方法的统计方法将训练数据集划分为子集,一些方法用于训练模型,而另一些则被保留,并用于估计看不见的数据的模型准确性。 今天课程的目标是练习使用scikit-learn中可用的不同重采样方法,例如: 将数据集分为训练集和测试集。 使用k倍交叉验证来估计算法的准确性。 使用留一法交叉验证来估计算法的准确性。 下面的代码段使用scikit-learn通过10倍交叉验证来评估Pima Indians糖尿病发作的Logistic回归算法的准确性。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Evaluate using Cross Validation from pandas import read_csv from sklearn.model_selection import KFold from sklearn.model_selection import cross_val_score from sklearn.linear_model import LogisticRegression url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] dataframe = read_csv(url, names=names) array = dataframe.values X = array[:,0:8] Y = array[:,8] kfold = KFold(n_splits=10, random_state=7) model = LogisticRegression(solver='liblinear') results = cross_val_score(model, X, Y, cv=kfold) print("Accuracy: %.3f%% (%.3f%%)") % (results.mean()100.0, results.std()100.0) 您获得了什么精度?在评论中让我知道。 您是否意识到这是中间点?做得好! 第8课:算法评估指标 您可以使用许多不同的指标来评估数据集上机器学习算法的技能。 您可以通过cross_validation.cross_val_score()函数在scikit-learn中指定用于测试工具的度量,默认值可用于回归和分类问题。今天课程的目标是练习使用scikit-learn软件包中可用的不同算法性能指标。 在分类问题上练习使用“准确性”和“ LogLoss”度量。 练习生成混淆矩阵和分类报告。 在回归问题上练习使用RMSE和RSquared指标。 下面的代码段演示了根据Pima Indians糖尿病发病数据计算LogLoss指标。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Cross Validation Classification LogLoss from pandas import read_csv from sklearn.model_selection import KFold from sklearn.model_selection import cross_val_score from sklearn.linear_model import LogisticRegression url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] dataframe = read_csv(url, names=names) array = dataframe.values X = array[:,0:8] Y = array[:,8] kfold = KFold(n_splits=10, random_state=7) model = LogisticRegression(solver='liblinear') scoring = 'neg_log_loss' results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring) print("Logloss: %.3f (%.3f)") % (results.mean(), results.std()) 您得到了什么日志损失?在评论中让我知道。 第9课:抽查算法 您可能无法事先知道哪种算法对您的数据效果最好。 您必须使用反复试验的过程来发现它。我称之为现场检查算法。scikit-learn库提供了许多机器学习算法和工具的接口,以比较这些算法的估计准确性。 在本课程中,您必须练习抽查不同的机器学习算法。 对数据集进行抽查线性算法(例如线性回归,逻辑回归和线性判别分析)。 抽查数据集上的一些非线性算法(例如KNN,SVM和CART)。 抽查数据集上一些复杂的集成算法(例如随机森林和随机梯度增强)。 例如,下面的代码片段对Boston House Price数据集上的K最近邻居算法进行了抽查。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 KNN Regression from pandas import read_csv from sklearn.model_selection import KFold from sklearn.model_selection import cross_val_score from sklearn.neighbors import KNeighborsRegressor url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/housing.data" names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV'] dataframe = read_csv(url, delim_whitespace=True, names=names) array = dataframe.values X = array[:,0:13] Y = array[:,13] kfold = KFold(n_splits=10, random_state=7) model = KNeighborsRegressor() scoring = 'neg_mean_squared_error' results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring) print(results.mean()) 您得到的平方误差是什么意思?在评论中让我知道。 第10课:模型比较和选择 既然您知道了如何在数据集中检查机器学习算法,那么您需要知道如何比较不同算法的估计性能并选择最佳模型。 在今天的课程中,您将练习比较Python和scikit-learn中的机器学习算法的准确性。 在数据集上相互比较线性算法。 在数据集上相互比较非线性算法。 相互比较同一算法的不同配置。 创建比较算法的结果图。 下面的示例在皮马印第安人发病的糖尿病数据集中将Logistic回归和线性判别分析进行了比较。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Compare Algorithms from pandas import read_csv from sklearn.model_selection import KFold from sklearn.model_selection import cross_val_score from sklearn.linear_model import LogisticRegression from sklearn.discriminant_analysis import LinearDiscriminantAnalysis load dataset url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] dataframe = read_csv(url, names=names) array = dataframe.values X = array[:,0:8] Y = array[:,8] prepare models models = [] models.append(('LR', LogisticRegression(solver='liblinear'))) models.append(('LDA', LinearDiscriminantAnalysis())) evaluate each model in turn results = [] names = [] scoring = 'accuracy' for name, model in models: kfold = KFold(n_splits=10, random_state=7) cv_results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring) results.append(cv_results) names.append(name) msg = "%s: %f (%f)" % (name, cv_results.mean(), cv_results.std()) print(msg) 哪种算法效果更好?你能做得更好吗?在评论中让我知道。 第11课:通过算法调整提高准确性 一旦找到一种或两种在数据集上表现良好的算法,您可能希望提高这些模型的性能。 提高算法性能的一种方法是将其参数调整为特定的数据集。 scikit-learn库提供了两种方法来搜索机器学习算法的参数组合。在今天的课程中,您的目标是练习每个。 使用您指定的网格搜索来调整算法的参数。 使用随机搜索调整算法的参数。 下面使用的代码段是一个示例,该示例使用网格搜索在Pima Indians糖尿病发病数据集上的Ridge回归算法。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Grid Search for Algorithm Tuning from pandas import read_csv import numpy from sklearn.linear_model import Ridge from sklearn.model_selection import GridSearchCV url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] dataframe = read_csv(url, names=names) array = dataframe.values X = array[:,0:8] Y = array[:,8] alphas = numpy.array([1,0.1,0.01,0.001,0.0001,0]) param_grid = dict(alpha=alphas) model = Ridge() grid = GridSearchCV(estimator=model, param_grid=param_grid, cv=3) grid.fit(X, Y) print(grid.best_score_) print(grid.best_estimator_.alpha) 哪些参数取得最佳效果?你能做得更好吗?在评论中让我知道。 第12课:利用集合预测提高准确性 您可以提高模型性能的另一种方法是组合来自多个模型的预测。 一些模型提供了内置的此功能,例如用于装袋的随机森林和用于增强的随机梯度增强。可以使用另一种称为投票的合奏将来自多个不同模型的预测组合在一起。 在今天的课程中,您将练习使用合奏方法。 使用随机森林和多余树木算法练习装袋。 使用梯度增强机和AdaBoost算法练习增强合奏。 通过将来自多个模型的预测组合在一起来练习投票合奏。 下面的代码段演示了如何在Pima Indians糖尿病发病数据集上使用随机森林算法(袋装决策树集合)。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Random Forest Classification from pandas import read_csv from sklearn.model_selection import KFold from sklearn.model_selection import cross_val_score from sklearn.ensemble import RandomForestClassifier url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] dataframe = read_csv(url, names=names) array = dataframe.values X = array[:,0:8] Y = array[:,8] num_trees = 100 max_features = 3 kfold = KFold(n_splits=10, random_state=7) model = RandomForestClassifier(n_estimators=num_trees, max_features=max_features) results = cross_val_score(model, X, Y, cv=kfold) print(results.mean()) 你能设计出更好的合奏吗?在评论中让我知道。 第13课:完成并保存模型 找到有关机器学习问题的良好模型后,您需要完成该模型。 在今天的课程中,您将练习与完成模型有关的任务。 练习使用模型对新数据(在训练和测试过程中看不到的数据)进行预测。 练习将经过训练的模型保存到文件中,然后再次加载。 例如,下面的代码片段显示了如何创建Logistic回归模型,将其保存到文件中,之后再加载它以及对看不见的数据进行预测。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 Save Model Using Pickle from pandas import read_csv from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression import pickle url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] dataframe = read_csv(url, names=names) array = dataframe.values X = array[:,0:8] Y = array[:,8] test_size = 0.33 seed = 7 X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=test_size, random_state=seed) Fit the model on 33% model = LogisticRegression(solver='liblinear') model.fit(X_train, Y_train) save the model to disk filename = 'finalized_model.sav' pickle.dump(model, open(filename, 'wb')) some time later... load the model from disk loaded_model = pickle.load(open(filename, 'rb')) result = loaded_model.score(X_test, Y_test) print(result) 第14课:Hello World端到端项目 您现在知道如何完成预测建模机器学习问题的每个任务。 在今天的课程中,您需要练习将各个部分组合在一起,并通过端到端的标准机器学习数据集进行操作。 端到端遍历虹膜数据集(机器学习的世界) 这包括以下步骤: 使用描述性统计数据和可视化了解您的数据。 预处理数据以最好地揭示问题的结构。 使用您自己的测试工具抽查多种算法。 使用算法参数调整来改善结果。 使用集成方法改善结果。 最终确定模型以备将来使用。 慢慢进行,并记录结果。 您使用什么型号?您得到了什么结果?在评论中让我知道。 结束! (看你走了多远) 你做到了。做得好! 花一点时间,回头看看你已经走了多远。 您最初对机器学习感兴趣,并强烈希望能够使用Python练习和应用机器学习。 您可能是第一次下载,安装并启动Python,并开始熟悉该语言的语法。 在许多课程中,您逐渐地,稳定地学习了预测建模机器学习项目的标准任务如何映射到Python平台上。 基于常见机器学习任务的配方,您使用Python端到端解决了第一个机器学习问题。 使用标准模板,您所收集的食谱和经验现在可以自行解决新的和不同的预测建模机器学习问题。 不要轻描淡写,您在短时间内就取得了长足的进步。 这只是您使用Python进行机器学习的起点。继续练习和发展自己的技能。 喜欢点下关注,你的关注是我写作的最大支持 本篇文章为转载内容。原文链接:https://blog.csdn.net/m0_37337849/article/details/104016531。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-07-11 10:04:06
92
转载
建站模板下载
...。此模板下载后可便捷应用,实现对医院数据的实时、动态展示,提升信息管理效率与决策支持能力。 点我下载 文件大小:1.46 MB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-07-02 09:38:57
55
本站
建站模板下载
...绩,提升业务洞察力与决策效率。此外,它还提供了更多实用功能模块以满足不同场景下的销售数据管理需求。" 点我下载 文件大小:3.99 MB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2024-01-05 16:07:34
53
本站
建站模板下载
...升企业内部管理效率与决策支持能力,满足更多元化、智能化的办公需求。 点我下载 文件大小:1.22 MB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-09-11 10:59:04
64
本站
建站模板下载
...升金融业务运营效率与决策质量。 点我下载 文件大小:1.75 MB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-04-13 08:42:49
104
本站
JQuery插件下载
...能是将用户的视觉设计决策直接转化为可应用于网页元素的高质量样式代码。在实际使用中,只需简单集成到项目中,用户便能轻松交互,随意挑选心仪的颜色组合,并通过查看按钮预览所生成的完整CSS3背景渐变属性。这一特性极大地提升了设计与开发的工作效率,让创建动态、美观的渐变背景变得更加便捷与精准,同时也增强了网站的视觉吸引力和用户体验。 点我下载 文件大小:185.88 KB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2024-05-25 19:21:41
146
本站
JQuery插件下载
...对商品的认知度和购买决策过程中的满意度。 点我下载 文件大小:3.26 MB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2024-04-28 16:59:48
60
本站
JQuery插件下载
...,帮助提升用户的购买决策效率,是构建高质量电商网站不可或缺的组件之一。 点我下载 文件大小:471.00 KB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-11-25 17:41:48
118
本站
JQuery插件下载
...而做出更加满意的购买决策。其强大的功能和高度的自定义选项,使其成为电子商务和产品展示领域的理想选择。 点我下载 文件大小:746.50 KB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2024-12-31 11:22:01
105
本站
JQuery插件下载
...或幻灯片效果。在实际应用中,当用户将鼠标悬停在小巧的幻灯片图片上时,会触发内置的放大镜功能。这一创新特性使得用户无需离开当前浏览位置,即可对细节部分进行即时且清晰的放大查看。放大镜效果流畅自然,增强了用户交互性和商品可视化程度,有助于提升用户的购买决策信心。此插件不仅保持了代码的简洁高效,同时兼顾了多种浏览器的兼容性,确保在不同设备和环境中都能稳定运行。通过整合CloudZoom的优秀图片缩放技术与Fancybox的优雅图片弹出框功能,这款插件成功地打造出一款既实用又颇具吸引力的图像浏览解决方案。 点我下载 文件大小:763.29 KB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-08-16 11:30:15
96
本站
JQuery插件下载
...察感受,从而增强购买决策的信心与满意度。 点我下载 文件大小:3.36 MB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-06-08 14:54:49
43
本站
JQuery插件下载
...从而做出更满意的购买决策。此外,插件支持自定义配置,允许开发者根据网站风格和需求进行个性化调整,确保与现有布局完美融合。Smoothproducts的适用范围广泛,不仅限于电商网站,也适用于任何需要展示详细产品信息的在线平台。无论是展示数码产品、时尚单品还是家居用品,这款插件都能提供专业级的预览体验,增强用户粘性和满意度。总之,Smoothproducts作为一款跨浏览器的jQuery商品橱窗插件,通过其独特的放大镜效果和便捷的预览功能,显著提升了在线商品展示的互动性和吸引力,是电商网站和在线商城不可或缺的工具。 点我下载 文件大小:819.47 KB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2024-10-11 21:18:31
78
本站
站内搜索
用于搜索本网站内部文章,支持栏目切换。
知识学习
实践的时候请根据实际情况谨慎操作。
随机学习一条linux命令:
tar -cvzf archive.tar.gz file_or_directory
- 创建gzip压缩格式的tar归档包。
推荐内容
推荐本栏目内的其它文章,看看还有哪些文章让你感兴趣。
2023-04-28
2023-08-09
2023-06-18
2023-04-14
2023-02-18
2023-04-17
2024-01-11
2023-10-03
2023-09-09
2023-06-13
2023-08-07
2023-03-11
历史内容
快速导航到对应月份的历史文章列表。
随便看看
拉到页底了吧,随便看看还有哪些文章你可能感兴趣。
时光飞逝
"流光容易把人抛,红了樱桃,绿了芭蕉。"