您的当前位置:首页大数据时代机器学习的新趋势

大数据时代机器学习的新趋势

2022-10-18 来源:乌哈旅游
Data Base Technique 数据库技术

大数据时代机器学习的新趋势

文/杨福建

1 机器学习常见方法

摘 要本文首先分析机器学习中较为常见的几种方法,然后以此为基础,进一步探究其发展趋势,希望能够为其相关人员具体工作提供更为丰富的理论依据。1.1 监督学习

监督学习具体是基于提前设定的学习准则,例如要求分类精度最高或均方误差最小,通过科学应用学习算法对其学习模型中的相关参数进行有效调整,最终目的是获得最优模型,

【关键词】大数据时代 机器学习 新趋势

以此为基础,对其新样例的类标进行科学预测,输出内标概率分布。通常情况下学习模型具体

在大数据时代影响下,机器学习发展主要包括两个研究方向,其一为学习机制,重点在于模拟人类学习机制。其二为有效信息利用,重点在于从大数据库中进行潜在知识的深入挖掘。在现代大数据环境发展下,分析相关数据已经成为各个行业发展的重要方向,在此过程中,机器学习能够迅速吸收知识,推动机器学习得到更高程度的发展。在目前大数据环境影响下,如何更为科学的应用学习手段是实现机器学习的重要目的,相关工作人员必须对其加强重视,为了对其具有更为明确的认知,特此展开本次研究。

包括贝叶斯分类器,逻辑回归,决策树,支持向量机,神经网络等多种类型。通常情况下,在进行学习模型训练集中过程中就要开始应用数值分析或优化方法。例如,在支持向量机内,需要科学应用二次优化方法,而在神经网络内,则需要应用梯度优化方法。1.2 无监督学习

在学习过程中,无监督学习通常没有可利用信息,无监督学习在具体工作过程中用于处理特征,不对其监督信号进行操作,与密度估计具有极为紧密的联系,例如,学习从数据分布中进行相关样本聚类,寻找数据分布流形

和采样等相关工作时,无监督学习的具体工作任务在于寻找相关数据的最佳表示,在此过程中,针对不同问题,“最佳”所体现的含义也存在很大程度的差异性,例如在分析主成分时,最佳的含义是寻求表达数据最优投影子空间。对于流行学习而言,最佳所表达的具体含义是探寻事件真实分布的流形。聚类分析是无监督学习最为常见的一种表现形式,通常是基于数据自身特性科学划分集中的数据样例,使其形成多个簇,相对于不同簇而言,簇内样例具有更大的相似性,层次聚类,自组织映射和k均值聚类是最为常见的几种聚类方法。在具体进行无监督学习过程中,基于给定数据值科学选择相似性度量是其极为重要的一项工作,在此过程中,具体包括基于相似性和基于距离的度量。

1.3 半监督学习

该技术是通过利用传统机器计算弊端进行工作的新型机器学习技术。通常情况,传统机器在处理数据过程中,普遍是采取损失数据形式对其未标识数据进行有效处理,在此过程中,会丢失一部分数据,该种学习方法也可以

<<上接154页

则可转化为如下形式

(2)

,C

到的近1年哈尔滨市的真实房产交易数据用于实验,该数据集包含10000条数据,称它为RestateData数据集。其中R-SVM和mySVR-LSSVM算法中采用了RBF核且利用十折交叉验证来得到上述三种算法中的参数。从RestateData数据集中选取出7个房产交易记录作为最终的测试预测值的准确性来使用,具体的对比结果见表1所示。

通过表1可以看出,R-SVM和mySVR-LSSVM算法比RNN算法误差率至少低1%,且mySVR-LSSVM算法比R-SVM算法的误差率低0.14%,因此可知mySVR-LSSVM算法有良好的预测准确性。

接下来,为了对比三种算法的实际训练时间,我们用RestateData数据集对其进行测试。在RestateData数据集中分别选100,200,500,1000,2000,5000,10000个样本作为训练样本,并分别对每组样本进行重复10次实验来分析三种算法的运行效率。房地产估价算法的运行时间对比结果,见表2。

通过表2可以看出,随着样本数目的增加三种算法中mySVR-LSSVM的训练时间最少,RNN算法的训练时间最长,且在算法的测试

时间上三种算法基本相同。

参考文献

[1]陈良琼,张宗领.基于特征价格理论的

市场比较法研究[J].信阳师范学院学报,2011,24(4):31-36.

[2]杨和礼,宋士豹,包相相.基于RS-BPNN

模型对商品房价格的预测研究[J].数学的实践与认识,2015,(2):50-52.

[3]李毅.基于SVM的房地产投资风险评价及

应用[J].统计与决策,2012(1):70-72.

其中

是平衡系数矩阵。

令,由式(2)可知

那么,由

可知,

作者简介

潘巍(1976-),男,黑龙江省哈尔滨市人。工学博士。现为哈尔滨华德学院数据科学与人工智能学院软件工程专业讲师。主要研究方向为模式识别、机器学习及应用。

其中

。3 实验分析

本文提出的房产估价算法简称为mySVR-LSSVM。将本文使用得到方法与回归支持向量机(R-SVM)和回归神经网络算法(RNN)进行性能对比分析。在从房产代理公司购买

作者单位

1.哈尔滨华德学院 黑龙江省哈尔滨市 150025

2.哈尔滨电工仪表研究所 黑龙江省哈尔滨市 150040

Electronic Technology & Software Engineering 电子技术与软件工程• 155

数据库技术

• Data Base Technique

应用机器学习过程中,都在不断提升其泛化能力。就目前发展现状而言,支持向量机这一定程度内结合了理论知识和实践技能,是具有较高综合性的学习方法。2.2 提升学习速度

在大数据时代高速发展过程中,数据产生的速度极其数量得到了很大程度的发展,在不同领域具体应用机器学习过程中,如何实现机器学习速度的有效提升是其相关工作人员关注的重点问题,同时也是检验机器学习是否能够高度满足现代发展标准的重要条件。在对机器计算速度进行评价时,与其计算速度相关的内容,具体包括训练和预测两个方面,二者之间具有不可分割的重要联系,前者是指对具体计算过程中获得最优方案的分度,而后者是指应用最优方案展开计算获得结果的具体速度,二者的有效结合能够对机器计算速度进行更为科学的衡量。

总而言之,在实现机器学习过程中,监督

2.3 提升学习可理解性

对于大多数用户而言,机器通常是在幕后进行计算过程,用户只需要输入相关指令,并可以获取输出数据内容,但是对其数据内容产生的过程,原因和方式缺乏必要的认知,导致用户在面对具有更高复杂性的相关数据时,机器学习能力普遍较差,使用户无法遵循进行有效解决,造成这种现象的主要原因相关人员在具体应用机器学习算法过程中,不断稀释其可解释性,对其缺乏重视,而在大数据时代高速发展的今天,静静的可解释性也作为其计算学习评价体系中极为重要的一项数据考核标准。2.4 提升使用能力

在传统机器学习算法中,通常是针对已经标识的数据展开学习,但是在我国网络技术高速发展过程中,数据分析技术也得到了很大程度的提升,未标记数据为多个领域带来了较大的机器学习压力,例如医学影像资料或垃圾邮件等。与此同时,在多个领域受到噪声信息大,属性缺失或不一致等垃圾数据不良干扰,对其相关人员正常使用影像数据造成一定程度的不良影响。例如,在开展具体工作过程中,不同样本数据之间存在很大程度的差异,导致产生新的问题,在次过程中,需要科学应用未标记在相关数据信息对不平衡数据和垃圾数据造成的影响进行有效处理,从而确保相关数据具有更高的使用。

学习,无监督学习,半监督学习,强化学习和基层学习技术是其较为常见的几种学习方法,在开展具体工作过程中必须,对其进行深入分析,与此同时,有效提升泛化能力,学习速度,学习可理解性,使用能力,敏感性问题处理能力是其未来发展的必然趋势,能够使其进一步满足大数据时代发展需求,推进国家经济水平的有效提升,进而为我国现代经济水平和科技力量的进一步提升创造良好的条件,使其在未来国际竞争中占据更高优势。

在目前大数据环境影响下,研究如何降低错误率是机器学习算法的重要工作,而各行业与相对学科在发生错误时,具有不同的代价容忍度,即使是在相同行业或相同学科中进行差异化判断,所产生的代价之间也存在一定的差异性。例如极其在判断小偷入室抢劫行为时,可能会将行窃行为误判为业主回家,或将业主回家行为误判为小偷行窃,二者代价之间具有很大的差异性。在我国传统机器学习算法中,普遍需要综合考量同等代价,在未来发展过程中,需要确保能够更为有效的解决敏感性代价问题。在近几年来发展过程中,部分专家在机器学习算法中引进信号相关理论和诊断分析法,代价敏感是未来机器学习算法应用的一个重要方向。

2.5 提升敏感性问题处理能力

在一定程度内称为无监督学习。而监督学习则具体是对已经完成标识工作的数据进行处理。半监督学习位于二者之间,能够对具有地域标识的数据进行有效处理,同时也可以进一步合理分类未标识数据,并对其重新进行处理,进而对未标识数据中有用部分进行科学分类,确保回收利用相关数据,进而确保相关数据具有更大的利用率,同时避免出现数据浪费现象。尤其是在大数据时代发展状况下,数据泛滥导致未标识数据远远超出标识数据,如果不对其位标识数据进行重新分类梳理,会在一定程度内浪费大量有价值的数据。1.4 强化学习

该项学习技术具体是指利用环境智能体交互,基于环境反馈学习选择可以实现最终学习目标的动作,使其实现最优。在此过程中,延迟回报与试错搜索是其极为重要的两项特征。在具体工作过程中,马尔科夫决策过程理论是其学习的重要基础,以智能体能否基于MDP模型知识进行有效学习能够强化学习划分为模型相关和模型无关两种算法。1.5 集成学习技术

集成不同学习系统的学习技术具体是指科学整合不同学习技术,对现有学习系统进行合理优化,实现各取所长的一项学习架构。就发展原理而言,可以将其简单概括为团结就是力量,无论是机器设备,还是人工作业,团队力量都是其相关工作开展的必然条件,单个学习系统系统具有更大的功能,也无法超越集成系统的应用优势,共同使用不同机器学习系统,不仅能够进一步应对目前大数据时代发展状况下产生数据处理问题,也是实现机器学习拟人的一个重要发展方向。除此之外,在具体应用集成学习技术过程中,现有学习系统也是不可或缺的基础条件,同时,对其进行广泛应用也可以在一定程度内为数据分析和处理在进一步发展提供更多的方向。

3 结束语

参考文献

[1]韩雪纯.大数据时代下机器学习的应用研

究[J].科技风,2018,351(19):63-63.[2]张素芳,翟俊海,王聪,等.大数据与大

数据机器学习[J].河北大学学报(自然科学版),2018,38(3):299-308.

[3]潘水洋.大数据、机器学习与资产定价[J].

现代管理科学,2019,311(2):8-10+35.[4]姜绍俊.大数据支撑下的机器学习算法

[J].电脑知识与技术,2018,14(7):164-165.

2 机器学习发展趋势

2.1 提升泛化能力

在进行机器学习过程中,通过有效学习推广最优方案,使其逐渐成为能够广泛应用的方案是其相关工作的最终目的。基于此,泛化能力是未来机器学习的重要发展趋势,同时也是较为普遍的一项重要问题,哪个行业在具体

作者简介

杨福建(1972-),男,布依族,贵州省都匀市人。高级实验师。研究方向为计算机基础教育。

作者单位

黔南民族师范学院 贵州省都匀市 558000

●基金项目:黔南民族师范学院 机器学习与非结构化数据处理校级重点实验室开放基金项目(项目编号:ML-2018KF005)。

156 •电子技术与软件工程 Electronic Technology & Software Engineering

因篇幅问题不能全部显示,请点此查看更多更全内容