加入收藏 | 设为首页 | 会员中心 | 我要投稿 甘孜站长网 (https://www.0836zz.com.cn/)- 运维、物联设备、数据计算、智能推荐、云管理!
当前位置: 首页 > 运营中心 > 建站资源 > 经验 > 正文

排雷避坑,机器学习一定要避开的3大陷阱

发布时间:2019-08-23 04:37:26 所属栏目:经验 来源:TalkingData
导读:几十年来,机器学习领域一直饱受坦克问题(tank problem)的折磨。 故事发生在上个世纪60年代(此研究已知的最早文献,此处感谢软件工程师Jeff Kaufman),事件的细节已湮没在时间的迷雾当中,不过故事大概是这样子的: 研究者们编写了个算法来从军方提供

机器学习算法要求研究员明确一个用来估量各种错误严重度的“损失函数”,例如到底是有两个1%的错误好,还是单个2%的错误更合理。从业者们倾向于应用函数的一小部分,从而导致他们无法得到真正需要的内容。

还是举个例子,大家一直有用机器学习来辅佐求解微分方程。这些公式在包括流体力学、电磁学、材料科学、天体物理学和金融建模中很常见,一般情况下它们必须以数字方式解决,然后开始训练模型,从而能在有限的条件下提供更高的精确性。

比如说从一个方程开始描述水波如何在一维进行传播吧。该算法的任务是从当前的时间步长来重复预测下一步,在这方面可以准备两种略微不同的方法与训练模型。根据损失函数来看,这两个模型是一样优秀的,但实际上其中一个做了一堆无用功,另一个的产生结果更接近预期。

原因就是控制学习的损失函数只考虑到了下一步的错误,而不是研究者真正想要的多重步骤的解决方案有效性。

我们在糖尿病视网膜病变的机器筛查方面也出现了分歧目标。这是糖尿病的一种并发症,也是世界上可预防性失明的主要原因。如果能从眼后图像及时检测到该病症,它就能被有效治疗。当我们收集数据并且让眼科医生通过图像进行诊断时,我们让机器学习的工具预测一下医生都会说些什么,此时出现了两种情况。

排雷避坑,机器学习一定要避开的3大陷阱

在印度Madurai的Aravind医院,工作人员和谷歌研究员正在进行眼科检查,试图自动诊断由糖尿病引起的失明。图源:Atul Loke /纽约时报/ Red / eyevine

情况一是眼科医生经常不认同诊断,因此研究人员意识到不能通过单一的预测来建立模型。总不能来个投票说少数服从多数,因为在医疗上,有时候少数人的意见才是正确的。情况二是单一疾病的诊断实际上并不是真正的目标。因为往往需要问的是:“这个患者需要去看医生吗?”,然后通过这种方式将目标从单一疾病的诊断扩展到多重疾病。

机器学习从业者很容易迷恋上数据标签都清晰的 “明显“目标,但他们可能正在设置算法来解决错误的问题。所以必须牢记大方向和总目标,否则就只会为错误问题埋单。

04那可以做什么呢?

首先,机器学习专家需要让自己和同事们持有更高的标准。当有新实验设备到来时,大家总是寄希望于实验室的小伙伴们搞懂其功能,怎么校准,怎么检测到问题,还要了解其功能的限制。因此,面对机器学习时也应如此。机器学习不是魔法,工具的使用者们必须了解如何掌控它们。

其次,当需要使用机器学习时,不同学科需要为其制定出明确的标准。合适的控制、健全性检查和错误的测量会因领域而异,所以这些都需要解释清楚,以便研究者、审查者和从业者有规可循。

第三,机器学习科学家们所受的教育需要包括一些更广泛的内容。即使有些类似于这样开源的资源存在,需要做的仍然很多。授人以鱼不如授人以渔,可能更多人只去学算法与工具,但学习如何应用算法与适当地提出质疑也很重要。

所有从事机器学习的人都正处在一个神奇的点上——计算能力、数据和算法交织在一起,在机器学习的的协助下碰撞出了新的美妙火花 ,利用好这个机会将是整个科学界义不容辞的责任。

(编辑:甘孜站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读