前言

https://zh-v2.d2l.ai/chapter_introduction/index.html

我对人工智能的整体方向缺乏系统的理解,因此在阅读前言一章时产生了诸多疑问。
目前根据我对散碎资料的狭隘理解,1.人工智能包含机器学习,机器学习分为监督学习无监督学习半监督学习和强化学习;2.回归分类标记搜索推荐系统序列学习等任务均属于监督学习范畴;3.监督学习的本质就是统计学习,训练模型其实是在寻找一个最佳的概率分布,从而在给定训练集特征的前提下输出最大化的条件概率;4.能够用于完成监督学习的模型种类很多,除了以前流行的核方法、树模型、图模型等等,近年来新兴的就是神经网络,只不过神经网络背后的数学统计理论支撑尚显不足;5.所以深度学习就是用神经网络进行监督学习,亦即深度学习完全含于监督学习。
如果我以上的理解都正确的话,那么回到标题就是深度学习(属于监督学习)完全被统计学习所包含。那么问题来了,整个机器学习是否都是统计学习?换而言之,除了监督学习以外,机器学习中另外的部分尤其是强化学习是否也是统计学习?如果是,应该怎么理解,毕竟强化学习已经没有对数据集的采样了,那么如何倒推出来一个最合适的概率分布模型。
如果我以上的理解哪里有误或者哪里不到位以及不严谨,烦请指出解惑,因为这些东西真的很少有人讲,相关教材资料也看了一些,只有沐神在前言里稍微谈了一点,实在搞不明白。

1 Like

我的理解是深度学习包含在机器学习当中,要是安你所说的那样去明确划分的话,应该是机器学习大领域中除了深度学习的部分是统计学习

呃…并不是, 机器学习其实就是统计学习, 属于目前人工智能的最实际的实现途径, 无论是监督学习还是无监督学习还是统计学习根源其实都是在学一个概率分布, 只是各自处理手段不同, 但是由于统计的不确定性, 目前人工智能无法做到百分百准确, 这就是弱人工智能阶段的现状, 具体可以去看youtube上caltech在12年的CS课learning from data, 讲得非常非常好, 对理论和实践都很有帮助.

请问1.4节这段翻译是否可以优化一下:“他也是优生学的倡导者,这提醒我们:使用数据科学虽然在道德上存在疑问,但是与数据科学在工业和自然科学中的生产性使用一样,有着悠久的历史。”
感觉原文的意思更接近“他也是优生学的倡导者,这提醒我们:数据科学在道德上存疑的使用,与其在工业和自然科学中的生产性使用一样,有着悠远而持久的历史。”

2 Likes

在古早时代统计学习还没有兴起的时候,主要是符号学习的天下。主要是知识系统一类的方法。这类方法应该引领了第一次浪潮。

练习:
1-2 就在做机器学习的练习
3. 蒸汽机和煤的关系是,煤是作为蒸汽机启动的燃料,把煤放进锅炉里加热,蒸汽机就可以启动。在算法和数据的关系里,算法并不因为有了数据在就自动演化,但是足量的数据还是算法演化的基础。

练习:

  1. 绝大多数规则与启发式的都可以用来学习,例如:图片分类、垃圾分类,我的代码中有时候会用正则化的操作,我想着就是一些启发性的设计吧
  2. 比如我同学的水下去噪,学术界会有一些数据集可以直接处理这些问题,自动化的方法我想可能是爬虫类似这样的,或者说是自动流水线上的设备指标实时上传。
  3. 在2021年吴恩达提出基于数据的深度学习无疑回答了这个问题,煤是数据,模型是蒸汽机,根本的区别是就是煤和蒸汽机的关系
  4. 工程我想测距可能会有end2end的操作吧