Theme NexT works best with JavaScript enabled
0%

AndrewNg的机器学习课-引言

简单介绍机器学习 ^_^

什么是机器学习?

一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升。

举例:

  • AI下棋程序:E是自我练习;T是下棋;P是与新对手比赛时,赢得比赛的概率。
  • 标记垃圾邮件程序:E已对属性进行标记的邮件集合;T是标记垃圾邮件;P是对一封未知属性邮件进行标记的正确率。

监督学习

监督学习指的就是我们给学习算法一个数据集。这个数据集由“正确答案”组成。然后运用学习算法,算出更多的正确答案。

回归问题

回归这个词的意思是,我们在试着推测出这一系列连续值属性。

例如房价预测问题,我们试着推测出一个连续值的结果,即房子的价格。一般房子的价格会记到美分,所以房价实际上是一系列离散的值,但是我们通常又把房价看成实数,看成是标量,所以又把它看成一个连续的数值。

分类问题

分类指的是,我们试着推测出离散的输出值。

例如肿瘤分类问题,我们试着推测出离散的输出值:0或1良性或恶性。而事实上在分类问题中,输出可能不止两个值。比如说可能有三种乳腺癌,所以你希望预测离散输出0、1、2、3。0 代表良性,1 表示第1类乳腺癌,2表示第2类癌症,3表示第3类,但这也是分类问题。

无监督学习

不同于监督学习的数据的样子,无监督学习中的数据没有任何的标签或者是有相同的标签或者就是没标签。无监督学习尝试自动地找到数据中的结构,将自动地聚类那些个体数据到各个类。

应用举例:

  • 谷歌新闻:谷歌新闻搜索非常多的新闻事件,自动地把它们聚类到一起,使同类新闻具有同一主题,组成关联的新闻。
  • 基因学:输入一组不同个体基因表达图谱,对其中的每个个体,你要分析出它们是否有一个特定的基因。你能做的就是运行一个聚类算法,把个体聚类到不同的类或不同类型的组(人)。
  • 组织大型计算机集群:将易于协同地工作的机器聚类到同一类,让你的数据中心工作得更高效。
  • 社交网络的分析:自动地给出朋友的分组,即每组里的人们彼此都熟识,认识组里的所有人。
  • 市场分割:许多公司有大型的数据库,存储消费者信息。所以,你能检索这些顾客数据集,自动地发现市场分类,并自动地把顾客划分到不同的细分市场中,你才能自动并更有效地销售或不同的细分市场一起进行销售。
  • 天文数据分析:这些聚类算法给出了令人惊讶、有趣、有用的理论,解释了星系是如何诞生的。
  • 鸡尾酒宴问题:在一个包含两个同时说话的人的录音中分离出每个人的声音。