问鼎娱乐app苹果下载 6000字科普,人工智能的应用及相关技术
本文是《人工智能基础(高中版)》的读书笔记,这本书的插图画得非常好,把一些比较难懂的概念用图解的方式呈现出来,所以读书笔记中会引用书中的图片(图片版权归商汤科技所有)。
书中有些概念还比较晦涩,对于新手来说很难理解某些概念和方法之间的细微差别,因此我根据自己的理解,抹去一些难以理解的细节,以更加易懂的形式呈现。
一、人工智能概述 1.简史
2. 应用领域
安全
实时从视频中检测行人和车辆。自动发现视频中的异常行为(例如,醉酒行人或逆行车辆),并及时发出带有具体位置信息的警报。自动判断人群密度和人流方向,提前发现人群过度拥挤可能带来的危险,帮助工作人员疏导和管理人流。
医疗的
自动分析医学图像的技术。这些技术可以自动找到医学图像中的关键区域并进行比较分析。从多张医学图像中重建人体器官的3D模型,可以帮助医生设计手术,并确保手术为我们每个人提供健康建议和疾病风险警告,从而让我们过上更健康的生活。
智能客服
智能客服可以像人一样与客户进行沟通,理解客户的疑问问鼎娱乐app苹果下载,分析疑问的含义(例如客户是在问价格还是问产品的功能),并给出准确、恰当、个性化的回答。
自动驾驶仪
如今的自动驾驶汽车通过多种传感器,包括视频摄像头、激光雷达、卫星定位系统(北斗BDS、全球定位系统GPS等)等来实时感知行驶环境。智能驾驶系统可以对多种感知信号进行综合分析,结合地图和标识(如红绿灯、路标等)实时规划行驶路线,并发出指令控制汽车运行。
工业制造
帮助工厂自动检测各种形状的缺陷
3. 概念
什么是人工智能?
人工智能是一种通过机器模拟人类认知能力的技术。
人工智能的三种训练方式分别是监督学习、无监督学习、强化学习,下面将一一介绍。
2.这是不是鸾尾花(分类器)1.特征提取
人类感官特性
花瓣的数量和颜色
人工设计的特征
首先确定使用哪些特征,然后通过测量将其转化为具体值
深度学习功能
这里我就不提了,后面的文章里会讲到
2.感知器
老师出题了:
要区分两种芙蓉花,就必须画一条直线来区分。你可以画无数条直线,但哪一条才是最好的呢?
我该怎么办?我是个穷学生,我只能猜了!
选取三个数 a=0.5, b=1.0, c=-2 代入 y = ax[1] + bx[2] + c,将每朵花的两个特征代入 x[1] 和 x[2],例如代入 (4, 1) 可得 y[prediction] = 1,此时 y[actual] = 1(样本设置为变色菊为 1,山菊为 -1),因此 y[actual] – y[prediction] = 0,重复以上两步可得“实际值与预测值差距之和”,记为 Loss1
但你怎么知道这是最佳直线?继续猜吧!继续猜吧!就像猜世界杯一样猜吧。
通过不断在 y = ax[1] + bx[2] + c 的梯度方向上猜数字(梯度就是导数,我们高中学过!),具体过程大致是这样的:
上面说的实际值与预测值的差距其实就是一个损失函数,还有其他的损失函数,比如两点之间的直线距离公式,余弦相似度公式等等,都可以计算出预测结果与实际结果的差距。
重点:损失函数是现实与理想的差距(很残酷)
3.支持向量机
*判断依据的不同也导致了损失函数的不同(不过依然是猜测)
直观的说,gap(上图中的分类间隔)越大越好
4.多分类
如果有多种类型的花怎么办?
在一堂植物学课上,老师请来了牡丹鉴定、荷花鉴定、梅花鉴定的专家,老师拿出一盘花让每个专家鉴定,牡丹专家人物是牡丹的概率是0.013,荷花专家人物是荷花的概率是0.265,梅花专家人物是梅花的概率是0.722。
老师总结了专家们的意见后,告诉学生们,这是一盘梅花。
小明:这个老师是不是傻啊,连花是什么都不知道,还要请三个高手。
老师:出去吧!
实际的计算过程,就是利用2.2、2.3等方法训练出来的二分类器输出相应的分类值(比如三种花的分类器分别输出-1、2、3)。那么如何把这些分类值转化成概率呢?这就需要用到正则化的指数函数Softmax(如果是二分类,就用Sigmoid函数)。这里我就不用公式了,大家看书上这张表就能直观的理解:
5.无监督学习
2.2 我们之所以能从预测值与实际值的差异来判断我们猜测是否正确,是因为生物老师告诉我们哪些样本是山百合,哪些是变色百合。但如果老师连样本的实际类别都不告诉我们(无监督学习),我们就不知道样本是什么花。
那我们该怎么办呢?
机器学习的入门课程总是会讲到栾尾属的花,这让人挺烦的。
让我们在这里改变一下场景:
如果你是一个直播公司的老板,你要找一堆小主播,你手上有一堆应聘者,但你只有她们的胸围和臀围数据。你面前有 8 份简历,你不知道哪一个更有能力(有能力!),能吸引更多粉丝。你没有时间面试所有人,那么你该如何选择?
现在你把她们的胸围和臀围在二维坐标图上标准化:
就是直接画一条线,把他们分成两组,或者说“聚类成两类”,用某种计算方法(比如取平均值)找到这个簇的中心,越靠近簇中心的点,说明越相似。
求出每个聚类点到蓝色聚类中心和黄色聚类中心的距离。如果某个点距离黄色聚类中心更近,但是你随机把它放到了蓝色的组中(上图中用红色边框标记的小方块),那么就把它放到黄色组中。此时因为组范围和组内包含的女生发生了变化,所以需要用步骤3的方法重新计算聚类中心。
重复步骤4(计算点之间的距离)->重复步骤5(调整黄色女孩和蓝色女孩)->重复步骤3(计算中心),并不断循环此过程,直到蓝色和黄色簇中包含的女孩不再发生变化。 然后停止此循环。
到目前为止,女士们被分为两类。你可以得到两种类型的女士:
计算机成功地在无监督的情况下把女生分成了两类,接下来我们可以把每类两个主播放到平台上,看看谁的水平更高,如果效果更好,我们再根据该类的样本特征,拓展出更有能力的主播。
小明:这有什么了不起的?我一看就看出来黄妞更能干。
老师:出去吧!
上面聚类小姐姐用的算法叫K近邻算法,K是要聚类的簇数(这个需要手动指定),上面的例子里K=2,如果分成三类的话K=3。训练过程可以看下图直观理解:
3. 这是什么物体(图像识别) 1. 特征提取
人类感官特性
花瓣颜色、花瓣长度、是否有翅膀(区分猫和鸟)、是否有嘴巴和眼睛(飞机和鸟)
将感官特征量化,得到颜色(RGB值)、边缘(圆角、直角、三角形)、纹理(波浪、直线、网格)的数值特征。
人工设计的特征
深度学习功能
通过卷积提取图像特征
重点:卷积的作用是从图像中提取有用的信息,比如微信会压缩你发送的图片,减小图片大小,但依然能分辨出图片的主要内容。
1D卷积:1*5+2*4+3*3=22,1*4+2*3+3*2=16,1*3+2*2+3*1=10
二维卷积1*2+3*0+2*4+4*2=28…
通过卷积,我们可以得到图像的特征信息,比如边缘
垂直边缘检测
水平边缘检测
方向梯度直方图
2.深度学习与传统模式分类的区别
既然我们有传统的模式分类,为什么还需要神经网络?
不同的是,传统的模式分类需要人为设定特征,比如花瓣长度、颜色等,而深度学习省去了人工设计特征的步骤,让卷积操作自动提取特征,分类器的训练也融入到神经网络中,实现端到端的学习。
重点:端到端学习意味着直接从输入中获得输出,不需要任何中间人,自己创造差异。
3.深度(多层)神经网络的问题
一般来说,神经网络的层数越多,准确率越高。然而,网络层数越深,以下因素也越重要:
过拟合是指差生在不理解高考预考题答案的情况下,死记硬背答案。考试时,如果题目是自己背过的,那么自己就会答对;如果没有背过,那么自己就不会答。我们可以说差生对预考题“过拟合”。
对应的,欠拟合的人是最惨的,连预考题都记不住,即使考试题和预考题一模一样,也只能答对30%,那我们就可以说这个人~~活该~~欠拟合。
如果有兴趣,还可以了解一下梯度扩散和梯度爆炸。下面是网上很流行也很有启发的公式。在多层网络中权重相乘,比如每层的权重是0.01,经过100层之后就是0.01的100次方,变得非常小。在梯度下降学习的过程中,学习会变得非常慢。(就好比从碗的顶部扔下一个小球,在底部悬停的速度会越来越慢。)
非凸优化的学习过程可能会因为梯度(斜率)为零而停在局部最小值(极小值),如果停在局部最小值而不是全局最小值,那么学习到的模型就不够准确。
看看图片,感受一下
你说的底部不是底部,你说的顶部才是顶部
解决方案
统一初始化、批量归一化和快捷方式涉及很多数学逻辑,这里就不解释了。
4. 申请
人脸识别
自动驾驶系统将从车顶拍摄的画面切成小块,检测物体是汽车、行人还是狗,是红灯还是绿灯,识别各种交通标志等,然后利用雷达判断物体的距离。
四、这是什么歌(语音识别)1、特征提取
人类感官特征音量、音调、音色
通过采样、量化和编码,声波被数字化(转换成电信号)
人工设计的特征梅尔频率在低频部分解析度较高,在高频部分解析度较低(这跟人耳的听觉感受类似,即在一定的频率范围内,人们对低频声音比较敏感,对高频声音不敏感)。
关系如下:
对频谱在每个频率区间进行平均,表示每个频率范围内声音能量的大小,一共有26个频率区间,得到26维特征,经过倒谱运算后得到13维梅尔频率倒谱系数(MFCC)。
通过3.1中引入的一维卷积提取深度学习特征
2. 申请
音乐风格分类
输入:音频文件 特征:声音特征 输出:音乐类型
语音转文本
输入:音频文件特征:声音特征 输出:声学模型(如26个英文字母)
然后将声学模型发送给另一个学习器
输入:声学模型 特征:语义和词汇 输出:连贯的句子(参见第6点,如何让计算机输出连贯的句子)
歌曲识别是通过窗口扫描(将音乐分割成小片段)的方式进行的,然后使用4.1中描述的方法提取该片段的特征以获得特征向量。对数据库中的歌曲和用户录制的歌曲进行同样的操作以获得特征向量,然后计算它们之间的相似度(两个向量之间的距离可以利用余弦公式计算角度或两点之间的距离公式来计算)。
5. 视频里的人在做什么(视频理解,动作识别) 1. 简介
视频本质上是由连续的画面帧组成。由于视觉暂留(人眼观察场景时,传输到大脑神经的光信号不会立即消失,给人一种连续画面的印象),看起来是连续的,也就是视频。要识别视频中有哪些物体,可以使用上面提到的图像识别和分类方法对单帧进行实时分析,例如:
但视频有一个比图像更重要的属性:动作(行为)。
如何分析连续视频中的动作?
例如上图,哈士奇腿上的像素点相对黄色的框(框和狗相对静止)左右“移动”。这里的“移动”引入了一个概念——光流(一个像素从一个位置移动到另一个位置)。像素移动形成的光流作为神经网络的训练特征(X)问鼎app官方下载,“跑步”作为训练目标值(Y)。经过多次迭代训练,机器就能拟合出一个Y=f(X),判断视频中的物体是否在跑步。
2.光流
假设:1)在两帧相邻图像之间,物体移动很小;2)在两帧相邻图像之间,物体的颜色基本保持不变。
至于神经网络如何追踪某个像素,这里我就不详细解释了。
t时刻的点指向t+1时刻的点的位置,也就是该点的光流,是一个二维向量。
整个图的光流是这样的:
整个视频的光流(轨迹)是这样的
不同的虚线表示图像上某个点的轨迹。
假设视频有宽度width,高度height,一共有m帧,那么该视频就可以用width*height*m*2的一个张量(也就是三维矩阵)来表示,该向量可以送入神经网络进行分类训练。
为了进一步优化,可以将光流简化为8个方向,将视频某一帧的所有光流在这8个方向上进行累加,得到该帧的光流直方图,进一步得到8维的特征向量。
6.一段文字表达什么(自然语言处理) 1.特征提取
这里有4句话,先做分词:
删除停用词(副词,介词,标点符号等,一般在文本处理中都会有一个停用词表)
代码词表
句子向量化
这样就得到了一个句子的19维特征向量,再将这个19维特征向量读入常见的卷积网络或者LSTM循环神经网络作为X(喂它食物),将文本的分类(比如正向或者负向)作为训练标签值Y,迭代训练得到的模型可以用于情感分析或者文本分类等任务。
2. 高级
词向量化:“Awesome”和“computer”是同义词。基于上述步骤,我们可能认为“Awesome”和“Awesome”是两个完全不同的词,但实际上它们含义相近。AI如何学会知道这一点?我们需要从多个维度进一步丰富词语的内涵,比如:
例如,男性用1表示,女性用0表示,没有性别偏好用0.5表示,经过多维度扩展之后,就得到了“男”这个单词的特征向量(1,0,0.5,0,1)。
反向文档频率:一个词在一类文章中出现的次数越多,而在另一类文章中出现的次数越少,它就越能代表文章的类别。例如,swimming 在体育文章中出现较多(2 次),而在工具文章中出现较少(0 次),因此它比其他词(1 次)更能代表体育文章。
假设一个句子中有N个词,一个词出现T次,一共有X个句子,这个词出现在W个句子中,那么逆文档频率TF-IDF就是T/N * log(X/W)
3. 申请
7.让计算机绘图(生成对抗网络)
从前,有一个人靠卖名画的仿制品赚钱。他从模仿一幅名画开始:
他第一次画的时候是这样的:
鉴赏家一眼就能看出这是假的,他不得不回去画第二幅、第三幅画……
经过十万次的“鉴画”,这位鉴赏家竟然相信了临摹者画的画是真正的真迹,并高价买下了这幅画。
这个生成(绘画)-识别(假货检测)模型是生成对抗网络(GAN)的核心。
生成器将随机像素有序排列,组成有意义的图片,然后判别器对生成的图片以及它与真实图片的差异进行分类,并告诉生成器应该往哪个方向优化。经过多轮训练,生成器学会画出“真实的图片”。
计算机如何将随机像素变成有意义的图片?让我们通过一个简化的例子来看看。
直线上一些均匀分布的点在经过 y=2x+1 变换后就变成非均匀分布的了。一幅随机排列的像素图像经过一定的 f(x) 变换后就会变成一幅有意义的图像,而生成器则会不断地逼近 f(x),就像 2.2 中的感知器拟合直线一样。
下图是计算机生成手写数字的过程
重点:函数可以变换数据分布(Cook 说:可以把直线变成曲线)
8. AlphaGo 是怎么下棋的?(强化学习) 1. 粗略认知
监督/无监督训练:让每一项任务尽可能正确 强化学习:多项任务是否达到最终目标
如果每项任务都准确无误,那岂不是就能达到最终目标了?我们来看一个例子:
批发店老板爱丽丝要求经理比尔提高销量。比尔指示他的销售员多卖一些收音机。其中一位销售员查尔斯接到了一笔大额订单,利润丰厚,但公司却因供货短缺而无法交付收音机。
谁应该受到指责?
从爱丽丝的角度来看,查尔斯的行为给公司带来了耻辱(并且最终任务没有完成)。
但从比尔的角度来看,查尔斯成功完成了他的销售任务,比尔也增加了销售额(子任务成就)。——《心智社会》第 7.7 章
2. AlphaGo
围棋最古老的下法是决策树,从左上角开始,遍历到右下角,每个空位为一个分支,然后预测每局获胜的概率,找出最有可能的走法,这就是走法预测器。
但由于19X19的围棋棋盘极其庞大,空间复杂度高达10的360次方,想要穷尽所有走法几乎不可能,犹如大海捞针。
降低复杂性的关键是减少搜索的广度和深度。
我们在养护小盆栽的时候,如果不对枝叶进行修剪的话,养分就会浪费在那些长势不太好的枝条上,需要及时修剪掉枯萎或者异常的枝条,保证养分输送到正常的枝条上(或者我们希望它生长的方向)。
同样的道理,如果将有限的计算机算力浪费在穷尽围棋所有可能的走法上,棋局推演就会非常缓慢,寻找最优解需要花费大量的时间。
能不能通过“剪枝”落子选择器庞大的决策树,来加快更好落子的选择速度?如何判断哪些“分支”是好的,哪些是坏的?这就需要一个棋局价值评估器(哪盘棋获胜的概率更大)来移除那些没有价值的棋局,不再遍历,这样就同时降低了搜索的广度和深度。
其中,走子预测器有个名字,叫策略网络。价值评估器有个名字,叫价值网络。策略网络采用蒙特卡洛搜索树,从当前棋局(随机棋)推导到最终棋局,如果最终胜利则奖励为负数。之后算法会沿着博弈过程的走子方案一步步反向回溯问鼎娱乐下载链接入口,增加路径上胜利者选择的走子方案的得分,对应降低失败者的走子方案的得分,这样以后再遇到相同情况时选择胜利者方案的概率就会增大。因此可以加速走子选择,称为快速走子网络。
通过策略网络+价值网络+蒙特卡洛搜索树选出最优走法方案,同时两个机器人进行对战,这样网络不断训练,学习到走法方案。
3.定义
接下来我们来谈谈无聊的定义
什么是强化学习?
强化学习用于当我们关心的不是某个判断是否准确,而是这个行动方针是否能带来最大的收益的时候,比如在下棋、股票交易、商业决策等场景。
强化学习的目标是获得一个指导行动的策略。例如,在围棋游戏中,这个策略可以根据棋盘的情况指导每一步应该落在哪里;在股票交易中,这个策略会告诉我们何时买入,何时卖出。
强化学习模型一般由以下部分组成:
一组可以动态变化的状态
对于围棋棋盘上黑白棋子的分布来说,对于股票交易来说,就是股票的价格。
一组可选择的动作(提及)
对于围棋来说,它是指棋子可以摆放的位置;对于股票交易来说,它是指某一时点买入或卖出的股票及数量。
可以和决策主体(Agent)交互的环境。这个环境决定了每次动作之后状态如何变化。
下棋者(主体)的走法会影响棋局(环境),环境会奖励(赢)或惩罚(输)主体;交易者(主体)的买入或卖出会影响股价(环境,供求决定价格),环境会奖励(赚钱)或惩罚(输钱)主体。
奖励规则当决策主体通过行动改变状态时,会得到奖励或者受到惩罚(奖励为负值)。
如果读者有时间,建议自行阅读《人工智能基础高中版》这本书。
原文链接:
本文作者为金基(微信公众号jinkey-love,官网)
#专栏作家#
金基,前腾讯手机管家产品运营,前拍拍、微信购物产品经理。分享产品经验、技术普及的P-1产品菜鸟。关注社交产品、企业产品、机器学习、iOS开发,公众号jinkey-love,欢迎大家交流。
我要评论