本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
9787111661283 9787121295164
书 名: 迁移学习
图书定价: 139元
作 者: 杨强
出 版 社: 机械工业出版社
出版日期: 2020-08-01
ISBN 号: 9787111661283
开 本: 16开
页 数: 0
版 次: 1-1
暂时没有内容介绍,请见谅!
推荐序
译者序
前 言
一部分 迁移学习的基础
1章 绪论/2
1.1 人工智能、机器学习以及迁移学习/2
1.2 迁移学习:定义/6
1.3 与已有机器学习范式的关系/9
1.4 迁移学习的基础研究问题/11
1.5 迁移学习应用/11
1.5.1 图像理解/11
1.5.2 生物信息学和生物成像/12
1.5.3 推荐系统和协同过滤/12
1.5.4 机器人和汽车自动驾驶/13
1.5.5 自然语言处理和文本挖掘/13
1.6 历史笔记/14
1.7 关于本书/15
2章 基于样本的迁移学习/19
2.1 引言/19
2.2 基于样本的非归纳式迁移学习/20
2.2.1 判别区分源数据和目标数据/22
2.2.2 核平均匹配/23
2.2.3 函数估计/23
2.3 基于样本的归纳式迁移学习/24
2.3.1 集成源损失与目标损失/24
2.3.2 Boosting风格的方法/26
2.3.3 样本生成方法/27
3章 基于特征的迁移学习/29
3.1 引言/29
3.2 小化域间差异/30
3.2.1 大均值差异/30
3.2.2 基于Bregman散度的正则化/34
3.2.3 使用特定分布假设的度量/34
3.2.4 数据依赖的域差异度量/35
3.3 学习通用特征/36
3.3.1 学习通用编码/36
3.3.2 深度通用特征/37
3.4 特征增强/38
4章 基于模型的迁移学习/40
4.1 引言/40
4.2 基于共享模型成分的迁移学习/42
4.2.1 利用高斯过程的迁移学习/42
4.2.2 利用贝叶斯模型的知识迁移/43
4.2.3 利用深度模型的模型迁移/44
4.2.4 其他方法/45
4.3 基于正则化的迁移/45
4.3.1 基于支持向量机的正则化/46
4.3.2 基于多核学习的迁移学习/47
4.3.3 深度模型中的微调方法/48
5章 基于关系的迁移学习/52
5.1 引言/52
5.2 马尔可夫逻辑网络/54
5.3 利用马尔可夫网络的基于关系的迁移学习/55
5.3.1 通过一阶逻辑的浅层迁移/55
5.3.2 通过二阶逻辑的深度迁移/57
5.3.3 通过结构类比的迁移学习/59
6章 异构迁移学习/61
6.1 引言/61
6.2 异构迁移学习问题/63
6.3 方法/63
6.3.1 异构特征空间/64
6.3.2 异构标签空间/78
6.4 应用/79
7章 对抗式迁移学习/82
7.1 引言/82
7.2 生成对抗网络/83
7.3 采用对抗式模型的迁移学习/86
7.3.1 生成目标域数据/87
7.3.2 通过对抗式学习来学习域不变特征/89
7.4 讨论/91
8章 强化学习中的迁移学习/92
8.1 引言/92
8.2 背景/93
8.2.1 强化学习/94
8.2.2 强化学习任务中的迁移学习/95
8.2.3 迁移学习在强化学习中的目标/96
8.2.4 迁移强化学习分类/98
8.3 任务间迁移学习/99
8.3.1 基于样本的迁移/99
8.3.2 基于特征的迁移/100
8.3.3 基于模型的迁移/103
8.3.4 解决“迁移时机”问题/105
8.4 域间迁移学习/105
8.4.1 基于样本的迁移/106
8.4.2 基于特征的迁移/107
8.4.3 基于模型的迁移/108
9章 多任务学习/109
9.1 引言/109
9.2 定义/111
9.3 多任务监督学习/111
9.3.1 基于特征的多任务监督学习/112
9.3.2 基于模型的多任务监督学习/114
9.3.3 基于样本的多任务监督学习/120
9.4 多任务无监督学习/120
9.5 多任务半监督学习/120
9.6 多任务主动学习/121
9.7 多任务强化学习/121
9.8 多任务在线学习/121
9.9 多任务多视图学习/122
9.10 并行与分布式多任务学习/122
10章 迁移学习理论/123
10.1 引言/123
10.2 多任务学习的泛化界/124
10.3 监督迁移学习的泛化界/127
10.4 无监督迁移学习的泛化界/129
11章 传导式迁移学习/131
11.1 引言/131
11.2 混合图上的传导式迁移学习/133
11.2.1 问题定义/134
11.2.2 混合迁移算法/135
11.3 基于隐性特征表示的传导式迁移学习/137
11.3.1 问题定义/137
11.3.2 耦合的矩阵三因子分解算法/138
11.4 基于深度神经网络的传导式迁移学习/141
11.4.1 问题定义/141
11.4.2 选择学习算法/142
12章 自动迁移学习:学习如何自动迁移/146
12.1 引言/146
12.2 L2T框架/147
12.3 参数化“迁移什么”/148
12.3.1 基于公共隐空间的算法/149
12.3.2 基于流形集成的算法/149
12.4 从经验中学习/149
12.4.1 源域和目标域之间的差异/149
12.4.2 目标域判别能力/151
12.4.3 优化问题/151
12.5 推断“迁移什么”/151
12.6 与其他学习范式的联系/152
12.6.1 迁移学习/152
12.6.2 多任务学习/153
12.6.3 终身机器学习/153
12.6.4 自动化机器学习/153
13章 小样本学习/155
13.1 引言/155
13.2 零样本学习/156
13.2.1 概述/156
13.2.2 零样本学习算法/157
13.3 单样本学习/161
13.3.1 概述/161
13.3.2 单样本学习算法/161
13.4 贝叶斯规划学习/163
13.4.1 概述/163
13.4.2 用于识别字符笔画的贝叶斯规划学习/163
13.5 短缺资源学习/166
13.5.1 概述/166
13.5.2 机器翻译/166
13.6 域泛化/168
13.6.1 概述/168
13.6.2 偏差SVM/169
13.6.3 多任务自动编码器/169
14章 终身机器学习/171
14.1 引言/171
14.2 终身机器学习:定义/172
14.3 通过不变的知识进行终身机器学习/173
14.4 情感分类中的终身机器学习/174
14.5 共享模型组件用于多任务学习/177
14.6 永无止境的语言学习/178
二部分 迁移学习的应用
15章 隐私保护的迁移学习/184
15.1 引言/184
15.2 差分隐私/185
15.2.1 定义/185
15.2.2 隐私保护的正则化经验风险小化/186
15.3 隐私保护的迁移学习/188
15.3.1 问题设置/188
15.3.2 目标提升/188
15.3.3 多方学习/191
15.3.4 多任务学习/193
16章 计算机视觉中的迁移学习/194
16.1 引言/194
16.2 概述/195
16.2.1 浅层迁移学习模型/195
16.2.2 深度迁移学习模型/199
16.2.3 迁移学习用于其他视觉任务/200
16.3 迁移学习用于医学图像分析/201
16.3.1 医学图像分类/201
16.3.2 医学图像异常检测/203
16.3.3 医学图像分割/204
17章 自然语言处理中的迁移学习/205
17.1 引言/205
17.2 NLP中的迁移学习/205
17.2.1 问题设置/206
17.2.2 NLP应用中的参数初始化/206
17.2.3 NLP应用中的多任务学习/207
17.3 情感分析中的迁移学习/212
17.3.1 问题定义和符号/214
17.3.2 浅模型/214
17.3.3 基于深度学习的方法/217
18章 对话系统中的迁移学习/226
18.1 引言/226
18.2 问题形式化定义/228
18.3 口语理解中的迁移学习/228
18.3.1 问题定义/229
18.3.2 模型适配/229
18.3.3 基于样本的迁移/229
18.3.4 参数迁移/230
18.4 对话状态跟踪中的迁移学习/231
18.4.1 基于特征的多领域对话状态跟踪/231
18.4.2 基于模型的多领域对话状态跟踪/231
18.5 对话策略学习中的迁移学习/232
18.5.1 针对Q学习的迁移线性模型/233
18.5.2 针对Q学习的迁移高斯过程/233
18.5.3 针对Q学习的迁移贝叶斯委员会机器/235
18.6 自然语言生成中的迁移学习/236
18.6.1 自然语言生成中的模型微调/237
18.6.2 自然语言生成中的课程学习/237
18.6.3 自然语言生成中的样本/237
18.7 端到端对话系统中的迁移学习/238
18.7.1 完全参数微调/239
18.7.2 部分参数共享/239
19章 推荐系统中的迁移学习/247
19.1 引言/247
19.2 在推荐中迁移什么/248
19.2.1 推荐系统中基于样本的迁移学习方法/248
19.2.2 推荐系统中基于特征的迁移学习方法/249
19.2.3 推荐系统中基于模型的迁移学习方法/251
19.3 新闻推荐/252
19.3.1 问题定义/253
19.3.2 挑战和解决方案/254
19.3.3 解决方案:基于邻域的迁移学习/254
19.4 社交网络中的VIP推荐/255
19.4.1 问题定义/256
19.4.2 挑战和解决方案/257
19.4.3 解决方案:基于社交关系的迁移/258
20章 生物信息学中的迁移学习/260
20.1 引言/260
20.2 生物信息学中的机器学习问题/261
20.3 生物序列分析/262
20.4 基因表达分析和遗传分析/265
20.5 系统生物学/266
20.6 生物医学文本和图像挖掘/268
20.7 基于深度学习的生物信息学/268
20.7.1 深度神经追踪/268
20.7.2 生物信息学中的深度迁移学习/272
21章 行为识别中的迁移学习/273
21.1 引言/273
21.2 针对无线定位的迁移学习/273
21.2.1 依赖于环境的数据稀疏性挑战/274
21.2.2 基于特征的迁移学习用于定位/276
21.2.3 基于样本的迁移学习用于定位/278
21.2.4 基于模型的迁移学习用于定位/280
21.3 针对行为识别的迁移学习/282
21.3.1 背景/282
21.3.2 问题设置/284
21.3.3 跨特征空间的迁移/285
21.3.4 跨标签空间的迁移/287
22章 城市计算中的迁移学习/289
22.1 引言/289
22.2 城市计算中的“迁移什么”/290
22.3 城市计算中迁移学习的关键问题/291
22.4 连锁店推荐/292
22.4.1 问题设置/292
22.4.2 CityTransfer模型/293
22.5 空气质量预测/295
22.5.1 问题设置/295
22.5.2 FLORAL模型/296
23章 结束语/297
参考文献/299
名词中英文对照/341
强化学习(2版)
《强化学习(2版)》作为强化学习的深度解剖之作,被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法,并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。
《强化学习(2版)》适合所有对强化学习感兴趣的读者阅读、收藏。
1章 导论 1
1.1 强化学习 1
1.2 示例 4
1.3 强化学习要素 5
1.4 局限性与适用范围 7
1.5 扩展实例:井字棋 8
1.6 本章小结 12
1.7 强化学习的早期历史 13
I部分 表格型求解方法 23
2章 多臂赌博机 25
2.1 一个 k 臂赌博机问题 25
2.2 动作-价值方法 27
2.3 10 臂测试平台 28
2.4 增量式实现 30
2.5 跟踪一个非平稳问题 32
2.6 乐观初始值 34
2.7 基于置信度上界的动作选择 35
2.8 梯度赌博机算法 37
2.9 关联搜索 (上下文相关的赌博机) 40
2.10 本章小结 41
3章 有限马尔可夫决策过程 45
3.1 “智能体-环境”交互接口 45
3.2 目标和收益 51
3.3 回报和分幕 52
3.4 分幕式和持续性任务的统一表示法 54
3.5 策略和价值函数 55
3.6 优策略和优价值函数 60
3.7 优性和近似算法 65
3.8 本章小结 66
4章 动态规划 71
4.1 策略评估 (预测) 72
4.2 策略改进 75
4.3 策略迭代 78
4.4 价值迭代 80
4.5 异步动态规划 83
4.6 广义策略迭代 84
4.7 动态规划的效率 85
4.8 本章小结 86
5章 蒙特卡洛方法 89
5.1 蒙特卡洛预测 90
5.2 动作价值的蒙特卡洛估计 94
5.3 蒙特卡洛控制 95
5.4 没有试探性出发假设的蒙特卡洛控制 98
5.5 基于重要度采样的离轨策略 101
5.6 增量式实现 107
5.7 离轨策略蒙特卡洛控制 108
5.8 ? 折扣敏感的重要度采样 110
5.9 ? 每次决策型重要度采样 112
5.10 本章小结 113
6 章 时序差分学习 117
6.1 时序差分预测 117
6.2 时序差分预测方法的优势 122
6.3 TD(0) 的优性 124
6.4 Sarsa:同轨策略下的时序差分控制 127
6.5 Q 学习:离轨策略下的时序差分控制 129
6.6 期望 Sarsa 131
6.7 大化偏差与双学习 133
6.8 游戏、后位状态和其他特殊例子 135
6.9 本章小结 136
7章 n 步自举法 139
7.1 n 步时序差分预测 140
7.2 n 步 Sarsa 144
7.3 n 步离轨策略学习 146
7.4 ? 带控制变量的每次决策型方法 148
7.5 不需要使用重要度采样的离轨策略学习方法:n 步树回溯算法 150
7.6 ? 一个统一的算法:n 步 Q(σ) 153
7.7 本章小结 155
8章 基于表格型方法的规划和学习 157
8.1 模型和规划 157
8.2 Dyna:集成在一起的规划、动作和学习 159
8.3 当模型错误的时候 164
8.4 优先遍历 166
8.5 期望更新与采样更新的对比 170
8.6 轨迹采样 173
8.7 实时动态规划 176
8.8 决策时规划 179
8.9 启发式搜索 180
8.10 预演算法 182
8.11 蒙特卡洛树搜索 184
8.12 本章小结 187
8.13 I部分总结 188
II部分 表格型近似求解方法 193
9章 基于函数逼近的同轨策略预测 195
9.1 价值函数逼近 195
9.2 预测目标 (VE ) 196
9.3 随机梯度和半梯度方法 198
9.4 线性方法 202
9.5 线性方法的特征构造 207
9.5.1 多项式基 208
9.5.2 傅立叶基 209
9.5.3 粗编码 212
9.5.4 瓦片编码 214
9.5.5 径向基函数 218
9.6 手动选择步长参数 219
9.7 非线性函数逼近:人工神经网络 220
9.8 小二乘时序差分 225
9.9 基于记忆的函数逼近 227
9.10 基于核函数的函数逼近 229
9.11 深入了解同轨策略学习:“兴趣”与“强调” 230
9.12 本章小结 232
10章 基于函数逼近的同轨策略控制 239
10.1 分幕式半梯度控制 239
10.2 半梯度 n 步 Sarsa 242
10.3 平均收益:持续性任务中的新的问题设定 245
10.4 弃用折扣 249
10.5 差分半梯度 n 步 Sarsa 251
10.6 本章小结 252
11 章 ? 基于函数逼近的离轨策略方法 253
11.1 半梯度方法 254
11.2 离轨策略发散的例子 256
11.3 致命三要素 260
11.4 线性价值函数的几何性质 262
11.5 对贝尔曼误差做梯度下降 266
11.6 贝尔曼误差是不可学习的 270
11.7 梯度 TD 方法 274
11.8 强调 TD 方法 278
11.9 减小方差 279
11.10 本章小结 280
12章 资格迹 283
12.1 λ-回报 284
12.2 TD(λ) 287
12.3 n-步截断 λ- 回报方法 291
12.4 重做更新:在线 λ-回报算法 292
12.5 真实的在线 TD(λ) 294
12.6 ? 蒙特卡洛学习中的荷兰迹 296
12.7 Sarsa(λ) 298
12.8 变量 λ 和 γ 303
12.9 带有控制变量的离轨策略资格迹 304
12.10 从 Watkins 的 Q(λ) 到树回溯 TB(λ) 308
12.11 采用资格迹保障离轨策略方法的稳定性 310
12.12 实现中的问题 312
12.13 本章小结 312
13章 策略梯度方法 317
13.1 策略近似及其优势 318
13.2 策略梯度定理 320
13.3 REINFORCE:蒙特卡洛策略梯度 322
13.4 带有基线的 REINFORCE 325
13.5 “行动器-评判器”方法 327
13.6 持续性问题的策略梯度 329
13.7 针对连续动作的策略参数化方法 332
13.8 本章小结 333
III部分 表格型深入研究 337
14章 心理学 339
14.1 预测与控制 340
14.2 经典条件反 341
14.2.1 阻塞与条件反 342
14.2.2 Rescorla-Wagner 模型 344
14.2.3 TD 模型 347
14.2.4 TD 模型模拟 348
14.3 工具性条件反 355
14.4 延迟强化 359
14.5 认知图 361
14.6 习惯行为与目标导向行为 362
14.7 本章小结 366
15章 神经科学 373
15.1 神经科学基础 374
15.2 收益信号、强化信号、价值和预测误差 375
15.3 收益预测误差假说 377
15.4 多巴胺 379
15.5 收益预测误差假说的实验支持 382
15.6 TD 误差/多巴胺对应 385
15.7 神经“行动器-评判器” 390
15.8 行动器与评判器学习规则 393
15.9 享乐主义神经元 397
15.10 集体强化学习 399
15.11 大脑中的基于模型的算法 402
15.12 成瘾 403
15.13 本章小结 404
16 章 应用及案例分析 413
16.1 TD-Gammon 413
16.2 Samuel 的跳棋程序 418
16.3 Watson 的每日双倍投注 421
16.4 优化内存控制 424
16.5 人类级别的视频游戏 428
16.6 主宰围棋游戏 433
16.6.1 AlphaGo 436
16.6.2 AlphaGo Zero 439
16.7 个性化网络服务 442
16.8 热气流滑翔 446
17章 前沿技术 451
17.1 广义价值函数和辅助任务 451
17.2 基于选项理论的时序摘要 453
17.3 观测量和状态 456
17.4 设计收益信号 460
17.5 遗留问题 464
17.6 人工智能的未来 467
参考文献 473
暂时没有目录,请见谅!