Release Notes

训练框架

易用性
- 在Program编译时，如果程序报错，会将Python栈报错信息打印出。相关PR#19067
- 在使用CPU进行训练时，如果没有设置CPU_NUM，会打印出warning信息。相关PR#18840
- 在ParallelExecutor构建时，将Program中存在feed操作剪掉。相关PR#18997
- 在PE中对Compile操作延迟执行。相关PR#19080
- 修复Op不需要反向Op的注册问题，由于某些Op没有反向Op而导致组网过程中程序挂掉。相关PR#19251
- 在Backward过程中，自动对不必要的Op进行剪枝。相关PR#18700 #17942
性能
- 优化和开启recurrent op显存回收，使PaddingRNN benchmark速度提升4%，耗显存下降6.2%。
- 对动态图的多卡性能进行优化，目前tTransformer Base模型的8卡加速比6.01，ResNet50模型的8卡加速比5.79。相关PR#19280 #18892
- 数据读取操作中改为使用cuda pinned memory将数据拷贝到GPU设备上，fast_resnet的训练速度提升了约5%。相关PR#19112
显存
- 优化默认显存预分配策略。新策略会默认预分配GPU当前可用显存的92%，而不是总显存的92%，保证用户在已有任务占用显存时起PaddlePaddle任务不会失败。
- 修复了affine_channel op在scale和bias有梯度时开启垃圾回收策略后出现变量误删除的Bug。相关PRPR18849。
op 修复
- 修复gather op中输入Index为空时程序未能及时报错的问题。相关PR#19168
- 修复scatter op反向计算过程中输出梯度没有初始化的Bug。相关PR#18640
windows支持
- 增加了cuda9, cuda10 的预测库支持，支持编译cuda9 与 cuda10的预测库
- windows平台CUDA相关报错优化，优化了部分cuda和cublas相关API调用出错的提示信息
- 预测库编译和文档优化，优化了windows平台下预测库编译的文档说明
安装
- 修复了文档中的部分错漏
- 增加了conda的安装支持和相关文档

预测部署

增加paddle-trt fp16支持
修复Mask RCNN模型预测的Bug
- 修复affine channel fuse 导致mask rcnn的diff。
- 修复condition block op导致预测期间显存/内存持续增长问题。
- 修复merge lod tensor op导致的bug：当有中间样例预测为空时，后续的样例都被预测为空。
- 修复预测中打开memory optim开关由于lod_reset op导致的结果diff问题。
修复TensorRT多线程clone预测会访问野指针的Bug。相关PR#19379
修复tensor_array_to_tensor临时scope导致的显存/内存泄漏。相关PR#19380
修复Anakin接口调用的一处尺寸错误。相关PR#19383
支持seqpool_cvm_concat的融合。相关PR#19381
升级预测Python API，支持直接使用numpy传递数据。

分布式训练

修复distributed lookup table模式下save参数的Bug。
修复communicator模式析构时core dump的Bug。相关PR#18606
修复同步模式下，训练过程中出现rpc deadline的Bug。相关PR#18984
修复compiled program模式下使用communicator。相关PR#18350
- 修复了文档中关于多机增量训练的错误。相关PR#1077
修复了Fleet API GPU训练的Bug。相关PR#18966 #19167

动态图

修复了动态图下conv2d transpose op bias问题。

模型建设

添加了roi_perspective_transform变换矩阵和mask的输出。
修复了depthwise_conv kernel size为5x5时的Bug。
修复了sqrt, square二次反向操作中的InferShape问题，使得生成模型中含有InstanceNorm的梯度惩罚可以正常使用。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

PaddlePaddle 1.5.2

Release Notes

训练框架

预测部署

分布式训练

动态图

模型建设