一个完整的深度学习框架包含两个主要部分:训练(training)和推理(inference) 训练就是用标记数据来优化神经网络调整参数 推理就是用训练好的模型来给一个无标签数据然后返回一个预测结果。剪枝和量化操作就是为了优化推理的效率,因为训练好的模型通过剪枝和量化之后可以在损失很小精度的情况下提升大幅的推理速度