强化学习报告
本周主题:值函数估计
讲解人:陈鑫
简要介绍:主要讨论值函数的估计问题,主要研究两类方法:增量方法(Incremental Methods)、批方法(Batch Methods)。其中增量方法主要是从online方面考虑。批方法主要是从data efficient方面考虑。在模型无关的预测中,我们介绍了如何对给定策略进行估计,但当时讨论的是利用lookup table来表示值函数,也即我们用一个矩阵存储不同状态、动作对应的值,可想而知,这种方法难以处理较为复杂的问题,比如连续状态空间问题或者是连续动作空间问题。所以,我们就想要用一种方法来对值函数进行估计,比如说神经网络。

项目进展报告
项目名称:WMS仓储信息系统
讲解人:袁秀兰
本周进展:
子项目:仓储系统WEB端
- 下架订单初步完成。
- Layui工具条编辑和删除demo完成。
- Amazeui框架实现登录页面。
- 仓储实时地图调研。
- 入库管理模块完成。
子项目:测试系统
- 功能模块及业务流程设计
- 基本功能的测试。

项目名称:室内导览
讲解人:刘晓龙
本周进展:
- 完善人脸识别模块,陌生人自动加载到人脸库
- 小车倒退代码的完善
- Turtlebot实体测试代码
- 初步完成人体姿势识别模块smach状态机的编写

项目名称:室内导览
讲解人:马明扬
本周进展:
- 将写字程序添加至原有demo中,并可以语音控制,及语音控制其写字内容。
- 测试工程上层决策,大部分都可以跳转成功,对原工程(只能通过固定命令跳转)做了改进,提高了对话的灵活度,利用结巴分词模块一般都能理解用户的意思。但在测试中有个站立的命令测试失败,原因是结巴分词将”站起来”分割成了”站起”和”起来”,而动作库中未有两个词,将两词添加如动作库,即可解决问题。
- 将工程中原有代码中的固定路径用os模块中的getcwd函数代替,提高代码通用性。
- 加入nao按键控制,初步尝试官网代码,经过实体测试无果。现正尝试先将控制nao说话的代码加改为:nao说出被触碰的位置,还未实现测试。
- 将直走,后退,左转右转代码加以改善,测试完成。
- 继续整理nao机器人打高尔夫的代码。

项目名称:RoboCup仿真3D组
讲解人:高岩松
本周进展:
- 1类型机器人转身优化测试。修改评价函数,增加了加速度计的部分。
- 行走引擎方面总结了3D组和SPL的关节区别。针对相似部分进行调研。
- 调研完成了分布式匈牙利算法并总结。

