利用AI创建无需人为干预即可适应的自主策略
政策是任何成功组织的基础。 政策是组织的规则或法律。 策略记录了原则,最佳实践和合规性准则,这些准则有助于决策支持业务的一致和可重复运营。哎呀,有人可能会说,组织的文化更好地由其政策来定义,而不是由其领导团队的性质来定义。
不幸的是,自“ 时间和动作研究 ” 时代以来,策略的管理,创建和执行并没有发生太大变化。 在许多情况下,策略不过是假设规则的静态列表,该规则控制了在明确定义的情况下工人的工作方式。 例如,[ 如果您的汽车自上次换油以来已经行驶了3
但是,如果……这些政策不仅是静态的if-then规则,又是基于AI的模型,该模型根据企业运营所处环境的不断发展变化而改变了行动以优化操作而又无需人工干预,该怎么办?
就像我们看到AI被用来创建无需人工干预就能学习和适应的自动驾驶汽车,机器人和设备一样,我们能否利用AI来创建无需人工干预就能学习和适应的自主策略?
创建自治策略
首先,让我们对“政策”的定义进行现代化处理:
“策略”是一组基于代理的(人或机器)分析的汇总代码,可基于当前状态(或环境)指导行动(或决策),以优化,自动化和运营(扩展)组织的业务和运营模型。
我的假设是:如果可以对政策进行记录和自动化,则可以将其与AI / ML集成以实现自治,从而使政策和程序无需人工干预即可学习和适应。自我监控,自我诊断,自我学习和自我改变/发展的政策?
识别 à文档 à编码 à自动化+ AI / MLDL产生自主策略,这些策略无需人工干预即可学习并不断发展
如果自主设备可以通过交互来获取有关环境的信息,通过交互进行学习并在没有人工干预的情况下更新其运营模型,那么支持业务运营的策略为什么不能做同样的事情?
实现自治
实现自治取决于将AI或深度强化学习应用于这些政策的治理和演变的能力。深度强化学习是用于图像识别和分类的深度神经网络(卷积神经网络)与用于自主主体的强化学习的结合,以学习并提高操作效率以产生收益。 将卷积神经网络(CNN)与强化学习相结合,可以使代理识别其当前状态,并根据给定的当前状态对执行的最佳动作进行排名。
深度强化学习的目标是让自主的“特工”通过与环境的持续接触来学习成功的策略。 使用最佳策略,代理可以主动适应不断变化的环境,以在最大限度地降低成本的同时最大化回报(当前和未来)(见图1)。
图 1:代理与其环境进行交互,试图采取行动以最大化累积奖励
图1中的深度强化学习因素包括:
状态:周围环境中所有实体的当前位置。对于自动驾驶汽车,它将是周围所有实体(包括其他汽车,骑自行车的人和行人)的位置,方向和速度。
行动:潜在行动清单。对于我们的自动驾驶汽车,潜在动作清单可能包括转向,停止,减速,加速和倒车。
奖励:最大化正向奖励(安全地导航到下一个位置,安全地到达最终??目的地),同时最小化负向奖励(崩溃,浪费燃料,增加碳排放,伤害其他人,交通罚单)
策略:状态到操作的映射,定义了代理在给定情况下应采取的操作,以最大程度地提高其积极回报,同时最小化其消极回报
例如,今天我们有一项社会政策或规则,规定当驾驶员同时到达十字路口时应该做什么。当两辆车同时到达四向停车站并面对面放置时,其中一辆车要向右转,另一辆车要向左转,则右转车道是右行的。进入交叉路口之前,请缓慢向前移动,以指示您转弯的其他驾驶员。向左转的驾驶员应等到另一辆车完全驶过时(见图2)。
图 2:“ 四通止损的四个规则 ”
但是,用自动驾驶汽车一词来说,那些用于指导安全决策在路口导航的if-then规则将行不通。完美的交通和减少的交通拥堵的承诺将让位于路口起停的一系列沮丧的自动驾驶汽车所取代。
因此,我们不得不制定一项新的政策,该政策可以不断学习并随着交通方式的流量和密度在整个交通枢纽的变化而不断发展,而不是决定何时将多辆汽车同时到达十字路口而推迟到谁那里去。当天并针对特殊事件和情况进行响应(请参见图3)。
图 3:企业电视广告,“ 运输的未来 ”
无人驾驶汽车(代理商)必须不断地进行监视,诊断和学习,以主动适应不断变化的环境,从而在不需人工干预的情况下将未来的回报最大化,同时将成本降至最低。
创建自治策略
如果自主设备或车辆可以通过交互获得有关环境的信息,通过交互进行学习并在没有人工干预的情况下更新其运营模型,那么支持业务运营的政策为什么不能做同样的事情? 例如:
一种预测性维护策略,其中考虑了每个部分的因素,例如剩余使用寿命,需求预测,产品性能异常检测,该库存的成本,该库存的数量,该库存的位置以及该部分对整体运营的相对重要性(例如,在经营一家酒店时,对于灯泡的重要性不如空调机组或电梯,停机时间可能会对利润和客人满意度产生重大影响的灯泡,人们可能会接受不太准确的“预测性维护”政策)建议措施。
一个库存优化策略,它考虑到每个库存项目,例如需求预测,剩余使用寿命,供应商可靠性异常检测,当前库存水平和库存位置,预计的过时库存等因素,以采取规定的建议措施。
一种客户保留政策,其中考虑了每个客户的购买或参与历史,购买或参与异常检测,该客户的当前生命周期价值,[预测的客户生命周期价值]等因素(考虑了诸如当前生命周期之类的因素,因为如果您现在空洞的话,那么对于主题公园运营商来说,突然之间您可能就没那么值钱了,无法按照规范进行建议的操作。
摘要:创建自主业务
使用深度强化学习,我们可以从静态策略过渡到自治策略,从而学习如何将任何给定情况(或状态)映射到为达到预期目标而无需人工干预的行动。这些自主政策将根据不断变化的环境因素(例如天气模式,经济条件,商品价格,贸易和赤字平衡,全球GDP增长,学生债务水平,时尚趋势,赢得世界冠军的幼崽)动态学习和更新。系列等)。
自主策略(基于不断变化的环境因素不断学习和更新的策略)会带来自主业务吗? 这是自治商务的现代数学吗?
自主策略=识别 à文档 à编纂 à自动化+ AI / MLDL产生无需人工干预即可学习并不断发展的策略
在我下次前往爱尔兰时,要考虑吉尼斯或三吉尼斯的事情。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


雷达卡



京公网安备 11010802022788号







