在构建 AI 系统时,谈论它们的“级别”会很有用,就像SAE 有自动驾驶汽车的级别一样。采用水平系统可以帮助组织规划和准备随着时间的推移复杂性扩展的人工智能系统。关卡可以为不同 AI 系统的行为方式提供核心断点。使用级别 - 并在级别之间进行权衡 - 可以帮助提供部署后差异的简写。
了解系统可能会发生什么样的行为变化并将其纳入系统设计至关重要。下面的分级框架概述了系统随时间变化的核心差异:我们可以在设计系统和操作系统时使用这些差异。不同的组件可以处于不同的级别;了解它们的不同之处可以帮助规划和执行。
系统复杂性由其 (a) 输入、(b) 输出和 (c) 目标的范围定义。
人工智能等级
一般来说,随着级别的提高,价值会增加,例如,一个目标可能是将在级别 1 运行的系统移动到级别 2,但系统构建的复杂性(和成本)也会随着级别的提高而增加。从“低”级别的新功能开始非常有意义,其中系统行为被很好地理解,然后逐渐提高级别 - 因为随着级别的增加,理解系统的故障案例变得更加困难。
重点应该是了解问题和解决方案的空间。与较高级别相比,较低级别更加一致,并且可能是探索可能解决方案的更好途径,较高级别的成本和性能可变性可能是很大的障碍。
随着我们从传统软件(0 级)升级到完全智能软件(4 级),人工智能系统的级别提供了显着影响系统成本的断点。第 4 级的系统基本上是自己维护和改进的——它们需要内部开发团队的工作可以忽略不计。
提升一个级别需要权衡取舍。例如,从级别 1 迁移到级别 2 会减少持续的数据需求和定制工作,但会引入自我强化的偏差问题。选择提升一个级别需要认识到新的挑战,以及在设计我们的人工智能系统时要采取的行动。
在升级过程中,可扩展性(通常是性能/健壮性/等)具有显着优势。我们应该认识到收益和成本;当我们在N级进行项目时,我们应该考虑达到N+1的工作。我们应该以适合我们想要达到的目标的水平为目标,并认识到何时需要重建现有的人工智能系统以改变水平。
0级:确定性
不需要训练数据,不需要测试数据
不涉及学习(例如使参数适应数据)的算法处于零级。
0 级(计算机科学中的传统算法)的最大好处是它们非常可靠,并且如果您解决了问题,可以证明是最佳解决方案。如果你能在 0 级解决问题,那就很难被击败。在某些方面,所有算法——甚至排序算法(如二进制搜索)——都“自适应”于数据。我们通常不认为排序算法是“学习”的。学习涉及记忆——系统根据过去学到的东西改变未来的行为方式。
但是,有些问题无法使用预先指定的算法解决方案。不利的一面是,对于难以理解的问题(一次或多次),可能很难很好地执行(例如语音到文本、翻译、图像识别、话语建议等)。
例子:
用于信用卡验证的 Luhn 算法
基于正则表达式的系统(例如信用卡号码的简单编辑系统)。
信息检索算法,如 TFIDF 检索或 BM25。
基于字典的拼写纠正。
注意:在某些情况下,可以调整少量参数。例如,ElasticSearch 提供了修改 BM25 参数的能力。我们可以将这些视为调整参数,即设置和忘记。这是一条模糊的线。
级别 1:学习
静态训练数据、静态测试数据
您在离线设置中训练模型并使用“冻结”权重部署到生产的系统。模型可能会有更新的节奏(例如添加更多注释数据),但模型运行的环境不会影响模型。
级别 1 的好处是您可以以一些训练数据的适度成本学习和部署任何功能。这是尝试不同类型解决方案的好地方。而且,对于常见元素的问题(例如语音识别),您可以从边际成本递减中受益。
缺点是对单个用例的定制在数量上是线性的:您需要为每个用例管理训练数据。这可能会随着时间而改变,因此您需要不断添加注释以保持性能。这个成本可能难以承受。
例子:
自定义文本分类模型
语音转文本(声学模型)
2级:自学
动态+静态训练数据、静态测试数据
使用系统生成的训练数据来改进模型的系统。在某些情况下,数据生成独立于模型(因此我们预计随着更多数据的添加,模型性能会随着时间的推移而提高);在其他情况下,干预的模型会加剧模型偏差,并且性能会随着时间的推移而变得更糟。为了消除加强偏见的机会,我们需要在静态(可能带注释的)数据集上评估新模型。
2 级很棒,因为性能似乎随着时间的推移免费提高。不利的一面是,如果无人看管,系统可能会变得更糟——它可能无法通过更多数据变得更好。另一个限制是,一些二级系统的改进能力可能有限,因为它们基本上以自己为食(生成自己的训练数据);解决这种偏见可能具有挑战性。
例子:
天真的垃圾邮件过滤器
通用语音转文本模型(语言模型)
3级:自主(或自我纠正)
动态训练数据、动态测试数据
既能改变人类行为(例如推荐一个动作并让用户选择加入)又能直接从该行为中学习的系统,包括系统的选择如何改变用户行为。从 2 级升级到 3 级可能代表系统可靠性和总体可实现性能的大幅提高。
3 级很棒,因为它可以随着时间的推移不断变得更好。然而,它更复杂:它可能需要真正惊人的数据量,或者非常精心设计的设置,才能比简单的系统做得更好;它对环境的适应能力也使得调试起来非常困难。也可能有真正的灾难性反馈回路。例如,人类纠正了电子邮件垃圾邮件过滤器 - 然而,由于人类只能纠正系统所做的错误分类,因此它知道它的所有预测都是错误的并反转了它自己的预测。
级别 4:智能(或全局优化)
动态训练数据、动态测试数据、动态目标
与环境动态交互并进行全局优化(例如,针对某些下游目标集)的系统,例如在优化 AHT 和 CST 的同时促进代理,或直接优化以获取利润。例如,AutoSuggest 模型不会针对下一次点击(当前方法)进行优化,而是针对最佳点击系列来优化对话。
第 4 级有很好的前景——如何到达那里并不总是很明显,除非经过精心设计,否则这些系统可以针对退化的解决方案进行优化。将他们瞄准正确的问题、塑造奖励并审核其行为是一项艰巨的任务。
相关帖子DA内容精选
|