什么是AI对齐控制问题?
随着ChatGPT和微软的Bing Chat等现代AI语言模型在全球范围内引起轰动,许多人担心AI将接管世界。
虽然在可预见的未来我们不会遇到天网,但AI在某些方面已经超越人类。这就是AI控制问题的所在。
AI控制问题是指AI最终将比人类在决策方面做得更好。根据这一理论,如果人类不事先正确设置事物,我们就没有机会在事后修复这些问题,这意味着AI将拥有有效的控制权。
目前,关于AI和机器学习模型的研究至少还需要几年才能超越人类能力。然而,考虑到当前的进展,认为AI在智能和效率方面将超过人类是合理的。
这并不意味着AI和机器学习模型没有局限性。毕竟,它们受物理法则和计算复杂性的限制,还受支持这些系统的设备的处理能力限制。然而,可以肯定的是,这些限制远远超出了人类的能力。
这意味着,如果没有正确设计并设置保障措施来检查潜在的不当行为,超智能AI系统可能构成重大威胁。这些系统需要从根本上建立起来,以尊重人类的价值观并控制它们的权力。这就是控制问题所说的正确设置的含义。
如果一个AI系统在没有适当的保障措施下超越人类智能,结果可能是灾难性的。这样的系统可能会控制物质资源,因为许多任务可以更好或更高效地完成。由于AI系统被设计为实现最大效率,失去控制可能会导致严重后果。
主要问题是,AI系统越好,人类监督员监控技术越困难,以确保在系统故障时能轻松接管手动控制。此外,当系统大部分时间可靠地工作时,人类依赖自动化系统的倾向更高。
特斯拉全自动驾驶(FSD)套件就是一个很好的例子。虽然汽车可以自行驾驶,但需要人类将双手放在方向盘上,随时准备接管汽车的控制权,以防系统出现故障。然而,随着这些AI系统变得更加可靠,即使是最警觉的人的注意力也会开始变化,并且对自动化系统的依赖性将增加。
那么,当汽车开始以人类无法跟得上的速度行驶时会发生什么?我们将放弃对汽车自动系统的控制,这意味着AI系统将控制着你的生活,至少直到你到达目的地。
关于AI控制问题是否可以解决,有两个答案。首先,如果我们从字面上解释这个问题,控制问题是无法解决的。我们无法直接解决人类在大多数情况下依赖自动化系统的倾向问题,因为它表现可靠且更高效。
然而,如果我们将这种倾向视为这种系统的特征,我们可以找到解决控制问题的方法。例如,算法决策和控制问题研究论文提出了三种处理这个困境的不同方法:
-
使用可靠性较低的系统需要人类积极参与系统,因为不太可靠的系统不会引起控制问题。
-
等待系统超越人类效率和可靠性才进行现实世界部署。
-
采用任务分解只实施部分自动化。这意味着只有那些不需要人操作员执行重要任务的系统部分是自动化的。这被称为动态/补充功能分配(DCAF)方法。
DCAF方法始终将人操作员置于自动化系统的核心位置,确保他们的输入能够控制系统决策过程中最重要的部分。如果一个系统足够吸引人操作员持续注意,控制问题就能够得到解决。
随着AI系统变得更加先进、能力更强、可靠性更高,我们将继续将更多任务交给它们。然而,只要确保技术处于人类监督之下,我们就没有什么可担心的。AI已经在改变我们的世界,大多数情况下是变得更好。