桑代克注意到,为了保证学习的发生,除了猫必须处于饥饿状态外,食物是必需的。“凡是在一定的情境内引起满意之感的动作,就会和那一情境发生联系,其结果是当这种情境再现时,这一动作就会比以前更易于再现。反之,凡是在一定的情境内引起不适之感的动作,就会与那一情境发生分裂,其结果是当这种情境再现时,这一动作就会比以前更难于再现。”例如,要是猫逃出迷箱后得到的是惩罚而不是奖励的话,那么猫就不会再试图跑出迷箱了。这就是桑代克著名的效果律。用桑代克自己的话来说:“满意或不舒适的程度越高,刺激-反应联结就越加强或越减弱”。
在桑代克的早期论著中,效果律既包括正强化律,也包括负强化律。这种对称性反映了历来的传统,即奖励和惩罚都可以用来控制行为。但是,桑代克在1932年出版的《学习的基础(Fundamentals of Learning)》一书中抛弃了惩罚律。这样,效果律就不再是对称的了,而是单向、正向一起作用的。桑代克说,是实验的结果迫使他这样做的。
在一项实验中,主试缓慢地向被试念一连串单词(约100个),这些单词都是被试所熟悉的东西,如桌子、椅子、窗户等。主试告诉被试,每个单词都有一个对应的号码,这要被试来猜。主试念一个单词,被试猜一个号码。主试对被试讲出的号码大多不给予反馈,只是偶尔说“对的”(强化)或“不对”(惩罚)。在念完所有单词后,立即进行保持测验,以了解被试刚刚猜测的每个单词对应号码的保持率。这显然是一项枯燥乏味而又容易出错的学习任务。结果表明,没有得到任何反馈的单词号码,保持率为10%;得到强化(即主试说“对的”)的保持率为20%;受到惩罚(即主试说“不对”)的保持率为15~16%左右。这说明,强化和惩罚都有可能提高保持率。也就是说,受惩罚的反应并没有减弱,而是加强了。桑代克由此抛弃了惩罚律。
在这项实验中,桑代克还发现了“效果扩散(spread of effect)”的现象,即:奖励不仅增加了受奖反应的重复率,而且还增加了邻近反应的重复率。这种奖励的效果呈一种梯度,即:离受奖反应越远,受其影响越小。
桑代克由此认为,强化所具有的增强反应的力量——即听到“对的”所产生的满意效果——不仅影响受奖的刺激-反应联结,而且呈梯度地影响邻近的刺激-反应联结。