６.３ オペラント条件付け

強化のスケジュール
- 学習へのリンク

強化のスケジュール

人や動物に行動を教える最善の方法は、正の強化を用いることであることを覚えておきましょう。例えば、Skinnerは正の強化を使ってネズミにスキナー箱のレバーを押すことを教えました。最初は、ネズミが箱の中を探っているときに、ランダムにレバーを押すと、餌が出てきたかもしれません。その餌を食べた後、お腹を空かせたネズミはどうしたでしょうか？もう一度レバーを叩くと、また餌が出てきました。レバーを叩くたびに餌が出てきたのです。生物が行動を起こすたびに強化子を受け取ることを「連続強化continuous reinforcement」といいます。この強化スケジュールは、誰かに行動を教えるのに最も手っ取り早い方法であり、特に新しい行動を訓練するのに有効です。この章の前半で、お座りを学んでいた犬のことを思い出してみましょう。犬がお座りするたびに、あなたはおやつを与えます。ここではタイミングが重要です。犬が目標行動（お座り）と結果（おやつをもらう）を関連付けることができるように、お座りした直後に強化子を提示すると、最も成功します。

学習へのリンク

獣医師のSophia Yinソフィア・イン博士が、上記のステップを使って犬の行動を形成している動画

行動が訓練されると、研究者やトレーナーはしばしば別のタイプの強化スケジュールである部分強化partial reinforcementに目を向けます。部分強化は、間欠強化intermittent reinforcementとも呼ばれ、人や動物が望ましい行動をするたびに強化されるわけではありません。部分強化スケジュールpartial reinforcement scheduleにはいくつかの異なるタイプがあります（表6.3）。これらのスケジュールは、固定か変動か、時隔か比率かのいずれかで説明されます。固定fixedとは、強化の間の反応の数、または強化の間の時間が設定されており、変化しないことを意味します。変動variableとは、強化の間の反応の数や強化の間の時間の量が変化することを指します。時隔intervalは強化間の時間に基づいたスケジュール、比率ratioは強化間の反応の数に基づいたスケジュールを意味します。

強化スケジュール	説明	結果	例
固定時隔	予測可能な間隔（例：5分後、10分後、15分後、20分後）で強化を行う	適度の反応率で、強化後に大きな休止がある	病院の患者は、患者が管理し、医師が時間を決めて行う痛み止めを使用する
変動時隔	予測不能な間隔で強化を行う（例：5分後、7分後、10分後、20分後）	適度で安定した反応率	Facebookをチェックする
固定比率	予測可能な数の反応の後に強化を行う（例：2、4、6、8回の反応の後）。	強化後に休止しても高い反応率	出来高払いの仕事piecework―工場労働者がx個のアイテムを製造するごとに賃金を得る
変動比率	予測不能な数の反応の後に強化を行う（例：1、4、5、9回の反応の後）。	安定した高い反応率	ギャンブル

表6.3　強化スケジュール

では、この4つの用語を組み合わせてみましょう。

固定時隔強化スケジュールfixed interval reinforcement scheduleとは、一定の時間が経過した後に行動に報酬が与えられることです。例えば、淳さんが病院で大手術を受けたとします。回復期には痛みを感じることが予想され、痛みを和らげるための処方薬が必要になります。淳さんは、患者管理型の鎮痛剤を点滴で投与されます。医師は、1時間に1回という制限を設けています。痛みがつらくなったらボタンを押して、薬を投与します。報酬（痛みの緩和）は一定の間隔でしか発生しないので、報酬が得られないときに行動を示す意味はありません。

変動時隔強化スケジュールvariable interval reinforcement scheduleでは、人や動物は、予測できない様々な時間に基づいて強化を得ます。真衣さんがファーストフードレストランのマネージャーだとします。たまに品質管理部門の人が真衣さんのレストランにやってきます。店内が清潔で、サービスが早ければ、そのシフトの全員が2000円のボーナスを得ることができます。真衣さんはいつ品質管理担当者が来るか分からないので、常にレストランを清潔に保ち、従業員が迅速で丁寧なサービスを提供するように心がけています。真衣さんは、ボーナスを獲得するために、迅速なサービスとレストランを清潔に保つことに関して、生産性を安定させています。

固定比率強化スケジュールfixed ratio reinforcement scheduleでは、行動に報酬が与えられる前に発生しなければならない反応の数が設定されています。環奈さんはメガネ店でメガネを販売しており、メガネを1本売るたびに手数料を得ています。彼女は、手数料を増やすために、処方箋付きサングラスや予備のメガネを含めて、より多くのメガネを人々に売ろうとします。その人が本当に度付きのサングラスを必要としているかどうかは気にせず、環奈さんはただ自分のボーナスが欲しいだけなのです。環奈さんの手数料は品質に基づくものではなく、販売数に基づくものなので、販売する商品の品質は重要ではありません。このようなパフォーマンスの質の違いは、どの強化方法が特定の状況に最も適しているかを判断するのに役立ちます。固定比率はアウトプットの量を最適化するのに適していますが、報酬が量に基づいていない固定時隔では、アウトプットの質を高めることができます。

変動比率強化スケジュールvariable ratio reinforcement scheduleでは、報酬を得るために必要な反応の数が変化します。これは最も強力な部分強化スケジュールです。変動比率強化スケジュールの例として、ギャンブルがあります。賢くて倹約家の女性である沙羅さんが、初めてラスベガスを訪れたとします。彼女はギャンブラーではありませんが、興味本位でスロットマシンに25セントを入れ、さらにもう1枚、もう1枚と入れていきますが、何も起こりません。2ドル分のコインを入れた後、彼女の好奇心は薄れ、もうやめようと思っていました。しかし、その時、マシンが光り、ベルが鳴り、沙羅さんは50セントを取り戻したのです。「そうこなくっちゃ！」。彼女は再び興味を持って25セント硬貨を挿入し、数分後にはすべての利益を使い果たして10ドルの赤字になってしまいました。辞めるなら今しかないかもしれません。しかし、彼女はスロットマシンにお金を入れ続けています。彼女は、次の25セントで50ドル、100ドル、あるいはそれ以上を獲得できると考え続けています。ほとんどのギャンブルの強化スケジュールは変動比率であるため、人々は次の機会に大勝ちすることを期待して挑戦し続けます。これが、ギャンブルが非常に依存性が高く、根強く残っている理由の一つです。

オペラント条件づけでは、強化された行動の消去は、強化が停止した後のある時点で起こりますが、その速度は強化スケジュールによって異なります。変動比率スケジュールでは、上述のように消去のポイントは非常にゆっくりと訪れます。しかし、それ以外の強化スケジュールでは、消去が早く訪れる場合があります。例えば、淳さんが痛み止めの薬のボタンを、医師が許可した決められた時間の前に押した場合、薬は投与されません。彼は固定時隔の強化スケジュール（1時間ごとに投薬）なので、強化が期待した時間に来ないとすぐに消去が起こります。強化スケジュールの中では、変動比率が最も生産性が高く、最も消去しにくいスケジュールです。それに対し、固定時隔は最も生産性が低く、最も消去しやすいスケジュールです（図6.13）。