オペラント条件付け:オペラント条件付けとは何か、どのように作用するか

心理学におけるオペラント条件付けとは何か、そのさまざまな構成要素、そしてどのように使用されるかをご覧ください。

例えば、職場で優秀な成績を収め、ボーナスという報酬を得た場合、将来またボーナスがもらえることを期待して、より高いレベルの業績を上げ続けようとする傾向がある。この行動の後には肯定的な結果が待っているため、その行動は繰り返される可能性が高いのです。

オペラント行動

オペラント行動では、刺激には食欲的なものと嫌悪的なものがあります。食欲的な刺激とは自発的に近づくものであり、嫌悪的な刺激とは避けたり逃げたりしようとするものである。このような刺激に対する反応は、正の強化になる場合と負の強化になる場合があります。この場合の陽性と陰性は、良いとか悪いという意味ではありません。むしろ正の強化とは、刺激を導入して行動の再発確率を高めることであり、負の強化とは、刺激を取り除いて良い行動を促すことです。

オペラント条件付けの理論

オペラント条件付けは、行動学者B.F.スキナーによって初めて説明されました。彼の理論は、2つの仮定に基づいていた。第一に、人間の行動の原因は、その人の環境の中にあるものである。第二に、ある行動の結果が、それが繰り返される可能性を決定する。快い結果が続く行動は繰り返される可能性が高く、不快な結果が続く行動は繰り返される可能性が低くなる。

スキナーはオペラント条件づけ理論の先駆者ですが、彼の考え方はソーンダイクスの効果の法則に基づいています。そのため、心の中の出来事よりも、観察可能な行動を研究する方が生産的であると考えたのです。

スキナーはまた、模範的な発明家でもありました。ラットやハトなどの被験者を使い、動物の行動を時間的に圧縮して記録するスキナー箱は、彼の小道具のひとつでした。

スキナーは実験を通して、行動に続く反応を3種類に分類しました。

中立的な反応とは、注意を集中させる以外に刺激を与えない環境からの反応です。中立的な反応は、行動が繰り返される確率を増加させることも減少させることもない。

強化子:行動が繰り返される可能性を高める環境からの反応である。肯定的なものと否定的なものがある。

懲罰者(Punishers)。これらは、行動の可能性を減少させる負のオペラントです。罰は行動を弱める。

正の強化剤(Positive Reinforcement

正の強化では、食欲をそそる刺激を提示することで、将来ある行動が起こる可能性を高める。例えば、子供が頼まれもしないのに家事をしたら、ご褒美に公園に連れて行ってあげたり、おやつを渡したりすることですね。

スキナーは、スキナー箱の中で空腹のネズミを使って、正の強化の仕組みを示しました。箱の側面にはレバーがあり、ネズミが箱の中を移動すると、誤ってレバーを倒してしまいます。レバーを倒すとすぐにレバーの横の容器に餌が落ちてきます。レバーを叩くと餌がもらえるということで、ネズミは何度もその行動を繰り返すことになる。

正の強化は、目に見えるものだけではありません。その代わりに、次のような方法で子供を強化することができます。

  • 拍手

  • 応援

  • ハグや背中をたたく

  • サムズアップをする

  • ゲームをしたり、一緒に本を読んだりするような特別な活動を提供する

  • 子供が聞いている間に、他の大人が子供の行動をいかに誇りに思うかを伝える

  • 子どもをほめる

  • ハイタッチをする

  • (>▽

    ネガティブリインフォースメント

    負の強化では、ある刺激に対して不快なものが打ち切られます。時間が経つにつれて、その不快な刺激物が取り除かれることを期待して行動が増加します。例えば、子供が夕食時に野菜を食べることを拒否し、親が野菜を取り上げることで対応する場合、野菜を取り上げることが負の強化になる。

    強化のスケジュール

    強化スケジュールとは、オペラント条件付けの構成要素の一つで、どの行動の事例が強化されるかを示すものである。強化剤の提示や除去に必要な反応の時間や数によって決定される一連の規則が含まれる。

    強化のパターンが異なると、学習のスピードに独特の効果がある。

    固定比率強化:報酬は行動が発生した特定の回数に依存する。例えば、10個の単語のスペルを正しく書いたら拍手喝采を受ける。

    固定間隔強化。報酬は一貫した時間に提供されます。例としては、週給制です。他の例は、子供が週に一度、皿洗いをしたらご褒美をもらうことです。

    可変的な比率の強化。この強化は予測不可能で、多くの反応をもたらします。例えば、ギャンブルでは、予測不可能な試みを何度かした後に勝ちが得られることがあります。

    可変間隔強化:予測不可能な時間が経過した後、反応が報われます。例としては、保健所の検査官による予測不可能なチェックインが挙げられます。

    継続的強化(Continuous reinforcement):これは、ある行動が起こるたびに強化することです。例としては、幼児がおまるを使うたびにご褒美を与えることです。

    罰(Punishment

    オペラント条件付けにおいて、罰とは、反応や行動が再び起こる確率を下げるような周囲の環境の変化と定義される。罰は、叱るような不快な刺激を直接与えるか、望ましくない行動を罰するためにある人の日当を差し引くような、報酬を与える可能性のある刺激を取り除くことによって機能する。

    罰は望ましくない行動を減少させるのに効果的である反面、以下のような多くの問題を伴う。

    • 攻撃性の増加

    • 罰せられた行動は忘れるどころか抑圧される

    • 恐怖心

    • 罰は必ずしも良い行動に導くとは限らない

    • 罰は虐待になりやすい

    トークン・エコノミー

    トークンエコノミーとは、行動修正プログラムで用いられるシステムで、トークン、偽札、食べ物、ステッカー、ポーカーチップ、ボタンなど、後に報酬と交換される有形の報酬を用いて望ましい行動を強化するものである。例えば、病院では、食事やテレビの利用などのボーナスと引き換えに、トークン・マネーの報酬が提供されることがあります。

    トークンエコノミーは、精神科の患者管理だけでなく、学校でも有効であることが証明されています。このシステムは、破壊的な行動を減らし、学業への関与を高めるために、教室で使用することができます。

Hot