Уильям Баум: Динамика выбора. Часть 1

«Остров сокровищ» Рене Магритт
«Остров сокровищ» Рене Магритт (duotone #0000ff, #ff0000)

Выбор можно определить как распределение поведенческих актов во времени. Поскольку все действия растянуты во времени, выбор удобно рассматривать как распределение видов деятельности во времени. В динамике выбора, как и в других динамических системах, происходит смещение от флуктуаций к устойчивому состоянию. Стабильное состояние или равновесие оценивается в большем промежутке времени, чем флуктуация, которую можно увидеть только моменте. Когда мы сравниваем законы равновесия, такие как «закон соответствия» с законами динамики появляются два варианта. Самоподобие возникает, когда один и тот же закон можно увидеть в меньшем временном разрезе, в результате чего закон в более длительном промежутке понимается как выражение его составляющих в меньшей временной длительности. Редукция происходит, когда динамика в малом промежутке несоизмерима с динамикой в более длительном разрезе. Затем процесс с более длительным промежутком упрощается до качественно другого процесса в меньшем промежутке, так как выбор сводится к схемам переключения. Когда происходит редукция, динамика в более длительном временном промежутке может быть получена из действий в меньшем промежутке, но не наоборот. Исследования в разных временных масштабах облегчаются молярным взглядом на поведение.

Выбор как распределение

Что такое выбор? В повседневных разговорах люди говорят о «выборе» или о процессе выбора как о коротком промежутке времени. Однако, когда кто-то говорит: «Я решил взять на себя эту работу», он или она имеет в виду переход от одного образа жизни к другому. Даже когда кто-то решает купить одно платье, а не другое, — это переход от жизни без платья к жизни, когда платье хотя бы иногда носится. Таким образом выбор понимается как переключение деятельности в очень малом временном промежутке.
Быть живым значит проявлять активность. По определению поведение приписывается живому организму (Rachlin, 1994). В течение 24-х часов наблюдения необходимо оценивать поведение в течение тех же 24-х часов. Самым фундаментальным свойством поведения является то, что оно растягивается на весь временной промежуток.
Выбор в настоящем контексте состоит в распределении времени между двумя или более видами деятельности. В двух предыдущих работах я утверждал, что все поведение — это выбор, так как каждая ситуация допускает более одного действия (Baum, 2002; 2004). Невозможно создать даже в лаборатории ситуацию, настолько обедненную, что организм будет заниматься только одним видом деятельности. Например, голуби и крысы выполняют в экспериментальной камере собственную видоспецифическую и индивидуально специфическую деятельность, часто называемую «фоновой деятельностью», в отличие от измеряемой оперантной деятельности. Я также утверждал, что все поведение влечет за собой выбор, потому что каждую деятельность можно поделить на более мелкие действия. Таким образом, взаимодействие крысы с кнопкой подачи корма в эксперименте может привести к нажатию на левую кнопку и нажатию на правую кнопку. Любая из этих действий, в свою очередь, влечет за собой такую деятельность, как лизание, кусание и трогание кнопки (Baum, 1976). Если поведение является выбором и предполагает выбор, то говорить о выборе — значит говорить о поведении, а говорить о поведении — говорить о выборе. Таким образом, динамика выбора — динамика поведения.

Когда мы наблюдаем за частями деятельности, то замечаем действия, которые происходят в меньшем временном промежутке, чем состоящая из них деятельность. Проявление предпочтения одной из кнопок подачи корма занимает больше времени, чем клевание любой из них; любовь к человеку занимает больше времени, чем акт поцелуя этого человека. Ниже мы рассмотрим динамику выбора во временном промежутке.

Рисунок 1 демонстрирует идею распределения. Диаграммы сравнивают распределение с разрезанием пирога. Они выражают понимание того, что время конечно. В течение часа наблюдения анализируется поведение за час, в течение года — поведение за год. Диаграмма сверху отображает время потраченное в гипотетическом эксперименте, в котором голубь клюет две кнопки, много времени тратится на клевание левой кнопки, некоторое время тратится на клевание правой кнопки, остальное — фоновая деятельность. Нижняя диаграмма показывает гипотетическую ситуацию с распределением времени на отдых между несколькими развлекательными мероприятиями. Больше всего времени занимает просмотр телевизора, немалое количество времени тратится на чтение, некоторое время тратится на прогулки, и совсем мало времени тратится на просмотр фильмов.

концепция распределения
Рис.1 Гипотетические примеры, иллюстрирующие концепцию распределения. Выбор — это распределение времени между видами деятельности.

Если условия меняются, мы ожидаем, что распределение изменится. Если режим получения пищи меняется, и теперь правая кнопка выдает больше корма, распределение клевания между левой и правой кнопками изменится в пользу правой. Если человек формирует отношения с кем-то, кто любит фильмы, время, выделяемое на просмотр фильмов, будет увеличиваться, и произойдет одно из двух изменений. Если время на развлечение остается фиксированным, время, проведенное в какой-либо другой деятельности отдыха будет уменьшаться. Если время на развлечение будет расширяться, время, проведенное в какой-либо деятельности, которая конкурирует с отдыхом, будет уменьшаться. Конечность времени означает, что при увеличении одной активности другие уменьшаются. Например, в классе, увеличение учителем времени ребенка на решение задания должно уменьшить другие виды деятельности, такие как крики и драки с другими детьми.
Для иллюстрации, ситуации, которые я рассмотрю, будут такими, в которых голубь клюет две кнопки и иногда получает доступ к пище при клевании одной или другой кнопки (Рисунок 2). Каждая кнопка связана с режимом подкреплений и управляет кормовым диспенсером. Во всех примерах, которые я рассмотрю, два режима подкрепления будут режимами с переменными интервалами подкрепления, по которым питание предоставляется через произвольные промежутки времени. Мерой выбора или распределения будет логарифм отношения клеваний одной кнопки (например, левой), к клеваниям другой (например, правой).

Рис.2 Типичное экспериментальное устройство для изучения и измерения выбора.

Динамика как изменение

Динамику можно противопоставить стабильности — изменение против равновесия. Поскольку динамика относится к изменению во времени, динамика выбора относится к изменению распределения во времени. Динамику можно увидеть, когда изменяются условия ситуации, и поведение переходит из предыдущего устойчивого состояния к новому устойчивому состоянию. Такая картина динамики, за которой следует равновесие, подразумевает обратную связь. В качестве иллюстрации, на рисунке 3 показана схема системы отопления. Термостат сравнивает температуру воздуха в помещении T с настройкой S. Если ошибка S-T больше нуля — печь включается. Результат — выход тепла, которое увеличивает температуру воздуха в помещении, пока ошибка не уменьшится до нуля, и печь выключится. Пока ошибка остается равной нулю, никаких действий не происходит, но как только открывается окно или изменяются настройки, действие начинается снова и печь включается. Нижний график на рисунке 3 иллюстрирует динамику системы. В крайней левой части настройка термостата увеличивается до значения 1, в результате чего печь находится на высоком уровне активности. Температура в помещении увеличивается до тех пор, пока не достигнет значения 1, после чего активность печи уменьшается. Поскольку ни одна комната не изолирована, температура постепенно падает. Печь увеличивает свою активность в ответ и повторяет цикл при котором температура падает и увеличивается по мере того, как печь колеблется между низкой и более высокой активностью. Этот цикл продолжается бесконечно и составляет состояние равновесия системы. На ломаной вертикальной линии настройка термостата понижается к настройке 2. Активность печи уменьшается и не увеличивается снова, пока комнатная температура не опустится ниже новой настройки, создавая положительную ошибку. С этого момента возвращается циклический режим устойчивого состояния, поддерживая температуру вблизи настройки.

Система отопления в качестве примера системы обратной связи
Рис.3 Система отопления в качестве примера системы обратной связи. Сверху: схема системы обратной связи, контролирующая ошибку обратной реакции. Снизу: поведение системы в ответ на изменения в настройке. Ломаная вертикальная линия указывает на изменение настройки.

В трех предыдущих статьях сравнивались организм и его окружающая среда с системой обратной связи (Baum, 1973, 1981, 1989). Хотя многие важные события в окружающей среде находятся вне контроля организма, некоторые из них подвержены влиянию поведения. Эта зависимость формирует основу для сравнения поведения и среды с системой обратной связи и может быть выражена в концепции функции обратной связи, т. е. в функции, определяемой средой, которая передает поведение в качестве входных данных и получает в результате оцениваемые события в качестве выходных. В лаборатории, функции обратной связи устанавливаются режимами подкрепления (Baum, 1973, 1981, 1989). Иногда режимы имитируют свойства природной среды, такие как неоднородный ресурс, полученный путем фуражирования (Baum, 1989).

Действие поведенческой системы обратной связи, аналогичное схеме на рис. 3, будет напоминать схему, показанную на рисунке 4. Хотя «установившееся состояние» должно включать мелкомасштабные флуктуации, подобные показанным на рисунке 3, оно представлено для простоты на рисунке 4 как горизонтальная линия. На первой ломаной вертикальной линии условия меняются. Результатом является изменение поведения во время того, что иногда называют «переходной» фазой, поскольку поведение приближается к новому «устойчивому состоянию». На второй вертикальной линии условия снова меняются, и снова поведение проходит через «переходную фазу по мере приближения к другому устойчивому состоянию. Динамика проявляется в этих переходных фазах.

Схема перехода к устойчивому состоянию
Рис.4 Схема перехода к равновесному или устойчивому состоянию, ожидаемому от системы обратной связи, как на рисунке 3. Изменения условий обозначены ломаными вертикальными линиями.

Реальные данные не так гладки. На рисунке 5 показаны некоторые примеры из эксперимента, в котором каждая пара из нескольких пар режимов подкрепления с переменным интервалом (VI) поддерживалась для многих ежедневных сессий (Baum, Schwendiman, & Bell, 1999). Данные были продуцированы голубем (B26). Каждая точка показывает отношение клевков левой кнопки к клевкам правой кнопки, подсчитанное в рамках одной сессии. Первый набор точек показывает распределение как поведение, скорректированное с установленным кормового соотношением (food ratio) 64:1, после стабилизации кормового соотношения на 1:9. Во время переходного этапа распределение постоянно приближается к более сильному предпочтению левой кнопки. Хотя изменение от сессии к сессии никогда не прекращалось, оно в конечном итоге становится несистематическим, и поскольку голубь склонен клевать левую кнопку, тенденция не может быть заметна. „Несистематичный“ не означает, что он не является неожиданным; различные факторы могут способствовать изменениям между сессиями, такими как изменение фактического кормового соотношения , так же как несовершенная изоляция может привести к изменению температуры в помещении в равновесии на рисунке 3. После последней сессии 64: 1, соотношение было установленно на 1:32, и распределение было соответствующим образом изменено, в конечном итоге снова „стабилизировалось“, теперь на уровне, в пользу клевания правой кнопки. Затем реализуется соотношение 128:1, и поведение проходит через переходную фазу к приоритету клевания левой кнопки.

Рис.5 Выбор одного голубя в многочисленных сессиях в трех условиях, каждый из которых имеет различное кормовое соотношение (Baum et al., 1999). Заполненные треугольники указывают на первую сессию нового условия. Соотношение 64:1 соответствовало соотношению 1:9.

Разновидности процедуры

Изучение динамики выбора — относительно недавнее занатие. Одним из первых исследований, которые можно было бы рассмотреть для решения динамики, было сделано Дэвисоном и Хантером (1979). Они подвергали голубей различным парам одновременных режимов подкрепления с переменным интервалом (VI), каждый из которых занимал всего шесть сессий. Они обнаружили, что предпочтение голубей возрастало и стабилизировалось в течение шести сессий. После этого Хантер и Дэвисон (Hunter and Davison, 1985) и Шофилд и Дэвисон (1997) выставили голубей на псевдослучайную двоичную последовательность, в которой две пары режимов подкрепления с переменным интервалом (VI) чередовались случайным образом от сессии к сессии. В любой день, голубь получал бы, например, кормовое соотношение 4:1 или соотношение 1:41, но непредсказуемо изо дня в день. Они поняли, что это предпочтение в значительной степени определялось нынешним соотношением и в гораздо меньшей степени соотношением предыдущей сессии. Некоторые исследования, использующие связанную с этим процедуру вне сферы этой статьи, режимы с параллельный цепочкой, ежедневно меняли режимы и измеряли быстрые изменения предпочтения как между, так и внутри сессий (Kyonka & Grace, 2008). Другие исследования параллельных режимов подкрепления с переменным интервалом (VI) изучали изменение предпочтений в течение сессий. Мазур (Mazur, 1992) обнаружил, что когда кормовое соотношение 1:1 было заменено на 2:3, 3:1 или 9:1, предпочтение быстро сдвинулось и начало приближаться к равновесию в течение одной сессии. Mark and Gallistel (1994), Gallistel, Mark, King, and Latham (2001), and Banna and Newland (2009) изучали динамику выбора следующих изменений в кормовом соотношении в рамках сессий. Дэвисон и Баум (Davison and Baum, 2000) адаптировали процедуру, разработанную Белке и Хейманом (Belke and Heyman,1994), для изучения эффектов случайного изменения среди семи кормовых соотношений в течение сессии. В этом эксперименте голуби клевали две кнопки, доставлявших пищу в одном из семи кормовых соотношений, до тех пор, пока не произошло определенное количество вознаграждений кормом в диапазоне от 4 до 12. Затем произошло затемнение, и в конце затемнения было представлено новое кормовое соотношение. Они обнаружили, что предпочтение развивалось быстро, даже когда соотношение сохранялось в течении вознаграждений кормом .
После каждой доставки корма предпочтение смещалось в сторону кнопки, которая только что произвела еду, и предпочтение отдавалось этой продуктивной кнопке. Они изучали влияние различных параметров на предпочтения в этой быстро меняющейся среде Baum & Davison, 2004; Davison & Baum, 2002, 2003, 2006, 2007). Aparicio и Baum (2006, 2009) изучали аналогичные процедуры с крысами.

Часть 2, Часть 3
Автор: William M Baum
Оригинал: Dynamics of Choice: A Tutorial
Вольный перевод: Евгений Дудич

Поделиться
Отправить
Запинить
Популярное