Variabilidade e o entendimento correto do "errado" no treinamento de cães.
/Olá pessoal! O texto de hoje, escrito por Gary Wilkes, é super interessante já que toca na questão de variabilidade na construção de respostas nos treinos com cães. As variações de respostas são pouco abordadas e muitas vezes não exploradas mas podem ser um grande aliado na construção de comportamentos em diferentes situações.
No texto vocês vão ver alguns bons exemplos de treinos com variações, como colocar em prática para experimentar respostas diferentes e como devemos estar atentos com o uso de marcadores e equipamentos de treinamento para que eles possam, de fato, ter o efeito produtivo nas respostas.
Para ler o texto original em inglês, clique aqui. Boa leitura!
O tópico menos estudado em treinamento e comportamento de cães é a variabilidade. O foco principal do treinamento é criar um repertório de acordo com um modelo de excelência. O desvio desse modelo é chamado de erro. Isso perde o ponto dos aspectos fundamentais da aprendizagem. Para aprender, é preciso oferecer um desvio do comportamento anterior. Sem desvio não há aprendizado. A causa do desvio é a variabilidade inata. Essa capacidade é crítica para a sobrevivência porque o ambiente é dinâmico. Pôneis de um truque só morrem se o truque deles parar de funcionar. A variabilidade assegura que um animal possa se adaptar a circunstâncias variáveis. Isso leva a um ponto simples. O que constitui um erro em uma configuração pode ser a solução em outra. Se você punir o desvio como um erro, você pode, inadvertidamente, bloquear seu uso em outro lugar. A melhor opção é aprender como invocar ou inibir o desvio no aprendizado e no desempenho.
Entendendo a variabilidade: exercício de treinamento.
Pegue um clicker e associe-o a guloseimas. Simplesmente substitua as palavras “Muito bom” pelo clique e logo o cão começará a mostrar respostas de sobressalto visíveis quando ouvir o clique. Mesmo que você não use um clicker no seu trabalho, a visualização do sobressalto visível ajudará você a entender essa tarefa. Se você não quer mexer com seu cão de trabalho, uma decisão muito razoável, pegue outro cachorro para o experimento.
Peça ao seu cão para fazer um único comportamento como "deitar". (Isto é feito melhor com um cão que não é um cão de trabalho. O seu 'deitar' é comprovado e não se desviará conforme necessário.) Faça cerca de dez repetições. Diga "deita", o cão se deita, clique e pague. Agora preste muita atenção à repetição # 11. Desta vez, clique, mas não dê o pagamento. Na repetição # 12, preste muita atenção a qualquer desvio que possa ocorrer. Agora volte para um clique, um pagamento para várias repetições. Sobre a repetição # 20, clique e dê ao cão dez vezes o pagamento normal e adicione todo tipo de elogio vocal e/ou toque por cerca de 20 segundos. Tente pegar o cachorro totalmente levantado. Agora, peça o "deita" e observe o desvio - qualquer desvio. Isso pode ser um “deita” mais rápido, mais lento, mais baixo, em um local diferente e/ou com menor duração. Selecione um. Comece fazendo com que o comportamento de destino, anexando um clique, seja um deleite para ele. O resultado inesperado exibe uma regra geral - conseqüências consistentes tendem a criar um comportamento consistente, enquanto consequências imprevisíveis provocam variabilidade. Isso pode incluir versões mais difíceis, mais rápidas e mais fortes do comportamento de destino ou pode desencadear um comportamento completamente diferente ou nenhum. Não se preocupe, uma vez que ele aprendeu, um comportamento não vaporiza porque as conseqüências se mexem. Se isso fosse verdade, aprender francês afetaria sua capacidade de falar inglês ou vice-versa.
Errado: Uma ferramenta poderosa quando usada consistentemente.
Todos nós entendemos a necessidade de marcar bom comportamento com elogio e mau comportamento com “NÃO”. Existe uma terceira opção. Eu uso a palavra "errado" para marcar comportamentos que não serão reforçados ou punidos. Essa consequência é semelhante a colocar a chave errada em um cadeado ou a tentar abrir um carro que não é seu com sua entrada sem chave. A palavra errada diz ao animal que um comportamento não valerá a pena neste momento. Não age para evitar que o comportamento seja reforçado mais tarde. Ele fornece um controle gradiente sobre erros que não deixam uma inibição residual. Com o tempo, o cão irá se auto-corrigir quando ouvir a palavra "errado" ou irá mudar entusiasticamente para um comportamento diferente. É como limpar informações de um quadro branco restante de uma última aula anterior. Muitas vezes, um cão tende a oferecer um novo comportamento que foi reforçado mais recentemente - o que significa "da última aula". Usar "errado" é especialmente importante se você quiser mudar de um comportamento para outro em uma única sessão de treinamento e não conseguir que o último comportamento continue a se afirmar. É como dizer "não agora, talvez mais tarde". No entanto, é especialmente útil se você deseja ativar a variabilidade como no nosso último exercício. A associação leva algumas semanas para ter efeito total. Dá-lhe uma maneira de instantaneamente terminar um erro sem preconceito. Isso reduz a possibilidade de o cão continuar a oferecer comportamento indesejado sem aplicar controle aversivo que pode afetar a disposição do cão em continuar trabalhando.
Agora que podemos acionar variações, qual é o próximo? Todo o treinamento começa com uma tendência parcialmente formada de fazer um comportamento. Um cão tem que se sentir à vontade para oferecer-lhe novos comportamentos ou variantes de comportamentos antigos ou eles se tornam pouco dispostos a ir aos 100%. Pense no conceito de “deslizar a embreagem” em uma transmissão manual. Não é possível alterar as marcações, a menos que você desative o trem de força. O mesmo acontece com o comportamento. A menos que o cão saiba claramente quando pode experimentar e quando é hora de um trabalho sério, ambas as áreas sofrem. O treinador de mãos pesadas recebe um cão que desliga nos treinos e o cão que não é ensinado a deixar a variabilidade nos campos de treinamento acrescenta variação quando você precisa de um controle perfeito. Isso significa que você precisa ter sinais claros que digam ao cão qual ambiente está em jogo. Quer outro motivo para usar um clicker? Eles nunca são usados no desempenho. O cão aprende que o som do clique é a hora de fazer novas coisas. A ausência do clique significa negócios sérios. No entanto, se você tiver que tirar o seu cão de serviço para consertar um problema, o clicker torna isso possível. No Oklahoma City Bombing, os cães de busca estavam sobrecarregados com "cheiro de morto". Alguns deles não reagiram bem porque tudo estava muito além de qualquer coisa para a qual foram treinados. Um cão treinado pelo clicker pode deixar o terreno de busca, receber cinco ou dez minutos de treinamento e voltar ao jogo. Sem uma mensagem clara de que o tempo de treinamento está ligado, o cão continua "desligado".
Variabilidade de controle:
Depois de ter um comportamento do jeito que você quer, há algumas coisas que ainda precisam ser feitas. Você tem que punir o cão por "falhar” em realizar o comportamento correto, corretamente, em tempo hábil. Esse evento deve ser uma mensagem forte de que nem a falha em iniciar o comportamento nem a falha em executá-lo como treinado nunca é aceitável. Se você precisa de um motivo para treinar para este nível, existem vários.
1) Se você usar um punidor poderoso, você será capaz de manter o alto nível de desempenho com punidores menores, a ponto de simplesmente um sinal verbal servir.
2) Punir o erro depois que o animal sabe que o comportamento correto é crítico para reduzir a eliminação de coisas como "falsos positivos" ou a falha do cão em "sair" depois que um suspeito é contido corretamente. Nota: A eliminação de falsos positivos é muito melhorada se você tiver ensinado corretamente a palavra “errado”.
3) Ao fazer esse processo depois que o comportamento é estabelecido com muito reforço positivo, o contraste entre as consequências é maior. Isso bloqueia o comportamento, como engatar a embreagem. Isso reduzirá o desleixo no futuro.
4) Enquanto a variação é a chave para a aprendizagem, a punição é a chave para parar comportamentos, incluindo variações indesejadas. Fazemos isso naturalmente - "corrigimos" comportamentos aplicando controle aversivo.
5) Se o cão conhece bem o comportamento, você pode punir o fracasso (uma correção de valor) em vez de tentar usar curtos sinais de coleira eletrônica ou estimulação contínua para forçar o comportamento correto. Isso reduz a frequência com que você deve corrigir seu cão e mantém as três possíveis conseqüências (reforço positivo, ausência de reforço e punição) claramente definidas.
Exemplos Práticos:
Eu estava trabalhando com alguns treinadores militares fazendo treinamento tático ao vivo. Um dos manipuladores era relativamente novo e seu dedo estava em seu controle continuamente (controle do colar eletrônico). Embora o nível de estímulo não fosse extremo, ele estava tocando o transmissor em quase todos os movimentos para o exercício de treinamento de violar uma porta. Várias coisas estavam acontecendo, nenhuma delas boa.
1) O cachorro estava se acostumando com o estímulo. Ivan Pavlov demonstrou isso há 100 anos. Ele associava um choque elétrico baixo com comida. Após cerca de 50 repetições, o choque elétrico passou a significar a mesma coisa que o clicker. Nos velhos tempos eu usei baixos níveis de choque para controlar cães surdos. Eles inicialmente reagem exageradamente porque o choque é incomum. Então eles se tornam levemente distraídos e finalmente chegam a amá-lo.
2) Por ter comportamentos sistemáticos que sempre levam ao estímulo, o condutor estava ensinando os sinais da mão ao cão que estavam perfeitamente conectados à conseqüência. O cachorro veria a mão em uma camisa ou no bolso da calça cargo e já iria se antecipar. Sabendo que um estímulo está chegando é o caminho mais rápido para ser condicionado a acabar com isso.
3) Não havia nenhum sinal que significasse "Não" para dizer ao cão qual aspecto de seu comportamento estava sendo estimulado. A natureza crítica de usar um sinal para marcar o comportamento exato raramente é apreciada. Usar a estimulação sem um marcador é como lançar uma granada de mão contra um rifle de precisão. Os marcadores são dispositivos visuais ou auditivos que influenciam o comportamento com base no tempo de sua apresentação. Isso nos leva a outro fato raramente conhecido: a latência não é um problema se você usar um marcador. Eu tenho um post sobre isso - você pode encontrar aqui.