Nine box é uma ferramenta muito utilizada — copiada — pelas organizações. E nem posso dizer que é apenas mal utilizada, mas mal desenhada. Então, por mais que nos esforcemos, os dados dela não terão qualidade para dizer algo e ser útil. 

Sua função é avaliar os colaboradores em duas dimensões:

  • desempenho no passado
  • potencial futuro

Para analisar a ferramenta, vamos olhar para alguns conceitos e práticas que embasam ou acompanham o uso do Nine Box:

  • Medindo performance
  • Confiabilidade da nossa avaliação
  • Estimando potencial
  • Frequência de uso

Medindo Performance com o Nine Box 

Percebo algumas formas de avaliação sendo utilizadas no eixo de performance do nine-box: (1) por competências ou (2) por metas e resultados.

Avaliando desempenho por competências

Várias organizações usam uma lista de competências para avaliar junto ao Nine-box. 

Competências: estado que se altera ou traço de personalidade?

Antes de criar uma avaliação, é importante saber se você está tentando medir um estado ou um traço de personalidade, para saber o melhor método a utilizar.

Um estado é algo que varia ao longo do tempo. Exemplo: emoção, habilidade ou conhecimento. Porém, traços de personalidade podem ter padrões mais estáveis. Exemplo: pessoas mais introvertidas x pessoas mais extrovertidas.

Uma simples avaliação de competências não faz sentido para esse segundo grupo. Para isso, utilizam-se testes de personalidade onde a pessoa faz uma auto-avaliação em cima de frases cuidadosamente elaboradas ou testes de julgamento situacional. E ainda assim é questionável.

Se queremos medir algo abstrato como “pensamento estratégico” ou “foco no cliente” precisamos definir se isso é um estado ou um traço. Marcus Buckingham e Ashley Goodall exploram em detalhes esse assunto no livro Nine Lies About Work: A Freethinking Leader’s Guide to the Real World¹.

De acordo com eles, se for um estado, então deveríamos fazer uma pesquisa perguntando o estado mental da pessoa sobre tal coisa ou fazer um teste que possua respostas corretas e incorretas. Não deveríamos deixar um gerente ou par avaliar a pessoa nisso porque eles não podem saber quanto dessa qualidade abstrata ela possui, mais do que eles podem adivinhar com precisão suas preferências de voto ou a pontuação que ela obteria em um teste.

A verdade sobre competências como pensamento estratégico, foco no cliente, orientação a objetivos e outras é que elas são uma mistura aleatória de estados e traços. Não sabemos se deriva da maneira como seu cérebro foi programado, ou pelo que você aprendeu a fazer, ou de algo que você foi dito para fazer. Não sabemos se é uma habilidade diferente que você aprendeu, ou a mesma habilidade usada de forma diferente, ou algo totalmente diferente.

A pesquisa sobre alta performance em qualquer profissão ou empreendimento revela que a excelência é idiossincrática. Pessoas de alto desempenho completas em todos os aspectos é uma criatura do mundo da teoria. No mundo real, cada artista de alto desempenho é único e distinto, e se destaca precisamente porque essa pessoa entendeu sua singularidade e cultivou isso de forma inteligente.

Para apimentar o assunto, os autores continuam dizendo que devido às competências serem imensuráveis, é impossível provar ou refutar a afirmação de que (1) todos que se destacam em um determinado trabalho possuem um determinado conjunto de competências. E é igualmente impossível mostrar que (2) as pessoas que adquiriram as competências que faltavam, superaram aquelas que não —ou, que, em outras palavras, pessoas completas são melhores.

Essas duas afirmações juntas são a base para a maioria do que as empresas fazem para desenvolver os talentos das pessoas, mas elas não possuem suporte científico. 

Você não encontrará artigos acadêmicos em qualquer periódico revisado por pares comprovando a necessidade de possuir certas competências e, nenhuma prova de que adquirindo as competências que falta a você te dará qualquer aumento no desempenho.

Aqui eu quero fazer uma pausa para compartilhar e admitir meus tropeços.

Alguns anos atrás, na pressão do tempo para apoiar a construção de trilhas de progressão para várias especialidades eu acabei aceitando “recheá-las” com listas de competências, caindo na armadilha que acabei de falar acima. 

Essa questão já me trazia incômodo, porém eu não tive força, tempo e ânimo para fazer algo diferente influenciado pelas expectativas que estavam rolando com isso.

Fui indicado algumas vezes a copiar e colar o que outros RH já faziam. E imagino que a intenção era boa: “vamos perder menos tempo reinventando o que ‘já funciona’ nas empresas que estão crescendo com sucesso”. Vem aquela ideia de que “há muita coisa a se fazer, se questionarmos as coisas mais básicas, não vamos avançar na velocidade que desejamos.”

Curiosamente, ao conversar com RHs de algumas empresas para saber como estava “funcionando” trilhas de progressão e avaliações por lá, senti o cheiro dos perigos e armadilhas que descrevo nesse texto.

Vivendo e aprendendo.

Avaliando desempenho por metas e resultados

Medir performance individual de pessoas que trabalham com conhecimento em assuntos complexos e pessoas que trabalham em grupo para entregar um resultado é algo quase impossível de se fazer. 

Dificuldade em avaliar pessoas que trabalham com conhecimento e colaboração em grupo

Em nosso contexto atual do mundo é comum pessoas que trabalhem com conhecimento e questões complexas onde é necessária colaboração em grupo em várias partes de uma entrega.

É inviável medir performance individual por quantidade do que é entregue por hora ou dia.

Entregas são intangíveis e difíceis de definir.

Resultados são frequentemente baseados em entregas de times em vez de individuais.

O tempo gasto em trabalho está cada vez mais confuso à medida que o trabalho distribuído e remoto integra o trabalho e afazeres pessoais.

Confiabilidade da nossa avaliação: será que nossa avaliação é confiável?

Boa parte dos dados que utilizamos não são confiáveis. E para explicar isso, explorarei alguns efeitos e vieses.

Efeito idiossincrático

Esse efeito explica que minha avaliação sobre você, como por exemplo seu “potencial”, é guiada não por quem você é, mas em como eu definiria “potencial”, quanto disso eu penso que eu tenho, o quão duro costumo avaliar outros. É mais sobre mim do que sobre você.

Somos consistentementes duros ou generosos.

Em três estudos conduzidos entre 1998 e 2010, gerentes, pares e subordinados eram perguntados para classificar a performance de seus colegas. Na média, mais que 60% da variação nas classificações poderiam ser rastreadas para o estilo de avaliação do próprio avaliador. Isso torna avaliações individuais altamente não confiáveis.³

Avaliamos melhor aqueles que são mais parecidos conosco

Outro aspecto desafiador é o favoritismo intragrupal, conhecido também como viés de grupo. Nós tendemos a avaliar melhor aqueles que são mais parecidos culturalmente conosco.

É comum dividirmos o mundo entre nós e eles, nós e os outros. Pessoas da esquerda política, pessoas da direita. Evangélicos, católicos.

Mesmo estando conscientes de alguns vieses, ainda assim é difícil separar a questão de “quem é competente?” da questão de “quem faz me sentir mais confortável?” ou “quem se parece mais comigo?”.

O que acreditamos ser meritocracia pode ser melhor descrito como “espelho-tocracia”⁴, termo sugerido por Mitch Kapor. Tendemos a contratar pessoas como nós mesmos, em vez de contratar as melhores pessoas para o trabalho.

Efeito Halo

Temos uma tendência a usar nossas primeiras impressões sobre uma pessoa para outros fatores não relacionados, interferindo em nosso julgamento. Até mesmo nossa simpatia com alguém pode afetar nossa avaliação.

Nossas impressões são resistente à mudança, mesmo diante de novos dados.

O pesquisador David Schoorman fez um estudo⁵ para validar as seguintes hipóteses:

(a) os supervisores que participam de uma decisão de contratação ou promoção e concordam com a eventual decisão distorceriam positivamente as classificações de avaliação de desempenho subsequentes para aquele funcionário

(b) os supervisores que participam da decisão original, mas discordam com a decisão enviesaria as classificações de avaliação de desempenho subsequentes em uma direção negativa.

Os dados forneceram um forte suporte para ambas as hipóteses, demonstrando vieses de escalonamento positivos e negativos.

Efeito Dunning-Kruger e Efeito melhor que a média

O efeito Dunning-Kruger é um fenômeno que leva indivíduos que possuem pouco conhecimento sobre um assunto a acreditarem saber mais que outros mais bem preparados, fazendo com que tomem decisões erradas e cheguem a resultados indevidos; é a sua incompetência que restringe sua capacidade de reconhecer os próprios erros⁶. Estas pessoas sofrem de superioridade ilusória.

Isso não significa que são pessoas ignorantes, porém diz que elas possam achar que sabem mais do que realmente sabem.

No livro Humanocracy⁷, os autores Gary Hamel e Michele Zanini dizem que embora a inclinação para o autoengrandecimento seja universal, é particularmente pronunciada no topo:

Pessoas altamente confiantes tendem a ter uma vantagem na competição pelo poder. Quanto mais confiante alguém parece, mais provável é que acreditemos que eles são genuinamente capazes, seja isso verdade ou não. A competência genuína muitas vezes é difícil de avaliar, então, em vez disso medimos a autoconfiança de um indivíduo.

Em uma hierarquia formal, as relações de poder são altamente assimétricas. Os gerentes têm muito mais controle sobre seus subordinados do que o contrário. Isso torna arriscado questionar a competência de um superior. Enfie um alfinete no ego exagerado de seu chefe e é sua carreira que irá “estourar!” Diferenciais de poder incentivam a aquiescência, que os líderes frequentemente confundem com acordo.

Há uma terceira razão pela qual hierarquia promulga suposições irreais sobre competência executiva. Entre aqueles que aderem uma visão top-down de autoridade, há uma crença comum que “grandes” questões são exclusividade de “grandes líderes”. Embora os líderes seniores em sua empresa possam ser, em última análise, responsáveis ​​pela estratégia, isso não quer dizer que eles são os melhores para criá-la.

Síndrome do impostor e Efeito pior que a média

Síndrome do impostor é quase que o inverso do efeito Dunning-Kruger. Ambos, Dunning e Kruger, parecem ter suposto que uma pessoa competente poderia subestimar seu nível de competência. Mas, na síndrome do impostor, uma pessoa competente sente como se fosse uma fraude e provavelmente será descoberta a qualquer momento.⁸

Isso faz com que pessoas competentes possam se auto-avaliar de forma a subestimar suas competências. Além disso, uma pessoa sofrendo dessa síndrome pode se questionar com outras colegas e até com seu chefe, podendo potencializar que as pessoas possam avaliá-la com menor competência pela própria insegurança e questionamentos consigo.

Efeitos corrosivos

Gary e Michele dizem⁷ que os efeitos corrosivos desses preconceitos são exagerados pelo fato de que os julgamentos sobre a competência de um indivíduo são muitas vezes dependentes das opiniões de um único avaliador — o chefe do funcionário.

Em uma pesquisa conduzida pelo consultor John Gardner, mais de trezentos executivos foram questionados sobre a prevalência do favoritismo nas decisões promocionais. Para os fins do estudo, favoritismo foi definido como “tratamento preferencial com base em fatores não relacionados às habilidades de uma pessoa, como histórico, ideologia ou instintos viscerais.”

O estudo de Gardner revelou⁹:

  • Setenta e cinco por cento dos executivos testemunharam favoritismo nas decisões de contratação.
  • Noventa e quatro por cento acreditavam que as políticas destinadas a prevenir o favoritismo eram ineficazes.
  • Oitenta e três por cento disseram que o favoritismo produziu más decisões de promoção de qualidade.

Estimando potencial

Os autores do livro Nine Lies About Work¹ possuem um capítulo exclusivo, chamado Mentira #7, para tratar essa questão. Eles dizem que acreditar que “as pessoas têm potencial” e avaliar isto vem do desejo de controle das organizações, e sua impaciência com as diferenças individuais, buscando identificar rapidamente as pessoas que podem investir seus recursos finitos. Um primeiro problema é saber definir o que seria potencial. 

Você pode descobrir várias definições.

Se você acreditar que potencial está ligado a um traço da pessoa, você cai no problema que descrevi mais no início do texto onde abordo estados vs traços de personalidade. Porém, no caso de potencial, o desafio é algumas ordens de magnitude acima, uma vez que estamos pedindo ao avaliador para avaliar você não em uma característica exibida em seu comportamento atual, mas em uma projeção, uma probabilidade de que você possui algo que pode ser exibido em alguma situação futura. De acordo com Marcus e Ashley, é totalmente impossível para o avaliador fazer isso de forma confiável, então os dados que ele produz sobre você serão o pior tipo de dado.

Ainda, de acordo com eles, a evidência da existência de potencial geral é inexistente. Em vez disso, as evidências apontam exatamente na direção oposta. Sabemos que o cérebro de cada pessoa cresce adicionando mais conexões sinápticas, que o padrão sináptico de cada pessoa é único e, portanto, o cérebro de cada pessoa cresce de maneira única. 

Portanto, sabemos a) que a capacidade de aprender existe em todos nós, b) que se mostra de forma diferente em cada um de nós, e c) que, embora possamos melhorar em qualquer coisa, nenhum de nós jamais será capaz de religar nossos cérebros para se destacar em tudo.

De forma mais simples, todos nós podemos melhorar, e todos nós iremos melhorar em coisas diferentes, de maneiras diferentes e em velocidades diferentes.

Frequência de uso

Uma ou duas vezes por ano. Essa frequência torna qualquer ferramenta de avaliação ainda menos útil.

Lembraremos dos comportamentos exibidos e projetos que a pessoa estava envolvida durante todo o ano ou semestre? Ou será que usaremos dados do último mês ou algo que nos marcou apenas? Além de vieses de disponibilidade, de representatividade e de confirmação, vale lembrar da “regra do pico-fim” (em inglês, “The Peak-End Rule”): os momentos positivos ou negativos mais intensos (os “picos”) e os momentos finais de uma experiência (o “fim”) têm um grande peso em nosso cálculo mental, podendo mascarar ou omitir outros momentos.

Conclusão

Os autores Marcus e Ashley compartilham a seguinte conclusão sobre o nine box e ferramentas semelhantes:

Vai incomodá-lo muito saber, então, que no mundo real, nada disso funciona. Nenhum dos mecanismos e reuniões — nem os modelos, nem as sessões de consenso, nem as competências exaustivas, nem as escalas de classificação cuidadosamente calibradas — nenhum deles vai garantir que a verdade sobre você apareça na sala, porque todos eles são baseados na crença de que as pessoas podem avaliar outras pessoas de forma confiável. E elas não podem.

Sugestões: agora, o que fazer?

Abaixo listo alternativas para experimentar, de acordo com o seu objetivo.

Quando digo experimentar, é utilizar e ver se o que experimentou tem alguma relação com o que se esperava.

Não crie ferramentas complicadas para resolver algo complexo. Pelo contrário, utilize ferramentas simples pois poderão ser fáceis de aplicar, manter e ajustar caso não se mostre efetiva.

Ferramentas complicadas por vezes mascaram falhas da ferramenta e dos dados, fazendo as pessoas acreditarem que a complicação é sinal de qualidade ou precisão.

Alternativas para avaliação: avaliar sua própria percepção

Nossa avaliação é, e deveria ser, subjetiva.

Temos que aceitar que nem tudo pode ser medido de forma objetiva. Marcus e Ashley, dizem que nós temos uma tendência em pensar que subjetividade nos dados é um “bug” (erro ou falha), e que por isso o recurso que estamos buscando é objetividade. Porém, na verdade, quando se trata de medição, a busca por objetividade é o bug, e a subjetividade é a característica confiável.

Para ir além, de acordo com o consultor de cultura organizacional, Edgar Schein, mesmo numa relação de consultoria devemos avaliar uma relação desde o início e a todo momento de forma subjetiva. Ele não acredita que tudo deva ser uma medição numérica. O que ele utiliza para o próprio trabalho é a todo momento perguntar ao cliente se a relação está funcionando, se estão se conectando². Direto ao ponto.

Em vez da afirmação sobre uma outra pessoa como “É uma boa ouvinte”, substitua por algo que faça uma pessoa que irá avaliar a outra pensar na sua própria percepção: “Eu percebo que minhas opiniões são sempre ouvidas” com relação a outra pessoa.

Se você não deseja determinar questões específicas relacionadas a alguma percepção de característica/competência, no livro Nine Lies¹ os autores propõem uma avaliação de apenas 4 perguntas:

  • Você sempre recontrataria esta pessoa para a companhia. (1–5)
  • Você sempre escolheria esta pessoa para trabalhar junto a você. (1–5)
  • Você promoveria esta pessoa hoje? (Sim ou Não)
  • Esta pessoa tem um problema de desempenho que você quer tratar hoje? (Sim ou Não)

Outras variações dessas perguntas poderiam ser:

  • Dado o que eu sei sobre o desempenho da pessoa, e se fosse meu dinheiro, eu recompensaria esta pessoa com a remuneração e bônus possível mais altos em sua faixa. (1–5)
  • Dado o que eu sei sobre o desempenho da pessoa, eu sempre escolheria ela para trabalhar comigo. (1–5)
  • Esta pessoa está sob risco de baixo desempenho neste momento? (Sim ou Não)
  • Esta pessoa está pronta para uma promoção hoje? (Sim ou Não)

Esses tipos de questões geram dados confiáveis (e subjetivos, como desejado), e enquanto não são tudo, já é muita coisa. A interpretação desses dados precisa levar isso em conta. Não estamos avaliando objetivamente o desempenho e potencial, e sim coletando julgamentos subjetivos.

Veja o artigo Reinventing Performance Management para ver possibilidades de como utilizar e analisar os dados obtidos através dessas perguntas.

Alternativas para apoiar o desenvolvimento 

Mentoria entre pares e Comunidades de prática

Habilite uma plataforma na qual as pessoas possam mostrar interesse comum e potencialize discussões e aprendizados por lá. Como aditivo, pesquise por Working Out Loud ou Action-Learning.

Crie condições para as pessoas se conectarem e aprenderem entre si. Torne visível as habilidades e interesses das pessoas da organização. Estimule que busquem aconselhamento e aprendam entre si.

Grupo de pessoas treinadoras internas

Tenha algumas pessoas em um papel de treinadora técnica e crie um grupo com essas pessoas.

A principal responsabilidade deste papel poderia ser apoiar as pessoas em uma trilha de desenvolvimento técnico (ex: frontend; ux; etc) e aconselhar decisões difíceis sobre sua área quando consultada.

Esse papel não teria autoridade unilateral para contratar ou demitir. Essas pessoas poderiam energizar também outros papéis na organização.

Trilhas de progressão

Com trilhas de progressão informando quais possíveis próximas etapas, as pessoas podem ter um norte de como avançar em caminhos que se interesse.

Uma possibilidade é utilizar gamificação para estimular o desenvolvimento e reconhecer níveis em uma trilha de progressão. As pessoas poderiam aplicar para subir de nível enviando evidências que comprovem sua participação em algo prático que fez uso de habilidades deste nível.

Cada nível poderia exigir não só evidências de trabalho mas também uma permanência mínima no nível antes de aplicar para o próximo.

Você poderia criar medalhas relacionadas a cada nível e também outras que reconheçam habilidades e competências que independem de alguma trilha de progressão.

As medalhas podem ter um tempo de validade, incentivando uma atualização e comprovação de que a pessoa continua utilizando suas habilidades nos projetos da organização.

Uma curiosidade: as pessoas poderiam aplicar para ser reconhecida com medalhas em várias trilhas de progressão, estimulando o desenvolvimento de muitas habilidades em diversas áreas.

Uma pergunta pode surgir: quem avalia as aplicações para ganhar medalhas ou subir de nível?

Sugestão: tenha um papel separado que tenha por responsabilidade fazer essa avaliação. Pode ser uma pessoa escolhida pela liderança ou pelo grupo que tenha experiência no contexto da medalha para avaliar as evidências de alguém que deseja conquistar essa medalha.

Rituais de troca de feedback entre pares

Se você utiliza uma Tecnologia Social como O2 (Organização Orgânica), sabe que possivelmente uma pessoa pode energizar mais de um papel.

A qualquer momento ou em um momento pré-determinado após a atribuição da pessoa a algum papel, ela pode pedir para ser avaliada nesse papel.

O que é esperado:

  • convidar pessoas com quem mais tem relação nesse papel
  • informar em qual papel deseja ser avaliada e consultar quais papéis as pessoas desejam avaliar sua atuação

Abaixo está um exemplo de uma possível dinâmica de avaliação.

Estágio de entendimento

A pessoa compartilha com as demais, seus papéis e responsabilidades que serão avaliados.

Uma rodada é feita com as perguntas abaixo, começando pela auto-avaliação da pessoa que deseja avaliação e depois pelas outras pessoas:

  • o que tem feito bem?
  • o que pode melhorar?

Estágio de exploração

Dado o que foi apresentado no estágio de entendimento, descubra temas e aspectos que respondam à pergunta: quais áreas para melhoria você enxerga? As pessoas presentes respondem.

Pode ser algo que a pessoa já esteja fazendo bem, mas deseja focar mais.

Estágio de brainstorming de ações

Agora, todas juntas podem fazer um brainstorming de ações para melhoria nas áreas listadas.

Como as pessoas gostariam de ver melhorias nessas áreas? Torne isso específico e factível.

Isso não é uma avaliação forçada em algum nível ou número. É uma exploração para ajudar a pessoa decidir o que ela deseja como plano próprio de ação no passo seguinte.

Estágio de criação de plano de ação / mudança no papel

Agora, a pessoa que está sendo avaliada, cria uma proposta de plano de ação com as ações que explorou no passo anterior. Isso pode envolver uma mudança nas responsabilidades do papel para deixar mais explicito o que é esperado da pessoa. Ela pode pedir ajuda a uma pessoa com experiência no tema ou alguém que ela confia. 

Esse plano pode ser criado durante ou após a dinâmica.

Estágio de decisão

Alternativas nesse estágio:

  • A própria pessoa pode decidir pelo seu próprio plano de ação. 
  • Pedir aconselhamento para o líder e decidir por si.
  • Decidir em consentimento com o grupo em que a pessoa trabalha.
  • Decidir em consentimento com um mentor.

Assim que é decidido, o plano de ação entra em vigor e um novo ciclo se inicia.

No próximo ciclo de avaliação, a pessoa pode compartilhar seu último plano de ação e explorar o que conseguiu aplicar dele.

Alternativas para decidir sobre demissão 

Para decisões críticas como demissões, sua organização pode ter um círculo (leia sobre O2 para entender mais sobre o que seria um círculo) para tomar essas decisões de forma transparente. Veja aqui sobre como criar um Círculo de Parceiros.

Alternativas para decidir sobre salários

A definição sobre aumentos de salário ou avanço em uma trilha de progressão, pode ter muitos formatos diferentes.  Veja mais sobre Novos Modelos de Remuneração.


Se você quiser ajuda para resolver seus problemas sem usar o Nine Box, vamos conversar.

Referências:

  1. Nine Lies About Work: A Freethinking Leader’s Guide to the Real World
  2. Humble Leadership | Edgar Schein | Talks at Google: entre os minutos 42 e 45
  3. Marcus Buckingham, “Most HR Data Is Bad Data,” Harvard Business Review, February 9, 2015
  4. Diversity in Hiring — Mirrortocracy or Meritocracy?
  5. F. David Schoorman, “Escalation Bias in Performance Appraisals: An Unintended Consequence of Supervisor Participation in Hiring Decisions” Journal of Applied Psychology 73, no. 1 (1988): 58–62.
  6. Efeito Dunning-Kruger — Wikipedia
  7. Humanocracy: Creating Organizations as Amazing as the People Inside Them Hardcover
  8. Quora — What is the opposite of the Dunning–Kruger effect?
  9. Kathryn Tyler, “Undeserved Promotions,” HR Magazine 57, no. 6 (junho de 2012): 79.
  10. The Fatal Flaw with 360 Surveys — Marcus Buckingham, October 17, 2011