terça-feira, 11 de agosto de 2009

Métricas de satisfação

Bom como prometido vou comentar um pouco sobre métricas de satisfação.


Por que utilizá-las?


Essas métricas podem ser vir para muita coisa, como por exemplo para medir expectativas dos usuários ou o nível de satisfação ao utilizar determinado sistema. Ou ainda para tentar extrair do usuário algum pensamento que ele não verbalizou durante um teste.

Talvez seja uma das formas mais importantes em termos de métricas de colhermos a percepção do usuário. Deixo claro que em termos de métricas, pois não se pode levar em consideração apenas os números obtidos.

Quando bem elaborada, conseguimos colher algumas reações que dificilmente um usuário demonstraria em sala de testes, ou então, que ele falaria de livre e espontânea vontade.

Claro, que existem usuários que falam tudo o que pensam e que não tem receio de falar mal do site que estão analisando. Mas por experiência própria, sei que este não é o comportamento padrão, principalmente quando falamos de uma população mais baixa renda.


O tipo de métrica que vou falar aqui hoje é a 'Escala Semântica Diferencial'.



Escala semântica diferencial

Desenvolvida em 1957 por Charles E. Osgood para medir conotações de palavras ou de conceitos.


Este tipo de técnica apresenta pares de palavras/ sentimentos/sensações opostas.

Adjetivos que tem representações opostas como:

quente x frio
fraco x forte
escuro x claro



Utilizando palavras opostas, podemos dentro de uma escala entender como o usuário se sente em relação ao sistema como um todo ou com a tarefa realizada.

Para isso podemos usar uma coleta utilizando 5 ou 7 pontos como no exemplo abaixo:


quente 0 0 0 0 0 0 0 frio

fraco 0 0 0 0 0 0 0 forte

escuro 0 0 0 0 0 0 0 claro.



Não vou entrar aqui na questão em se ter um ponto neutro na escala ou não. Para muitos o ponto neutro é um porto seguro para o entrevistado, onde ele pode permanecer neutro sem manifestar sua opinião. Eu particularmente aplico a escala utilizando um ponto neutro, como esta de 7 pontos onde os 3 primeiros tendem para quente, o ponto quatro é neutro e os próximos 3 tendem para frio.

Ex quente - 1 2 3 (4 neutro) 5 6 7 - frio



Bom, com isso podemos criar então palavras opostas que representem o nosso sistema e assim aplicá la em nossas entrevistas.



Mas, Quando aplicar?



Existem dois momentos que podemos aplicar a escala. No final das tarefas, e mais comummente no final da sessão.

Ambas tem suas vantagens, mas, colher estes dados no final de cada tarefa significa mais dados para analisar no pós teste. Mas se julgar necessário uma análise por tarefa tudo bem.

O maior cuidado que se deve ter aqui são com as palavras escolhidas, pois elas devem ser opostas e ter um significado claro.





Como coletar os dados ?



Esta talvez seja a parte mais difícil. Quem faz testes de usabilidade ou trabalha com pesquisa, sabe da tendência em pessoas tentarem ser positivas sempre. É comum que elas respondam o que elas acham que o moderador quer ouvir, para não parecer uma pessoas negativa, ou tentar passar uma imagem. Isso tem um nome e é objeto de estudo (social desirability Nancarrow & Brace 2000).

Portanto, a forma de apresentar a pesquisa para o cliente é vital para que ele tenha confiança em responder a pesquisa a mais naturalmente possível.



Após todas as entrevistas, conseguimos então ter para cada pergunta a quantidade de respostas colhidas.

Ex: quente - 0 0 0 0 0 - frio ( utilizei aqui uma escala com 5 pontos)



Após 12 entrevistas conseguimos ter quantas pessoas marcaram o primeiro círculo, o segundo, terceiro.....sétimo.



Contabilizando estes dados podemos utilizar várias formas de apresentação. Após alguns estudos utilizando histogramas, decidi apresentar os dados utilizando linhas. Elas deixam claro para o cliente onde o site tende para ruim e onde ele tende para bom ou onde ele está neutro. Deixando claro que nem sempre uma resposta neutra é realmente neutra. Se pergunto se um site é frustrante ou empolgante e a resposta é neutra, isso pode ser um problema, se lervar-mos em consideração outros fatores do teste.



Abaixo segue um exemplo de apresentação dos dados:



O gráfico apresenta o eixo y (vertical) localizado no ponto 3, ou seja, na resposta neutra da nossa pesquisa.

Por que?

Com adotei uma escala com ponto neutro, então coloquei sempre as palavras com conotação negativa do lado esquerdo e as palavras com conotação positiva ao lado direito. Com isso, se a pessoa achou o site organizado, então a maioria das respostas está entre os pontos 4 e 5 (eixo horizontal).

O gráfico mostra que no geral os entrevistados acham o site organizado. O ápice da curva está representado do lado direito e acima do ponto 4 do eixo 'x' ( palavra negativa - lado esquerdo x palavra positiva - lado direito).

Por outro lado, fica claro que falta informação no site, a curva mais alta em rosa está do lado esquerdo ( lado onde diz falta informação).

Finalizando

Apresentei aqui 3 métricas possíveis de serem medidas em usabilidade e formas de apresentá-las para seus clientes.
Mais uma vez, gostaria de deixar claro que somente as métricas não podem servir como resposta para o projeto. Elas devem servir apenas como apoio, como suporte para os apontamentos feitos no relatório final pós teste de usabilidade.
Elas conseguem deixar claro os problemas, mas o 'por que' ainda depende de interpretar o usuário, portanto os protocolos de falar em voz alta, as análises do comportamento do usuário durante entrevista são vitais para uma coerência entre estatísticas e o relatório final.

domingo, 9 de agosto de 2009

Nível de sucesso

Medindo nível de sucesso em tarefas

No último artigo falei sobre como medir sucesso binário. Apresentei os intervalos de confiança e como eles podem nos ajudar a dar uma perspectiva da quantidade de sucessos que serão obtidos na mesma tarefa se ela for realizada com uma amostragem maior.
Hoje vou mostrar um exemplo semelhante e que acredito ser mais útil no dia a dia do profissional de usabilidade. O nível de sucesso.

Nível de sucesso

Ao contrário do sucesso binário, que mede apenas se uma tarefa foi realizada com sucesso ou não, o nível de sucesso é um pouco mais tolerante quando se trata em completar uma tarefa ou não.
Ao invés de colocarmos apenas sucesso/fracasso colocamos níveis intermediários, permitindo assim uma maior flexibilidade em nossa escala.
Dito isso vamos a um exemplo:
Ao invés de usarmos : 1 – sucesso; 0 – fracasso, podemos usar:
1 – sucesso
2 – sucesso com ajuda
3 – sucesso com muita ajuda
4 – falha ou desistência.
A quantidade de níveis intermediários fica a critério de quem vai fazer a escala, porém, não recomendo muitos níveis pois fica difícil controlar durante um teste o que será sucesso com ajuda, sucesso com pouca ajuda, sucesso com muita ajuda, quase desistiu, iria desistir, e assim por diante. Por isso sugiro uma escala com quatro ou cinco níveis no máximo.

Por que nível de sucesso e não sucesso binário?

Bom, cada um tem sua aplicação. Como disse no outro artigo, algumas tarefas podem ser medidas por sucesso ou fracasso, mas outras, não faz sentido ser tão radical.
Ex: Tarefa 1 – Localizar uma máquina fotográfica digital de 10mp da marca sony modelo X que já venha com cartão de memória.
Então o entrevistado localiza uma máquina fotográfica digital, sony, modelo X, com cartão de memória mas somente com 8,1mp.
Classificar como falha a tarefa toda por apenas um item não completado seria muito radical. Por isso podemos usar níveis de sucesso para medir a eficiência do resultado das tarefas.
Desenvolvi uma planilha para medir o nível de sucesso em tarefas:


A planilha apresenta os participantes P1,P2....P12, e as tarefas de 1 a 5.
Para cada tarefa está associado um nível de sucesso.
Incluí também um botão com uma macro para apagar todos os resultados.

Apresentando os resultados

Agora que já temos os resultados de todas as tarefas, podemos elaborar o gráfico que irá representá-lo.



Com os resultados obtidos podemos ter uma radiografia da facilidade ou dificuldade em cada tarefa. O gráfico mostra claramente uma taxa de falha/desistência muito alta na tarefa 9, o que deixa claro um problema severo de usabilidade. A correção imediata ou não deste problema, depende do grau de impacto que esta falha tem no sistema ou no comprometimento de finalização de alguma tarefa vital. De qualquer maneira, fica claro que somente 1 usuário finalizou a tarefa e ainda assim foi necessário ajuda.


Podemos aproveitar o resultado para elaborar também gráfico de sucesso relacionado aos participantes. Com isso conseguimos dentro da nossa amostra perceber se algum público específico teve mais dificuldade e em quais tarefas.
No gráfico apresentado podemos observar que poucos usuários completaram o teste sem falhar ou desistir de alguma tarefa, sendo que os usuário 10 e 11 não realizaram uma das tarefas e isto está representado no gráfico também.
Utilizar este tipo de medição pode ser muito útil, tanto para o profissional que está realizando a pesquisa, quanto para a apresentação de resultados a clientes. Para os profissionais as representações gráficas deixam mais claro onde está o problema e permitem uma comparação em um possível teste no futuro, além de contribuir muito para o aprendizado.
Já para os clientes, muitas vezes fica difícil entender onde está o problema ou por que ele acontece. Com os gráficos começamos a esclarecer as coisas. Lembrando que os gráficos por si só não dizem muito. Eles apontam as falhas mas não dizem muitas vez o por que dela. Um bom relatório observacional e a experiência do especialista em usabilidade em perceber os motivos que levaram as dificuldades ainda é fator fundamental e precioso em análises de usabilidade.

No próximo artigo vou mostrar algumas formas de coletar pesquisas de satisfação em usabilidade que, somadas ao nível de sucesso podem ajudar a deixar ainda mais claro os problemas de usabilidade encontrados.

terça-feira, 4 de agosto de 2009

Medindo sucesso binário

Resolvi continuar com o assunto métricas. Tenho ouvido algumas discussões sobre o assunto e inclusive este ano na semana de usabilidade que participei, este tema foi abordado em alguns momentos. A usabilidade simplesmente como números, ou seja, puramente estatística não responde muitos dos problemas de usabilidade. Servem para apontar o problema de forma clara e objetiva e de maneira que o cliente ou stakeholder do projeto possa visualizar com clareza onde está o problema. Uma análise mais voltada para o entendimento da necessidade do usuário é o caminho da usabilidade atualmente.

Porém, números sempre são interessantes de ser colhidos e utilizados como forma de validar ou ajudar a entender os problemas de usabilidade.
Entre as 10 formas mais utilizadas de colher métricas para web está o sucesso binário, método que eu já comentei brevemente aqui em outro post.

Desenvolvi uma planilha para colher e medir sucesso binário em tarefas. Mas antes de mostra-la vou explicar um pouco para que serve o sucesso binário.

Usa-se este tipo de métrica onde o sucesso de uma tarefa é crítico, como por exemplo para um site de vendas de produtos online é vital que se consiga finalizar a compra. Ou então para situações mais críticas ainda, como o uso de um desfibrilador por exemplo. não existe meio termo entre conseguiu usar e não conseguiu usar.

Como o nome diz, o sucesso é binário então para facilitar conta usamos 0 e 1 onde:


0 - falha
1 - sucesso

Para o dia a dia em testes de sites ou outros sistemas acho este método um pouco severo demais porém mesclado com outras métricas pode trazer resultados interessantes.

Abaixo segue o modelo de planilha para medir sucesso binário.




- Na primeira coluna temos os participantes.
- Nas demais colunas temos as tarefas
- Na linha 18 temos a média, de resultados positivos ( 12 entrevistas/quantidades de sucessos obtidos na tarefas)



Ex: tarefa 1 tem 3 sucessos isso representa 25% de sucesso nesta tarefa.


Logo abaixo vem o intervalo de confiança. não vou entrar em muitos detalhes pois já falei um pouco sobre isso em um post anterior. O importante aqui é que o método utilizado para calcular este intervalo de confiança é um método específico para pequenas amostras binomiais, com isso conseguimos minimizar o desvio do resultado.

Linhas 22 e 23 mostram os limites obtidos através deste intervalo de confiança:

Ou seja : Na minha tarefa 1 tive 25% de sucesso testando 12 usuários. Se eu quiser enxergar isso como medição para uma amostra populacional bem maior, essa taxa pode variar entre 8,3% e 53,8%.

Apesar da medida ser estatística, fica difícil falar para um cliente que a taxa de sucesso na tarefa pode ter uma variação tão grande. Porém se aumentarmos a quantidade de entrevistados a estatística começa a se tornar mais apresentável.

Ex: Vamos supor que 21 de 23 participantes consiguam finalizar uma tarefa com sucesso ou seja 91,3% de sucesso. O nosso intervalo de confiança retorna entre 72% e 98,8% de chance de sucesso para populações maiores.

Apesar de não ser uma medida como do IBOPE com margem de erro de 2% ou 3%, já é mais plausível apresentar este número aum cliente.


Bom, por último segue uma possível apresentação destes dados para o cliente.
Os gráficos representam a taxa de sucesso obtido no teste e as barras mostram os limites inferior e superior.





Depois vou mostrar outras 3 planilhas que desenvolvi.
Uma para medir nível de sucesso ao invés de sucesso binário. Outras duas de satisfação com o desenvolvimento de histogramas para representar os dados obtidos.

Alexandre Miranda

segunda-feira, 3 de agosto de 2009

Measuring Desirability: New methods for evaluating

Muito bom este artigo, aqui segue o trecho inical dele e um link para o documento completo.

É sempre bom saber como diminuir os desvios nas respotas em testes de usabilidade quando o assunto é pesquisa de satisfação e como medir aspectos intangíveis.
Quem faz testes com frequencia sabe que em sua maioria, as pessoas tendem a dar respostas positivas mesmo que elas tenham tido muitas dificuldades ou problemas durante o teste.

Existem vários métodos para colher estas pesquisas inclusive algumas específicas para usabilidade, mas mesmo elas tem um desvio alto.
Aqui temos um método que tenta diminuir o desvio nestas pesquisas de satisfação em usabilidade e também ajuda a medir aspectos intangíveis. Palavras vagas como, engraçado, bom.
Muito bom para quando se é necessário medir um pouco além de um produto ser usável ou não.


Abstract

Difficulty can arise when a practitioner wants to get user input on intangibles such as “desire” and “fun” in a usability lab setting. This paper will introduce you to methods we’ve created to collect feedback on “desirability” and give some background on how we developed them.

Introduction

Formal usability tests in a lab setting are an excellent tool to evaluate whether users can complete tasks; however, the technique has not been as effective for measuring intangible aspects of the user experience such as “fun,” “enjoyment,” or whether the product is desirable enough to purchase. One standard method used to evaluate these intangible aspects is a questionnaire with Likert scales. One problem with this method is that the topics of the questions or anchors on the scales are assigned by the practitioner and often do not mean as much to a participant brought into the lab. In addition, there can be a tendency to give very similar and often positive ratings for each question in the lab environment. Another option is an interview. While this can result in useful data, this approach can be time consuming and with some users it can be difficult to elicit their candid or more negative feedback. In addition the subjective data that is gathered can be challenging to analyze. Because of these barriers, among others, usability engineers in our organization are unlikely to assess “desirability” while evaluating products in the usability lab.

Since product team members had expressed an interest in knowing more than “is the product usable,” we decided to explore ways to measure intangible aspects of the user experience quickly and easily in the lab. Initially this involved interviewing people across the company who have conducted research related to desirability of Microsoft products and brainstorming with them. This paper includes information about the brainstorm session used to generate new ideas, specifics about two different methods we developed as a result of the brainstorm session, and our process using and refining those methods.


Link para o texto completo :http://www.microsoft.com/usability/UEPostings/DesirabilityToolkit.doc