Pesquisa inovadora sobre isso é o que ela disse

A surpreendente eficácia e longevidade do agora lendário isso é o que ela disse piada, recentemente popularizada novamente com a ajuda de O escritório , tem feito mais do que fornecer a milhões uma resposta automática à conversa casual. Agora atingiu um novo nível de significância social, inspirando pesquisas lingüísticas sérias. Ele vem na forma de um artigo de pesquisa chamado Isso é o que ela disse: dupla identificação de entidade , de autoria de dois estudantes de ciência da computação, Chloe kiddon e Yuriy Brun .

Em seu papel, a dupla descreve sua criação do Double Entender via transferência de substantivo ou DEviaNT abordagem que identifica automaticamente as piadas que ela disse (TWSS). Eles chamam sua abordagem de análise metafórica, que carrega um duplo sentido próprio, e é baseada no peso de certas palavras como mais sexy do que outras. A equipe pesou vários substantivos e verbos sensuais e, em seguida, executou seu algoritmo.

Em sua pesquisa, a dupla também descobriu algumas regras interessantes para piadas TWSS. Por exemplo, o risco de invocar uma piada TWSS incorretamente. Do estudo deles:

Por exemplo, em um ambiente social, o custo de dizer isso é o que ela disse inadequadamente é alto, enquanto o custo de não dizer quando poderia ter sido apropriado é insignificante.

Para resolver isso e produzir melhores resultados, a equipe empregou um algoritmo de aprendizagem. Entre outras coisas, isso definiu a criação de falsos positivos 100 vezes mais do que falsos negativos.

Depois de executar o DEviaNT em uma série de material de piada TWSS pré-identificado e cotação aleatória. Em seu teste, eles usaram 1,5 sentenças eróticas e 57.000 sentenças não eróticas. A equipe diz que alcançou uma taxa de sucesso superior a 71,4%. Embora isso possa não parecer muito, a equipe diz que, com um conjunto de dados maior, eles esperariam resultados próximos a 99,5%. Além disso, DEviaNT retornou alguns resultados interessantes. Novamente, a partir do estudo:

DEviaNT retornou 28 dessas sentenças (todas vinculadas por mais provavelmente ser um TWSS), 20 das quais são verdadeiras positivas. No entanto, 2 dos 8 falsos positivos são na verdade TWSSs (apesar de virem dos dados de teste negativos): Sim, dê-me todo o creme e ele vai embora. e Sim, mas seu buraco realmente cheira às vezes.

Alguns podem desvirtuar esta pesquisa, chamando-a simplesmente de uma brincadeira e de pouco valor. Este seria um ataque baixo, já que até mesmo os pesquisadores descrevem seu trabalho como um difícil problema de compreensão de linguagem natural. (Isso é o que ela disse.)

( New Scientist através da O escapista )