O potencial subutilizado do monitoramento de mídias sociais

O monitoramento de mídias sociais, como é oferecido há cerca de 10 anos por agências digitais, consultorias e afins, se baseia em algumas premissas importantes da comunicação digital. Em primeiro lugar, temos a noção de influência potencial dos conteúdos publicados online. O esquema proposto por Philip Sheldrake abaixo é de eloquente simplicidade:

philip sheldrake - influenceOs seis fluxos acima tratam respectivamente: da influência que as marcas tentam imprimir nos consumidores (através de conteúdo, anúncios, campanhas especiais); a conversa entre os próprios consumidores/cidadãos (marketing boca a boca, fandoms, apoio técnico etc); a influência dos consumidores às marcas (reclamações, mobilizações, serviço ao consumidor); e os três fluxos referentes aos concorrentes, que estão também agindo e lutando no ambiente competitivo. É a partir destes fluxos que o monitoramento de mídias sociais ganha força, seja para estudo do boca-a-boca seja para estudo da comunicação corporativa. Mas existe um potencial sub-utilizado nestes dados que não é aproveitado pelos fornecedores.

Com o lançamento e popularização das ferramentas plenas de monitoramento (aquelas que permitem coleta, armazenamento, análise de sentimento, classificação, geração de relatórios) a partir de 2006/2007 na América do Norte e Europa (como Sysomos, Brandwatch, Radian6) e 2009/2010 no Brasil (como Scup, Seekr, Brandcare), o monitoramento de mídias sociais se consolidou como serviço e prática dentro de agências de publicidade e afins. As práticas foram desenvolvidas de forma relativamente alheia a padrões, teorias, conhecimentos e práxis a pesquisa de mercado.

Em parte por causa disto, na maior parte das ferramentas mais generalistas – com exceção de ferramentas especializadas ou as mais relevantes do mercado -, é possível perceber relativa estagnação das  possibilidades oferecidas. Há três lacunas que são especialmente relevantes neste sentido devido ao potencial de inteligência, que tornam-se especialmente graves ao se pensar o quanto o volume de dados disponíveis hoje é imensamente superior ao volume que pioneiros de algumas metodologias tinham acesso.

Foco nos Emissores / Monitoramento de Usuários

Os dados na maioria das ferramentas são baseadas nas chamadas menções ou ocorrências. É a contagem de unidades de conteúdo (tweets, posts, comentários, vídeos, fotos) coletadas, base para as comparações e medições realizadas quanto a volume, sentimento, temáticas, respostas etc. Mas existe uma grande discrepância, muitas vezes bem mais intensa do que uma distribuição de Pareto, pois a minoria dos usuários publica a maioria das ocorrências.

Ocorrências x Usuários. Assim, um dos padrões do mercado, o reporte dos dados de acordo com o número de ocorrências/menções, é questionável em boa parte das entregas realizadas. Poder entregar os dados a partir da quantificação dos usuários, assim como comparar a variação e concentração do engajamento, traz maior confiabilidade às conclusões.

Desenhos amostrais. As amostras de dados nas ferramentas de monitoramento de mídias sociais em sua maioria são baseadas nas ocorrências, ao invés dos usuários em si. Ainda existe muito chão metodológico a se percorrer no sentido de confiabilidade e representabilidade de amostras feitas a partir de coletas do tipo, mas a depender do objetivo, tomar os usuários como base (ao invés das menções) diminui muito  imprecisão dos dados.

Estudos focados nos usuários. Parâmetros de busca que coletam todas as menções de usuários em mídias como Twitter, Instagram, Blogs ou Grupos de Facebook abrem o leque de produtos informacionais. Profissionais mais inventivos utilizam estes recursos para desenvolver Estudos de Público, Ideação de Personas, Construção de Segmentos e afins. Porém, as opções de tagging, filtragem e extração dos dados focados nos usuários ainda são relativamente incomuns mesmo em líderes de mercado. Algo tão simples como permitir a codificação dos usuários e decorrente geração de relatórios a partir destes códigos abre imensamente o leque de entregas (e, por tabela, monetização).

 

Técnicas de Linguística de Corpus e Text Analytics

As técnicas de text analytics ainda são muito arcaicas nas ferramentas, de modo geral. Na maioria absoluta, a contagem de frequência de palavras se baseia apenas em 1-gram, stop words não são editáveis, não há lemmatização e outros recursos que envolvam associação entre as palavras são inexistes. Algumas buscam desenvolver processamento natural de linguagem natural em busca da malfadada análise de sentimento automática, deixando de lado o resto da riqueza dos textos.

UCREL - Lob
Equipe de desenvolvimento do British National Corpus

Revisando uma simples definição de linguística de corpus por Tom McEnery, é transparente o potencial de relação entre as áreas: “Linguística de Corpus é o estudo da linguagem em larga escala com análise apoiada por computador de coleções extensas de falas ou textos escritos“.

Ao se olhar para o histórico da linguística de corpus, por exemplo, a comparação de volume de dados disponíveis é monumental. A disciplina tem como um dos seus principais marcos a criação do Brown Corpus nos anos 1960. Pesquisadores da Brown University compilaram, à época, 500 textos representativos do inglês americano, com 2000 palavras cada, totalizando 1 milhão de palavras.

Na comparação com qualquer projeto de médio / grande porte de monitoramento, o volume bruto de dados é facilmente superado. Mesmo o HERMES, corpus de 7 milhões de tweets desenvolvido por Michelle Zappavigna para seu livro de 2012, parece pequeno frente à dimensão de projetos comuns de grandes empresas que realizam monitoramento de mídias sociais.

jornalistas x advogados - frequencia
Frequência de termos por clusters de público

A rigor, não há representatividade e construção rigorosa dos corpora nestes casos, mas porque tais volumes de dados textuais não são explorados com técnicas herdadas da linguística de corpus? Não é como se as tecnologias estivessem fora do alcance dos desenvolvedores, uma vez que softwares avançados como Voyant ToolsAntconc são disponibilizados de forma aberta e gratuita.

antconc
Antconc, concordancer gratuito desenvolvido por Laurence Anthony

 

Análise de Redes Sociais

Talvez o mais chocante em um mercado que trata seus profissionais por “analistas de redes sociais” é a rara utilização, pasmem, de conceitos da análise de redes sociais em si. Termos como nodes, laçosgrafosclusters são raros no léxico de uma área que ainda ignora décadas e décadas de pensamento sobre as dinâmicas das redes.

As duas imagens abaixo exemplificam bem a questão da escala quando falamos das redes nas mídias sociais. A primeira é uma adaptação de clássico estudo realizado por Jacob Moreno em uma escola feminina, analisando dinâmicas de sociabilidade de estudantes na década de 1960. São 26 estudantes e 52 conexões que representam a desigualdade de afeto e atenção social:

dining table partners - jacob moreno

A próxima é a visualização dos dados do pequeno estudo que fizemos sobre a mobilização #PrimeiroAssédio. São dezenas de milhares de tweets coletados em questão de horas, resultando em uma rede navegável que faz emergir padrões de interação, influência, conflito e colaboração na rede. Um sonho quase inimaginável para os pioneiros da ARS décadas atrás:

análise de redes - primeiro assedio

A rigor, as conexões entre perfis ou hashtags já estão ali implícitas em qualquer monitoramento realizado, nos padrões de tweets e imagens publicadas. Mas enquanto a tecnologia só olha para a coleta de dados, deixando de lado a inovação proativa, estas conexões não são aproveitadas – não se transformam em valor nem intelectual nem financeiro. Como vimos no outro post sobre Ferramentas de Análise de Redes para Mídias Sociais, ainda são raras as ferramentas comerciais com funcionalidades de redes, dificultando o trabalho dos profissionais especializados. E não é por falta de oportunidade e demanda: o mercado está ávido por um lado, e educadores fazem esforços intensos para transformar a alfabetização em redes em algo universal.

 

Existe ainda muito caminho a percorrer para que nós, profissionais de comunicação, aproveitemos todo o potencial dos dados e métodos digitais. Nos cursos de Análise de Redes para Mídias Sociais,3 e 4 de dezembro em Brasília; 17 e 18 de Dezembro em São Paulo,  e Monitoramento de Mídias Sociais 29 e 30 de outubro em Brasília;5 e 12 de Novembro de 2016, em São Paulo, procuro falar, explorar e debater algumas destas possibilidades. E você, o que acha que é possível avançar para o mercado de inteligência digital ser mais inteligente?

[:en]Monitoring social media, as offered for around 10 years by digital agencies, consultants and the like, is based on some important premises of digital communication. First, we have the notion of potential influence of online content. The scheme proposed by Philip Sheldrake below is eloquent simplicity:

philip sheldrake - influence

The six flows above address respectively: the influence that brands try to impress on consumers (through content, announcements, special campaigns); the conversation between them and consumers / citizens (word of mouth marketing, fandoms, technical support etc.); the influence of consumers to brands (complaints, demonstrations, customer service); and the three flows regarding competitors, that are also acting and fighting in the competitive environment. It is from these flows that monitoring social media gains strength, be it studying word-of-mouth or studying corporate communications. But there is a under-utilized potential in these data that suppliers do not use.

.

With the introduction and popularization of full monitoring tools (those that allow collection, storage, sentiment analysis, classification, reporting) from 2006-2007 in North America and Europe (like Sysomos, Brandwatch, Radian6) and 2009 / 2010 in Brazil (like Scup, Seekr, Brandcare), monitoring of social media was consolidated as a service and practice in advertising agencies and the like.  Practices were developed in relatively alien form patterns, theories, knowledge and market research praxis.

Partly because of this, most of the more general tools – except for specialized tools or the most market relevant – one can see relative stagnation of the possibilities offered. There are three gaps that are particularly relevant in this regard due to the intelligence potential, which become particularly serious when considering how much the volume of data available today is vastly superior to the volume pioneers of some methodologies had access to.

Focus on Issuers / User Monitoring

The data in most of the tools are based on so called indications or occurrences. It is the content unit count (tweets, posts, comments, videos, and photos) collected, the basis for comparisons and measurements regarding the volume, sentiment, topics, answers etc. But there is a large discrepancy, because a user minority publishes most of the instances, this is often much more intense than a Pareto distribution.

Occurrences x Users. Thus, one of the industry standards, the reporting of data according to the number of occurrences / mentions, is questionable in most of the deliveries made. Ability to deliver data from the quantification of users, as well as compare the variation and concentration of engagement, brings greater reliability to conclusions.

Sample designs. The sample data in the social media monitoring tools are mostly based on events rather than the users themselves. There is still much methodological ground to cover towards reliability and representability of samples taken from the type collections, but depending on the goal, taking users as the basis (instead of the entries) decreases imprecise data.

Studies focused on users. Search parameters that collect all user mentions in media such as Twitter, Instagram, or Facebook Groups or Blogs open the range of information products. Most inventive professionals use these resources to develop Public Studies, Ideation Personas, segments of Construction and the like. However, options for tagging, filtering and extraction of data focused on users are still relatively uncommon in the same market leaders. Something as simple as allowing user coding and reporting results from these codes greatly opens the delivery range (and, by extension, monetization).

 

 Techniques of Corpus Linguistics and Text Analytics

The text analytics techniques in tools are generally still very archaic. In absolute majority, the word frequency count was based only on 1-gram, stop words are not editable, there is no lammentization and other resources involving association between words do not exist. Some seek to develop natural language processing in search of the ill-fated automatic sentiment analysis, leaving aside the rest of the text wealth.

UCREL - Lob
British National Corpus development team

Reviewing a simple definition of linguistic corpus by Tom McEnery, the potential relationship between areas is transparent, “Corpus Linguistics is the study of language on a large scale analysis supported by computer extensive collections of written words or texts.”

When you look at the history of corpus linguistics, for example, the data volume comparison available is monumental. One of its major milestones was the creation of the Brown Corpus course in the 1960s. Researchers at Brown University have compiled over time, 500 texts representative of American English, with 2000 words each, totaling 1 million words.

Compared to any project of medium / large monitoring, the gross volume of data is easily overcome. Even the HERMES, 7 million tweet corpus developed by Michelle Zappavigna for his 2012 book, seems small compared the size of joint projects of large companies that carry out social media monitoring

jornalistas x advogados - frequencia
Frequência de termos por clusters de público

Frequency terms by public clusters. Strictly speaking, there is no representation and strict construction of corpora in these cases, but why are such volumes of textual data  not exploited with inherited techniques of corpus linguistics? It is not as if the technologies were out of reach of developers, since advanced software such as Voyant Tools  and Antconc are available in a free and open form.

antconc
Antconc, concordancer free version, developed by Laurence Anthony

 

 Social Network Analysis

Perhaps the most shocking thing in a market that treats its employees as “social networking analysts” is the amazingly rare use of social network analysis concepts. Terms such as nodes, links, graphs and clusters are rare in the lexicon of an area that still ignores decades and decades of thinking about the dynamics of networks.

The two images below exemplify the scale issue when we talk of networks in social media. The first is an adaptation of the study performed by Jacob Moreno in a female school, analyzing sociability dynamics of students in the 1960s. The 26 students and 52 connections represent the inequality of affection and social care:

dining table partners - jacob moreno

The next is the visualization of the small study data that we did on the mobilization #PrimeiroAssédio  (#FirstHarassment). Tens of thousands of tweets collected in a matter of hours, resulting in a navigable network from which emerged patterns of interaction, influence, conflict and collaboration in the network. An almost unimaginable dream for the pioneers of ARS decades ago:

análise de redes - primeiro assedio

Strictly speaking, the connections between profiles or hashtags are already there, implied in any monitoring carried out in published tweets and image patterns. But while technology only looks at data collection, leaving aside the proactive innovation, these connections are not taken advantage of – do not turn  into intellectual or financial value. As seen in the other post about Ferramentas de Análise de Redes para Mídias Sociais, (Network Analysis Tools for Social Media), commercial tools with features of networks are still rare, hampering the work of professionals. And it’s not because of a lack of opportunity and demand: the market is eager for a hand, and educators make intensive efforts to transform alfabetização em redes (literacy networks) into something universal.

There is still a long way to go for us; communication professionals seize the full potential of data and digital methods. In  Social Media Monitoring courses, we try to talk, explore and discuss some of these possibilities. And you, what do you think? Is it possible and smarter to move on to the digital intelligence market?

Conheça o pacote de cursos online de Análise de Redes, Monitoramento e Etnografia em Mídias Sociais. Com professores referências no mercado e academia, a formação tem o objetivo de ensinar conceitos, ferramentas e técnicas detalhadas nas áreas pertinentes.

postrelacionados

Comentários

comments

Comentários (4)

  1. Boa tarde!

    Gostei muito do seu texto. Surgiu uma dúvida, como as ferramentas estão classificando esses dados(Positivo, negativou ou neutro) ou estão classificando de acordo o sentimento expresso(Feliz, triste, alegre, ódio… entre outros)?

    Estou visando um desenvolvimento nessa área, mas vejo poucos projetos em português e os poucos classificando em positivo, negativo e neutro. Então, estou buscando essa classificação diferenciada, tanto desenvolvimento para minha vida acadêmica(TCC), como profissional.

    OBS: Na parte de realizar um comentário, as palavras em cima das caixas de preenchimentos, estão na mesma cor de fundo da página, dificultando leitura.

    Att,

Deixe um comentário