Los contenidos generados por la Inteligencia Artificial (IA) han proliferado en el lapso de muy breve tiempo atrás. Pero no ha resultado automático para Google determinar cuándo se trata de contenidos de calidad. La reacción de Google ha sido de alguna manera mejorar sus mecanismos. Es decir, la proliferación de contenido de IA ha resultado en mayores esfuerzos para Google en sus mecanismos para la detección del spam. De hecho, los expertos en el tema aseguran que las capacidades de Google para identificar a través de algoritmos los contenidos de IA de baja calidad están mejorando.
Contenido de IA en la web
No es necesario ser un experto en SEO para darse cuenta de que los contenidos generados por IA han estado presentes en los resultados de búsqueda de Google durante al menos el último año. Lo importante es entender que la actitud de Google hacia este tipo de contenido ha evolucionado. Al principio, la posición oficial de Google era que el contenido creado por IA era spam y violaba sus pautas. Sin embargo, ahora se enfoca en la calidad del contenido, independientemente de cómo se haya producido.
Según declaraciones de Google, existe lo que se conoce como la «web visible», que es la porción de la web que los motores de búsqueda eligen para indexar y mostrar en los resultados. Google mantiene un índice de aproximadamente 400 mil millones de documentos, aunque encuentra billones de documentos durante su proceso de rastreo. Esto significa que Google solo indexa alrededor del 4% de los documentos que rastrea (400 mil millones de 10 billones).
Google afirma que protege a los usuarios del spam en el 99% de los clics en las consultas. Si la cifra es capaz de tener al menos alguna precisión, significa que ya está eliminando la mayor parte del contenido que no vale la pena ver.
Calidad del contenido
Por otro lado, Google suele afirmar que es eficaz en determinar la calidad del contenido. Sin embargo, muchos expertos en SEO y administradores de sitios web discrepan, citando ejemplos donde contenido de menor calidad supera al contenido superior. En general, cualquier empresa de buena reputación que invierta en contenido probablemente se ubique en el porcentaje superior de contenido calificado como bueno en la web, al igual que sus competidores. Google ya ha eliminado una gran cantidad de contenido de menor calidad para su inclusión en el índice.
Desde la perspectiva de Google, el trabajo ha sido excelente. Esto porque el 96% de los documentos no llegaron al índice. Aunque algunos problemas son obvios para los humanos, pueden ser difíciles de detectar para una máquina.
En resumen, Google es competente para entender técnicamente qué páginas son buenas o malas, pero es relativamente ineficaz en diferenciar entre buen contenido y contenido excelente. Además, sabemos que Google se basa en las interacciones de los usuarios con las SERP (páginas de resultados de búsqueda) para evaluar la calidad del contenido. Según Google, cada usuario se beneficia de las respuestas de usuarios anteriores, lo que en teoría mejora las respuestas para futuros usuarios.
Sin embargo, el uso de datos de interacción por parte de Google para juzgar la calidad siempre ha sido un tema debatido. Algunos especialistas afirman que Google utiliza interacciones casi exclusivamente de sus SERP, no de sitios web, para tomar decisiones sobre la calidad del contenido. Al hacerlo, se descartan métricas del sitio como la tasa de rebote.
Complejidad en los datos de usuarios
Hace varios años, fuentes de Google han afirmado que el motor de búsqueda busca cambios en los patrones de clics, pero que interpretar estos datos es más complejo de lo esperado. La capacidad de Google para convertir los datos de los usuarios en algo procesable depende de entender la relación de causa y efecto entre las variables cambiantes y sus resultados asociados.
Sabemos que las SERP son el único lugar donde Google puede comprender las variables presentes. Sin embargo, las interacciones en los sitios web introducen una gran cantidad de variables que Google no puede ver.
Incluso si Google pudiera identificar y cuantificar las interacciones con los sitios web, esto generaría un efecto dominó con el crecimiento exponencial de diferentes conjuntos de variables. De hecho, cada una requeriría umbrales mínimos de tráfico antes de poder sacar conclusiones significativas.
Por ello, Google reconoce en sus documentos que la creciente complejidad de la experiencia del usuario (UX) hace que los comentarios sean cada vez más difíciles de convertir en juicios de valor precisos, especialmente en el contexto de las SERP.
Contenido de IA spam
Google publicó este año una guía sobre contenido creado por IA. Sus Políticas de spam definen específicamente el «contenido spam generado automáticamente» como aquel creado principalmente para manipular las clasificaciones de búsqueda. Según Google, el spam es «texto generado a través de procesos automatizados sin tener en cuenta la calidad o la experiencia del usuario». Esto se refiere a cualquier persona que utilice sistemas de inteligencia artificial para producir contenido sin un proceso de control de calidad humano.
Existen casos en los que un sistema de IA generativa podría estar entrenado con datos privados o de propiedad exclusiva, configurado para tener una salida más determinista, reduciendo alucinaciones y errores. Esto podría considerarse como control de calidad previo, aunque es probable que sea una táctica poco utilizada.
Anteriormente, la generación de este tipo de spam estaba reservada para aquellos con habilidades técnicas para extraer datos, crear bases de datos para madLibbing, o usar PHP para generar texto con cadenas de Markov. Sin embargo, ChatGPT ha democratizado el acceso al spam, permitiendo a las masas crear contenido con solo unas pocas indicaciones y una API sencilla. La Política de publicación de OpenAI establece que «El papel de la IA en la formulación del contenido se revela claramente de una manera que ningún lector podría pasar por alto y que un lector típico encontraría suficientemente fácil de entender». SIn embargo, esta política no necesariamente se aplica.
El volumen de contenido generado por IA en la web es enorme. Una búsqueda en Google para regenerar respuesta y resultados de chat gpt muestra decenas de miles de páginas con contenido de IA generado manualmente, sin utilizar una API. En muchos casos, el control de calidad ha sido tan deficiente que los responsables del contenido de IA dejaron la respuesta regenerada de las versiones anteriores de ChatGPT durante el proceso de copiar y pegar.
Patrones
Algunas investigaciones sencillas con contenido generado por IA han mostrado que Google indexa estos sitios sin problemas aparentes durante varios meses, para luego ver una caída en su tráfico. Todo indica que las fluctuaciones de tráfico se deben al trabajo del algoritmo, no a acciones manuales.
Podemos concluir que la clasificación es un proceso de varias etapas para Google. El tiempo, los costos y los límites de acceso a los datos impiden la implementación de sistemas más complejos. Aunque la evaluación de documentos es continua, puede haber un retraso antes de que los sistemas de Google detecten contenido de baja calidad. Por ello, el patrón se repite. Sabemos que el contenido pasa una prueba inicial, pero luego es identificado y ajustado.
Por ejemplo, cuando un sitio es nuevo, los usuarios aún no han interactuado con su contenido en las SERP. Google no puede evaluar la calidad del contenido sin estas interacciones. Para abordar esto, Google predice un puntaje de calidad para sitios nuevos obteniendo primero una medida de frecuencia relativa para una variedad de frases encontradas en el sitio nuevo. Luego, estas medidas se mapean utilizando un modelo de frases generado previamente a partir de puntajes de calidad establecidos en sitios previamente calificados.
A manera de conclusión
Los sistemas de clasificación actuales de Google no pueden seguir el ritmo de la creación y publicación de contenido generado por IA. A medida que los sistemas de IA generan contenido gramaticalmente correcto y en su mayoría «sensible», pasan las «pruebas de olfato» de Google. Luego se clasifican hasta que se realicen más análisis.
El problema radica en la velocidad a la que se crea este contenido con IA generativa, lo que genera una cola interminable de sitios esperando la evaluación inicial de Google. No obstante, es razonable esperar que Google sea consciente de que este es uno de los principales desafíos que enfrenta.
Imagen cortesía de https://pixabay.com, a quien pertenecen todos los derechos