Perplexity AI ha utilizzato dati anche da siti web che gli sviluppatori hanno vietato di analizzare

Di: Viktor Tsyrfa | 04.08.2025, 20:19
Svelare il CEO di Perplexity: Sfide di Leadership nel Mondo Tech CEO di Perplexity. Fonte: Kimberly White/Getty Images

Cloudflare ha pubblicato uno studio che mostra quanto segue: Perplexity AI stava rastrellando (scaricando e analizzando dati) siti web, anche se questi indicavano chiaramente nel robots.txt che l'accesso automatico era vietato. Inoltre, il sistema ha eluso le protezioni cambiando l'user agent (ad esempio, impersonando Chrome su macOS) e reindirizzando il traffico attraverso diversi ASN - "stealth scraping".

L'attività dell'AI è stata rilevata su decine di migliaia di domini con milioni di richieste giornaliere, e Cloudflare è stata in grado di identificare il bot utilizzando modelli di ML e segnali di rete.

Perplexity è un motore di ricerca alimentato dall'AI che cerca di essere un'alternativa più intelligente a Google, ma con un focus sulla conversione e sulla ricerca basata sul dialogo. Cerca di analizzare i risultati trovati e di fornire immediatamente all'utente un estratto, senza la necessità di cliccare sui link. In generale, Google ha colto questa tendenza e ha aggiunto il proprio Gemini al suo motore di ricerca.

Come reagisce Perplexity

Il portavoce dell'azienda, Jesse Dwyer, ha affermato che l'accusa era una "bufala" e che gli screenshot pubblicati non dimostravano l'accesso ai contenuti. Più tardi, ha persino detto che il bot in questione non apparteneva a Perplexity.

Storia di comportamenti sospetti

Già nel 2024, i giornalisti di Wired e lo sviluppatore Robb Knight hanno pubblicato risultati secondo cui Perplexity ignorava il robots.txt utilizzando indirizzi IP nascosti e crawler di terze parti. L'amministratore delegato dell'azienda ha riconosciuto l'esistenza di tali crawler, ma ha rifiutato di spiegare chiaramente se avrebbero smesso di utilizzarli.

Se è legale

Il file robots.txt è un file di testo semplice che descrive le pagine che non dovrebbero essere analizzate da bot di ricerca e pubblicità. Non ha alcun meccanismo per impedire effettivamente che questi indirizzi vengano analizzati, ma piuttosto fornisce raccomandazioni. In questo modo, i bot "capiscono" dove si trovano informazioni personali o tecniche che non sono destinate all'analisi. Tuttavia, le informazioni veramente riservate non possono essere nascoste in questo modo. L'uso di diversi bot, IP, redirect e sostituzione dell'user-agent non è nemmeno vietato. Le azioni di Perplexity sono completamente legali, sebbene siano poco etiche. Attualmente, non ci sono strumenti efficaci per rendere pubbliche le informazioni e impedire che siano accessibili all'AI. Le informazioni riservate dovrebbero essere rilasciate solo dopo identificazione, oppure dovrebbe essere accettato che l'AI ne apprenderà e le utilizzerà per i propri scopi.

Reazioni e conseguenze

La BBC minaccia una causa per lo scraping senza permesso: sta chiedendo la rimozione dei materiali, un risarcimento e la cessazione dell'accesso. Anche Amazon / AWS ha avviato una revisione interna di Perplexity per violazione dei termini di utilizzo dei propri servizi.

Fonte: techcrunch.com