Is data scraping goed, slecht of iets ertussenin?

Er is veel gezegd en geschreven over data scraping. In deze blog een overzicht van wat het is, waarom het problematisch kan zijn en hoe we er in de toekomst mee om kunnen gaan.

Data scraping is in wezen een manier om gegevens van het ene systeem naar het andere over te dragen. Maar het verschilt van meer conventionele methoden voor gegevensoverdracht. Het belangrijkste verschil zit in de output. De ‘scraped data’ dienen niet als invoer voor een ander computerprogramma, maar zijn bedoeld voor weergave aan de eindgebruiker. Data scraping is daarom een ruwe techniek die alleen zal worden gebruikt als er geen andere manier is om gegevens uit een systeem te extraheren, zoals een besturingssysteem dat niet langer compatibel is met moderne hardware. De uitvoer is vaak erg ongestructureerd, omdat zaken als opmaak, binaire gegevens en andere aanvullende informatie niet kan worden overgedragen. Dit kan er zelfs voor zorgen dat programma’s crashen tijdens het data scraping.

Onderzoekers ontdekten onlangs een database die circuleerde op hackerforums. In de database stonden de persoonlijke gegevens van meer liefst vijfhonderd miljoen Facebook-gebruikers. Niet veel later doken soortgelijke nieuwsberichten op over een datalek in de database van LinkedIn. Uit analyse van beide incidenten bleek dat hackers niet eens de servers van de sociale-mediaplatforms hoefden aan te vallen om de gegevens te bemachtigen. Ze maakten gebruik van een handige truc genaamd ‘data scraping’. Hoe werkt deze techniek en hoe groot is het gevaar van data scraping voor internetgebruikers?

Illegaal of toch legaal?

“Data scraping is op zich niet illegaal”

Data scraping is op zich niet illegaal. Erkende cloudproviders zoals Amazon AWS bieden veilige tools voor web scraping in de vorm van gratis api’s. Zoals elk computerprogramma wordt data scraping pas gevaarlijk als de tools in de verkeerde handen vallen, zoals gebeurde bij Facebook.

Bij het Facebook-incident bevatte de database persoonsgegevens, zoals telefoonnummers en e-mailadressen. Als cybercriminelen deze gegevens in handen krijgen, kunnen ze deze inzetten voor phishing en andere vormen van fraude. Het is dus waar dat data scraping in eerste instantie een stuk minder ingrijpend is dan het hacken van iemands account en dat je waarschijnlijk niet direct wordt getroffen door een scraping-aanval. Maar op de lange termijn kan het je kwetsbaarder maken voor phishing-aanvallen. Bij het recente LinkedIn-datalek ging het om minder interessante gegevens, maar alle soorten data kunnen interessant zijn voor cybercriminelen of hackers.

Data scraping kan de deur openen voor spearphishing-aanvallen; hackers kunnen de namen zien van superieuren, lopende projecten, onderliggende bedrijven van organisaties et cetera. In wezen alles wat een hacker zou kunnen gebruiken om zijn boodschap aannemelijk te maken en voor hem de juiste reactie bij zijn slachtoffers uit te lokken.

Hoe kun je het voorkomen?

Als gebruiker van een website kun je niet veel doen tegen een scraping-aanval, behalve zorgvuldig beheren welke informatie je over jezelf op websites deelt. Doe met Facebook als voorbeeld daarom regelmatig een privacy-check om erachter te komen wat je wel of niet deelt. Uiteindelijk ligt de verantwoordelijkheid in wat je deelt bij jezelf. En dat is waarschijnlijk niet altijd zo gemakkelijk als je kijkt naar alle problemen die we tegenwoordig zien.

Houd er ook rekening mee dat de effecten van een hack lange tijd niet zichtbaar kunnen zijn. Op het moment dat iemand jouw gegevens misbruikt, ben je misschien zelfs al vergeten dat je deze ooit met het netwerk hebt gedeeld.

Advies voor website-eigenaren en bouwers

“Alles wat zichtbaar en toegankelijk is op je website voor menselijke bezoekers is mogelijk ook zichtbaar voor scraping bots”

Je moet er rekening mee houden dat alles wat zichtbaar en toegankelijk is op je website voor menselijke bezoekers, mogelijk ook zichtbaar is voor scraping bots. Er zijn ook enkele technische trucs die kunnen worden toegepast om de data te beveiligen. Deze trucs hebben echter vaak hun beperkingen. Je kunt een scraping poging vaak herkennen aan een groot aantal verzoeken die vanaf een enkel IP-adres naar jouw website worden verzonden (niet te verwarren met een DDoS-aanval, die ook op deze techniek vertrouwt). Je kunt dat dan als verdacht IP-adres uitsluiten.

In andere gevallen kan het vergrendelen van de data met inloggegevens goed werken. De scraper moet dan namelijk een stukje van zichzelf blootleggen om toegang te krijgen tot de data. Het regelmatig wijzigen van jouw HTML kan scrapers zo in de war brengen dat ze het ergens anders gaan proberen. De keerzijde hiervan is dat deze aanpak ook kan leiden tot verwarring bij jouw eigen web-ontwikkelaars. Het gebruik van captcha’s of veel mediabestanden kan ook pogingen van individuen ontmoedigen. Bots zijn soms gecodeerd om uitdrukkelijk specifieke captcha-patronen te doorbreken of kunnen diensten van derden gebruiken om captcha-uitdagingen te lezen en in realtime te reageren. Aan de juridische kant: bedrijven moeten actie ondernemen tegen data scrapers en hen waarschuwen voor het proces. Dit is op te nemen in de servicevoorwaarden. Dit doet natuurlijk niets tegen het scrapen, maar is wel aan te spreken tijdens rechtszaken.

Een kijkje in de toekomst

Diverse actoren maken gebruik van web scraping-bots, waaronder concurrenten met kwaadaardige bedoelingen, internetstarters, cybercriminelen, hackers en spammers. Op deze manier is het mogelijk om moeiteloos data te stelen. Ze bootsen vaak het normale gebruikersgedrag na, waardoor ze moeilijk te detecteren en nog lastiger te vinden zijn.

Web scraping kan de verkoop en conversies bedreigen, de seo-ranglijst verlagen of de integriteit ondermijnen van de data die tijd en middelen kostte om te produceren. Maar er zit zelfs een groter probleem achter, namelijk de toename van phishing pogingen of ransomware aanvallen die gebaseerd kunnen zijn op de gestolen gegevens van de gebruikers van de website. Dit is de reden dat webdesigners en sociale-mediabedrijven zich in de toekomst goed moeten beschermen tegen dit soort aanvallen.

Het begrijpen van het gevaar van web scrapen verhoogt niet alleen het bewustzijn van deze groeiende uitdaging, het stelt website-eigenaren ook in staat om actie te ondernemen ter bescherming van hun eigendom en de privacy van hun gebruikers! Laten we hopen dat ze allemaal deze blog lezen.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise l'intelligence artificielle et l'apprentissage automatique pour réduire les spams. Découvrez comment vos données de commentaire sont traitées.

Articles connexes

Actualités générales

Les utilisateurs d'Apple sont ciblés par une attaque de phishing avancée pour réinitialiser leur mot de passe ID

Les utilisateurs d'Apple sont la cible d'une attaque de phishing sophistiquée où les attaquants tentent de réinitialiser leur mot de passe Apple ID. Cette attaque exploite une faille dans la fonction de réinitialisation du mot de passe de l'identifiant Apple, inondant les utilisateurs de fausses demandes de modification de leur mot de passe. Les victimes sont ensuite approchées par des escrocs se faisant passer pour le personnel du support Apple, essayant de les convaincre de partager le code de réinitialisation du mot de passe. Cela pourrait entraîner un accès complet à l'identifiant Apple et aux données personnelles de l'utilisateur.

Lire la suite

Grande vulnérabilité de sécurité découverte dans l'application de bureau 3CX populaire, explication détaillée et résumé.

Ce billet de blog aborde une vulnérabilité de sécurité découverte dans l'application de bureau 3CX populaire, un logiciel utilisé par de nombreuses grandes entreprises dans le monde entier. Le billet de blog commence par décrire l'application de bureau 3CX officielle et comment elle est utilisée en remplacement des lignes téléphoniques d'entreprise traditionnelles. Il aborde ensuite la découverte d'une activité malveillante inattendue provenant de l'application de bureau 3CX par les analystes de sécurité de CrowdStrike. La réponse de l'entreprise à la découverte est critiquée et le manque de préparation de nombreuses grandes entreprises aux attaques de logiciels malveillants est souligné. Le billet de blog se poursuit par une explication technique de la manière dont la vulnérabilité de sécurité fonctionne, notamment la présence de fichiers DLL malveillants et le chiffrement des charges utiles malveillantes. La gravité de la vulnérabilité de sécurité est soulignée, car elle peut affecter des centaines, voire des milliers, des entreprises utilisant l'application de bureau 3CX.

Lire la suite

Autodiefstal met USB-kabels

In deze blog bespreken we de ontwikkelingen op het gebied van autodiefstal met USB-kabels. We leggen uit hoe autodieven met deze methode te werk gaan en hoe fabrikanten proberen dit probleem aan te pakken. We bespreken enkele mogelijke oplossingen, waaronder software-updates en fysieke beveiligingsmaatregelen, om deze vorm van autodiefstal te voorkomen.

Lire la suite

Hackers nemen Iraanse televisie over

Hackers hebben onlangs Iraanse live televisie overgenomen en kijkers aangespoord om geld van hun bankrekeningen op te nemen om de valuta van het land te ontwrichten. De hackers roepen op tot opstand tegen de regering.

Lire la suite
Vous êtes à jour, c'était le dernier message.
  • Étiquettes

  • Catégories

  • Archives

  • Aller au contenu principal