Skip naar inhoud

Wilt u deze bijdrage aanbevelen? Dat kan via:

Er is veel gezegd en geschreven over data scraping. In deze blog een overzicht van wat het is, waarom het problematisch kan zijn en hoe we er in de toekomst mee om kunnen gaan.

Data scraping is in wezen een manier om gegevens van het ene systeem naar het andere over te dragen. Maar het verschilt van meer conventionele methoden voor gegevensoverdracht. Het belangrijkste verschil zit in de output. De ‘scraped data’ dienen niet als invoer voor een ander computerprogramma, maar zijn bedoeld voor weergave aan de eindgebruiker. Data scraping is daarom een ruwe techniek die alleen zal worden gebruikt als er geen andere manier is om gegevens uit een systeem te extraheren, zoals een besturingssysteem dat niet langer compatibel is met moderne hardware. De uitvoer is vaak erg ongestructureerd, omdat zaken als opmaak, binaire gegevens en andere aanvullende informatie niet kan worden overgedragen. Dit kan er zelfs voor zorgen dat programma’s crashen tijdens het data scraping.

Onderzoekers ontdekten onlangs een database die circuleerde op hackerforums. In de database stonden de persoonlijke gegevens van meer liefst vijfhonderd miljoen Facebook-gebruikers. Niet veel later doken soortgelijke nieuwsberichten op over een datalek in de database van LinkedIn. Uit analyse van beide incidenten bleek dat hackers niet eens de servers van de sociale-mediaplatforms hoefden aan te vallen om de gegevens te bemachtigen. Ze maakten gebruik van een handige truc genaamd ‘data scraping’. Hoe werkt deze techniek en hoe groot is het gevaar van data scraping voor internetgebruikers?

Illegaal of toch legaal?

“Data scraping is op zich niet illegaal”

Data scraping is op zich niet illegaal. Erkende cloudproviders zoals Amazon AWS bieden veilige tools voor web scraping in de vorm van gratis api’s. Zoals elk computerprogramma wordt data scraping pas gevaarlijk als de tools in de verkeerde handen vallen, zoals gebeurde bij Facebook.

Bij het Facebook-incident bevatte de database persoonsgegevens, zoals telefoonnummers en e-mailadressen. Als cybercriminelen deze gegevens in handen krijgen, kunnen ze deze inzetten voor phishing en andere vormen van fraude. Het is dus waar dat data scraping in eerste instantie een stuk minder ingrijpend is dan het hacken van iemands account en dat je waarschijnlijk niet direct wordt getroffen door een scraping-aanval. Maar op de lange termijn kan het je kwetsbaarder maken voor phishing-aanvallen. Bij het recente LinkedIn-datalek ging het om minder interessante gegevens, maar alle soorten data kunnen interessant zijn voor cybercriminelen of hackers.

Data scraping kan de deur openen voor spearphishing-aanvallen; hackers kunnen de namen zien van superieuren, lopende projecten, onderliggende bedrijven van organisaties et cetera. In wezen alles wat een hacker zou kunnen gebruiken om zijn boodschap aannemelijk te maken en voor hem de juiste reactie bij zijn slachtoffers uit te lokken.

Hoe kun je het voorkomen?

Als gebruiker van een website kun je niet veel doen tegen een scraping-aanval, behalve zorgvuldig beheren welke informatie je over jezelf op websites deelt. Doe met Facebook als voorbeeld daarom regelmatig een privacy-check om erachter te komen wat je wel of niet deelt. Uiteindelijk ligt de verantwoordelijkheid in wat je deelt bij jezelf. En dat is waarschijnlijk niet altijd zo gemakkelijk als je kijkt naar alle problemen die we tegenwoordig zien.

Houd er ook rekening mee dat de effecten van een hack lange tijd niet zichtbaar kunnen zijn. Op het moment dat iemand jouw gegevens misbruikt, ben je misschien zelfs al vergeten dat je deze ooit met het netwerk hebt gedeeld.

Advies voor website-eigenaren en bouwers

“Alles wat zichtbaar en toegankelijk is op je website voor menselijke bezoekers is mogelijk ook zichtbaar voor scraping bots”

Je moet er rekening mee houden dat alles wat zichtbaar en toegankelijk is op je website voor menselijke bezoekers, mogelijk ook zichtbaar is voor scraping bots. Er zijn ook enkele technische trucs die kunnen worden toegepast om de data te beveiligen. Deze trucs hebben echter vaak hun beperkingen. Je kunt een scraping poging vaak herkennen aan een groot aantal verzoeken die vanaf een enkel IP-adres naar jouw website worden verzonden (niet te verwarren met een DDoS-aanval, die ook op deze techniek vertrouwt). Je kunt dat dan als verdacht IP-adres uitsluiten.

In andere gevallen kan het vergrendelen van de data met inloggegevens goed werken. De scraper moet dan namelijk een stukje van zichzelf blootleggen om toegang te krijgen tot de data. Het regelmatig wijzigen van jouw HTML kan scrapers zo in de war brengen dat ze het ergens anders gaan proberen. De keerzijde hiervan is dat deze aanpak ook kan leiden tot verwarring bij jouw eigen web-ontwikkelaars. Het gebruik van captcha’s of veel mediabestanden kan ook pogingen van individuen ontmoedigen. Bots zijn soms gecodeerd om uitdrukkelijk specifieke captcha-patronen te doorbreken of kunnen diensten van derden gebruiken om captcha-uitdagingen te lezen en in realtime te reageren. Aan de juridische kant: bedrijven moeten actie ondernemen tegen data scrapers en hen waarschuwen voor het proces. Dit is op te nemen in de servicevoorwaarden. Dit doet natuurlijk niets tegen het scrapen, maar is wel aan te spreken tijdens rechtszaken.

Een kijkje in de toekomst

Diverse actoren maken gebruik van web scraping-bots, waaronder concurrenten met kwaadaardige bedoelingen, internetstarters, cybercriminelen, hackers en spammers. Op deze manier is het mogelijk om moeiteloos data te stelen. Ze bootsen vaak het normale gebruikersgedrag na, waardoor ze moeilijk te detecteren en nog lastiger te vinden zijn.

Web scraping kan de verkoop en conversies bedreigen, de seo-ranglijst verlagen of de integriteit ondermijnen van de data die tijd en middelen kostte om te produceren. Maar er zit zelfs een groter probleem achter, namelijk de toename van phishing pogingen of ransomware aanvallen die gebaseerd kunnen zijn op de gestolen gegevens van de gebruikers van de website. Dit is de reden dat webdesigners en sociale-mediabedrijven zich in de toekomst goed moeten beschermen tegen dit soort aanvallen.

Het begrijpen van het gevaar van web scrapen verhoogt niet alleen het bewustzijn van deze groeiende uitdaging, het stelt website-eigenaren ook in staat om actie te ondernemen ter bescherming van hun eigendom en de privacy van hun gebruikers! Laten we hopen dat ze allemaal deze blog lezen.

Lees ook:

Wat wil en wenst de ontwikkelaar?

In een krappe ict-arbeidsmarkt is het voor werkgevers interessant te weten wat er onder ontwikkelaars leeft. Bedrijven die de juiste tools bieden, hebben een streepje voor. Een internationaal onderzoek onder ruim zeventigduizend ontwikkelaars uit de Stack Overflow-community geeft inzicht in de trends. Dit rapport is bij recruiters dan ook niet onopgemerkt gebleven. Ze krijgen zo een beeld van hoe developers leren en meer kennis vergaren, welke tools ze gebruiken en waaraan ze behoefte hebben.

TNO: Europa kan tech-overmacht VS en China doorbreken

Zet vol in op de ontwikkeling van 6G, maak Gaia-X volwassen, loop voorop met edge computing en omarm open technologie. Dit zijn enkele aanbevelingen van TNO om in Europa de overheersing van Big Tech en Chinese (5G-)bedrijven te doorbreken.

Subpostmaster campaigning forces government to set up compensation scheme and make interim payments

Subpostmaster campaign group is a step closer to achieving what it was originally set up to do as government launches compensation scheme for its members who did not receive fair payouts

Advies: wacht met 3,5 GHz tot Inmarsat weg is

Het duurt waarschijnlijk tot eind 2023 voordat de 3,5-GHz-frequentieband beschikbaar komt voor openbare mobiele-communicatiediensten. Er is weliswaar veel vraag naar extra frequentieruimte, maar op de daarvoor afgesproken 3,5-GHz-band kan dat storen met noodoproepen van de lucht- en zeevaart. Het ministerie krijgt het advies te wachten totdat satellietbedrijf Inmarsat is verhuisd van het Friese Burum naar Griekenland.

Na sase komt sse (security service edge)

Security service edge (sse) is de evolutie van het sase-framework van Gartner. Door de letter ‘A’ (voor ’access) te verwijderen, wordt duidelijk dat het netwerk niet langer wordt beschouwd als onderdeel van een beveiligingsoplossing. Het is slechts het mechanisme dat de datastromen naar het security- en controleplatform transporteert.

UK tech has 2.8% gender ‘wage gap’, says Hired

The wage offered to women for tech jobs in the UK is 2.8% less than offered to male counterparts – a larger gap than in the US and Canada, says Hired

Wilt u deze bijdrage aanbevelen? Dat kan via:

Klaar voor de beste oplossing voor uw IT & ICT-situatie?

Ik heb mijn wachtwoord gewijzigd in “onjuist.” Dus wanneer ik vergeet wat het is, zal de computer zeggen: “Uw wachtwoord is onjuist.”