Blog Layout

Waarom Whitebox?

Koen de Raad • 6 januari 2023

Transparantie in communicatie maar ook transparante algoritmes om beter te begrijpen wat er gebeurt.

Waarom Whitebox?

Het hoeft geen lang verhaal te zijn. Waarom heten we eigenlijk Whitebox Data Science en niet anders? Wellicht ben je al bekend met de term blackbox. Dit is een systeem, object of apparaat waarvan we weten wat we er in stoppen en wat er uit komt maar niets begrijpen van wat daar tussenin gebeurt. Veel data science technieken kunnen worden gezien als blackboxes, zeker voor diegene die zelf geen data scientist zijn.


Bij Whitbox Data Science vinden we het belangrijk dat we goed kunnen uitleggen wat er precies gebeurt en waarom bepaalde algoritmen bepaalde keuzes maken en waar deze keuzes van afhangen. Dit is dan ook de reden dat we Whitebox Data Science heten, we hebben de ambitie om data science begrijpelijk te maken en te zorgen dat het geen blackbox systemen meer zijn voor onze klanten. Hiernaast gaan we ook zo transparant mogelijk te werk en proberen we onze klanten mee te  nemen in wat we doen zodat ook zij daar iets van leren en zelf leren werken met hun data.


Hoe maken wij data science begrijpelijk?

Om data science begrijpelijk te maken moet je beginnen bij de basis, de data. Het maakt niet uit hoe goed je je algoritme kan uitleggen, als je data vervuild of gewoonweg niet goed is wordt het lastig om er waarde mee te genereren en al helemaal om het ook nog begrijpelijk te maken. Dat roept uiteraard de vraag op wat goede data precies is. Hierover kun je meer lezen in een van onze toekomstige blog posts. Om bedrijven op weg te helpen met hun data, bieden we als Whitebox een data check aan. Hiermee kunnen we je in een dagdeel op weg helpen door te kijken welke data er beschikbaar, of deze goed bruikbaar is en wat de mogelijkheden zijn met deze data. Bij interesse kun je hierover contact met ons opnemen.

 

Naast data van goede kwaliteit is het ook nodig om meester te zijn van de algoritmes die je inzet. Je moet weten of je uberhaupt een algoritme nodig hebt of dat een slimme analyse volstaat. Wanneer je een algoritme gaat gebruiken moet je weten welke je het best kan inzetten op welk momente en bij voorkeur kies je een algoritme dat ook nog eens goed uit te leggen is. Hierbij is het belangrijk dat er een goede afweging wordt gemaakt tussen de uitlegbaarheid en performance van algoritmes. Je wil zo goed mogelijk kunnen controleren of je algoritme doet wat ze moet doen maar het liefst zonder in te leveren op de functionaliteit. Bij Whitebox proberen we problemen zo simpel mogelijk op te lossen en kijken we eerst wat de mogelijkheden zijn voor algoritmes met relatieve lage complexiteit. Waarom zou je iets moeilijker maken dan nodig is?

 

Ten slotte is er ook nog de interpretatie en presentatie van de resultaten. Uit data kan ontzettend veel informatie worden gehaald waar je iets mee kan. Het is echter wel belangrijk dat je de juiste bevinding gebruikt om je keuzes op te baseren. Data kan misleidend zijn. Een goed voorbeeld hiervan wordt weergegeven in Anscombe’s quartet waarin de resultaten van een lineaire regressie vier maal hetzelfde zijn maar de onderliggende data wel degelijk verschilt:


Wat we hierboven zien is het resultaat van vier lineaire regressies (een type voorspelmodel) op vier verschillende datasets. De stippen representeren de data en de lijn kun je zien als de output van het model. Het doel van een lineaire regressie is om een passend model te bouwen dat zoveel mogelijk lijkt op de data. Dit model kan vervolgens worden gebruikt om voorspellingen te maken wanneer we nieuwe data ontvangen. In het geval van de afbeeldingen hierboven zien we vier dezelfde modellen bij het gebruik van erg verschillende data. Dit maakt duidelijk dat je niet zomaar op wat modellen kan vertrouwen maar je ook goed je data moet onderzoeken en je resultaten moet evalueren voordat je ze voor waar aanneemt.


Bij Whitebox gaan we secuur te werk en draaien we niet zomaar een set aan plotjes uit. We duiken dieper in de resultaten en proberen deze te verklaren voordat we deze aan onze klanten presenteren in een rapportage, dashboard of presentatie. 

door Koen de Raad 5 mei 2023
De stappen die we doorlopen, samen met onze klanten.
Kantoorpanden van onderen
door Jelmer Wilhelm 2 april 2023
Wat is data engineering en waarom heb je het nodig.
Share by: