Ik besloot dit artikel te schrijven nadat ik de blog van David Robinson had gelezen. David is Data Scientist bij Stack Overflow. In zijn blog probeert hij een duidelijk onderscheid te maken tussen datawetenschap, machine learning en kunstmatige intelligentie. Allereerst moet ik zeggen dat het ironisch is dat een van de meest actuele en snelst groeiende IT-gebieden, nog steeds zulke fundamentele discussies over definities oproept. In de praktijk beginnen veel professionele discussies nog altijd met de nodige onderlinge afstemming: “Praten we wel over hetzelfde?”

Op dit moment wordt het Data & AI team bij InSpark uitgebreid. Daarbij is het belangrijk dat de definities van de verschillende vakgebieden eenduidig zijn. Alleen zo kunnen we de juiste mensen op de juiste plek krijgen, de juiste technologieën bij de juiste problemen selecteren, en het juiste verhaal aan onze klanten vertellen.

De drie stelregels

Ik ben het in grote lijnen eens met David’s denkwijze en zijn definities voor Data Science, Machine Learning en Artificial Intelligence. Ik raad je dan ook aan om zijn oorspronkelijke blog te lezen. Dit is essentieel voor het verdere begrip van het thema. Het is ook niet mijn bedoeling om de drie werkgebieden nogmaals te definiëren, maar om ze duidelijker te onderscheiden. David spreekt over drie stelregels die de fundamentele verschillen tussen de gebieden illustreren:

  1. Data Science levert inzichten
  2. Machine Learning levert voorspellingen
  3. Artificial Intelligence levert handelswijzen

Deze regels vormen de basis voor het te maken onderscheid. In mijn blog wil ik graag verder ingaan op de punten die David met betrekking tot dit onderscheid naar voren brengt. Daarnaast zal ik enkele van die punten illustreren aan de hand van onze ervaringen bij InSpark en, zoals gewoonlijk, ben ik het met een aantal zaken ook niet geheel eens.

1. Data Science levert inzichten

Wat is een inzicht eigenlijk? Ik zie een inzicht als een soort statistisch gegeven, dat een zakelijke vraag kan beantwoorden. Denk hier eens over na: waar verkoop je meer? Is dat online of offline? De vraag zelf ligt misschien voor de hand, maar om het juiste antwoord te krijgen, kan het zijn dat je een aantal analytische technieken moet gebruiken bovenop de al beschikbare gegevens. Voor de weergave en/of modellering van het echte leven, the real-life, is bijvoorbeeld de analyse van omvangrijke datasets nodig. De analyse van brondata vereist specifieke vaardigheden, zoals Forbes heel juist stelt

Door onze TVM-case kwamen we bijvoorbeeld tot het bijkomstige inzicht, dat het rijgedrag van vrachtwagenchauffeurs aan het eind van de dag helemaal niet verslechterd. Dit gaat lijnrecht in tegen een algemene opvatting dat mensen slechter gaan rijden naarmate de dag vordert en ze moe worden. Dit nieuwe inzicht kan echter wél verklaard worden. De combinatie van snelheidsbeperkingen, verplichte pauzes om de twee uur en het gebruik van cruise control in het commerciële transport, lijkt ervoor te zorgen dat het rijgedrag van chauffeurs niet verslechtert, maar juist stabiel blijft.

Meestal komen zulke terloopse inzichten samen met de beschrijvende inzichten aan het licht. Zo is de frequentie van ‘verstoord rijgedrag’ bij chauffeurs niet normaal verdeeld: 40% van de incidenten – storingen in het rijgedrag – vindt tussen 7 en 10 uur ‘s ochtends plaats.

2. Machine Learning (ML) levert voorspellingen

Dit is een vrij simpele regel. Bij Machine Learning praten we meestal over de modellen die ‘getraind’ zijn aan de hand van een zogenaamde ‘train set’ – een deelverzameling van de complete set echte, veelal historische data. Wordt een dergelijk getraind model toegepast op een nieuwe dataset van dezelfde structuur, kunnen met het model de vooraf onbekende waarden voorspeld worden. Computers leren dus van gegevens en en ervaringen, zonder expliciet geprogrammeerd te zijn.

Een voorbeeld uit de praktijk geeft dit mooi weer: Als we bijvoorbeeld het geheel aan telematische data van een auto en zijn bestuurder(s) nemen en aan de hand daarvan een model creëren dat het ‘rijprofiel’ van de bestuurder weergeeft, kan dat model voor elke navolgende nieuwe rit voorspellen of deze rit door dezelfde bestuurder gereden wordt of niet. Een dergelijk model is dan een ‘vingerafdruk’, waarmee de bestuurder geïdentificeerd kan worden aan de hand van de rijstijl en zónder over verdere details te beschikken.

De vingerafdruk zelf is hiervan een mooie analogie. Stel je voor dat we een vingerafdruk(model) hebben en daarnaast de vingerafdruksensor (het raamwerk voor Machine Learning) hebben. Ervan uitgaande dat er een database van de vingerafdrukken (de train set) aanwezig is, kan de vingerafdruksensor de persoon identificeren waartoe de vinger behoort. Maar het model kan dat níét op basis van gezichtsherkenning, want ons model is nu eenmaal ‘getraind’ op vingers.

Belangrijk om mee te nemen wanneer het gaat om het verschil tussen Data Science, Machine Learning en AI in het Microsoft-ecosysteem, is dat het níét begrijpen van het verschil, veel verklaart rondom de verwarring van de positionering van Azure Machine Learning, Azure HD Insights, Azure Databricks en vele andere services. Daarnaast is het van belang om de juiste tools voor het juiste probleem in te zetten wanneer je de Data en AI beweringen structureert. Over de inzet van de juiste tools kan ik een totaal nieuwe blog schrijven, maar dat terzijde.

3. Kunstmatige intelligentie (AI) levert handelswijzen

Met een computervisie die al 50 jaar gezien wordt als het klassieke exemplaar van AI, zou ik in eerste instantie zeggen dat er computervisie heerst en dat dan pas al het andere volgt. AI is nog niet zo revolutionair als mensen denken, want er lijkt een soort van: ‘Artificial Intelligence is alles wat we nog niet kunnen’-standpunt te heersen. Vandaag de dag is kunstmatige intelligentie een enorme hype en iedereen die probeert het te definiëren, zal waarschijnlijk falen.

Omdat AI maar al te vaak wordt gezien als iets dat autonome acties teweeg brengt waar mensen niet voor nodig zijn, zou ik de volgende drie eigenschappen toe willen voegen om AI echt te onderscheiden:

  • Data zijn niet gelimiteerd tot een bepaald schema en bevatten meestal het gehele spectrum, al dan niet beperkt door de context (bv. een schaakspel of autorijden).
  • Gegevens hebben een real-time karakter. De dingen om ons heen gebeuren in real-time en dat is iets wat AI-algoritmes als input meenemen.
  • AI ondersteunt mensen bij de interactie met de wereld om hen heen. In feite kan AI die wereld ook aanvullen en een achterwaartse interactie teweegbrengen. Denk aan robotica of het voornoemde schaakspel.

Een perfect voorbeeld van deze kunstmatige interactie met de wereld om ons heen, is hoe AI samenwerkt met augmented reality. Dit zijn twee begrippen die elkaar vaak aanvullen bij InSpark. De video hieronder illustreert hoe onze HoloLens-applicatie een autobezitter informeert over de bandenkwaliteit, het bandenprofiel en eventuele reparaties.

Denk er maar eens over na: op dit moment kunnen we ons niet voorstellen dat we ‘communiceren’ met onze autobanden, behalve wanneer ze stuk zijn en we een reparatiedienst moeten bellen. Dat is AI in actie.

Conclusie

Data Science, Machine Learning en Artificial Intelligence verschillen wel degelijk van elkaar. Ze hebben duidelijk ook veel gemeen,  wat blijkt uit het feit dat professionele datawetenschappers meestal vloeiend tussen de gebieden heen en weer kunnen springen. Om het geheel niet teveel te versplinteren, plaatsen we Data Science en Machine Learning bij InSpark allebei onder de paraplu van “data” (samen met data engineering en enkele andere infrastructurele aspecten in het kader van Internet of Things). We stellen Artificial Intelligence echter op zichzelf, om zo de bijdrage te benadrukken die AI levert aan de nieuwe manieren van interactie met de wereld. Daarnaast vereist AI veel verfijndere platformen om diepe leeralgoritmen te exploiteren.

SHARE
Andrei Varanovich

Principal Consultant Data & AI

Wil je hier meer over weten?
Ik praat je graag bij over de mogelijkheden voor jouw organisatie
Altijd up to date?
Blijf op de hoogte van de laatste innovaties. Geef aan welke mailings jij maandelijks wil ontvangen. Schrijf je nu in!