AIToday Live

S06E79 - Van experimenteren naar professionaliseren in AI met Rik van Bruggen (Hopsworks)

Aigency by Info Support Season 6 Episode 79

Stuur ons een bericht

In deze aflevering van AIToday Live is Rik van Bruggen te gast. Hij bespreekt de fundamenten van machine learning en de impact ervan op kunstmatige intelligentie.

Rik legt uit hoe machine learning algoritmes ontwikkelt die computers in staat stellen om te leren van data, wat cruciaal is voor toepassingen zoals fraudedetectie en aanbevelingssystemen. 

Daarnaast komt de rol van Hopsworks aan bod, waar Rik werkt aan het professionaliseren van machine learning-processen via een feature store.

Dit systeem bevordert samenwerking en consistentie in data-analyse. 

De aflevering biedt praktische inzichten voor bedrijven die machine learning willen implementeren en benadrukt het belang van verantwoord gebruik van AI.

Links

Aigency
Aigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.

Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).

Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.

Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!

1
00:00:00,001 --> 00:00:06,000
Hoi, leuk dat je weer luistert naar een nieuwe aflevering van AIToday Live.

2
00:00:06,000 --> 00:00:12,000
Met vandaag een gast van onze zuiderburen, Rik van Bruggen.

3
00:00:12,000 --> 00:00:16,000
Helemaal vanuit België naar de studio gekomen. Geweldig.

4
00:00:16,000 --> 00:00:21,000
Voordat we beginnen, eerst eventjes. Mijn naam is Joop Snijder, CTO bij Aigency.

5
00:00:21,000 --> 00:00:24,000
Mijn naam Niels Naglé Area Lead Data & AI bij Info Support.

6
00:00:24,000 --> 00:00:27,000
Rik, welkom in onze studio.…

7
00:00:27,000 --> 00:00:32,000
Ik ben zo blij om hier te zijn. Het is fantastisch. Echt een leuke plek.

8
00:00:32,000 --> 00:00:34,000
Dank je wel voor de uitnodiging.

9
00:00:34,000 --> 00:00:41,000
Ja, uiteraard. We gaan het vandaag over een iets technischer onderwerp hebben voor onze luisteraars.

10
00:00:41,000 --> 00:00:44,000
Maar blijf vooral luisteren, want het wordt ontzettend interessant.

11
00:00:44,000 --> 00:00:48,000
We gaan het dit keer hebben over machine learning en wat je daarvoor nodig hebt.

12
00:00:48,000 --> 00:00:54,000
Ik weet dat de meesten nu met hun hoofd in de generatieve AI zitten.

13
00:00:54,000 --> 00:00:59,000
In de taalmodellen en het creëren van plaatjes, misschien video's en dat soort zaken.

14
00:00:59,000 --> 00:01:06,000
Maar we gaan eigenlijk terug naar de basis van waar AI heel krachtig in is.

15
00:01:06,000 --> 00:01:11,000
Dat is de machine learning, dat je daar hele krachtige use cases mee kan maken.

16
00:01:11,000 --> 00:01:17,000
Maar voordat we daar verder in gaan, Rik, zou je je voor willen stellen aan de luisteraar?

17
00:01:17,000 --> 00:01:22,000
Met heel veel plezier. Alvast mijn excuses voor het Vlaamse accent.

18
00:01:22,000 --> 00:01:24,000
Klinkt lekker hoor.

19
00:01:24,000 --> 00:01:27,000
Hopelijk gaan mensen mij kunnen begrijpen.

20
00:01:27,000 --> 00:01:31,000
Ik ben Rik van Bruggen. Ik kom helemaal uit Antwerpen.

21
00:01:31,000 --> 00:01:34,000
Vroeg opgestaan om hier op tijd te zijn.

22
00:01:34,000 --> 00:01:41,000
Wie ben ik? Ik ben 50 jaar, ik heb drie kinderen. Ik loop al een tijdje rond in de industrie.

23
00:01:41,000 --> 00:01:48,000
Ik ben 15 jaar geleden in de data-industrie terechtgekomen.

24
00:01:48,000 --> 00:01:52,000
Een aantal omzwervingen voor die uiteraard.

25
00:01:52,000 --> 00:01:57,000
Ik heb met heel veel plezier in de data-industrie bij Neo4j gewerkt.

26
00:01:57,000 --> 00:02:00,000
Graf databases, daarna bij datamodelering tools.

27
00:02:00,000 --> 00:02:05,000
En nu sinds een klein jaartje bij een ander Zweedse bedrijfje.

28
00:02:05,000 --> 00:02:11,000
En dat is Hopsworks. Die klein bedrijf, veel technologie, veel heel technische mensen.

29
00:02:11,000 --> 00:02:17,000
En ik mag proberen om klanten met die software, met die infrastructuur software te helpen.

30
00:02:17,000 --> 00:02:21,000
Dat vind ik heel erg leuk. Dat zijn met heel veel passie en plezier.

31
00:02:21,000 --> 00:02:26,000
En zoals ik daar zachts eigenlijk aan Niels al voor deze opname vertelde.

32
00:02:26,000 --> 00:02:32,000
Ik haat eigenlijk verkopen, maar ik hoop dat ik wel heel veel mensen kan helpen.

33
00:02:32,000 --> 00:02:37,000
Dat betekent ook dat ik heel graag zelf tinker.

34
00:02:37,000 --> 00:02:43,000
Dat ik met de software wil werken, dat ik het wil voelen, dat ik het wil begrijpen.

35
00:02:43,000 --> 00:02:50,000
En dus ook de techniek wil begrijpen. Ik denk dat dat heel belangrijk is in de hedendaagse omstandigheden.

36
00:02:50,000 --> 00:02:54,000
Je kan een klant eigenlijk moeilijk helpen. Ten eerste als je zijn probleem niet begrijpt.

37
00:02:54,000 --> 00:02:58,000
En ten tweede als je ook een klein beetje de map kan maken met de oplossing.

38
00:02:58,000 --> 00:03:03,000
Ja, dat is waarom we ook zeggen inderdaad. Ben je zelf nog niet aan de slag met Gen AI en andere toepassingen?

39
00:03:03,000 --> 00:03:08,000
Ga ermee aan de slag, want je moet het zelf ervaren om te kunnen bekijken wat voor problemen los te stoppen.

40
00:03:08,000 --> 00:03:12,000
En dat is mooi om te horen hoe je dat ook dan voor de commerciële kant invult.

41
00:03:12,000 --> 00:03:19,000
Ja, helemaal mee eens. Ik denk, ik zeg het, klanten willen nooit dat je hen iets verkoopt.

42
00:03:19,000 --> 00:03:24,000
Vandaag zitten we met heel recht geïnformeerde mensen aan de andere kant van de tafel.

43
00:03:24,000 --> 00:03:28,000
En je moet gewoon proberen om hun problemen op te lossen.

44
00:03:28,000 --> 00:03:33,000
En dat is ook heel fijn bij bedrijven zoals Hopsworks, een piepklein technologiebedrijfje.

45
00:03:33,000 --> 00:03:39,000
Maar uiteindelijk is dat ook een open source model, een subscription model.

46
00:03:39,000 --> 00:03:45,000
Eigenlijk heb je alle incentives op de juiste plaats om ervoor te zorgen dat de klant effectief geholpen wordt.

47
00:03:45,000 --> 00:03:46,000
Dat vind ik heel fijn.

48
00:03:46,000 --> 00:03:49,000
Ja, laten we zo direct eens kijken van wat voor cases dat zijn.

49
00:03:49,000 --> 00:03:56,000
Maar voordat we daarnaar kijken, kun je uitleggen hoe machine learning zich verhoudt tot AI in het algemeen?

50
00:03:56,000 --> 00:04:01,000
Ja, ik denk dat daar waarschijnlijk verschillende meningen over zijn.

51
00:04:01,000 --> 00:04:05,000
Maar ik ga je proberen mijn visie daarop te delen.

52
00:04:05,000 --> 00:04:11,000
Ik denk eigenlijk dat generative AI of AI in het algemeen, dat het eigenlijk een toepassing is van machine learning.

53
00:04:11,000 --> 00:04:20,000
Dat je eigenlijk de fundamenten van de mechanismes die we met machine learning hebben ontwikkeld voorbij,

54
00:04:20,000 --> 00:04:23,000
50 jaar, ik bedoel dat is al heel erg lang aan het evalueren.

55
00:04:23,000 --> 00:04:30,000
Maar dat we die eigenlijk hebben toegepast op zo'n manier zodanig dat we nu bijvoorbeeld taal heel erg goed kunnen begrijpen.

56
00:04:30,000 --> 00:04:38,000
We hebben een heel goed begrip ontwikkeld van de patronen en de mechanismes die in taal gebruikt worden.

57
00:04:38,000 --> 00:04:44,000
Zodanig dat we een model daarvan kunnen maken en dat we met dat model dingen kunnen beginnen doen.

58
00:04:44,000 --> 00:04:48,000
Dus ik denk dat machine learning eigenlijk het fundament is.

59
00:04:48,000 --> 00:04:54,000
Eigenlijk de onderliggende technologieën en mechanismes die gebruikt worden om die large language models,

60
00:04:54,000 --> 00:04:57,000
om die generative AI toepassingen te maken.

61
00:04:57,000 --> 00:05:04,000
En dat wordt niet alleen voor large language models gebruikt, dat wordt voor heel veel andere dingen ook gebruikt.

62
00:05:04,000 --> 00:05:05,000
Veel meer dan dat hè?

63
00:05:05,000 --> 00:05:12,000
Ja, dat is toch zo. Eigenlijk een van de meest fundamentele dingen die daarin zitten is patroonherkenning.

64
00:05:12,000 --> 00:05:20,000
Dat je een machine, een computer, als je die op de juiste manier laat werken,

65
00:05:20,000 --> 00:05:25,000
dus met al die moderne machine learning technieken, neural netwerken, dat soort dingen,

66
00:05:25,000 --> 00:05:29,000
die zijn gewoon waanzinnig goed om verbanden te zien.

67
00:05:29,000 --> 00:05:34,000
Veel beter dan wij dat als mensen kunnen zien, bij wijze van spreken.

68
00:05:34,000 --> 00:05:38,000
Ik heb dat ook bij Neo4j in de tijd heel erg mooi kunnen ervaren.

69
00:05:38,000 --> 00:05:43,000
Als je een graaf van geconnecteerde data kan maken, dan kan je verbanden zien,

70
00:05:43,000 --> 00:05:47,000
waarvan je zelf nooit had kunnen denken dat ze er waren.

71
00:05:47,000 --> 00:05:55,000
En dat is enorm krachtig. Daarmee kan je gewoon problemen oplossen die wij met ons...

72
00:05:55,000 --> 00:05:56,000
Met ons verstand hè?

73
00:05:56,000 --> 00:05:58,000
Met ons reptielenbrein wou ik zeggen.

74
00:05:58,000 --> 00:06:03,000
Met ons menselijk brein, we zijn daar gewoon een klein beetje in beperkt.

75
00:06:03,000 --> 00:06:09,000
Wij hebben fantastische capaciteiten uiteraard, maar als je het hebt over de schaal van informatie

76
00:06:09,000 --> 00:06:13,000
en de schaal van de problemen die we vandaag ook proberen op te lossen,

77
00:06:13,000 --> 00:06:17,000
dan gaan we dat soort van technologie willen gebruiken denk ik.

78
00:06:17,000 --> 00:06:24,000
Ja, want als mens zijn wij eigenlijk ook geprogrammeerd bijna, biologisch geprogrammeerd,

79
00:06:24,000 --> 00:06:28,000
om ook patronen te herkennen. Overal zien wij patronen.

80
00:06:28,000 --> 00:06:35,000
Alleen wij hebben maar een beperkte set aan inputgegevens, variabelen,

81
00:06:35,000 --> 00:06:39,000
die wij in ons hoofd kunnen processen om daar een patroon in te zien.

82
00:06:39,000 --> 00:06:46,000
Terwijl die machine kan wel honderden van dit soort variabelen aan om daar patronen in te vinden.

83
00:06:46,000 --> 00:06:51,000
Ja, absoluut. En dat is ook niet zonder kosten.

84
00:06:51,000 --> 00:06:54,000
Dat weten we ook allemaal.

85
00:06:54,000 --> 00:07:00,000
Als we de energierekening van AI momenteel bekijken of als we de compute power of weet ik wat nog allemaal bekijken,

86
00:07:00,000 --> 00:07:07,000
allemaal niet zonder kosten. Maar het is wel zo dat je daarmee dingen kan doen die wij gewoon moeilijker zouden kunnen doen

87
00:07:07,000 --> 00:07:11,000
met onze biologische manier van werken.

88
00:07:11,000 --> 00:07:15,000
Er zijn andere dingen die wij veel beter doen. Zeker in wat is vandaag.

89
00:07:15,000 --> 00:07:20,000
Ik bedoel, ik heb vanmorgen met mijn wagen naar hier proberen te rijden op automatische piloot.

90
00:07:20,000 --> 00:07:24,000
Dat ging dus niet. Echt niet.

91
00:07:24,000 --> 00:07:27,000
Dat was een compleet drama op verschillende momenten.

92
00:07:27,000 --> 00:07:35,000
Maar er zijn andere dingen die, er zijn veel voorbeelden ondertussen van machine learning en AI

93
00:07:35,000 --> 00:07:38,000
die wij nooit zouden kunnen opgelost krijgen.

94
00:07:38,000 --> 00:07:43,000
Nee, en zeker niet met de efficiëntie en de doorlooptijd die als je dat met de hand zou moeten doen,

95
00:07:43,000 --> 00:07:46,000
met meerdere mensen bij elkaar moet doen, die efficiëntie die hebben we gewoon nodig.

96
00:07:46,000 --> 00:07:51,000
Die slagkracht hebben we nodig en daar hebben we dit soort technieken gewoon voor te gaan gebruiken.

97
00:07:51,000 --> 00:07:55,000
We hebben een aantal problemen die we proberen op te lossen vandaag in de wereld.

98
00:07:55,000 --> 00:08:01,000
Denk maar aan de klimaatcrisis, denk maar aan allerlei medische problemen.

99
00:08:01,000 --> 00:08:10,000
Die gaan wij veel minder efficiënt oplossen als we geen machine learning en AI kunnen gebruiken.

100
00:08:10,000 --> 00:08:16,000
Dus denk ik dus om nog eens terug te komen op jouw vraag, machine learning is het fundament waarmee we die problemen gaan kunnen oplossen.

101
00:08:16,000 --> 00:08:22,000
En ja, daarom ook veel hogoestingesting zeggen wij in Vlaanderen.

102
00:08:22,000 --> 00:08:28,000
Heel veel zin aan die nieuwe uitdaging bij Hopsworks ben begonnen.

103
00:08:28,000 --> 00:08:36,000
Omdat ik denk dat ik daarmee een heel boel mensen en klanten en bedrijven en individuen ga kunnen helpen.

104
00:08:36,000 --> 00:08:42,000
Zou je een aantal typische use cases kunnen noemen waar machine learning eigenlijk in excelleert?

105
00:08:42,000 --> 00:08:48,000
Ja, ik begrijp dat je die vraag stelt en ik wil het zeker en vast proberen.

106
00:08:48,000 --> 00:08:53,000
Maar het zijn eigenlijk altijd de traditionele data analyse use cases.

107
00:08:53,000 --> 00:08:58,000
We kunnen het over recommendations hebben, nogmaals.

108
00:08:58,000 --> 00:09:00,000
We kunnen het nogmaals over fraude detectie hebben.

109
00:09:00,000 --> 00:09:07,000
We kunnen het nogmaals over allerlei andere medische of healthcare toepassingen hebben.

110
00:09:07,000 --> 00:09:16,000
Maar ik denk gewoon dat het gaat over het feit dat we daarin een soort van nieuwe vormen van analyse techniek gaan gebruiken.

111
00:09:16,000 --> 00:09:27,000
Ik denk dat heel vaak de voorafgaande analyse techniek die vaak gebaseerd waren op geaggregeerde data.

112
00:09:27,000 --> 00:09:35,000
Of die vaak gebruik maakte van allerlei gemiddeldes en statistische data.

113
00:09:35,000 --> 00:09:39,000
Daar kunnen we eigenlijk dankzij machine learning van afwijken.

114
00:09:39,000 --> 00:09:46,000
We kunnen eigenlijk die niet geaggregeerde data veel beter gaan analyseren en daarin de patronen gaan herkennen.

115
00:09:46,000 --> 00:09:50,000
En dan heb je het over use cases zoals bijvoorbeeld fraude detectie.

116
00:09:50,000 --> 00:10:01,000
Dat is gewoon zo. De fraude en de criminaliteitsstatistieken die spreken voor zich denk ik.

117
00:10:01,000 --> 00:10:04,000
Die worden veel meer en meer gesofisticeerd.

118
00:10:04,000 --> 00:10:10,000
Die worden meer en meer een kat en muis spelletje.

119
00:10:10,000 --> 00:10:16,000
Die proberen altijd maar de autoriteiten voor te blijven.

120
00:10:16,000 --> 00:10:20,000
Dat betekent ook dat ze altijd die edge cases gaan beginnen opzoeken.

121
00:10:20,000 --> 00:10:26,000
En dat wij gesofisticeerde moeten worden om die edge cases te gaan opsporen.

122
00:10:26,000 --> 00:10:28,000
Dat gaat niet anders zijn.

123
00:10:28,000 --> 00:10:33,000
Een van de mooiste voorbeelden die ik bij Neo4j ooit ben tegengekomen ging over de Panama Papers.

124
00:10:33,000 --> 00:10:35,000
Dat is toen heel vaak in het nieuws geweest.

125
00:10:35,000 --> 00:10:41,000
Waarbij het individuele bedrijfje helemaal geen belastingfraude heeft.

126
00:10:41,000 --> 00:10:43,000
Dat is gewoon niet zo.

127
00:10:43,000 --> 00:10:45,000
Die doen niets verkeerd.

128
00:10:45,000 --> 00:10:50,000
Maar die zitten wel met een ander bedrijfje en een ander bedrijfje.

129
00:10:50,000 --> 00:11:00,000
Samen zitten die een ketting van bedrijven op te richten waarmee ze wel een fraudeleuze constructiesysteem hebben opgebouwd.

130
00:11:00,000 --> 00:11:06,000
Dat soort dingen kan je met traditionele, geregeerde statistische technieken veel moeilijker opsporen.

131
00:11:06,000 --> 00:11:14,000
Ik denk dat machine learning ons gaat in staat stellen om bijvoorbeeld als het gaat over fraude detectie,

132
00:11:14,000 --> 00:11:17,000
om gewoon dingen te doen die we voordien niet konden.

133
00:11:17,000 --> 00:11:22,000
En patronen te herkennen waarvan wij geen vermoeden hadden dat ze bestonden.

134
00:11:22,000 --> 00:11:25,000
Ja, dan denk ik ook juist de afwijking op een patroon.

135
00:11:25,000 --> 00:11:29,000
Want als we een patroon hebben, dan zijn we ook juist geïnteresseerd waar de afwijking erin zit.

136
00:11:29,000 --> 00:11:35,000
Waarvoor je misschien niet zou bedenken dat je die afwijking zou opzoeken in de traditionele analyses.

137
00:11:35,000 --> 00:11:37,000
Ja, ik denk dat dat waar is.

138
00:11:37,000 --> 00:11:46,000
Heel vaak, bijvoorbeeld in fraudedetectie, is de benadering geweest om te werken op basis van hypotheses.

139
00:11:46,000 --> 00:11:53,000
Dat mensen zeggen, ik denk dat er deze en deze en die fraude aan de gang is.

140
00:11:53,000 --> 00:11:57,000
Dus laat me eens nakijken of dit werkelijk zo is of niet.

141
00:11:57,000 --> 00:12:02,000
Maar wie zegt dat jouw hypothese juist is? Dat weet je toch niet?

142
00:12:02,000 --> 00:12:06,000
Jij komt ook maar op aan draven met een of ander idee.

143
00:12:06,000 --> 00:12:14,000
Dus het komt er eigenlijk op neer dat je eigenlijk misschien wel wat hulp kan gebruiken om deze te formuleren.

144
00:12:14,000 --> 00:12:23,000
En patronen op te zoeken waarvan jij, misschien met jou, of in ieder geval mijn beperkte verstandelijk vermogen,

145
00:12:23,000 --> 00:12:25,000
dat je daar niet op zou gekomen zijn.

146
00:12:25,000 --> 00:12:27,000
Ja, dus echt de ondersteuning daarin.

147
00:12:27,000 --> 00:12:31,000
Want ik denk wel dat ook de waarde zit in de mensen die de ervaring hebben opgedaan,

148
00:12:31,000 --> 00:12:36,000
echt de samenwerking tussen machine learning en de ervaring van de mensen in het veld.

149
00:12:36,000 --> 00:12:38,000
Dat daar echt de kracht ligt.

150
00:12:38,000 --> 00:12:45,000
Want door die hypotheses te kunnen formuleren en te toetsen, dat kunnen we sneller, daar kunnen we hulp bij gebruiken.

151
00:12:45,000 --> 00:12:50,000
Maar ik denk dat de menselijke input en de ervaring wel van essentieel belang is daarin.

152
00:12:50,000 --> 00:12:52,000
Helemaal met je eens.

153
00:12:52,000 --> 00:12:56,000
Ja, en met patronen, dat denk ik ook meteen aan predictive maintenance.

154
00:12:56,000 --> 00:13:01,000
Dat je gaat voorspellen of iets onderhoud nodig heeft of iets kapot aan het gaan is.

155
00:13:01,000 --> 00:13:04,000
Dat zijn typische use cases voor machine learning.

156
00:13:04,000 --> 00:13:11,000
Dus ik denk dat we nu best wel een beeld hebben, hopelijk voor de luisteraar, van waar hebben we het over.

157
00:13:11,000 --> 00:13:18,000
Wat doet het product Hopsworks in deze markt?

158
00:13:18,000 --> 00:13:26,000
Kan je daar een heel lange powerpoint slides over laten zien, maar dat ga ik misschien toch niet doen.

159
00:13:26,000 --> 00:13:30,000
Ik ga misschien even proberen uit te leggen welke problemen wij proberen op te lossen.

160
00:13:30,000 --> 00:13:33,000
Want ik denk dat dat toch het belangrijkste is.

161
00:13:33,000 --> 00:13:37,000
En als ik daarover nadenk, dan zijn er eigenlijk drie problemen.

162
00:13:37,000 --> 00:13:41,000
Het eerste denk ik is een soort van professionaliseringsslag.

163
00:13:41,000 --> 00:13:50,000
Dat er in de wereld van machine learning, maar ook in bredere data science en dergelijke, heel veel geëxperimenteerd is.

164
00:13:50,000 --> 00:13:53,000
Dat is ook fantastisch, dat is ook een heel goede zaak.

165
00:13:53,000 --> 00:13:59,000
Dat mensen eigenlijk veel meer agile methodiek hebben ontwikkeld.

166
00:13:59,000 --> 00:14:05,000
Waarbij ze snel itereren, vaak dingen proberen, kijken of het werkt, kijken of het niet werkt.

167
00:14:05,000 --> 00:14:08,000
En dan op basis daarvan eigenlijk hun methode verfijnen.

168
00:14:08,000 --> 00:14:10,000
Top, iedereen blij.

169
00:14:10,000 --> 00:14:15,000
Maar er komt natuurlijk een moment waarbij je dat moet professionaliseren.

170
00:14:15,000 --> 00:14:24,000
Waarbij je niet iedereen alles kan laten doen en gewoon maar kan losgaan en kijken waar het eindigt.

171
00:14:24,000 --> 00:14:27,000
Dat werkt op den duur gewoon niet meer.

172
00:14:27,000 --> 00:14:30,000
Dat wordt ten eerste enorm kostelijk.

173
00:14:30,000 --> 00:14:38,000
Ik denk dat mensen aan het einde van de maand misschien liever niet naar hun OpenAI-billet gaan kijken,

174
00:14:38,000 --> 00:14:41,000
dan naar hun AWS-billet of weet ik wat.

175
00:14:41,000 --> 00:14:46,000
Die dingen kosten gewoon een handvol geld als je dat in productie wil gaan inzetten.

176
00:14:46,000 --> 00:14:51,000
Maar ten tweede ook denk ik naar een soort van governance toe.

177
00:14:51,000 --> 00:15:02,000
Ik bedoel, als je terecht ziet, de regulatoren, maar ook overheden, interne audits ook,

178
00:15:02,000 --> 00:15:09,000
mensen die bezorgd beginnen te worden over wat er gebeurt met die data, wie ziet die data, wie mag wat doen met die data.

179
00:15:09,000 --> 00:15:14,000
Dat dat terecht is en dat daar ook een extra aandacht aan mag komen.

180
00:15:14,000 --> 00:15:17,000
Ik noem dat professionalisering, niet op een negatieve manier.

181
00:15:17,000 --> 00:15:24,000
Ik vind dat heel goed en normaal dat we daar gebootstrapped zijn.

182
00:15:24,000 --> 00:15:33,000
Als ik aan bootstraps denk, dan denk ik altijd aan iemand die met zijn laarzen in de modder staat.

183
00:15:33,000 --> 00:15:42,000
Je moet je voeten vuil maken, je moet in de modder staan, je moet dingen proberen, je moet het aan de lijve ondervinden.

184
00:15:42,000 --> 00:15:48,000
En dan met de straps van die boots ga je proberen om jezelf eruit te trekken.

185
00:15:48,000 --> 00:15:53,000
Mooi beeld.

186
00:15:53,000 --> 00:16:01,000
Dat is het beeld van bootstrapping, waarbij je echt zegt, ik ga mezelf proberen door mijn handen vuil te maken,

187
00:16:01,000 --> 00:16:05,000
door mijn botten zeggen we in Vlaanderen ook, we gaan hem vuil maken.

188
00:16:05,000 --> 00:16:14,000
Laarzen en botten zijn hetzelfde.

189
00:16:14,000 --> 00:16:22,000
We gaan die vuil maken en we gaan proberen om daarvan te leren en op basis daarvan onze methodiek te verfijnen

190
00:16:22,000 --> 00:16:26,000
en op die manier beter te worden, te professionaliseren.

191
00:16:26,000 --> 00:16:32,000
Dat is denk ik de kern van het probleem dat we met Hopsworks proberen op te lossen.

192
00:16:32,000 --> 00:16:36,000
Ik denk dat er heel veel bedrijven zijn die dat proberen te doen.

193
00:16:36,000 --> 00:16:37,000
Zeker.

194
00:16:37,000 --> 00:16:40,000
We zijn er zeker en vast niet alleen in.

195
00:16:40,000 --> 00:16:48,000
Ik denk in de industrie wordt dat meer en meer benoemd als MLOps, Machine Learning Operations.

196
00:16:48,000 --> 00:16:57,000
Wat eigenlijk de verzamelnaam is van technieken die mensen gaan gebruiken om die professionaliseringsslag tot een goed einde te brengen.

197
00:16:57,000 --> 00:17:04,000
Dus ik zou ons eigenlijk in die categorie van technologieën indelen, MLOps technologie.

198
00:17:04,000 --> 00:17:08,000
Daar is denk ik een enorme groeimarkt voor.

199
00:17:08,000 --> 00:17:09,000
Zeker.

200
00:17:09,000 --> 00:17:18,000
Wat zijn nou kernactiviteiten binnen MLOps die ondersteund moeten worden met een tool?

201
00:17:18,000 --> 00:17:22,000
Ook daar zijn de meningen nog een beetje over verdeeld denk ik.

202
00:17:22,000 --> 00:17:31,000
Ik denk dat dat zeker en vast neerkomt op een aantal van de dingen die we ook in DevOps hebben gezien.

203
00:17:31,000 --> 00:17:42,000
In developer operations waarbij mensen die professionaliseringsslag hebben gemaakt rond software development en agile software development.

204
00:17:42,000 --> 00:17:53,000
Dat spreekt wel van 15, 20 jaar geleden dat dat gebeurd is. Maar die professionaliseringsslag gaan we nu proberen toe te passen op machine learning.

205
00:17:53,000 --> 00:18:00,000
Dan hebben we het over automatic testing, automatic deployments, infrastructure as code.

206
00:18:00,000 --> 00:18:05,000
Dat soort van concepten willen we eigenlijk ook toepassen op machine learning.

207
00:18:05,000 --> 00:18:12,000
Zodat je het niet meer moet hebben over een of andere scriptje dat ik moet draaien of een of andere pipeline die ik moet draaien.

208
00:18:12,000 --> 00:18:27,000
Maar je het kan hebben over een systeem, over een software systeem dat bepaalde data neemt, daar bepaalde dingen mee doet en daar een model van maakt dat gedeployed wordt op een semi-automatische manier.

209
00:18:27,000 --> 00:18:41,000
Ja precies, zodat je niet een stukje code hebt die je onder je experiment hebt zitten en waarvan je denkt die werkt nu wel en die breng ik in productie door het ergens neer te zetten en mensen kunnen het gebruiken.

210
00:18:41,000 --> 00:18:50,000
En wat wij helaas ook normaal in de praktijk zien is dat als er dan foutjes zijn dat die dan ook in productie worden aangepast.

211
00:18:50,000 --> 00:19:03,000
Dan zeg je nee, daar zit eigenlijk een heel systeem aan van aanpak, geautomatiseerd, uitrollen, dat je dat op een hele veilige gecontroleerde manier doet.

212
00:19:03,000 --> 00:19:06,000
Dat je zeker weet wat in productie draait, dat dat klopt.

213
00:19:06,000 --> 00:19:10,000
Helemaal, ik denk dat je het heel goed op samenvat daar.

214
00:19:10,000 --> 00:19:13,000
Dat is precies wat ik bedoel met professionalisering.

215
00:19:13,000 --> 00:19:22,000
Ik wil dat niet als een negatief woord herhalen, ik denk dat het heel goed is dat we experimenteren en dergelijke.

216
00:19:22,000 --> 00:19:23,000
Zeker.

217
00:19:23,000 --> 00:19:32,000
Maar er komt een bepaald moment, omwille van kosten, omwille van governance, dat we moeten professionaliseren en dat we moeten systematiseren.

218
00:19:32,000 --> 00:19:38,000
Dus dat we die dingen eigenlijk op een geautomatiseerde manier in productie kunnen brengen.

219
00:19:38,000 --> 00:19:43,000
Ik denk dat we op het punt zijn dat we dat eigenlijk overal op den duur moeten doen.

220
00:19:43,000 --> 00:19:47,000
Na experiment moet die slag gedaan worden, het liefst voordat het naar productie is.

221
00:19:47,000 --> 00:19:51,000
Je hoopt je zoenen erover te komen dat het in productie vaak ook nog wel gebeurt en dat aangepast wordt.

222
00:19:51,000 --> 00:19:56,000
Maar dat is niet meer van deze tijd, dat moet echt aangepast worden.

223
00:19:56,000 --> 00:20:01,000
En daar heb je dus tools voor, zoals Hopsworks, om je daarbij te ondersteunen.

224
00:20:01,000 --> 00:20:05,000
En ook denk ik een stukje standaardisatie om te monitoren.

225
00:20:05,000 --> 00:20:14,000
Want mijn beleving in de praktijk is dat het vaak gezien wordt als het experiment is klaar, het product is af en we kunnen naar het volgende product.

226
00:20:14,000 --> 00:20:18,000
En volgens mij is dat niet waar, want er verandert continu nog wat.

227
00:20:18,000 --> 00:20:21,000
Het verandert in de data, het verandert in de organisatie, het verandert in het proces.

228
00:20:21,000 --> 00:20:25,000
En ja, MLOps betekent ook het stukje monitoren ervan.

229
00:20:25,000 --> 00:20:29,000
Dat is dan ook denk ik waar Hopsworks dan ook in ondersteunt om dat inzicht te bieden.

230
00:20:29,000 --> 00:20:32,000
Ja zonder meer, Hopsworks niet alleen.

231
00:20:32,000 --> 00:20:43,000
Ik ben hier niet om over Hopsworks te praten, maar ik denk dat er in die professionaliseringstools heel goede opties zijn vandaag.

232
00:20:43,000 --> 00:20:49,000
Zowel in de cloud als on-premise om dat soort dingen te doen.

233
00:20:49,000 --> 00:20:52,000
En bovendien, het gaat ook moeten.

234
00:20:52,000 --> 00:21:00,000
Ik heb me gisteren nog eens bezig gehouden met het inlezen op de laatste publicaties rond de EU AI Act.

235
00:21:00,000 --> 00:21:03,000
De AI Act van de Europese Unie.

236
00:21:03,000 --> 00:21:07,000
Ja, we gaan moeten, het gaat geen keuze meer hebben.

237
00:21:07,000 --> 00:21:16,000
Dus we gaan moeten kunnen monitoren, we gaan moeten kunnen uitleggen hoe we tot een bepaalde conclusie zijn gekomen.

238
00:21:16,000 --> 00:21:18,000
En terecht denk ik.

239
00:21:18,000 --> 00:21:23,000
Ik bedoel, als er een AI systeem beslist, we gaan naar links of naar rechts.

240
00:21:23,000 --> 00:21:29,000
En we gaan naar rechts en er gebeurt iets fout, dan gaan we toch moeten kunnen uitleggen waarom we naar rechts zijn gegaan.

241
00:21:29,000 --> 00:21:32,000
Dat lijkt me redelijk normaal.

242
00:21:32,000 --> 00:21:40,000
Hoe komt dat, denk jij, dat we dat minder vragen van AI en machine learning?

243
00:21:40,000 --> 00:21:44,000
Ja, ik denk dat er een stukje onervarenheid in speelt.

244
00:21:44,000 --> 00:21:48,000
De nieuwheid van de technologie is ook het potentieel.

245
00:21:48,000 --> 00:21:51,000
Iedereen zit in een soort van gold rush mentaal.

246
00:21:51,000 --> 00:21:55,000
Iedereen zo snel mogelijk naar het AI.

247
00:21:55,000 --> 00:22:04,000
Ik heb ook het voordeel van de jaren een beetje, waarbij ik wel denk van, kalm aan mannen.

248
00:22:04,000 --> 00:22:06,000
Doe eens een beetje gewoon.

249
00:22:06,000 --> 00:22:15,000
Maar ik denk wel dat die onervarenheid dat meespeelt, die nieuwheid, de druk naar voren.

250
00:22:15,000 --> 00:22:18,000
Je wil zo snel mogelijk er is geraken.

251
00:22:18,000 --> 00:22:20,000
Ja, dan pakken mensen shortcuts.

252
00:22:20,000 --> 00:22:22,000
En ik denk dat dat ook echt niet negatief is.

253
00:22:22,000 --> 00:22:29,000
Ik bedoel, als je in een maturiteitscurve kijkt, en je zit aan het begin van die maturiteitscurve,

254
00:22:29,000 --> 00:22:34,000
dan zou ik ook willen van 'Let's go!'

255
00:22:34,000 --> 00:22:38,000
Dan moeten we gewoon een storm naar voren doen.

256
00:22:38,000 --> 00:22:42,000
En zo snel mogelijk uit die modder en zo snel mogelijk naar voren.

257
00:22:42,000 --> 00:22:44,000
Want daar gaan we ook het meeste leren.

258
00:22:44,000 --> 00:22:47,000
Daar gaan we ook het meeste kunnen oppikken eruit.

259
00:22:47,000 --> 00:22:50,000
Maar ja, als we dan een klein beetje verder zijn.

260
00:22:50,000 --> 00:22:55,000
En in de EU-AI-Act hebben we het over risico's.

261
00:22:55,000 --> 00:23:00,000
Dan gaat het heel vaak over de risicogevoeligheid van een bepaald AI-systeem.

262
00:23:00,000 --> 00:23:06,000
Als het over een bepaald risiconiveau gaat, dan mogen we dan een klein beetje professioneler gaan.

263
00:23:06,000 --> 00:23:08,000
Toch? Ja, zeker.

264
00:23:08,000 --> 00:23:09,000
Dat vind ik ook. Ja, absoluut.

265
00:23:09,000 --> 00:23:11,000
Dat lijkt me toch heel normaal.

266
00:23:11,000 --> 00:23:18,000
Als we het hebben over de recommendations van appels en appelsienen, dan kan mij zo niet verschillen.

267
00:23:18,000 --> 00:23:22,000
Maar als jij vandaag bij je dokter zou komen, bij je huisarts.

268
00:23:22,000 --> 00:23:29,000
En die zou hebben gezegd dan, nou ik heb hier achter in het kamertje net wat stofjes bij elkaar zitten roeren.

269
00:23:29,000 --> 00:23:32,000
En dat lijkt eigenlijk best wel goed te zijn.

270
00:23:32,000 --> 00:23:35,000
Hier Rik, neem dit even.

271
00:23:35,000 --> 00:23:37,000
Liever niet denk ik dan.

272
00:23:37,000 --> 00:23:43,000
Of als er, ik bedoel dat is pas nog in het nieuws geweest, een dokter die een patiëntendossier aan OpenAI doorstuurt.

273
00:23:43,000 --> 00:23:45,000
En zegt, wat denk jij ervan?

274
00:23:45,000 --> 00:23:48,000
Hallo, kunnen we daar even mee ophalen?

275
00:23:48,000 --> 00:23:49,000
Ja, precies.

276
00:23:49,000 --> 00:23:53,000
Dat soort van dingen vind ik, professionaliseren.

277
00:23:53,000 --> 00:23:55,000
Laat ons gewoon dat op een goede manier doen.

278
00:23:55,000 --> 00:24:01,000
Dat zou 10, 15 jaar geleden nooit hebben gedaan met een statistisch gebaseerd systeem.

279
00:24:01,000 --> 00:24:04,000
Dus waarom doen we dat dan nu met een machine learning gebaseerd systeem?

280
00:24:04,000 --> 00:24:05,000
Precies.

281
00:24:05,000 --> 00:24:06,000
There is no good reason.

282
00:24:06,000 --> 00:24:09,000
We moeten dat gewoon professioneel beter doen.

283
00:24:09,000 --> 00:24:10,000
We kunnen dat ook.

284
00:24:10,000 --> 00:24:13,000
Er zijn genoeg technologieën voor handen.

285
00:24:13,000 --> 00:24:15,000
Onder andere Hopsworks.

286
00:24:15,000 --> 00:24:18,000
We hebben die mogelijkheden.

287
00:24:18,000 --> 00:24:20,000
Explainability, dat is zo'n topic.

288
00:24:20,000 --> 00:24:22,000
Ik vind dat echt fantastisch.

289
00:24:22,000 --> 00:24:27,000
Als jij een model vraagt om een voorspelling te doen van iets, fijn.

290
00:24:27,000 --> 00:24:30,000
Maar dan moet je wel kunnen uitleggen waar die voorspelling vandaan komt.

291
00:24:30,000 --> 00:24:33,000
Het is niet meer dan normaal dat je dat kan.

292
00:24:33,000 --> 00:24:34,000
Toch?

293
00:24:34,000 --> 00:24:36,000
Ja, ik vind dat ook de normaalste zaak van de wereld.

294
00:24:36,000 --> 00:24:38,000
Maar daar staan wij toch wel redelijk alleen in hoor.

295
00:24:38,000 --> 00:24:43,000
Ik denk dat we daar ook een functie in hebben in onze industrie.

296
00:24:43,000 --> 00:24:48,000
Als je begint, je staat aan het begin van die maturiteitscurve.

297
00:24:48,000 --> 00:24:52,000
Je bent al blij dat je een model gemaakt hebt.

298
00:24:52,000 --> 00:24:55,000
Je bent al blij dat je iets hebt gerealiseerd.

299
00:24:55,000 --> 00:24:58,000
Dat kon ik vroeger niet en ik ben zo blij dat ik dat nu heb.

300
00:24:58,000 --> 00:25:00,000
Dan is het normaal.

301
00:25:00,000 --> 00:25:06,000
Je hoeft niet nadenkt over, ik moet dit embedden in een volledig systeem.

302
00:25:06,000 --> 00:25:08,000
Dat is echt zonde.

303
00:25:08,000 --> 00:25:10,000
In stap 2 mag je dat wel eens over nadenken.

304
00:25:10,000 --> 00:25:11,000
Ja, helemaal meteen.

305
00:25:11,000 --> 00:25:16,000
Ik denk dat dat een mooi bruggetje is naar ons kaartspel.

306
00:25:16,000 --> 00:25:19,000
Want dat gaat natuurlijk over uiteindelijk professionalisering.

307
00:25:19,000 --> 00:25:25,000
In ieder geval nadenken over vraagstukken die professionalisering vragen.

308
00:25:25,000 --> 00:25:28,000
Dus we willen jou ook eens een stelling voorleggen.

309
00:25:28,000 --> 00:25:30,000
Het koud zweten brengt me uit.

310
00:25:31,000 --> 00:25:48,000
[Muziek]

311
00:25:48,000 --> 00:25:51,000
Dit is een mooie Rik.

312
00:25:51,000 --> 00:25:55,000
Uit de categorie technologie en innovatie is de stelling

313
00:25:55,000 --> 00:26:03,000
AI gestuurde klantenservice zal menselijke interactie en de meeste klantgerichte industrieën overbodig maken.

314
00:26:03,000 --> 00:26:07,000
Zal ik hem herhalen?

315
00:26:07,000 --> 00:26:14,000
De mensen zien het natuurlijk niet, maar ik kijk jullie aan met van die ogen van 'dat meen je toch niet'.

316
00:26:14,000 --> 00:26:17,000
Ik denk dat ik daar wel een mening over heb.

317
00:26:17,000 --> 00:26:19,000
Ja, nou kom maar op.

318
00:26:19,000 --> 00:26:24,000
Er zijn veel dingen, dat merk je vandaag al, die chatbots zijn overal.

319
00:26:24,000 --> 00:26:27,000
En sommige van die dingen zijn fantastisch.

320
00:26:27,000 --> 00:26:36,000
Ik heb al een situatie gehad bij Expedia, de travelreisagent.

321
00:26:36,000 --> 00:26:45,000
Ik moest een vlucht omboeken en normaal gezien doe je dat ofwel online ofwel lig je een paar uur te wachten om iemand aan de lijn te krijgen.

322
00:26:45,000 --> 00:26:48,000
Nu heeft die chatbot dat voor mij op vijf minuten gedaan.

323
00:26:48,000 --> 00:26:50,000
Top. Ik blij.

324
00:26:50,000 --> 00:26:59,000
Maar er zijn natuurlijk ook heel veel cases waarin je zegt van 'ik krijg dit niet gelegd aan die chatbot.

325
00:26:59,000 --> 00:27:03,000
De chatbot stelt mij toch niet helemaal de juiste vragen.

326
00:27:03,000 --> 00:27:10,000
Misschien is het efficiënter zowel voor het bedrijf als voor mij om even met iemand te spreken.

327
00:27:10,000 --> 00:27:20,000
Ik denk aan dingen zoals verzekeringscases of bestellen.

328
00:27:20,000 --> 00:27:29,000
Je hebt altijd van die cases die te gesofisticeerd zijn en te specifiek zijn.

329
00:27:29,000 --> 00:27:34,000
Of soms te gevoelig. Het gaat over overlijden, ziekte, dat soort dingen.

330
00:27:34,000 --> 00:27:40,000
Als je dat met een bedrijf te maken krijgt dan heb je geen zin om dat met een chatbot af te laten handelen.

331
00:27:40,000 --> 00:27:47,000
En dan zal dus de persoonlijke interactie helemaal overbodig zijn.

332
00:27:47,000 --> 00:27:53,000
Dat is de reden van de grote ogen die ik er net trok. Ik dacht dat gaat gewoon niet gebeuren.

333
00:27:53,000 --> 00:28:05,000
Er is wel heel veel research over wat ik heb meegemaakt rond call avoidance.

334
00:28:05,000 --> 00:28:19,000
Als je een utility bent, een energieleverancier of een verzekeringsbedrijf, een call center is een enorme kostenpost.

335
00:28:19,000 --> 00:28:31,000
Dat kost enorm veel geld. Gewoon de telefoon oppikken kost 100 euro.

336
00:28:31,000 --> 00:28:36,000
Dat is echt duur. Dat is gewoon heel erg duur om zo'n dingen te doen.

337
00:28:36,000 --> 00:28:45,000
En als je die calls kan vermijden, als bedrijf zijnde, dan spreek je direct over enorme besparingen.

338
00:28:45,000 --> 00:28:54,000
Dat is gewoon zeer zeer nuttig voor het bedrijf om minder calls binnen te krijgen.

339
00:28:54,000 --> 00:28:57,000
Je snapt het wel hoor. Ik ben er helemaal mee.

340
00:28:57,000 --> 00:29:04,000
Dat gaat snel, dat gaat enorm snel. En voor de klant ook.

341
00:29:04,000 --> 00:29:12,000
Als ik op zaterdagnacht in een zin heb om te kijken wat ik een reis kan boeken,

342
00:29:12,000 --> 00:29:16,000
dan is het prima dat ik dat kan en dat ik niet moet wachten tot maandagochtend.

343
00:29:16,000 --> 00:29:20,000
Dat is toch fijn. Dus er zijn voordelen aan de twee kanten.

344
00:29:20,000 --> 00:29:25,000
Maar de vraag op het kaartje was, gaat het overbodig zijn? Daar geloof ik echt geen snars van.

345
00:29:25,000 --> 00:29:33,000
We hebben dit gepakt als die klantenservice, omdat dat iedereen zich hier aan kan relateren.

346
00:29:33,000 --> 00:29:38,000
Maar de vraag is iedere keer, haal je menselijke interactie uit je proces ja of nee?

347
00:29:38,000 --> 00:29:45,000
Dus dat je daar heel goed over nadenkt. Net wat jij zegt, die kosten kant laat je misschien heel snel denken van

348
00:29:45,000 --> 00:29:50,000
laten we dat doen. Maar je moet heel goed nadenken van wat betekent het?

349
00:29:50,000 --> 00:29:55,000
Wat betekent het voor jezelf? Wat betekent het voor je klant? Wat betekent het voor je business proces?

350
00:29:55,000 --> 00:29:59,000
Dat je daar goed over nadenkt. Wanneer wel, wanneer niet.

351
00:29:59,000 --> 00:30:03,000
Past dat ook bij de identiteit van de organisatie voor dit proces?

352
00:30:03,000 --> 00:30:04,000
Ja.

353
00:30:04,000 --> 00:30:19,000
*muziek speelt*

354
00:30:19,000 --> 00:30:21,000
Leuke muziek die jullie hebben trouwens.

355
00:30:21,000 --> 00:30:25,000
Hij is volledig gegenereerd door AI.

356
00:30:25,000 --> 00:30:34,000
We zijn natuurlijk een AI podcast, dus we gebruiken ook, we zijn natuurlijk zelf ook, willen ook met de voeten in de klei.

357
00:30:34,000 --> 00:30:37,000
En dat maakt het ook wel leuk, want we doen dat natuurlijk voor klanten.

358
00:30:37,000 --> 00:30:44,000
En dan zijn we bezig met data, is het vaak toch iets, laten we zeggen wat abstracter, wat droger.

359
00:30:44,000 --> 00:30:46,000
En dan is het ook heel erg leuk om hier mee bezig te zijn.

360
00:30:46,000 --> 00:30:47,000
Super tof gedaan.

361
00:30:47,000 --> 00:30:48,000
Ja, dankjewel.

362
00:30:48,000 --> 00:31:02,000
Waar ik nog wel benieuwd naar ben, Rik, is dat waar zie jij nou voor de aankomende periode eigenlijk de grootste stappen die genomen kunnen worden in de professionalisering?

363
00:31:02,000 --> 00:31:09,000
Ja, dan ga ik toch denk ik even terugkomen bij het verhaal van Hopsworks.

364
00:31:09,000 --> 00:31:11,000
Ja, tuurlijk.

365
00:31:11,000 --> 00:31:16,000
En ik zeg het, wij zijn daar zeker en we was niet de enige leverancier in ofzo.

366
00:31:16,000 --> 00:31:30,000
Maar de visie die wij hebben rond die MLOps beweging, dus als ik MLOps even als het mechanisme mag, de verzamelnaam van mechanismes mag noemen die tot die professionalisering leiden.

367
00:31:30,000 --> 00:31:35,000
Dan is de volgende vraag natuurlijk van ja, hoe ga je MLOps implementeren?

368
00:31:35,000 --> 00:31:37,000
En hoe kom je daar toe?

369
00:31:37,000 --> 00:31:56,000
En dan is de visie van Hopsworks en de hoop en de toekomstrichting waar wij naar toe werken, dat is toch wel om een data-infrastructuur te bouwen die mensen samenbrengt rond machine learning operations.

370
00:31:56,000 --> 00:31:58,000
Oké, dat moet je even uitleggen.

371
00:31:58,000 --> 00:32:06,000
Kijk, als je in machine learning process kijkt, zijn er heel veel verschillende stappen.

372
00:32:06,000 --> 00:32:15,000
Dus je krijgt bijvoorbeeld mensen die de data gaan verzamelen en die de data gaan manipuleren en die in een bepaalde vorm gaan gieten.

373
00:32:15,000 --> 00:32:19,000
Typische ETL-achtige processen, extract, transform, load.

374
00:32:19,000 --> 00:32:31,000
Dat is vaak de eerste stap. Dan heb je een tweede stap waarin je die data gaat analyseren, dat je gaat trainen, dat je het model gaat maken.

375
00:32:31,000 --> 00:32:38,000
Dan heb je een derde stap waarbij je het model gaat deployen, dat je het ergens gaat ter beschikking stellen van een toepassing en dergelijke.

376
00:32:38,000 --> 00:32:45,000
En dat wordt allemaal overzien, bewaakt door een of andere governance-systeem.

377
00:32:45,000 --> 00:32:58,000
De these die wij voorop staan met Hopsworks is dat als je dat allemaal wil doen en je wil dat allemaal doen op basis van een soort van gedistribueerde data-platform,

378
00:32:58,000 --> 00:33:06,000
waarbij iedereen zijn eigen data en zijn eigen bronnetjes en zijn eigen systemen heeft, dat is quasi onmogelijk.

379
00:33:06,000 --> 00:33:15,000
Heel erg moeilijk om te doen. Ik zeg niet dat het volledig onmogelijk is, maar het is gewoon heel erg moeilijk.

380
00:33:15,000 --> 00:33:25,000
Omdat je met die spaghetti van allerlei bron- en targetsystemen, code- en scripts, weet ik wat nog allemaal, zit, die heel erg moeilijk te beheren valt.

381
00:33:25,000 --> 00:33:38,000
Dus de thees en de toekomstvisie die wij voorop staan is van, kijk, laten we nu proberen om die machine learning processen samen te brengen rond een geshared data-infrastructuur.

382
00:33:38,000 --> 00:33:50,000
En dan hebben we het over feature stores. Je hebt het straks al heel even aangehaald denk ik, maar feature store is eigenlijk het kloppend hart waar rond je MLOps kan samenbrengen.

383
00:33:50,000 --> 00:33:58,000
En dat is niet iedereen het mee eens trouwens. Er zijn heel veel mensen die zeggen van feature store, why do I need that?

384
00:33:58,000 --> 00:34:07,000
Misschien moeten we heel even uitleggen wat een feature is, want ik denk dat de meesten denken een feature is iets van de functionaliteit van een word bijvoorbeeld.

385
00:34:07,000 --> 00:34:15,000
Dat is een feature, maar wij praten hier in de machine learning over iets anders. Het gaat over de variabelen waar je op traint.

386
00:34:15,000 --> 00:34:18,000
Dat noemen we een feature eventjes voor het gebak, toch?

387
00:34:18,000 --> 00:34:22,000
Inderdaad, we gaan het hebben over de features van de feature store.

388
00:34:22,000 --> 00:34:34,000
Inderdaad, de variabelen waar je op traint, de data structuur die je gebruikt om een model te maken, om een model te bouwen.

389
00:34:34,000 --> 00:34:41,000
Heel veel van die machine learning systemen hebben bepaalde voorwaarden aan voor.

390
00:34:41,000 --> 00:34:49,000
Je hebt bepaalde structuren die je nodig hebt om die analyses te doen, om die modellen te bouwen.

391
00:34:49,000 --> 00:35:02,000
Dus dat betekent dat je heel vaak vanuit een bronsysteem, stel je hebt een rationele databank of je hebt een graven databank of je hebt een of andere CSV-file of weet ik wat nog dat je allemaal hebt als bronsysteem.

392
00:35:02,000 --> 00:35:16,000
Je moet die dingen gaan manipuleren in een bepaalde vorm, zodanig dat je daarop je training kan loslaten en dan met die training een model kan maken en met dat model een inference pipeline kan maken.

393
00:35:16,000 --> 00:35:32,000
Die features zijn een heel belangrijke bron van tijd en moeite en kosten. Mensen spenderen heel veel tijd in het maken van features.

394
00:35:32,000 --> 00:35:43,000
Garbage in, garbage out. Dus als je dat niet goed doet, krijg je ook vaak een heel problematisch probleem achteraf.

395
00:35:43,000 --> 00:35:52,000
Maar het is ook heel belangrijk dat je precies weet wat zo'n feature, wat zo'n variabele betekent. Wat dat niet alleen technisch betekent, maar vooral ook in je business betekent.

396
00:35:52,000 --> 00:36:02,000
Er zijn natuurlijk zoveel ambigue termen waarvan de een denkt van deze variabele betekent dit, terwijl het eigenlijk iets anders was.

397
00:36:02,000 --> 00:36:08,000
Heel simpel, we hebben het over een product en een productvraag. In de ene afdeling dan betekent dat heel wat anders dan dat je dat aan de klant service vraagt.

398
00:36:08,000 --> 00:36:15,000
Of de klant, wat betekent dat? We hebben allemaal de know your customer programma's toch?

399
00:36:15,000 --> 00:36:25,000
Er zijn heel veel concepten in elk bedrijfsproces die best wel genuanceerd zijn en die heel specifiek zijn.

400
00:36:25,000 --> 00:36:36,000
Waar tegen als je het aan de individuele goed menende welwillende programmeur overlaat, dat er wel eens fouten tegen gemaakt worden.

401
00:36:36,000 --> 00:36:49,000
Een stukje van de professionalisering, van de transparantie, de governance die je wil introduceren is ook door daarin professionalisering aan te brengen.

402
00:36:49,000 --> 00:36:59,000
Dat betekent natuurlijk dat je met die features door een soort van centralisatie van data gaat proberen in te bouwen.

403
00:36:59,000 --> 00:37:12,000
Dat volgens mij, en ik ben hier uiteraard bevooroordeeld, maar ik denk dat je daarmee zowel naar die governance, zowel naar die professionaliseringsslagje kan maken.

404
00:37:12,000 --> 00:37:23,000
Maar dus ook kosten kan besparen. Er is heel veel onderzoek naar. Het is niet alleen over machine learning engineering, maar ook over DevOps en al soort van dingen.

405
00:37:23,000 --> 00:37:33,000
Mensen en programmeurs spenderen heel veel tijd in infrastructuur en heel weinig tijd in het oplossen van het eigenlijke probleem.

406
00:37:33,000 --> 00:37:47,000
En dus daar is een soort van eeuwig spanningsveld waarbij we gaan moeten proberen om als onderdeel van die professionalisering ervoor zorgen dat die mensen meer tijd kunnen spenderen aan hun eigenlijke probleem.

407
00:37:47,000 --> 00:38:02,000
En minder tijd aan infrastructuur, aan data wrangling, aan ETL, dat soort van dingen. Dus een feature store is een centraal punt in die MLOps, maar is vooral ook een manier om zowel governance als kostenbesparingen te doen.

408
00:38:02,000 --> 00:38:12,000
Zodat niet elke pipeline zijn eigen features moet gaan definiëren. Dat je dat gewoon één keer kan doen en kan delen en re-usen over alle pipelines heen.

409
00:38:12,000 --> 00:38:22,000
Dus dat we niet die ambiguïteit weer in de code laten komen, maar dat we dat centraal stellen. Maar ook een stukje contextualisatie denk ik. Van waar hebben we het over?

410
00:38:22,000 --> 00:38:24,000
De beschrijving eromheen.

411
00:38:24,000 --> 00:38:41,000
Ja, ik denk dat je tegenwoordig heel veel van die systemen, data catalogues en dergelijke, waarin je ook veel beter beschreven en gedocumenteerd ziet wat een bepaald concept, een bepaald feature precies betekent.

412
00:38:41,000 --> 00:38:48,000
Ik denk dat feature stores daar in de context van machine learning een belangrijke toegevoegde waarde kunnen betekenen.

413
00:38:48,000 --> 00:38:59,000
Niet iedereen heeft dat nodig. Niet iedereen is het daar zelfs mee eens. Maar ja, dat is een beetje de visie die wij voor de toekomst hebben.

414
00:38:59,000 --> 00:39:10,000
Dat is eigenlijk de twee vliegen die we mee inklappen. Beter governance en betere kostenefficiëntie door professionele vereniging.

415
00:39:10,000 --> 00:39:19,000
Ik deel dat beeld wel, want ik denk dat zelf kom ik in de praktijk vaak problemen tegen dat het niet goed beschreven is waar we het nou precies over hebben in zo'n catalog van de data.

416
00:39:19,000 --> 00:39:28,000
En dat we dat nu invullen wanneer we het noodzaak hebben. Maar nu is het een noodzaak als we met GenAI los willen laten op onze systemen en met machine learning aan de slag willen.

417
00:39:28,000 --> 00:39:33,000
Is dit eigenlijk een stap die we moeten maken om te kunnen automatiseren?

418
00:39:33,000 --> 00:39:47,000
Ja, niet alleen dat. Kijk waar het over gaat is dat die features, daar zit vaak een heel traject aan voordat je zo'n variabele zodanige gekneed hebt dat de machine daarmee om kan gaan.

419
00:39:47,000 --> 00:39:59,000
Dus daar zit heel veel tijd, geld, effort in. En dat kan je dan binnen één project hebben gedaan. En als je het daar binnen laat, dat is heel mooi.

420
00:39:59,000 --> 00:40:08,000
Maar als het volgende project hetzelfde gaat doen, hopelijk ook op hetzelfde uitkomt, want in het slechtste geval maken ze er net even wat anders van.

421
00:40:08,000 --> 00:40:23,000
Dat is juist wat je wil delen. Het is die effort die ervoor gezorgd heeft dat je precies die variabelen, die input, die machine nodig heeft om die patronen te leren.

422
00:40:23,000 --> 00:40:27,000
Dat wil je volgens mij vastleggen, toch? Dat is de kern van het.

423
00:40:27,000 --> 00:40:32,000
Dus bouwblokken. Ja, bouwblokken die je gaat hergebruiken in plaats van iedere keer weer een nieuw blokje maken.

424
00:40:32,000 --> 00:40:44,000
Dat beeld en dat concept is helemaal niet nieuw. Mensen die al een klein beetje langer meegaan, die hebben dat nogal wel eens gezien.

425
00:40:44,000 --> 00:40:52,000
Ik maak daar straks ook meteen de link tussen MLOps en DevOps. Ik denk dat heel veel van die concepts gewoon heel erg gelijkaardig zijn.

426
00:40:52,000 --> 00:41:08,000
En ik denk dat machine learning ook voor een belangrijk stuk code is, software. Dus als we de lessen uit software engineering leren, dan gaan we ook betere MLOps krijgen.

427
00:41:08,000 --> 00:41:20,000
Mooi, mooi statement. Wat zouden de luisteraars volgens jou moeten doen? Want die sluiten dit af, die hebben dit geluisterd. Wat gaan ze doen?

428
00:41:20,000 --> 00:41:29,000
Ik hoop dat ze genieten van de rest van hun dag. Of dat ze niet te veel file hebben als ze het in de wagen aan het luisteren zijn.

429
00:41:29,000 --> 00:41:43,000
Maar ik nodig ze natuurlijk uit om in te lezen in dit topic. Ik denk dat MLops echt een heel boeiende wereld is. Feature stores als component daarin zijn enorm leuk.

430
00:41:43,000 --> 00:41:53,000
Wij hebben daar met Hopsworks natuurlijk ook heel veel materiaal rond. Een van de tofste dingen die wij hebben op onze website is de machine learning dictionary.

431
00:41:53,000 --> 00:42:01,000
Dat is eigenlijk een deel van onze website waarin we eigenlijk al die concepten proberen te definiëren.

432
00:42:01,000 --> 00:42:11,000
We hebben dat ook niet voor niks gemaakt, dat is ook een enorm belangrijke bron van website traffic voor ons.

433
00:42:11,000 --> 00:42:21,000
Maar het is een heel leuke resource om je in te lezen in bepaalde topics. Als je zegt wat is MLops nu precies? Of wat is een feature store precies?

434
00:42:21,000 --> 00:42:30,000
Of wat zijn die dingen nu precies? Dat zijn goede definities. Ik zeg niet dat ze allemaal zaligmakend zijn, maar ze zijn denk ik heel erg goed.

435
00:42:30,000 --> 00:42:39,000
En als ze dat dan leuk vinden dan kunnen ze het natuurlijk zelf ook eens testen. Als ze een technisch achtergrond hebben dan nodig ik ze warm uit.

436
00:42:39,000 --> 00:42:49,000
Als je naar app.hopsworks.ai gaat dan kan je gewoon een gratis account maken, no credit card, whatever. En je mag het gewoon eens testen en eens kijken wat je ervan vindt.

437
00:42:49,000 --> 00:43:00,000
Ik ben ook lekker actief op sociale media, op Twitter en op LinkedIn. Dus als je mij even een boodschapje wilt sturen dan probeer ik daar met heel veel plezier om naar de top te komen.

438
00:43:00,000 --> 00:43:10,000
Kijk, wij zullen in ieder geval een linkje opnemen naar die dictionary. Ik denk dat zo'n woordenboek zeker altijd heel erg handig is.

439
00:43:10,000 --> 00:43:17,000
Ik begrijp ook wel dat als je af en toe dit soort dingen luistert dat de termen voorbij komen waarvan je denkt van oe, wat is dat?

440
00:43:17,000 --> 00:43:25,000
Dat is een mooie toevoeging, ga maar doen. Dankjewel Rik, dankjewel voor al je inzichten. Ik heb weer een hoop gehoord.

441
00:43:25,000 --> 00:43:27,000
Ik ook, en weer veel geleerd.

442
00:43:27,000 --> 00:43:33,000
Leuk dat je weer luisterde naar een aflevering van AIToday Live.

443
00:43:33,000 --> 00:43:41,000
Wil je nou op de hoogte blijven van alle ontwikkelingen rondom kunstmatige intelligentie, generatieve AI, maar dus ook machine learning?

444
00:43:41,000 --> 00:43:54,000
Schrijf je dan eens in voor onze nieuwsbrief. De link vind je ook in de show notes. Dan krijg je maandelijks een mooie achtergrond van over de podcast en wat er allemaal te doen is op het gebied van kunstmatige intelligentie.

445
00:43:54,000 --> 00:43:57,000
En sneak previews van bepaalde afleveringen en gasten.

446
00:43:57,000 --> 00:43:58,000
Ook leuk.

447
00:43:58,000 --> 00:43:59,000
Zelfs leuk.

448
00:43:59,000 --> 00:44:00,000
Tot de volgende keer.

449
00:44:01,000 --> 00:44:03,000
[Muziek]


People on this episode