Grid Computing

Samenwerkend rekenen

 

Nicolai Petkov, hoogleraar informatica Rijksuniversiteit Groningen, vakgroep Intelligente systemen

 

Inleiding

 

Het ogenschijnlijke gemak van het internet in het algemeen en het World Wide Web in het bijzonder hebben onder­zoekers op de gedachte ge­bracht dat het wereldwijde computernetwerk nog meer kan betekenen, bijvoorbeeld door middel van gridtechnologieën. Het nieuwe van gridtechnologie is integratie, gecoö­rdineerd ge­bruik en delen van ICT-bronnen (computers, programatuur en gegevens) die zich op een of op verschil­lende locaties bevinden. Webstandaarden en -technologieën hebben een uni­versele transparante toe­gang tot documenten mogelijk gemaakt; grid­tech­nologieën zouden hetzelfde kunnen bete­ke­nen voor computerfaciliteiten, -gegevens en -applicaties.

 

Wat is het?

De term (computer) grid werd medio jaren negentig gelanceerd als een concept voor ge­dis­tribueerde computerinfrastructuur die gecoördineerd gebruikt kan worden. De naam is door de analogie met de electrical grid, het elektrische netwerk, geïnspireerd – het Amerikaanse elektriciteitsnetwerk wordt ‘The Grid’ genoemd.

 

 

Grids zijn dynamische, gedis­tribueerde ICT-omge­vin­gen die softwaretoepassingen in staat stellen ICT-bronnen zoals reken- en opslagfaciliteiten, gegevensbanken, dis­plays en instru­menten via een computernetwerk te integreren. De integratie kan binnen een afdeling, een instituut of een organisatie plaatsvinden of de grenzen van organisaties en netwerkdomeinen over­stij­gen. De gedeelde ICT-bronnen kunnen zich op dezelfde of op verschillende geogra­fische lo­caties bevinden. Naar de gebruiker toe ziet een grid er uit als een integraal computer­sys­teem, met alle benodigde faciliteiten. De gebruiker merkt niet waar deze faciliteiten zich be­vin­den.

 

 

Middleware

De ICT-bronnen worden met behulp van specifieke middleware geïntegreerd. Deze middle­ware zorgt ervoor dat aan de behoeften aan rekenkracht en opslagcapaciteit wordt voldaan zonder dat een gebruiker iets van het gedistribueerde karakter van het achterliggende systeem merkt.

 

Netwerkinfrastructuur

Om een grid binnen een organisatie te realiseren is de huidige bandbreedte en de bandbreedte die voor de ko­men­de jaren in Nederland gepland is voldoende. Men hoeft dus niet op de volgende netwerk-upgrade te wachten.

Het grootschalig toepassen van grids waarbij meerdere organisaties in meerdere netwerk-domeinen zijn betrokken kan tot meer bulk-datatransport gaan leiden, waardoor er per appli­catie misschien niet meer band­breedte nodig is, maar voor de som van de applicaties al snel wel. Gegarandeerde bandbreedte op alle ni­veaus kan voor veel organisatieoverstijgende gridtoepassingen essentieel zijn.

Beleid en organisatie

Grids realiseren is niet alleen een kwestie van de technologie. In vele gevallen, zoals bij een klein grid die in een organisatieonderdeel op de basis van intranet wordt gerealiseerd, is de grid-technologie uit de experimenteerfase gegroeid en is zij rijp voor inzet in de praktijk. Be­leid, organisatie, en mana­gement zijn nodig om locale faciliteiten dynamisch aan een grid toe te wijzen. Voordat bijvoorbeeld de pc’s van de verschillende secretariaten en onder­­wijs-pc pools van een organisatie voor grid-toepassingen kunnen worden ingezet moet aan diverse voor­waarden voldaan worden, die alleen langs strakke organisatorische lijnen en centrale regie te bereiken zijn. Op af­delingsniveau kan men met veiligheids­beden­kingen van systeem­be­heer­ders te maken krijgen. Op faculteits- en universiteitsniveau leidt het gebruik van gedeelde ICT-bronnen via een grid, tot verwevenheid van de ICT-budgetten van ver­schillende onder­delen van de organisatie.

 

Voordelen

Tot de algemene voordelen die grids bieden horen onder andere: reductie van de totalen kos­ten van eigen­dom; hogere efficiëntie in het gebruik van ICT-bronnen door schaal­vergroting; verlaging van de drem­pels voor de dynamische integratie van organisaties bij fusies of uit­voering van gezamenlijke projecten.

De rol van en voor bedrijven

In de beginjaren lag het initiatief voor het ontwikkelen van de grids in handen van door de staat gefinan­cierde wetenschappelijke instellingen. De activiteiten richtten zich vooral op het ontwikkelen van specifieke wetenschappelijke applicaties voor onderzoeksgebieden zoals hoge-energie­fysica en radioastronomie.

 

De grid-technologie heeft inmiddels de academische incubator verlaten en wordt bij bedrijven toegepast en door bedrijven als product of dienst aangeboden. Deze technologie maakt een nieuw businessmodel mogelijk – het omgaan met ICT-faciliteiten als met een nutsvoor­zie­ning – dat voor het bedrijfsleven zeer aantrekkelijk is.

 

Categorieën van grids

 

Grids kunnen op basis van het type ICT-bron dat wordt gedeeld of het doel dat wordt ver­volgd worden gecategoriseerd in:

1.        computerfaciliteiten-grid

2.        reken-grid

3.        data-grid

4.        apparatuur-grid

5.        toe­pas­sings-grid

 

Uitgaand van de basis van de schaal waarop de integratie en het delen van ICT-bronnen plaatsvindt kan men spreken van:

6.      organisatie-grid

7.      partner-grid

8.      service-grids.

 

1. Computerfaciliteiten-grids

Bij een computerfaciliteiten-grid gaat het in eerste instantie om dynamische integratie van reken- en opslagfaciliteiten. De integratie vindt via het computernetwerk plaats en kan tot een afdeling, instituut, faculteit of universiteit zijn beperkt of de grenzen van de organisatie over­stijgen.

 

2. Reken-grids

Als het doel van een grid is veel rekenkracht beschikbaar te stellen door het gecoördineerd gebruik van vele computers spreekt men ook van een reken-grid (compute grid). De ten grond­slag liggende gedachte is dezelfde als die van het parallel rekenen – een toepassing wordt gesplitst in onderdelen die simultaan kunnen worden uitgevoerd op verschillende computers. Meestal gaat het hierbij om weten­schappelijke en technische simulaties waarmee veel berekeningen gemoeid zijn.

 

Reken-grids op basis van werkstations en PCs bieden een prijsgunstige oplossing voor vele problemen die met grootschalig rekenen te maken hebben. Ze zijn echter zeker geen oplossing voor alle rekenintensieve problemen en moeten dan ook niet als de ultieme vervanger van super­com­puters worden gezien. Reken­problemen, die volledig te splitsen zijn in relatief grote onaf­hankelijke deelproblemen kunnen op meerdere computers tegelijk worden aangepakt. Een voorbeeld uit de cryptografie is het ontbinden van grote getallen in priemfactoren. Re­ken­­problemen die weliswaar op parallelle computers kunnen worden aangepakt, maar waar op gezette tijden intensieve communicatie tussen de processen plaatsvindt, lenen zich niet voor parallelle verwerking via een grid. De alles beperkende stap is de lichtsnelheid. Onge­acht de band­breedte van het netwerk is de latentie bij bericht­uitwisseling, zelfs met weglaten van alle protocol­tijd­verliezen en het feit dat de lichtsnelheid in glas nog lager is dan in va­cuüm, een harde beper­kende factor. Een grid dat een computer in Groningen en een in Delft omvat en waarop een parallelle job draait, zal bij elke uitwisseling van een bericht aan laten­tietijd zoveel verlies opleveren wat betreft verloren rekencycli dat in het geval van een fre­quente datauitwisseling zo een grid nooit een alternatief voor een supercomputer kan zijn.

 

3. Data-grids

Naast rekenfaciliteiten is er behoefte om ook databronnen te delen. Bij een data-grid, ook informatie-grid genoemd, gaat het om toegang tot informatie­bronnen die op verschillende computers, administratieve domeinen of geografische locaties gevestigd zijn. De drijvende kracht achter de ontwikkeling van data-grids zijn toepassingen waarbij grote gedistri­bueerde hoeveelheden data en veel gebruikers op verschillende locaties betrok­ken zijn.

In de academische wereld zijn voorbeelden hiervan te vinden op de terreinen van hoge-energiefysica, sterrenkunde, schei­­kunde, genetica, bioinformatica, humane en sociale wetenschappen en de kunsten. Ook bedrijven zoals banken, verzekeraars, olie- en luchtvaartmaatschappijen en de farmaceutische industrie werken met grote datasystemen die vanuit verschillende locaties door meerdere gebruikers geraadpleegd moeten worden.

 

4. Apparatuur-grids

Apparatuur-grids geven toegang tot dure of unieke wetenschappelijke apparatuur zoals radio­telescopen, elektronenmicroscopen of instrumenten voor de registratie van aardbevingen. Mo­menteel zijn er weinig voorbeelden van apparatuur-grids. Eén daarvan is het samen­wer­kings­verband Network for Earthquake Engineering Simulation, NeesGrid. Vrijwel alle huidige apparatuur-grids zijn door universiteiten en andere onderzoeks­orga­ni­saties gerealiseerd.

 

De sensor-grid is een voorbeeld van een apparatuur-grid in opkomst. Hierbij wordt een groot aantal sensoren, vaaka van diverse soorten en in lokale netwerken opgenomen, aan reken­capaciteit gekoppeld en op afstand gecontroleerd en bediend. Toepassingen lopen uiteen, van controle van autoverkeer tot klimaat- en milieuonderzoek, seismologie en precisielandbouw.

 

5. Toepassings-grids

Een toepassings-grid geeft toegang tot bepaalde applicaties via het computernetwerk. De soft­ware die de toepassing realiseert, kan op een computer zijn geïmplementeerd of over meerdere computers van een of meerdere organisaties zijn ver­spreid. De eerstgenoemde  implementatievorm komt overeen met het application service provider-model dat nu de praktijk op dit terrein domineert. Het belang van de tweede genoem­de implementatievorm zal met de ver­spreiding van componentgebaseerde technolo­gieën en webdiensten voor de ontwikkeling van toepassingen in de komende jaren toenemen.

 

6. Organisatie-grids

Hierbij gaat het om grids die binnen een organisatie of een deel van een organisatie worden gerealiseerd. In de context van hoger onderwijs kan dit een afdeling, instituut, faculteit, hoge­school of univer­siteit zijn. Afhankelijk van de omvang van de grid kan men in dit verband onderscheid maken tussen instituut-, campus- of universiteits-grids. Het computernetwerk dat hiervoor wordt gebruikt is een intranet. Dit soort van grids is mo­menteel het belangrijkst voor de praktijk en dit zal ook in de ko­mende jaren zo blijven. Hieronder wordt er extra aan­dacht aan besteed (zie: Cluster-systemen en intranet-gebaseerde organisatie-grids).

 

7. Partner-grids

Hierbij sluiten twee of meerdere organisaties overeenkomsten om bepaalde ICT-bronnen te delen, meestal in verband met de realisatie van bepaalde gezamenlijke projecten. Het compu­ter­netwerk dat gebruikt wordt is het internet en de te delen ICT-bronnen bevinden zich op ver­schillende geografische locaties en administratieve netwerkdomeinen. Hieronder vallen ook de grids van organisaties die geografisch verspreid zijn.

Binnen Nederland kan dit model van belang zijn voor bijvoorbeeld TNO of bij fusies van universiteiten met hogescholen of samenwerkings­verbanden tussen (technische) universiteiten bij de realisatie van gezamenlijke oplei­din­gen. 

 

8. Service-grids

Een trend in de ICT-ontwikkeling van de laatste jaren is de opkomst van leveranciers van verschillende ICT-diensten (service providers) zoals web-hosting, content-verspreiding, reken- en opslagcapaciteit en diverse toepassingen. Leveranciers van diensten maken gebruik van schaal­voordelen om diensten tegen een lagere prijs te kunnen leveren. Voor de afnemers is dit model voordelig omdat deze diensten niet tot de kerntaken van de afnemer horen. Be­drijven en organisaties kunnen wezenlijke kosten besparen door het uitbesteden van niet-essentiële onderdelen van hun ICT-infrastructuur aan dergelijke providers.  Binnen een uni­versiteit of hogeschool is er overigens een onderdeel dat bij uitstek geschikt is om de rol van leverancier of bemiddelaar bij de leve­ring van zulke diensten over te nemen: het reken- of ICT-centrum.

 

Wereldwijde service-grids

De afzonderlijke wetenschappelijke en commerciële grids kunnen worden samengevoegd tot één wereldwijd grid. Met andere woorden: een world-wide-grid waar een ieder toegang toe heeft. Een dergelijk wereldwijd grid wordt als de opvolger van het World Wide Web gezien. Terwijl het World Wide Web toegang geeft tot multimediale in­formatie (tekst, beelden, mu­ziek en film) op het internet, zal een wereldwijde grid toegang geven tot informatie en ICT-diensten.

 

Een wereldwijd grid is op dit moment echter steeds nog in ontwikkeling en kan in de ko­men­de vijf, misschien tien jaar slechts een beperkte rol voor Nederlandse universiteiten en hoge­scholen hebben. Het ontwikkelingsstadium waarin de wereldwijde grid zich bevindt, is enigs­zins vergelijkbaar met het stadium waarin het World Wide Web zich in 1994 bevond.

 

 

Clustersystemen en intranetgebaseerde organisatie-grids

 

De wereldwijde service-grid in het groot zoals hij door toekomstvisionairs wordt getekend als delen van ICT-bronnen via internet op mondiale schaal is er lang nog niet. Er zijn al wel voor­beelden van bedrijven en organisaties die via internet diensten van externe leveranciers ge­bruiken om hun ICT-infrastructuur aan te vullen.

 

Het overgrote aantal grids worden in eerste instantie binnen een organisatie op de basis van intranets gerealiseerd. Zulke organisatie-grids (enterprise grids) zijn op dit moment de belang­rijkste toepassing van de gridtechnologie en dit zal het geval blijven voor de komende vijf jaar.

 

Het bouwen van clustersystemen, dat aan de universiteiten is begonnen als een alternatieve oplossing voor high-performance-computing, is nu een onderdeel van de ICT-industrie en worden door hardwareleveranciers en systeemintegrators complete (turn-key) clustersystemen geboden. Clustersystemen worden zowel aan universiteiten als ook in het bedrijfsleven gebruikt. De Rijks­universiteit Groningen heeft bijvoorbeeld enkele clustersystemen voor wetenschappelijk rekenen; het grootste daarvan bestond tot voor kort uit 128 computers, maar inmiddels is dat aantal alweer gegroeid.

 

Radioastronomie

Radiotelescopen maken simultaan gebruik van meerdere antennes. Door de met deze antennes gewonnen signalen samen te analyseren krijgt men een grotere resolutie in het beeld van de hemel. Hoe meer antennes men gebruikt en hoe verder uit elkaar deze antennes staan, hoe groter het oplossingsvermogen. Tot nu toe was het in de radioastronomie gebruikelijk antenna arrays te bouwen ( Dwingeloo en Westerbork). Door antennes in verschillende landen met elkaar te verbinden kan men een nog grotere resolutie bereiken. Vereist is een snel datanetwerk en veel rekenkracht en opslagcapaciteit.

 

Radioastronomen maken derhalve plannen om alle radiotelescopen in Europa te verbinden met de krachtige processor bij JIVE in Dwingeloo. Samen met SURFNet in Nederland en Géant in Europa zijn Gb/s data­verbindingen in 2003 aangelegd van de telescopen naar Dwingeloo. Vanaf 2004 hebben de astronomen daarmee een radiotelescoop zo groot als heel Europa.

 

LOFAR, voor een groot deel een Nederlands project, is een volgende ambitieuze stap. Deze telescoop bestaat uit meer dan tienduizend eenvoudige radioantennes verspreid over een gebied met een diameter van ongeveer 350 km. Deze verzameling van antennes is feitelijk een groot, wide-area sensornetwerk. Binnen het LOFAR project wil men verder gaan dan slechts antennes met elkaar en met rekencapaciteit verbinden. De voorgenomen rekenkracht van het systeem wordt voldoende om de individuele signalen tot acht maal toe te kopiëren en er simultaan in software een achttal onafhankelijke telescopen van te maken. Hierbij begint de grid een rol te spelen. Men wil met behulp van grid technologie ’s werelds eerste multi-user, multi-tasking, on-line sofware telescoop  bouwen, die vanuit operationele centra in meerdere landen kunnen worden aangestuurd: bij de Rijksuniversiteit Groningen, bij de MIT, in Cambridge, VS, en bij de Universiteit van Sydney in Australië. Uitgezocht wordt daarbij hoe één van de telescopen voor het algemeen publiek over het openbare Internet ter beschikking kan worden gesteld.

 

Vervolgens gaan de gedachten naar het koppelen van andere soorten sensoren aan de LOFAR netwerk infrastructuur. Gepland wordt om seismische sensoren aan te sluiten, om drie dimensionale beelden met ongekend scherpe details van de aardgas reservoirs onder Noord-Nederland te maken. En uitgezocht wordt hoe milieusensoren voor experimenten in de precisie landbouw er ook bij kunnen.

 

Goede doelen en betrokkenheid van particulieren

 

Op dit moment is er een aantal projecten waarbij burgers een deel van de verwerkingskracht van hun personal computers aan een organisatie met een goed doel ter beschikking kunnen stellen. Bij het project SETI@home (Search for Extraterrestrial Intelligence), dat ca. 6 jaar geleden is begonnen, wordt bijvoor­beeld naar sporen van buitenaards leven in gegevens uit radiotelescopen gezocht. Bij het project Find-a-Drug gaat het om de ontwikkeling van nieuwe genees­middelen tegen ziektes zoals kanker, pest, multiple sclerosis, SARS en AIDS. Na de terroristische aanslagen van 11 september 2001 werd in een soort­gelijk project naar een vaccin tegen het pokkenvirus gezocht. In een Japans project wordt naar overeenkomsten en bepaalde patronen in de genetische informatie van mensen en de relatie ervan met bepaalde ziektes gezocht.

 

Strikt genomen gaat het bij zulke projecten niet echt om grid-computing in de zin van ‘ver­werkingskracht uit de muur’ – het gaat om gedistribueerde gegevensverwerking met Internet als communicatiemiddel. Het lijkt echter erop dat de begrippen ‘distributed computing’ en ‘Internet computing’, die hier zeker aan de orde zijn, inmiddels zijn opgegaan in het bijna alles overkoepelende begrip ‘grid-computing’.

 

Conclusies en aanbevelingen

 

In de komende vijf jaar kunnen grids een belangrijke rol gaan spelen. Een grid kan op basis van de bestaande ICT-infrastructuur binnen een afdeling, instituut, faculteit of universiteit of hogeschool wor­den gerealiseerd met behulp van specifieke middleware die al dan niet gratis te verkrijgen is.

 

Grids kunnen worden gebruikt voor verbetering van de efficiëntie van gebruik van de aan­wezige ICT-infra­structuur, reductie van de directe ICT-investeringen en beheers­kosten, toegang tot hoge computer­capaciteit, gebruik van geïntegreerde gedistribueerde gegevens­banken en toepassingen, interactief samenwerken op afstand en experi­menten uitvoeren met apparatuur op afstand.

 

De grootste kansen voor de inzet van grid-technologie in het hoger onderwijs en onderzoek in de komende vijf jaar liggen op het terrein van computer-faciliteiten-grids binnen een orga­nisatie(onderdeel) die reken- en opslagfaciliteiten binnen een administratieve netwerkdomein via een intranet integreren. Wie deze kansen links laat liggen, zal te veel voor de nodige ICT-infrastructuur betalen en daarvan suboptimaal gebruik maken.

 

Grid-onder­zoeksprojecten waarbij vele duizenden burgers een deel van de rekenkracht van hun computers via Internet ter beschikking stellen voor de oplossing van weten­schap­pelijke vraag­stellingen ­hebben grote uitstraling op de rest van de maatschappij. Ook in Nederland is het mogelijk projecten te formuleren die van maat­schap­pelijk hoog­relevante onder­werpen zijn afgeleid (bijvoorbeeld zorg, milieu, veiligheid, water­beheer) en waarvoor zeker grote draagvlak bij de bevolking te vinden is. Relatief kleine stimulerings­programma’s (vanuit OCenW, SURF of de universiteiten zelf) op dit terrein kunnen een groot rendement ople­ve­ren.

 

 

Dankzegging

 

Dit artikel is een verkorte versie van het hoofdstuk “Grid Computing en E-science” verschenen in De vruchten plukken, Part 2 Onderzoek en Visie, trend report WTR SURF (Utrecht: WTR SURF, December 2003; ISBN 90-74256-24-4) 77-101. De auteur bedankt Jos Tolboom voor de voor deze publicatie nodige inkorting en bewerking.

Literatuur

 

D. Laforenza: “Grid programming: some indications where we are headed”, Parallel Computing 28 (2002), 1733-1752.

 

H. van der Pluijm: “Verwerkingskracht uit de kraan”, LAN Internetworking Magazine, 31-05-2003.

 

I. Foster, C. Kasselman, J.M. Nick, S. Tuecke: “Grid services for distributed system integration”, IEEE Computer, June 2002, 37-46.

 

Meerdere berichten van Grid Today (http://www.gridtoday.com)