Webarkivering

Sigtet for denne artikel er at give en basal introduktion til webarkivering samt belyse nogle af de veje man kan tage, hvis man selv ønsker at komme i gang med at arkivere webindhold fra ens organisation eller virksomhed. Dertil vil der blive præsenteret forskellige redskaber til webarkivering, som er til at gå til uden større forudgående teknisk viden.

Afslutningsvis præsenteres tre konkrete cases for webarkivering.

Værdien af webarkivering

Webarkivering er processen, hvor indhold fra internettet bliver indsamlet og bevaret i et arkivformat, der hermed muliggør fremtidig fremvisning og brug.

Der kan være flere konkrete værdier for webarkivering. Set ud et historisk perspektiv er der gode incitamenter for webarkivering, da væsentlige dele af nutidige virksomheders og organisationers interne og eksterne kommunikation og markedsføring foregår via internettet. Det er heraf i høj grad gennem virksomheders og organisationers tilstedeværelse og aktiviteter på internettet, at deres nutidige udvikling kan dokumenteres, og hvorfra aspekter som medarbejderkultur, værdier og selvforståelse kan klargøres.

Webarkivering kan også have en forretningsmæssig værdi. I kraft af internettets konstante teknologiske udvikling og foranderlighed, forsvinder indhold hurtigt. Via webarkivering kan man øge udbyttet af den investering, der ligger i at udvikle indhold til internettet, hvad enten i form af websider, opslag til sociale medier, eller grafik og videoer. Ved webarkivering sikres også muligheden for indholdets fremadrettede anvendelse, eksempelvis som reference og inspiration til nye markedsføringskampagner, som kildegrundlag til retrospektive analyser, dokumentation i forbindelse med juridiske sager, eller helt andre formål.

Eksterne webarkiver – gør andre allerede arbejdet for dig?

Inden man for alvor giver sig i kast med sine egne webarkiveringstiltag, kan man med fordel undersøge om man kan finde relevant indhold i eksterne webarkiver. Der er nemlig gode chancer for, at din virksomheds eller organisations offentlige websider allerede er blevet arkiveret – potentielt set i flere omgange over en længere årrække.

Internet Archive er en amerikansk nonprofit organisation, der siden 1996 løbende har arkiveret milliarder af websider, som gratis kan tilgås via deres tjeneste Wayback Machine.

Man skal dog være opmærksom på, at der kan være huller i Internet Archives samlinger og derfor kan visse af websiderne i deres arkiv fremstå som ukomplette med manglende webobjekter (eksempelvis billeder) og døde links. Det er også værd at forholde sig til, at selvom Internet Archives indsamling er kontinuerlig, så kan der gå længere tid imellem deres arkivering, og i mellemværende periode kan en webside potentielt set have ændret sig flere gange. Dertil kommer, at visse websider automatisk anmoder, at Internet Archive ikke arkiverer deres indhold.

Foruden Internet Archive findes der også nationale webarkiver, herunder Netarkivet, der bestyres af Det Kongelige Bibliotek, som det dog kræver forskeradgang at anvende.

Vil man være sikker på, at ens webindhold arkiveres, er det derfor en god ide at være proaktiv og ikke satse på, at andre gør arbejdet.

Webcrawlere og WARC

Til webarkivering, hvor komplette websider indsamles og bevares, anvendes typisk programmer kaldet webcrawlere. Eksempelvis benytter Internet Archive sig af webcrawleren Heritrix til deres arbejde.

Processen begynder ved, at webcrawleren tildeles en URL eller domæne, der fungerer som udgangspunkt (også kaldet seed) for dens høstning af indhold og objekter. Herfra vil webcrawleren så systematisk og automatiseret høste websidens indhold og gradvis forgrene sig ud til de eventuelle websider, som seedet linker til, hvorfra høstningen så fortsætter. Webcrawlerens høstning vil kunne afgrænses ved angivelse af niveauer som den skal bevæge sig i forhold til interne og eksterne links, ligesom, at den også vil kunne konfigureres til at ignorere visse filtyper.

Typisk vil webcrawlere kunne konsolidere det høstede indhold i WARC, som er et ISO-standardiseret (ISO 28500:2017) arkivformat til webindhold. WARC indeholder også metadata, der dokumenterer de tekniske detaljer for høstningsprocessen.

Redskaber og tjenester

En webcrawler såsom førnævnte Heritrix, der kan høste store mængder af webindhold på højt automatiseret plan kræver ofte en vis teknisk indsigt at installere, konfigurere og betjene. Men det er heller ikke sikkert, at man nødvendigvis har behov for at drifte sin egen in-house webcrawler for at komme godt i gang med sin egen webarkivering – som alt andet teknologivalg afhænger det af behov, ressourcer og sigte.

Nedenfor er eksempler på nyttige redskaber til ens videre arbejde med webarkivering.

Webcrawlere med grafiske brugerflader:

- HTTrack
- WAIL – macOS version mest funktionel.

Letanvendeligt og fleksibelt redskab til webarkivering, der dog er mindre automatiseret, da det kræver, man selv navigerer rundt på de websider, som ønskes bevaret:

- ArchiveWeb.page

Kommercielle tjenester, der tilbyder on-demand webcrawling, organisering, fremvisning og eksport af arkiveret webindhold:

- Conifer – Gratis op til 5gb. Vis grad af manuelt arbejde.
- Archive-IT
- MirrorWeb

Kan benyttes til at tage komplet skærmbillede af en given webside:

- GoFullPage

Cases for webarkivering

1. En virksomhed ønsker at kunne dokumentere, at de lever op til juridiske krav ved at tilgængeliggøre produktmanualer på deres offentlige webside.

I kombination med andre tiltag, opsættes en automatiseret proces, hvor virksomhedens webside, og de pågældende produktmanualer, kontinuerligt høstes og arkiveres i WARC format, der herefter automatisk inkorporeres i virksomhedens styring af records.

Manglende valid dokumentation, der hurtig kan genfindes, kan i dette tilfælde få negative konsekvenser for virksomhedens forretning og omdømme, hvad enten i form af retssager, bøder eller kundeklager.

2. I forbindelse med lanceringen af et nyt produkt, har en virksomhed behov for løbende at arkivere deres kommunikation og markedsføringsaktiviteter til senere brug.

Da der er tale om en begrænset mængde indhold, beslutter virksomhedens at anvende en selektiv webarkiveringstilgang, hvor det kun er webindhold, som har direkte relevans til den aktuelle produktlancering, der manuelt bliver udvalgt og høstet.

Uden løbende webarkivering vil man i denne situation risikere at miste webindhold, der kan være dyrt at få genskabt. Dertil kommer, at man uden autentisk data, vil stå svagere, hvis man senere ønsker at foretage retrospektive analyser af eksempelvis produktlanceringens forløb og effektivitet.

3. En organisation ønsker af historiske årsager at dokumentere deres ageren i forbindelse med COVID-19 pandemien.

Som led i dokumentationsprocessen, bliver webindhold fra både interne og eksterne kilder høstet og arkiveret.

Konsekvensen af manglende webarkivering vil være, at centrale kilder forsvinder eller slettes, og at historien om den pågældende organisations tid under pandemien derfor ikke kan formidles på troværdig vis. Subsiduært kan disse kilder potentielt set også besidde en stor juridisk værdi, og vil eksempelvis kunne anvendes til at bevise overholdelse af lovgivning og krav, der specifikt blev sat i kraft som følge af pandemien.

Webarkivering

Adresse

Kontor og besøg

Kontakt