Bidraget er publisert med ropert og har blitt hentet fram på Oslo (fredag 15. oktober 2010). Les mer om roperten…

Der roboter ikke tør trå

Det kan innimellom se ut som offentlig sektor ikke er så opptatt av faktisk bruk av nettløsningene de lager (mer om dette her), men heller at de skal kunne si at informasjonen er tilgjengelig på nett.

Folk som drifter webservere kan legge fra seg et lite tekstdokument som Google og andre roboter titter på for å finne ut om det er noen kataloger man vil at de ikke skal tråle. Robots.txt heter den og ligger alltid på http://eksempel.no/robots.txt. Her har dere f.eks vår egen. Her finner man gjerne søkesider, automatisk generert innhold og annen nettkompost som man ikke vil ha treff på. Men noen ganger legger organisasjoner sider i robots.txt som de av en eller grunn vil at vi helst ikke skal finne.

Forskjellen mellom dokumenter som er tilgjengelige på internett og indeksert av google illustreres kanskje best gjennom nyhetsmedienes bruk av skattelistene da de gikk fra å presentere de som søk på sine egne sider til å rulle de ut som trålbare sider. Det var da vi begynte å få treff på inntekt da vi egentlig bare var på jakt etter et telefonnummer.

Anyways, det er en fin sport å se på robots.txt ettersom det kan gi et bilde av hva noen helst ikke vil at du skal se på. Ofte er det bare meningsløst, andre ganger er det interessant.

Sjekk f.eks Utdanningsdirektoratet sin på http://www.udir.no/robots.txt:
User-agent: * Disallow: /postjournal/ *Disallow: /Upload/postjournal/* *Disallow: /upload/Postjournal/*
Ikke overraskende vil de at vi ikke skal kikke på postjournalen deres!

Helsedirektoratet vil helst at vi ikke kikker nærmere på informasjon om Pandemien:

Disallow: /fri *Disallow: /pandemi* Disallow: /vp/multimedia/archive/00011/Kriseplan_A-divisjon_11902a.doc Disallow: /Internet/htdocs/navigation/navigationtxtMainMenu.jsp Disallow: /portalHelp Disallow: /portal/page

Forsvaret ser alle helst at vi av en eller annen grunn ikke skal kunne Google oss fram til pressemeldingene deres:

  1. /robots.txt file for http://www.mil.no The Norwegian armed forces Internett site

User-agent: *
Disallow: /pubs/fnett/template
Disallow: /pubs/fnett/error
Disallow: /pubs/fnett/incoming
Disallow: /pubs/fnett/multimedia
Disallow: /pubs/fnett/forsvarsnett/start/aktuelt/pressemeldinger
Disallow: /pubs/fnett/forsvarsnett/start/aktuelt/nyheter

Disallow: /pubs/fnett/forsvarsnett/felles/fms/start/artikler/nyhetsbrev
Disallow: /multimedia/archive

UiO sin publiseringsløsning for open access vil på sin side at Google helst ikke skal indeksere de publiserte avhandlingene:

  1. robots.txt for http://www.digbib.uio.no/

User-agent: *

#DUO
#Oppdatert 17.10.04 av Reidun Kringstad

Disallow: /publ/
Disallow: /internt/

Så ja, kanskje man skulle laget en søkemotor for offentlig virksomhet her til lands som bare indekserer det som er unntatt vanlige søk.

Vist 2522 ganger. Følges av 15 personer.

Kommentarer

Jøss. Dette burde jo være godt stoff for noen.

Offentlige etaters overdrevne bruk av robots.txt er et stort problem.

Løsningen er som du skisserer, å lage en egen søkemotor. Gravemaskinen min kan velge å ignorere robots.txt, noe jeg ikke gjør med lett hjerte.

Hittill har jeg forsøkt å nøye meg med å oppfordre offentlige etater til å åpne opp offentlige data, samt 1 indeksering av offentlig elektronisk postjournal (OEP).
http://blogg.abrenna.com/kulturdepartementet-somler-med-journalføringen/

Poenget med offentliggjøring av journaler, er jo å gjøre informasjonen offentlig tilgjengelig.

Eit argument mot å la Google indeksere absolutt alt offentleg innhold er at det er veldig mykje sjait, visvass og redundant kaos i den lange halen til det offentlege. Det å få tilgang til samtlige versjonar av saksbehandlingsdokumenta til ein etat, gjer det ikkje nødvendigvis lettare å finne fram i det offentlege for den jamne borgar. Det er heller ikkje like interessant å bla gjennom ulike versjonar av CSS-filer, tile-ikoner, debug-informasjon og anna grums fra webutviklingsprosessar for folk flest. Poenget er at det kan også være slike vurderingar som ligg bak bruk av robots.txt i enkelte etatar.

Når det er sagt, er det ingen tvil om at denne informasjonen heilt sikkert kan være interessante for gravande journalistar og andre spesielt interesserte. Men da bør det fortrinnsvis være tilgjengeleg gjennom separate grensesnitt, f.eks. ein eigen søkemotor som foreslått her.

Interessant blogginnlegg, men muligens noen forhastede slutninger. Med en viss skam å meld, må jeg innrømme at jeg som tidligere webredaktør i Norad ikke hadde noe bevisst forhold til denne fila. Når jeg nå sjekker, ser jeg at f.eks. området /resultater, sammen med varianter av søk, er i Norads robot.txt-fil. Hva som enn er grunnen til dette: Dette skyldes IKKE at det er et bevisst ønske fra Norads side at det blir vanskelig å finne resultater på norad.no, eller for den saks skyld vanskelig å søke.

Eksemplene nevnt ovenfor hadde nok stått sterkere om man kunne godtgjøre at unntakene er bevisste og ikke tilfeldige. Jeg tror for eksempel ikke noe på at Forsvaret ønsker å gjøre pressemeldinger, av alle ting, vanskelige å finne.

Uansett er det flott at problemstillingen synliggjøres og diskuteres – takk for ny kunnskap!

Det er sikkert gode grunner til at man legger noe bevisst (eller ubevisst) i robots.txt-fil, som dere sier, Are og Eivind. Og det er mulig at det manglende kunnskap som er årsaken til at Helsedirektoratet har puttet pandemi (selv om jeg tviler…). Uansett, så hadde det vært interessant å høre hvordan webfolkene i de aktuelle offentlige institusjonenen tenker om disse konkrete eksemplene.

Anders, kan du forklare hvordan vi kan bruke Gravemaskinen for å gjøre søk i det som er unntatt offentlig søk?

Første gang jeg har sett robots.txt’iquette løftet frem i offentligheten var etter Obamas overtakelse av Det hvite hus. Obamas vevstab kutta robots.txt med 2400 linjer over natta og fjernet Bush-administrasjonens talløse indekseringsbegrensinger:

http://boingboing.net/2009/01/20/obamas-whitehousegov.html

I Norge har rettslig status for søkemotorers indeksering vært uavklart. Siden indeksering medfører at det caches opp en kopi av dokumentet, har mange opphavsrettsadvokater hevdet at dette er “ulovlig eksemplarfremstilling”. Hvis denne tolkingen hadde fått hold ville Google, Bing, Kvasier og Yahoo vært ulovlige! Teknologer har påpekt at robots.txt-standarden har fungert som en implisitt kontrakt som henholdsvis tillater eller fjerner samtykke for indeksering. Dette skulle vært prøvd i retten en gang, da selskapet Meltwater ble avkrevd betaling for å indeksere (åpne) nettaviser. Men dette selskapet hadde ignorert robots.txt-konvensjonen og indeksert innhold uansett. Meltwater ble dømt til å betale 4.4 mill kr for å ha gjort det samme som Google. http://www.journalisten.no/story/58009

Torvund: Google og opphavsrett

Sånn for ordens skyld, siden du nevner Meltwater: De ble ikke dømt for å ha ignorert robots.txt – de ble dømt fordi å ha videresolgt tilgang til innholdet fra MBLs medlemsbedrifter, som administreres av Klareringstjenesten.

Som det står i denne saken fra Journalisten:

Klareringstjenesten skiller mellom det private markedet og næringsdrivende. For privat bruk krever selskapet bare klarering. Men for næringsdrivende aktører, som tar seg betalt av sine kunder, krever de i tillegg vederlag.

Never attribute to malice that which can be explained by incompetence….

La meg korrigere sitatet:
“Never attribute to malice what can be adequately explained by stupidity.”

Meltwater-saken er svært viktig for alle som jobber med nettet her i Norge. Hvis Meltwater hadde overholdt Robots.txt-standarden, kunne en for første gang fått slått fast at det å ikke legge inn indekseringsforbud i en Robots.txt-fil var å regne som et implisitt samtykke til indeksering for alle. Men siden de selv hadde indeksert innhold som ikke var merket som ikkeindekserbart ser det ut til at de ikke turte drøfte robots.txt av frykt for å tape saken. Advokater skulle vel gjerne ønsket at rett til å indeksere ble avtalt med en skriftlig kontrakt, ikke noe så enkelt som ei datafil!

Mediebedriftenes Klareringstjeneste vant tingrettssaken i mai 2009, og fikk retten med på at

søkemotorindeksering = eksemplarfremstilling = avgiftsplikt

Advokaten til Mediebedriftenes Klareringstjeneste skrev etter tingrettsdommen: “Oslo tingretts avgjørelse er, så vidt vi kjenner til, den første rettsavgjørelsen i Norge og sammenlignbare land som tar stilling til spørsmålet om indeksering krever samtykke fra opphavsmenn.” http://bit.ly/wiersholm_meltwater

Det tvilsomt om det er mye ondsinnethet ute og går her, men det som imildertid gjør disse filene interessante for meg er at de er back stage (takk Goffman). De er resultater av konkrete beslutningsprosesser, men er ikke ment som en del av den offentlige fremførelsen av disse nettstedene. De kan dermed gi et slags innblikk i hva produsentene tenker på til hverdags. Som f.eks “Kanskje det ikke er så viktig at akkurat disse postjournalene er så lette å slumse inn i.”

Morsomt i denne sammenheng at dette sitatet muligens er en forenkling av:

Never attribute to malice that which can be adequately explained by stupidity, but don’t rule out malice.

Gisle Hannemyr beskrev en gang på nittitallet robots.txt som “en gentleman’s agreement” – og sånn fungerer vel det forsåvidt ennå, selv om det er lenger mellom de gentle mennene på nettet nå enn det pleide være.

Hvorvidt robots.txt skulle bli juridisk bindende er er veldig interessant spørsmål som også påvirker medienes muligheter til screenscraping. Og hvis robots.txt også er juridisk bindende er etaters disallow plutselig blitt et spørsmål om offentlighetsloven.

Se det er plutselig blitt et veldig interessant scenario, gitt eksemplene over her.

Av ren nysgjerrighet (etter en Twitter-reply fra Andreas H Lunde) sjekket jeg Oslo Kommunes robots.txt-fil. http://www.oslo.kommune.no/robots.txt ga en veldig interessant 404 Not found.

Tviler på om bevisstheten er spesielt stor i kommune-Norge.

Jeg jobber med Forsvarets nettsider, og jeg var ikke klar over at det var en innstilling som gjorde at pressemeldingene ikke ble søkbare. Det retter vi selvsagt opp. Flott å bli gjort oppmerksom på dette. Vi skal også være oppmerksomme på dette når vi lanserer Forsvarets nye nettsider før årsskiftet.