Hoppa till innehållet

Wikipedia:Projekt Fredrika/SLS-AI-pilot

Från Wikipedia

En projektsida om att tillämpa AI i analys av källor och förbättrande av Wikipedia. Vi provar en hypotetisk arbetsrutin på två källor.

AI kan bistå i att analysera källor och föreslå hur de kan användas. Vi tar som mål att via experimentering hitta nya rutiner att utnyttja AI, med vilka vi kan uppnå pålitliga förbättringar i innehållet i Wikipedia och Wikidata på flera språk. Hypotetisk arbetsrutin:

  1. Förbered källans textdata för AI
  2. Identifiera vilka Wikipedia artiklar är relevanta att förbättra med källan: sök nyckelord i källan med “NER” (en:Named-entity recognition) samt deras Wikipedia artiklar med “entity fishing”
  3. Prioritera Wikipedia artiklar att förbättras med lämpliga kvantitiva och kvalitetiva mått
  4. Generera förbättringsförslag med GenAI till Wikipedia utgående från källan. Verifiera manuellt innan tillägg på Wikipedia.

Vi samlar även erfarenheter att sammanfatta valda delar eller helheter av källor.

Goda, etiskt sunda resultat förutsätter att 1) vi följer allmänna principer för Wikipedia redigering, och 2) förslag kvalitetsgranskas innan publicering.

Källa 1/2: Ett gott parti

[redigera | redigera wikitext]

Vi har inlett experiment med boken Ett gott parti om Albert och Ellan Edelfelt som finns digital tillgänglig vid sls.fi/publications/ett-gott-parti/.

Bokref: Vainio-Kurtakko, Maria (2022). Ett gott parti : Scener ur Ellan de la Chapelles och Albert Edelfelts liv. Skrifter utgivna av Svenska litteratursällskapet i Finland. ISBN 978-951-583-557-4. https://www.sls.fi/publications/ett-gott-parti/ 

Boken innehåller flera personer som stod Edelfelt nära. En beskrivning av förhållandet eller samarbetet vore värd ett tillägg på personens Wikipedia artikel.

Vi har hittills lagt till förbättringar i artiklarna Pietro Krohn (dansk, vän, porträtt), Louis Pasteur (fransk, vän, porträtt), Carl Snoilsky (svensk, vän, illustrationer), Gustave Courtois (fransk, vän), Gunnar Berndtson (finländare, vän), Anders Zorn (svensk, vän), Haiko gård (plats), Gumtäkt gård, Adelaïde Leuhusen, Adolf von Becker, Aino Ackté.

Vi är processen att iterera och optimera arbetsrutinerna. Nedan följer några kommentarer. Insikterna är dels allmänna, dels specifika för just denna källa.

  1. Förberedelse: tack vare epub filens XHTML-format går det smidigt att med python behandla innehållet i sin helhet, per kapitel eller per paragraf.
  2. NER identifierade (i en av körningarna) 278 unika personnamn och 265 unika platsnamn (och en hel del annat) med sv_core_news_lg.
  3. Prioritering genom automatik:
    1. Antal NER-omnämningar torde berätta vem som är viktigast och beskrivs mest/bäst av källan. Mest nämns Albert Edelfelt själv, 208 gånger. Till top 10 hör Erik XIV (64 gånger), Viktor Magnus von Born, Elsa von Born, Berta Edelfelt, Alexandra av Danmark, Louis Pasteur, Vicke Andrén, Henrik Ibsen, Bjørnstjerne Bjørnson (16 gånger). NER-tolkningarna kräver granskning eller tillrättning: Erik XIV är antagligen sonen Erik Edelfelt, och Alexandra av Danmark är Alberts mor Alexandra.
    2. Wikipedia visningar kan berätta vem det finns mest intresse för på Wikipedia att läsas om på svenska, finska, engelska, tyska, franska, danska, etc.
    3. GenAI kvalitativ analys: GenAI kan med bokens innehåll ta ställning till hur viktig Edelfelt är för personen (på en skala 0-5), vad förhållandets natur är (vän, släkt, kollega, beundrande, ingen verklig kontakt), samt även tolka om NER kategoriserat rätt (nämns NER-personen i boken? ja, nej)
    4. En expert (författaren av Ett Gott Parti) är sist och slutligen den ultimata expert på vilka personer och Wikipedia aritklar källan duger till
  4. Genering av förbättringsförslag: vad är optimala prompten och inputtet för GenAI?
    1. Inverka stilen med en roll, t.ex. "Du är en expert på att skriva på Wikipedia"? Mindre än väntat.
    2. Behövs hela källan, delar av källan, wikipedia artikeln? Vi gav GenAI som input relevanta paragrafer från källan samt Wikipedia artikeln.
    3. Ska man be om en lite förbättring, eller en hel förbättring till Wikipedia artikeln? Vi bad GenAI föreslå en ny paragraf till Wikipedia artikeln.
    4. Hur många förbättringar åt gången kan man be om? Vi bad GenAI göra ett förslag åt gången för att hålla dens fokus.
    5. Finns det skillnader i språk? Vi har inte märkt betydliga skillnader ännu.
    6. Hur "färdigt" förslag kan vi göra, eller kommer det alltid att krävas en betydlig manuell redigering av Wikipedia artikeln med det genererade förslaget? Det är nog bra med en manuell check innan förbättringar förs in.

Källa 2/2: Stora finlandssvenska festboken

[redigera | redigera wikitext]

Vi har inlett experiment med boken Stora finlandssvenska festboken som finns digitalt tillgängligt vid sls.fi/publications/stora-finlandssvenska-festboken. Bokref: Anne Bergman; Carola Ekrem (2020). Stora finlandssvenska festboken. Svenska litteratursällskapet i Finland. https://www.sls.fi/sv/utgivning/stora-finlandssvenska-festboken 

Exempel på förbättringar i artiklarna: Runebergstårta, Advent#Adventskalender, Hosianna, Davids son, Julfrid, Korvatunturi.

Festboken kan analyseras med NER-processen (som känner igen bäst personer och platser), se analysen: Wikipedia:Projekt Fredrika/SLS-AI-pilot/Festboken-NER,

eller alternativt med en alternativ GenAI-process kodad med python vars resultat finns här: Wikipedia:Projekt Fredrika/SLS-AI-pilot/Festboken. Processen innebär:

  1. Spjälka upp texten från Festbokens epub-fil per kapitel (eftersom kapitlen har klara teman)
  2. Fråga GenAI vilka Wikipedia artiklar kapitlet motsvarar
  3. Granska förslagen med "traditionell IT", dvs python och Wikipedias API: granska om artikeln verkligen existerar, om artikeln är en omdirigering till en annan artikel, och ifall festboken nämns från tidigare (troligen som källa).
  4. För varje verifierad artikel, generera ett förbättringsförslag med GenAI
  5. Gå manuellt igenom förslagen och lägg till.

“NER” (en:Named-entity recognition) identifierar ords kategorier, t.ex. person, plats, etc. Detta gör det möjligt att indexera stora textmassor, t.ex. en hel bok, en potentiella källa, och få översikt om vilka ämnen, och Wikipedia-artiklar potentiellt hänvisas till i källan.

Vi har kört NER med python spaCy svenska modeller som genom tillägget entity-fishing kan ge ordets motsvarande Wikidata objekt (och därmed Wikipedia artiklar).

GenAI alternativ vi övervägt

Vi har provat flera Generativa AI lösningar. För tillfället har vi använt mest Claude3 opus pga att den erbjuder störst kapacitet (context window), och den verkar generera språkmässigt det mest neutrala, objektiva texten som lämpar sig för Wikipedia. Vi får så gott som hela boken Ett gott parti att rymmas i Claude3 opus context window.

Bästa tips och förslag för prompt engineering finns i dokumentation för OpenAI och Anthropic. Se platform.openai.com/docs/guides/prompt-engineering och docs.anthropic.com/claude/docs/prompt-engineering.

Exempel på prompt engineering

[redigera | redigera wikitext]

Följande prompt är ett exempel på att be GenAI föreslå en förbättring till en Wikipedia artikel. I detta fall matas GenAI med innehåll om Louis Pasteur från boken Ett gott parti tillsammans med Wikipedia artikeln om Louis Pasteur.

Tillämpade principer:

  • definiera en system roll
  • ge materialet i XML-format
  • ge instruktionerna sist
  • avsluta instruktionerna med exempel på svaret
System prompt: You are a Wikipedian-bot that uses only given sources to improve wikipedia articles. You follow general principles of Wikipedia. 

You will need the following material in the task: 
<documents>
<document>
<document_description>
Innehåll från boken Ett gott parti
</document_description>
<metadata>
{{bokref|efternamn=Vainio-Kurtakko|förnamn=Maria|titel=Ett gott parti : Scener ur Ellan de la Chapelles och Albert Edelfelts liv|år=2022|utgivare=Skrifter utgivna av Svenska litteratursällskapet i Finland|utgivningsort=|libris=|isbn=978-951-583-557-4}}
</metadata>
<content>
Lägg här: hela boken, eller utvalda delar från boken t.ex. paragraferna där Louis Pasteur nämns. 

</content>
</document>
<wikipedia_article>
<url>
Lägg här, url till Wikipedia artikel: https://sv.wikipedia.org/wiki/Louis_Pasteur

</url>
<content>
Lägg här: Wikipedia artikelns innehåll. 

</content>
</wikipedia_article>
</documents>
<instructions>
Using only facts from the given material, suggest one additional new paragraph to the given Wikipedia article in the same language as the Wikipedia article. Remember to write from the perspective of the article. Suggest what existing header to add the new paragraph to, and a new header for this content. Give three suggestions, with each being half as long as the previous. 

Reply without explanations in JSON format with a list of dicts with values 'header_existing', 'header_new' and 'paragraph'. A suitable beginning of each paragraph could be '{person's surname} was {nature of relationship} with Albert Edelfelt'

</instructions>

<ref>{{bokref|efternamn=Vainio-Kurtakko|förnamn=Maria|titel=Ett gott parti : Scener ur Ellan de la Chapelles och Albert Edelfelts liv|år=2022|utgivare=Skrifter utgivna av Svenska litteratursällskapet i Finland|utgivningsort=|libris=|isbn=978-951-583-557-4|url=https://www.sls.fi/publications/ett-gott-parti/}}</ref>

<ref>{{Kirjaviite|Tekijä=Maria Vainio-Kurtakko|Nimeke=Ett gott parti : Scener ur Ellan de la Chapelles och Albert Edelfelts liv|Vuosi=2022|Julkaisija=Svenska litteratursällskapet i Finland|Isbn=978-951-583-557-4|www=https://www.sls.fi/publications/ett-gott-parti/}}</ref>

<ref>{{Cite book |last=Vainio-Kurtakko |first=Maria |url=https://www.sls.fi/publications/ett-gott-parti/ |title=Ett gott parti : Scener ur Ellan de la Chapelles och Albert Edelfelts liv |publisher=Svenska litteratursällskapet i Finland |year=2022 |isbn=978-951-583-557-4 |language=sv}}</ref>

<ref>{{Ouvrage|langue=sv|auteur1=Maria Vainio-Kurtakko|titre=Ett Gott Parti|lieu=Helsinki|éditeur=Svenska litteratursällskapet i Finland|année=2022|isbn=978-951-583-557-4|lire en ligne=https://www.sls.fi/publications/ett-gott-parti/}}</ref>

<ref>{{Literatur |Autor=Maria Vainio-Kurtakko |Titel=Ett Gott Parti |Verlag=Svenska litteratursällskapet i Finland |Ort=Helsingfors |Datum=2022 |Sprache=sv |ISBN=978-951-583-557-4 |Online=https://www.sls.fi/publications/ett-gott-parti/}}</ref>