this post was submitted on 29 Oct 2024
15 points (100.0% liked)

FOSS - Freie Software

344 readers
1 users here now

Deutschsprachige Community zum Austausch über Freie Software

Postet hier gerne News, Artikel, Empfehlungen und Fragen mit Bezug zu FOSS - Open Source - Freier Software…

Dies ist eine Lemmy-Community (Was ist Lemmy?) Wie Ihr auch von anderen Fediverse-Accounts aus teilnehmen könnt, ist auch hier beschrieben.

Bildquelle Icon: Colin Viebrock, CC BY 2.5 via Wikimedia Commons

#fedi22 #FOSS #OpenSource

Nachfolge von @foss_de@feddit.de

founded 5 months ago
MODERATORS
 

Die Open Source Initiative stellt die offizielle Definition von quelloffener künstlicher Intelligenz vor und fordert Tech-Konzerne heraus.

Damit ein KI-System als quelloffen gilt, müssen demnach Details zu den Trainingsdaten so offengelegt werden, damit sie von Dritten verstanden und nachgebildet werden können. Zudem muss der vollständige Code, der für die Erstellung und Ausführung der KI verwendet wurde, öffentlich sein und die Gewichtung der Trainingsdaten, auf deren Grundlage die KI ihre Ergebnisse erzielt, müssen einsehbar sein.

Links:

you are viewing a single comment's thread
view the rest of the comments
[–] General_Effort@lemmy.world 2 points 3 weeks ago (6 children)

Eigentlich bin ich eher neugierig wegen deiner persönlichen Erfahrung. Wo wird das so gehandhabt, dass immer Trainingsdaten mit verteilt werden?

[–] smokeysnilas 2 points 3 weeks ago (4 children)

Ich habe ein paar Jahre an der Uni als Wimi gearbeitet, die Wissenschaft (die du unten schon genannt hattest) wäre also ein Beispiel wo ich persönliche Erfahrung sammeln durfte.

Aber auch mit Erfahrung in der freien Wirtschaft kann man argumentieren: die Beobachtung ist das die Daten wesentlich das Verhalten des Systems beeinflussen und damit kommt ihnen eine ähnliche Rolle zu wie Code in traditioneller SW.

Daher geht man z.B. dazu über für Daten ähnliche Qualitätsstandards zu definieren. Z.B. hat man für Code Spezifikationen und Unittests die das Prüfen. Es ist in der Wirtschaft, je nach Bereich und Qualitätsanforderungen, mittlerweile Standard sowas auch für Datensätze zu machen. Man prüft also automatisch und bei jeder Änderung bestimmte statistische Eigenschaften der Daten wie Klassenverteilung, Balanciertheit, auch über Einflussgrößen die nicht explizit trainiert werden. Also z.B. für eine Gesichtserkennung prüft man die Verteilung von Geschlecht, Ethnizität, Alter, ... in den Trainingsdaten.

Auch werden Datensätze genau wie Code in versionierten Repositories vorgehalten.

De facto hat man also auch in der Wirtschaft die sehr ähnliche Bedeutung und damit auch Handhabung von Daten und Code in KI Systemen erkannt und umgesetzt. Sollten dann nicht die OSS Regeln auch genauso auf Daten übertragbar sein?

[–] General_Effort@lemmy.world 1 points 3 weeks ago (3 children)

De facto hat man also auch in der Wirtschaft die sehr ähnliche Bedeutung und damit auch Handhabung von Daten und Code in KI Systemen erkannt und umgesetzt. Sollten dann nicht die OSS Regeln auch genauso auf Daten übertragbar sein?

OSS ist aber kein Wunschzettel der Wirtschaft. Klar, dass die sich freuen, wenn sie was umsonst kriegen. Geht mir auch so. Aber Unittests oder das Einhalten von irgendwelchen Spezifikationen sind keine Bedingung, dass Code als Open Source gilt.

[–] smokeysnilas 1 points 3 weeks ago (1 children)

What? Hab ich das denn irgendwo behauptet?

Das man beides umsetzt sowohl für Code als auch für Daten sind aber Zeichen dafür, dass Code und Daten im KI Kontext eine ähnliche Funktion haben. Dann ist es doch nur konsequent auch die gleichen Maßstäbe in Hinsicht auf OSS anzulegen?

[–] General_Effort@lemmy.world 1 points 3 weeks ago (1 children)

Mit den "Ähnlichkeiten" wäre ich vorsichtig. Es gibt da so viele Missverständnisse.

Qualitätssichernde Maßnahmen oder bestimmte, wünschenswerte Eigenschaften sind nicht Teil des traditionellen Verständnisses von Open Source. Insofern es da Ähnlichkeiten gibt, spricht das gegen die Forderung.

[–] smokeysnilas 1 points 3 weeks ago

Aber drücke ich mich denn so missverständlich aus? Die These ist Daten=Code bei KI Systemen. Untermauert durch die aufgezeigten Ähnlichkeiten bzw. ähnliche Entwicklungsmethodiken.

Und die Erweiterung von Open Source auf Daten erwächst aus Daten=Code, nicht aus dem (nicht)vorhandensein von qualitätssichernden Maßnahmen in OSS.

load more comments (1 replies)
load more comments (1 replies)
load more comments (2 replies)