this post was submitted on 21 Jul 2023
0 points (NaN% liked)
DACH - jetzt auf feddit.org
8711 readers
1 users here now
Diese Community wird zum 01.07 auf read-only gestellt. Durch die anhäufenden IT-Probleme und der fehlende Support wechseln wir als Community auf www.feddit.org/c/dach - Ihr seid herzlich eingeladen auch dort weiter zu diskutieren!
Das Sammelbecken auf feddit für alle Deutschsprechenden aus Deutschland, Österreich, Schweiz, Liechtenstein, Luxemburg und die zwei Belgier. Außerdem natürlich alle anderen deutschprechenden Länderteile der Welt.
Für länderspezifische Themen könnt ihr euch in folgenden Communities austauschen:
Eine ausführliche Sidebar findet ihr hier: Infothread: Regeln, Feedback & sonstige Infos
Auch hier gelten die Serverregeln von https://feddit.de !
Banner: SirSamuelVimes
founded 1 year ago
MODERATORS
you are viewing a single comment's thread
view the rest of the comments
view the rest of the comments
@FreeLunch cool, das freut mich.
Hashes sind nützlich weil sie so reproduzierbar sind.
Wenn du einen neuen Text findest, wie zum Beispiel einen anderen Blog Text, kann man den sehr leicht und automatisch in Sätze, Absätze oder Zitate zerlegen und herausfinden ob man den Satz oder das Zitat schonmal gehört hat.
Damit kann man nachträglich rekonstruieren wie oft oder wer bestimmte Argumente benutzt, selbst wenn der ursprüngliche Autor das nicht vorgesehen hat.
1/2
@FreeLunch
Hashes sind datentechnisch sehr einfach, sie haben eine vorhersagbare Länge, egal wie lang der ursprüngliche Text ist.
Ich weiß nicht was genau du mit value semantics meinst.
Außerdem muss der hash nicht nur für genau den exakten Text stehen, das wäre nur der Anfang, dient aber sonst auch gut als einzigartige ID, also könnte man das sinngemäß gleiche Zitat in anderen Sprachen auf den gleichen hash umleiten.
2/2
@FreeLunch
3/2
Zum Thema Kategorisierung, Idealerweise müssten sich z.b. fediverse Posts analysieren lassen. Dann findet man schon die häufiger verwendeten Argumente und wie wichtig Themen und Argumente sind würde sich in der Häufigkeit wiederspiegeln.
Das ist aber nur Theorie. Das mit den hashes hab ich schon versucht ein bisschen zu bauen, die automatische Analyse noch nicht.
Mit value semantics meine ich, dass die Information eindeutig durch ihren Inhalt (Value) identifiziert wird und nicht durch einen zusätzlichen Schlüssel.
Hast du dir anstatt von klassischen Hashfunktionen überlegt welche aus NLP (Natural Language Processing) zu nehmen (Word Embeddings)?
Die Idee mit der nachträglichen Analyse, die ja auch parallel und unabhängig von der Diskussion laufen kann, finde ich interessant. Wir sollten also eine AI feddit analysieren lassen und damit Argumente schön und referenzierbar aufbereiten. Wird aber aktuell nicht gut funktionieren denke ich, da Machine Learning noch nicht weit genug dafür ist. Außerdem vermute ich, dass die Qualität der Aufbereitung besser wird, wenn sich die User aktiv mit der Idee der Aufbereitung auseinander setzen. Sie erkennen dadurch ja Probleme in ihrer Argumentation und können diese aktiv korrigieren. Aber als Ausgangsbasis wäre so eine maschinelle Aufbereitung super um nicht von 0 anzufangen.
Ok aber das geht dann ja nur wenn exakt die gleichen Buchstaben verwendet werden. Dass mit Zitaten und exakt gleichen Wortlaut argumentiert wird ist doch eher selten. Für so einen Anwendungsfall bräuchte man eher ein NLP Word Embedding.