
LLM selbst Trainieren, keine Show Part 2
Hallo Leute,
ich habe jetzt neue Ergebnisse und Erfahrungen, deshalb Teil 2. Bitte sagt mit wenn ihr mehr Informationen haben möchtet oder nicht. Ich versuche es ein bisschen sauber zu erklären. Die Informationen sind sehr viel.
Ich habe einen alten Rechner gekauft, dieser hatte eine 3060 12 GB verbaut (ich glaube für insgesamt 500 Euro). Ich hatte noch nie einen PC komplett zerlegt, also begann ich mit Hilfe von KI den Rechner zu zerlegen, baute das Motherboard aus, gegen ein x99S Board, gebraucht günstig gekauft. Der vorhandene Kühler machte am meisten Probleme (ich verwendete zum testen tatsächlich eine Spax und keine original Schraube). Jedenfalls kaufte ich mit dann noch je eine M6000 24 GB und eine P6000 24 Grafikkarte. Und verbaute bisher die M6000. Arbeitsspeicher hatte ich 2 verschiedene Hersteller aber alle mit 8 GB das Stück und 6 Riegel insgesamt. Die machten am meisten Probleme bis der Rechner zu laufen begann.
Jedenfalls begann ich vor 9 bis 10 Tagen das Thema LLM selbst trainieren zu reizen. Ich bin noch ein Mensch alter Schule und komme mit den verwirrenden Seiten nicht wirklich zurecht. Also begann ich alles selbst auf zu bauen. Hier mal ein Screenshot meines Saust...s ;):
Ich angelte mich von Version zu Version. In diesen knapp 10 Tagen trainierte ich 70 Versionen, von ganz klein, bis zu aktuell auf der M6000 ein 0,95 B Modell. Ja ich habe es gewagt, die M6000 braucht im Training für 500 Steps ca. 2 Stunden, sie liegt also bei ungefähr 0,18 bis 0,19 Steps pro Sekunde gegenüber 4 bis 8 Steps pro Sekunde bei der 3060.
Mein Bildschirm hat sich auf on Board Bild um geschalten seit ich auf M6000 trainiere, ich bin noch nicht dazu gekommen weshalb.
Und warum vielleicht viele interessiert sind, gestern wurde das 0,234 B Modell fertig. Es war tatsächlich zu beginn etwas ernüchternd. Aber eigentlich logisch. Viele Leute kommen glaub ich nicht über ein 0,234 Modell. Ich schraubte den Kontext von 1024 auf 512 zurück (kein Welt Wissen LLM sondern nur noch ein Chat LLM) zurück, weil ich wirklich wissen möchte ob das Problem im Nano LLM mit zu viel Trainingsdaten liegt. Das war vermutlich mein zweiter Fehler. Ich habe es 4 fach über trainiert, das 0,234 B Modell und zwar mit 104 GB Trainings Text Dateien. ABER
ABER jetzt kommt das schöne, denn die Kodierung dafür hat ja schon 24 Stunden gedauert also länger wie das Training auf der 3060 mit 5 bis 6 Stunden für das 0,234 B Modell. Und man bekommt den Tokenizer und in diesem Fall eine 95 GB große .bin Datei (Kodierung). Obwohl ich die Modell Parameter verändert habe, habe ich diese beiden Dateien wieder benutzt (da sie für ein 0,95 B Modell ausreichend sind). Und somit begann letzte Nacht der Lauf auf der M6000 mit dem 0,95 B Modell.
Und jetzt, seid ihr wohl interessiert. Hier die Chat Ergebnisse mit verschiedenen und auch eigenen sowohl auch freien Fine Tune Dateien (meine eigenen Datei hat meiner Meinung das beste Ergebnis erzielt). Und bitte nicht zu viel erwarten, das Modell ist winzig, das Modell hatte ich auf zu viele Daten trainiert (bewusst über trainiert) und das fine tune Verhältnis ist auch nicht optimal abgestimmt. Und bitte sagt mir wenn ihr zukünftige Erfahrungen etc haben möchtet. Viel Spaß:
Das hier sind meine eigenen Fine Tune Daten inklusive 2 freien bereinigter:
Dies ist ein Chat Verlauf mit meinen Daten und zusätzlich 7,7 MB Fine tune Daten für ein größeres Modell:
Und hier der Chat mit nur meinen Fine tune Daten:
Und lasst mich bitte wissen ob ihr spezifische Fragen habt oder mehr darüber Wissen möchtet, ob ich von Daten, Code etc. was teilen soll, wie das rechtlich aus sieht. Deshalb habe ich öffentlich noch nichts geteilt, ich hab vom Datenschutz etc keine Ahnung und bin auf wissende Menschen angewiesen, ebenso habe ich normalerweise mit Social Media nichts zu tun (ja man mag es kaum glauben, aber dies bezüglich bin ich ein Steinzeitmensch). Also das was ihr hier von mir seht ist roh und ungefiltert.