u/Ok-Post-6311

Hallo Leute,

ich habe jetzt neue Ergebnisse und Erfahrungen, deshalb Teil 2. Bitte sagt mit wenn ihr mehr Informationen haben möchtet oder nicht. Ich versuche es ein bisschen sauber zu erklären. Die Informationen sind sehr viel.

Ich habe einen alten Rechner gekauft, dieser hatte eine 3060 12 GB verbaut (ich glaube für insgesamt 500 Euro). Ich hatte noch nie einen PC komplett zerlegt, also begann ich mit Hilfe von KI den Rechner zu zerlegen, baute das Motherboard aus, gegen ein x99S Board, gebraucht günstig gekauft. Der vorhandene Kühler machte am meisten Probleme (ich verwendete zum testen tatsächlich eine Spax und keine original Schraube). Jedenfalls kaufte ich mit dann noch je eine M6000 24 GB und eine P6000 24 Grafikkarte. Und verbaute bisher die M6000. Arbeitsspeicher hatte ich 2 verschiedene Hersteller aber alle mit 8 GB das Stück und 6 Riegel insgesamt. Die machten am meisten Probleme bis der Rechner zu laufen begann.

Jedenfalls begann ich vor 9 bis 10 Tagen das Thema LLM selbst trainieren zu reizen. Ich bin noch ein Mensch alter Schule und komme mit den verwirrenden Seiten nicht wirklich zurecht. Also begann ich alles selbst auf zu bauen. Hier mal ein Screenshot meines Saust...s ;):

https://preview.redd.it/xuotec5fqn1h1.png?width=1081&format=png&auto=webp&s=2dfb27c321266e8287115d00ab3b9bd0a0486671

Ich angelte mich von Version zu Version. In diesen knapp 10 Tagen trainierte ich 70 Versionen, von ganz klein, bis zu aktuell auf der M6000 ein 0,95 B Modell. Ja ich habe es gewagt, die M6000 braucht im Training für 500 Steps ca. 2 Stunden, sie liegt also bei ungefähr 0,18 bis 0,19 Steps pro Sekunde gegenüber 4 bis 8 Steps pro Sekunde bei der 3060.

Mein Bildschirm hat sich auf on Board Bild um geschalten seit ich auf M6000 trainiere, ich bin noch nicht dazu gekommen weshalb.

Und warum vielleicht viele interessiert sind, gestern wurde das 0,234 B Modell fertig. Es war tatsächlich zu beginn etwas ernüchternd. Aber eigentlich logisch. Viele Leute kommen glaub ich nicht über ein 0,234 Modell. Ich schraubte den Kontext von 1024 auf 512 zurück (kein Welt Wissen LLM sondern nur noch ein Chat LLM) zurück, weil ich wirklich wissen möchte ob das Problem im Nano LLM mit zu viel Trainingsdaten liegt. Das war vermutlich mein zweiter Fehler. Ich habe es 4 fach über trainiert, das 0,234 B Modell und zwar mit 104 GB Trainings Text Dateien. ABER

ABER jetzt kommt das schöne, denn die Kodierung dafür hat ja schon 24 Stunden gedauert also länger wie das Training auf der 3060 mit 5 bis 6 Stunden für das 0,234 B Modell. Und man bekommt den Tokenizer und in diesem Fall eine 95 GB große .bin Datei (Kodierung). Obwohl ich die Modell Parameter verändert habe, habe ich diese beiden Dateien wieder benutzt (da sie für ein 0,95 B Modell ausreichend sind). Und somit begann letzte Nacht der Lauf auf der M6000 mit dem 0,95 B Modell.

Und jetzt, seid ihr wohl interessiert. Hier die Chat Ergebnisse mit verschiedenen und auch eigenen sowohl auch freien Fine Tune Dateien (meine eigenen Datei hat meiner Meinung das beste Ergebnis erzielt). Und bitte nicht zu viel erwarten, das Modell ist winzig, das Modell hatte ich auf zu viele Daten trainiert (bewusst über trainiert) und das fine tune Verhältnis ist auch nicht optimal abgestimmt. Und bitte sagt mir wenn ihr zukünftige Erfahrungen etc haben möchtet. Viel Spaß:

Das hier sind meine eigenen Fine Tune Daten inklusive 2 freien bereinigter:

https://preview.redd.it/ngeprdq0tn1h1.png?width=987&format=png&auto=webp&s=a792958af5663befb3496b18a5fd6f823e49b22d

Dies ist ein Chat Verlauf mit meinen Daten und zusätzlich 7,7 MB Fine tune Daten für ein größeres Modell:

https://preview.redd.it/ekv5bphbtn1h1.png?width=981&format=png&auto=webp&s=d7ba916f23a22e13b6f3e7a5a016d713fbf54f2c

Und hier der Chat mit nur meinen Fine tune Daten:

https://preview.redd.it/pdmgm6bjtn1h1.png?width=984&format=png&auto=webp&s=ef9e629edb6c613e68a5d683bd1d927ca85d755c

Und lasst mich bitte wissen ob ihr spezifische Fragen habt oder mehr darüber Wissen möchtet, ob ich von Daten, Code etc. was teilen soll, wie das rechtlich aus sieht. Deshalb habe ich öffentlich noch nichts geteilt, ich hab vom Datenschutz etc keine Ahnung und bin auf wissende Menschen angewiesen, ebenso habe ich normalerweise mit Social Media nichts zu tun (ja man mag es kaum glauben, aber dies bezüglich bin ich ein Steinzeitmensch). Also das was ihr hier von mir seht ist roh und ungefiltert.

Hallo Leute,

wer Interesse an LLM selber trainieren hat und nicht nur fine tunen sondern die Grund Thematik besser verstehen möchte. Ich trainierte gerade ca 70 Modelle (hatte ja selbst keine Ahnung) in einer Woche und hab jetzt den Weg gefunden. Die beiden Screenshots zeigen einmal das aktuelle Training vom 0,234 B Modell und der Chat Screenshot zeigt den Chat auf Wikipedia deutsch beim 0,025 B Modell. Und ja, man muss auf diverse Daten Kombi aufpassen und Modell Größe. Das hier wird auf einer 3060 mit 12 GB trainiert, die m6000 24 GB ist fürs Training nicht zu gebrauchen aber zum chatten in LM Studio ok. Und das ganz auf einem x99 Board mit verschiedenen RAM sticks und unter Windows 10. Und keine Sorge, der chat ist für so ein kleines Modell auf Wiki ganz normal.

https://preview.redd.it/yzk8xtw41d1h1.jpg?width=670&format=pjpg&auto=webp&s=561af1af2696cc7b0945bb5fbc38b6b117931ca0

https://preview.redd.it/420mulh81d1h1.jpg?width=988&format=pjpg&auto=webp&s=93923e665fda992bcaaf54eab4787db4dac65f4c

LLM selbst Trainieren, keine Show Part 2

LLM selbst Trainieren, keine Show