u/Far-Chest-8821 — reddlx

New to local LLM benchmarking, got 97.6% HumanEval+ on Qwen3.6. A sanity check please

Just got my RTX 5090 and spent today doing my first real local LLM benchmark on Qwen3.6-35B-A3B (Unsloth's MTP-UD-Q4_K_XL). I'm a business consultant by day, not an ML engineer, so I'd genuinely appreciate the community's eyes on whether I went about this sensibly.

What I got:

llama-bench: 258 t/s baseline, 270 t/s with MTP -d 2
Perplexity Q4 vs Q5 on WikiText-2: delta of 0.0042 (within noise)
HumanEval+ pass@1: 92.1% thinking off, 97.6% thinking on

That last number is what's making me nervous, it puts a local model in GPT-5 / Claude Opus territory, which feels too good to be a casual Tuesday result.

Where I'm uncertain:

Is WikiText-2 even the right perplexity corpus for a 2026 coding model? Training data has probably seen it cold by now.
First EvalPlus run returned 2.4% pass@1, which seemed impossibly low. Turned out EvalPlus was reading the content field while Qwen's reasoning output was landing in reasoning_content. I patched it with a 30-line proxy that merges the two. Is there a cleaner standard solution I missed?
Thinking-off run finished in 3 minutes, thinking-on in 40. Is that ratio normal, or did I configure something poorly?
MTP acceptance hit 86% on reasoning output but lower on chat-style. Anyone else seeing this pattern?
Anything obvious I should have measured but didn't? MBPP+? LiveCodeBench? Different perplexity corpus?

Full write-up with every command and the proxy code: (First post ever) https://spoliatiotexo854419.substack.com/p/from-unboxing-to-976-humaneval-benchmarking?r=20wxz1&utm_campaign=post&utm_medium=web&triedRedirect=true

Mostly hoping someone tells me which parts I overthought and which I underthought. Thanks in advance.

u/Far-Chest-8821 — 3 days ago

▲ 2 r/Vermieten

Was kostet eure Wohngebäudeversicherung?

Hallo,

meine Wohngebäudeversicherung ist ohne Versicherungsschaden seit 2024 zu 2026 um 16.8% auf über 1850€ gestiegen, zzgl. Haftpflich von 160€. Gebäude von 1996, 3 Parteien, ungefähr 250qm Wohnfläche, mit knapp 700k€ angegeben. Starkregen mit drinnen. Elementar (Überschwemmung, Erdbeben) mit 10%+ Eigenkapital. Also ungefähr 7.4 Euro pro qm. NRW, Provinzial

Wie sieht es bei euch so aus?

reddit.com

u/Far-Chest-8821 — 10 days ago

▲ 148 r/LegaladviceGerman

Anwaltsschreiben einer italienischen Kanzlei wegen Reddit-Erfahrungsbericht - Südwind

TL;DR: Italienische Kanzlei aus Verona fordert im Auftrag des italienischen Herstellers Ambientika Südwind die Löschung meines Verbraucher-Erfahrungsberichts in r/Handwerker. Die in Anführungszeichen zitierten Begriffe hatte ich bereits vor Wochen entfernt, also bevor die Kanzlei den Brief geschrieben hat. Keine Frist, keine Unterlassungserklärung, kein Streitwert. Frage: Wie ist das einzuordnen und wie reagiert man sinnvoll?

Link zum Bericht: https://www.reddit.com/r/Handwerker/comments/1pcz0hz/dezentrale_l%C3%BCftungsanlage_ambientika_smart_f%C3%BChlt/

Im Detail:
Ende 2025 habe ich auf r/Handwerker einen ausführlichen Erfahrungsbericht zu einer dezentralen Lüftungsanlage (Südwind „Ambientika Smart", Hersteller mit Sitz in Eppan/Südtirol, Vertrieb auch in Deutschland) verfasst. Hintergrund: Ich betreibe das System mit 12 Geräten in mehreren von mir vermieteten Wohnungen in Deutschland und habe begleitend Sensor-Logs aufgezeichnet sowie ein eigenes Monitoring-Dashboard entwickelt.

Der Beitrag enthält einen ausdrücklichen Disclaimer („persönliche Meinung als Laie, kein ausgebildeter Experte, keine Kauf-/Verkaufsempfehlung"). Im Thread hat ein Hersteller-Mitarbeiter unter eigenem Account eine längere, sachliche Stellungnahme veröffentlicht, die meine technischen Kernbeobachtungen im Wesentlichen bestätigt, aber als bewusste Designentscheidung umrahmt.

Aus meiner Sicht stimmt hier Werbung und versprechen des Händler nicht mit dem gelieferten Funktionsumfang überein.

Bereits vor mehreren Monaten gab es einen außergerichtlichen Erstkontakt mit dem Hersteller. Damals wurde anwaltliches Vorgehen angekündigt. Ich habe daraufhin freiwillig zwei zugespitzte Begriffe aus dem Beitrag entfernt, nachweislich Wochen vor dem Anwaltsschreiben.

Mir ist klar, dass dies keine verbindliche Rechtsberatung ersetzt. Mich interessieren Einschätzungen aus Erfahrung insb. welches Recht hier gilt (Käufer in Deutschland, Händler in Deutschland, Produzent in Inatlien) bevor ich ggf. selbst einen Fachanwalt mandatiere. Ggf. überlege ich ob es sich lohnt die Verbraucherzentrale und ggf. Gegenklage vorzubereiten, da ich die Werbung immer noch irreführend halte.

reddit.com

u/Far-Chest-8821 — 11 days ago