
Türkçe legal NLP için açık dataset: 25 kanun, mevzuat.gov.tr kaynaklı
Merhabalar,
Türkçe legal NLP üzerinde çalışırken Türk hukuku için açık, kaynak doğrulanmış bir corpus bulamamak büyük bir engeldi. Mevcut dataset'lerin çoğu ya kapalı dağıtım yoluyla paylaşılıyor, ya da içeriği şeffaf değil (LLM-üretimli yorumlarla karıştırılmış vs.).
Bu boşluğu doldurmak için sıfırdan bir corpus hazırlayıp HuggingFace'te CC BY 4.0 lisansıyla yayınladım:
🔗 https://huggingface.co/datasets/CtnkyaABC/turkish-legal-rag-corpus
İçeriği:
• 25 ana Türk kanunu, mevzuat.gov.tr'den madde bazlı temiz parse (6.350 chunk)
• Her satırda orijinal PDF URL'si (citation doğrulama için)
• 290 manuel doğrulanmış altın benchmark sorusu
• Yürürlükten kalkmış (Mülga) maddeler is_active flag'i ile işaretli
• answer_support_overlap gibi kalite metrikleri her satırda
Teknik kararlar ve nasıl kullanılacağı:
📖 https://medium.com/@cetinkayaalperenberkee/türk-hukuku-için-açık-kaynak-rag-dataseti-cff2c3bf9312
BGE-M3 / multilingual-e5 fine-tune, RAG benchmark'lama, hukuki QA modeli eğitimi için kullanılabilir. Geri bildirimlere açığım.