u/East-Educator3019

I need help

Hey guys, I’m working on OCR for files that contain tables, and I want to extract the actual table data. The problem is that every file has a different table layout/order, so the output gets messy but it’s correct and i think it’s okay to work with it

I also don’t want to use a vision model because inference speed is really important for me

Right now I’m feeding the LLM .. raw OCR text output, then asking it to extract the items from the tables. But because the column order changes between files, the model keeps mixing up the columns/items

I’ve already tried tweaking the prompt a LOT, but I’m still getting inconsistent results. I’m currently using Qwen 2.5

Speed matters a lot for this project, so I’m looking for

advice on:

Better/faster models for this use case (Arabic support is important)

Better approaches for table extraction from raw OCR text

Any preprocessing tricks or parsing methods before sending data to the LLM

Whether I should abandon pure-text OCR parsing and use another lightweight method

Would really appreciate any recommendations or experiences with similar problems

reddit.com
u/East-Educator3019 — 3 days ago

I need help

Hey guys, I’m working on OCR for files that contain tables, and I want to extract the actual table data. The problem is that every file has a different table layout/order, so the output gets messy but it’s correct and i think it’s okay to work with it

I also don’t want to use a vision model because inference speed is really important for me

Right now I’m feeding the LLM .. raw OCR text output, then asking it to extract the items from the tables. But because the column order changes between files, the model keeps mixing up the columns/items

I’ve already tried tweaking the prompt a LOT, but I’m still getting inconsistent results. I’m currently using Qwen 2.5

Speed matters a lot for this project, so I’m looking for

advice on:

Better/faster models for this use case (Arabic support is important)

Better approaches for table extraction from raw OCR text

Any preprocessing tricks or parsing methods before sending data to the LLM

Whether I should abandon pure-text OCR parsing and use another lightweight method

Would really appreciate any recommendations or experiences with similar problems

reddit.com
u/East-Educator3019 — 3 days ago

ليه الوقت يمشي بشويش

لي كم يوم نومي مضرووووب وعشاني تعبانه فالدوام اكره نفسي ابا انام والوقت يمشي على مهله واقل من مهله وانا ابا اليوم يخلص بسرعه وارجع انام 😞😞😞

ابا انام

reddit.com
u/East-Educator3019 — 8 days ago

وبعديييين مع نظام الطيبات ذا !!!!!!!

بانجن متى جهات رسميه تتكلم بالموضوع الاباء والامهات قاعدين يصدقونه بشكل عجيب مهما ارسل لهم مقاطع تثبت انه غلطان مقتنعين ان كل الناس غلط وهو صح وان الناس تتصيد عليه مو معقول اضطر اسجل ذي الفويسات كلها احاول أقنعهم مايسوون الهبل ذا

يقولهم بس كلوا لحم لحد ياكل دجاج واللحم هضمه اصعب + كثرته تجيب النقرس !!! وكل اللي مصدقينه كبار سن ٥٠ وفوق ومستميتين دفاع عنه بشكل جنوني !!!!!!! لدرجة مايبون حتى يسمعون احد يغلطه😣😣😣😣😣

u/East-Educator3019 — 10 days ago

ايش موسم زراعة ال chaos garden

ايش موسمها؟ ووين الاقي بذور منوعه فالرياض؟؟ اول دورت ف ابها قلبت الدنيا بذور الورد محددددووووودددده

وكم تاخذ لين تطلع؟

ابا اشتري احواض كثيره وازرعها فيها 🥺

reddit.com
u/East-Educator3019 — 10 days ago

كم حد العقود المسموح فالسنه؟

عرفت الموضوع ذا قريب ان فيه عندك عدد معين من العقود تقدر تقبله في السنه بس محد كاتب عددهم

reddit.com
u/East-Educator3019 — 13 days ago

اول وظيفه وانا ماسكه المشاريع اند تو اند واول مره امسكها بذي الطريقه فالعاده اسوي بس جزئيتي وفيه فرق تمسك باقي الجزئيات واحس بالعجز كل ما انشب فمكان للحد اللي احسني ببكي توي اول اسبوع ماعرف وش الوضع وكيف اسكتني

reddit.com
u/East-Educator3019 — 16 days ago