أدوات عربي: مجموعة حُزم برمجية مجانية لخدمة اللغة العربية

أدوات عربي ArabiTools، هي أدوات برمجية إحصائية، تعتمد بشكل كبير على البيانات المستخدمة في تدريب الأدوات وتعتمد على خوارزميات تعليم الآلة في الكثير من أساسيات ونواة الأدوات وخاصة في تحضير البيانات والمحتوى الداعم.

توفر أدوات عربي مجموعة من الحُزم البرمجية المكتوبة بلغة جافا، خاصة في اللغة العربية ومعالجة المحتوى العربي.

حُزمة كلمات

هي مجموعة من الأدوات الإحصائية الخاصة بمعالجة المحتوى العربي وخاصة الكلمات، تتضمن هذه الحُزمة أداة خاصة في استخراج جذور الكلمات وأداة خاصة في إيجاد مشتقات الكلمات وأداة خاصة في التصحيح الإملائي و اخرى خاصة في معرفة إن كان النص المدخل عربياً ام لا ”فارسي على سبيل المثال لا الحصر“.

تضم هذه الحُزمة وصفًا لكل أداة وطريقة استعمالها، ” استخراج الجذور، مشتقات الكلمات، التصحيح الإملائي، فحص اللغة“.

حُزمة أسماء

حُزمة تحتوي على أدوات برمجية متخصصة في أسماء الاشخاص باللغة العربية، حاليا الحُزمة تدعم الأسماء الشائعة في فلسطين و الخليج العربي ”الإمارات خصوصًا“، على أن يتم إضافة دول أخرى في النسخ القادمة من الأدوات.

تضم حُزمة أسماء وصفًا لكل أداة وطريقة استعمالها، ”أداة التصحيح الإملائي الخاص بالاسماء، أداة ترجمة الأسماء الى مقابلها في اللغة الإنجليزية، أداة تحديد طبيعة استعمال الاسم“.

حُزمة شبكات اجتماعية

حُزمة برمجية تساعد المبرمجين والباحثين في تجميع كمية كبيرة من البيانات من الشبكات الاجتماعية باللغة العربية، حاليًا الأداة تدعم منصة تويتر، على أن توفر الدعم لشبكة فيسبوك في شهر يناير/كانون الثاني من عام 2018.

تضم حُزمة شبكات اجتماعية وصفًا لكل أداة وطريقة استعمالها، ” أداة عامة لاسترجاع النصوص العربية من منصة تويتر، أداة استرجاع النصوص العربية من منصة تويتر حسب كلمات مفتاحية معينة، أداة استرجاع التغريدات العربية حسب اللهجة“.

حُزمة تصنيف

حُزمة مخصصة لتصنيف النص والمحتوى العربي ضمن تصنيفات معرفة ومدرب عليها النظام مسبقًا، تشمل التصنيفات ”رياضة، طب وصحةمختبرات، إلكترونيات وميكانيكة، حاسوب وتكنولوجيا، أدب وفنون، أخبار وسياسة، ديانات، إدارة و إقتصاد“.

حُزمة كيانات اسمية

توفر هذه الحزمة أدوات خاصة في تحليل النص واستخراج الكيانات الاسمية منه، تشمل هذه الأداة التعرف على الأشخاص والأماكن والمؤسسات والشركات وغيرها من الكيانات الدلالية داخل النص.