Fa Address BERT
Collection
This collection is a set of proprietary Persian address models developed using government and non-government data.
•
3 items
•
Updated
این مدل محصول جانبی و نسخه ریز تنظیم شده مدل پایه fa-address-bert-small است که بر اساس آدرسهای واقعی توسعه داده شده است. هدف اصلی مدل، تولید بردار embedding برای هر آدرس فارسی است تا بتوان از آن در وظایف شباهتسنجی، تطبیق رکورد، خوشهبندی و جستجوی معنایی آدرسها استفاده کرد.
مدل روی دیتاستی با حدود ۱ میلیون رکورد آدرس آموزش دیده است. فرآیند تولید داده به شرح زیر است:
برای تولید مثالهای Hard Negative از یک مدل FastText سفارشی استفاده شد که بر اساس کورپوس ۱۰۰ گیگابایتی آدرسهای فارسی آموزش دیده بود (همان کورپوسی که برای مدل fa-address-bert-small استفاده شده بود).
from sentence_transformers import SentenceTransformer, util
model = SentenceTransformer("IRI2070/fa-address-bert-small-embedding")
address_1 = "تهران، خیابان آزادی، نبش خوش، پلاک ۱۲"
address_2 = "تهران، خ آزادی، تقاطع خوش، پلاک ۱۲"
embedding_1 = model.encode(address_1, convert_to_tensor=True)
embedding_2 = model.encode(address_2, convert_to_tensor=True)
similarity = util.cos_sim(embedding_1, embedding_2)
print(f"Similarity score: {similarity.item():.4f}")
© این مدل توسط وزارت امور اقتصادی و دارایی، سازمان امور مالیاتی کشور، معاونت فناوریهای مالیاتی، دفتر علوم داده توسعه یافته است.