📑 مدل embedding اختصاصی برای آدرس‌های فارسی

🏛 معرفی

این مدل محصول جانبی و نسخه ریز تنظیم شده مدل پایه fa-address-bert-small است که بر اساس آدرس‌های واقعی توسعه داده شده است. هدف اصلی مدل، تولید بردار embedding برای هر آدرس فارسی است تا بتوان از آن در وظایف شباهت‌سنجی، تطبیق رکورد، خوشه‌بندی و جستجوی معنایی آدرس‌ها استفاده کرد.


🎯 کاربردها

  • محاسبه شباهت معنایی بین آدرس‌های فارسی
  • استفاده در سیستم‌های تطبیق رکورد و پاکسازی داده
  • خوشه‌بندی آدرس‌ها
  • جستجوی هوشمند آدرس در پایگاه‌های داده بزرگ

📂 داده‌های آموزشی

مدل روی دیتاستی با حدود ۱ میلیون رکورد آدرس آموزش دیده است. فرآیند تولید داده به شرح زیر است:

  • استخراج آدرس‌های صحت‌سنجی‌شده از سامانه ثبت‌نام مالیاتی (گام ۴۴ و ۴۵)
  • پاکسازی و نرمال‌سازی کامل آدرس‌ها
  • تطبیق کد پستی این آدرس‌ها با جدول پروژه GNAF شرکت پست جمهوری اسلامی ایران
  • تولید مثال‌های آموزشی به ازای هر آدرس:
    • ۱ مثال Hard Positive: آدرس واقعی با کد پستی منطبق در جدول GNAF
    • ۹ مثال Hard Negative: آدرس‌های بسیار شبیه از نظر متن ولی با کد پستی متفاوت در جدول GNAF

برای تولید مثال‌های Hard Negative از یک مدل FastText سفارشی استفاده شد که بر اساس کورپوس ۱۰۰ گیگابایتی آدرس‌های فارسی آموزش دیده بود (همان کورپوسی که برای مدل fa-address-bert-small استفاده شده بود).


⚙️ معماری و تنظیمات

  • Base architecture: SBERT
  • زبان: فارسی
  • تعداد رکورد آموزشی: ~1,000,000
  • نوع مثال‌ها: Hard Positive / Hard Negative
  • هدف آموزش: Triplet/Contrastive embedding learning برای شباهت‌سنجی دقیق آدرس‌ها

🧾 نحوه استفاده

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer("IRI2070/fa-address-bert-small-embedding")

address_1 = "تهران، خیابان آزادی، نبش خوش، پلاک ۱۲"
address_2 = "تهران، خ آزادی، تقاطع خوش، پلاک ۱۲"

embedding_1 = model.encode(address_1, convert_to_tensor=True)
embedding_2 = model.encode(address_2, convert_to_tensor=True)

similarity = util.cos_sim(embedding_1, embedding_2)
print(f"Similarity score: {similarity.item():.4f}")

© این مدل توسط وزارت امور اقتصادی و دارایی، سازمان امور مالیاتی کشور، معاونت فناوری‌های مالیاتی، دفتر علوم داده توسعه یافته است.

Downloads last month
4
Safetensors
Model size
28.8M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for IRI2070/fa-address-bert-small-embedding

Base model

lyeonii/bert-small
Finetuned
(2)
this model

Collection including IRI2070/fa-address-bert-small-embedding