واژه‌نامه

تعاریف کوتاه: یادگیری ماشین، مدل‌های زبانی، توکن، زمینه‌چینی و اصطلاحات پرتکرار.

یادگیری ماشین (ML)

سیستم‌هایی که از داده بهتر می‌شوند بدون اینکه برای هر حالت قانون دستی نوشته شود.

الگو را از نمونه‌ها می‌گیرد و به ورودی جدید تعمیم می‌دهد؛ تعمیم می‌تواند شکست بخورد یا سوگیری داده را بازتاب دهد.

مدل زبانی بزرگ (LLM)

مدلی که روی متن زیاد آموزش دیده تا ادامهٔ محتمل (کلمه، کد، گام) پیش‌بینی کند.

پایگاه حقایق تأییدشده نیست؛ الگوهای آماری را فشرده می‌کند. توانایی به آموزش، هم‌راستایی و ابزارها بستگی دارد.

آموزش در برابر استنتاج

آموزش پارامترها را یاد می‌گیرد؛ استنتاج آن‌ها را روی ورودی جدید اعمال می‌کند.

آموزش سنگین و آفلاین است؛ استنتاج همان چیزی است که کاربر تحریک می‌کند. هزینه، تأخیر و حریم خصوصی فرق دارند.

تنظیم دقیق (Fine-tuning)

تطبیق مدل ازپیش‌آموزش‌دیده با مجموعهٔ کوچکتر مخصوص وظیفه.

برای سبک، قالب یا واژگان حوزه مفید است؛ همچنان به ارزیابی و محافظ نیاز دارد. جایگزین بررسی حریم خصوصی یا تست ایمنی نیست.

پرامپت (Prompt)

دستور و بافتی که قبل از تولید خروجی به مدل می‌دهید.

هدف، محدودیت، قالب و مثال روشن معمولاً قابلیت اطمینان را بهتر می‌کند. پرامپت ممکن است ثبت شود—مثل متنی نیمه‌عمومی رفتار کنید مگر قرارداد خلاف گفته باشد.

توکن

قطعه‌ای از متن (اغلب زیرکلمه) که مدل به‌صورت واحد می‌خواند و تولید می‌کند.

صورتحساب، سقف بافت و تأخیر اغلب بر حسب توکن است. پرامپت و خروجی بلند هزینه بیشتری دارد و ممکن است به سقف پنجره بخورد.

توهم مدل

خروجی محکم که نادرست یا بدون پشتیبان است—اغلب فاقد شواهد کافی.

با بازیابی+استناد، محدود کردن وظیفه، راستی‌آزمایی عددی و بازبینی انسان کاهش دهید—به‌ویژه در حقوق، پزشکی و مالی.

زمینه‌چینی / RAG

تولید تقویت‌شده با بازیابی: سند مرتبط بیاورید، سپس با آن بافت تولید کنید.

وقتی منابع معتبرند و استنادها بررسی می‌شوند به واقع‌گرایی کمک می‌کند. اگر پیکره بد باشد خروجی هم بد می‌ماند.