איך מודדים מהירות של מודל בינה מלאכותית?

👤 אפרת בדיל 📅 7.1.2026 ⏱️ 1 דקות קריאה

תוכן עניינים

איך מודדים מהירות של מודל בינה מלאכותית?

כשאנחנו מדברים על מודל מהיר, למה בעצם אנחנו מתכוונים? שתי מדידות עיקריות קובעות את חוויית המשתמש בזמן inference - השלב שבו המודל כבר מאומן ומחזיר תשובות:

TTFT - Time To First Token

הזמן שלוקח למודל עד שהוא מתחיל לדבר. כמו בשיחה אנושית - כמה זמן עובר מהרגע ששאלת שאלה, עד שהצד השני מוציא את המילה הראשונה. TTFT משפיע ישירות על התחושה של “האם המערכת מגיבה מהר”.

TPS - Tokens Per Second

כמה מהר המודל ממשיך לדבר אחרי שהתחיל. זהו הקצב שבו הוא “כותב” או מייצר טוקנים חדשים (יחידות טקסט קטנות). TPS משפיע על כמה מהר תקבלי תשובה שלמה.

האיזון ביניהם

אם נקצר את TTFT יותר מדי - ייתכן שנפגע ב-TPS (המודל יתחיל מהר אבל יתקע באמצע). אם נעדיף TPS גבוה - זמן ההתחלה עלול להתארך. מהנדסי ביצועים עוסקים בדיוק באיזון הזה - איך לגרום למודל להתחיל מהר ולהמשיך חלק.

בשורה התחתונה:

TTFT = תחושת זריזות.

TPS = קצב עבודה רציף.

איזון נכון ביניהם = חוויית משתמש מושלמת.

איך מודדים מהירות של מודל בינה מלאכותית?

איך מודדים מהירות של מודל בינה מלאכותית?

TTFT - Time To First Token

TPS - Tokens Per Second

האיזון ביניהם

בשורה התחתונה:

🔗 פוסטים קשורים

תגובות

איך מודדים מהירות של מודל בינה מלאכותית?

TTFT - Time To First Token

TPS - Tokens Per Second

האיזון ביניהם

בשורה התחתונה:

🔗 פוסטים קשורים

מה זה בעצם Inference Benchmarking - ולמה זה כל כך חשוב?

איך מגדילים תפוקה בלי להאט את המערכת? (Batching, Stream Scheduling ו-Offload)

תגובות