איך מודדים מהירות של מודל בינה מלאכותית?

תוכן עניינים

איך מודדים מהירות של מודל בינה מלאכותית?

כשאנחנו מדברים על מודל מהיר, למה בעצם אנחנו מתכוונים? שתי מדידות עיקריות קובעות את חוויית המשתמש בזמן inference - השלב שבו המודל כבר מאומן ומחזיר תשובות:

TTFT - Time To First Token

הזמן שלוקח למודל עד שהוא מתחיל לדבר. כמו בשיחה אנושית - כמה זמן עובר מהרגע ששאלת שאלה, עד שהצד השני מוציא את המילה הראשונה. TTFT משפיע ישירות על התחושה של “האם המערכת מגיבה מהר”.

TPS - Tokens Per Second

כמה מהר המודל ממשיך לדבר אחרי שהתחיל. זהו הקצב שבו הוא “כותב” או מייצר טוקנים חדשים (יחידות טקסט קטנות). TPS משפיע על כמה מהר תקבלי תשובה שלמה.

האיזון ביניהם

אם נקצר את TTFT יותר מדי - ייתכן שנפגע ב-TPS (המודל יתחיל מהר אבל יתקע באמצע). אם נעדיף TPS גבוה - זמן ההתחלה עלול להתארך. מהנדסי ביצועים עוסקים בדיוק באיזון הזה - איך לגרום למודל להתחיל מהר ולהמשיך חלק.

בשורה התחתונה:

TTFT = תחושת זריזות.

TPS = קצב עבודה רציף.

איזון נכון ביניהם = חוויית משתמש מושלמת.

תגובות