یک تیم بینالمللی از ریاضیدانان به سرپرستی تائهو کیم، آمارشناس دانشگاه لیهای (Lehigh)، روش جدیدی را توسعه دادهاند که میتواند مدلسازی پیشبینی را در زمینههایی مانند سلامت، زیستشناسی و علوم اجتماعی بهشدت تقویت کند.
این رویکرد جدید با هدف تولید پیشبینیهایی است که به شکل دقیقتری با نتایج واقعی همخوانی دارند. محققان این روش را پیشبینیکننده خطی حداکثر توافق (Maximum Agreement Linear Predictor) یا MALP نامیدهاند. این روش با بهینهسازی ضریب همبستگی توافق (Concordance Correlation Coefficient – CCC) به سازگاری بالاتری دست مییابد. CCC معیاری است که ارزیابی میکند جفت دادهها تا چه حد در امتداد خط ۴۵ درجه نمودار پراکندگی (Scatter Plot) با هم منطبق هستند.
این اندازهگیری، هم دقت (Precision)، یعنی میزان خوشهبندی فشرده نقاط داده و هم صحت (Accuracy)، یعنی میزان نزدیکی آنها به خط مرجع را ترکیب میکند. کیم، استادیار ریاضیات، میگوید:
تکنیکهای سنتی، مانند روش حداقل مربعات (Least-Squares)، در درجه اول بر به حداقل رساندن میانگین خطا تمرکز دارند. در حالی که این روشها در بسیاری از کاربردها مؤثر هستند، اما زمانی که هدف به حداکثر رساندن توافق به جای صرفاً نزدیکی ساده باشد، ممکن است ناکارآمد باشند.
او میگوید:
گاهی اوقات، ما فقط نمیخواهیم پیشبینیهایمان نزدیک باشند، بلکه میخواهیم بالاترین حد توافق را با مقادیر واقعی داشته باشند. مسئله این است که چگونه میتوانیم توافق بین دو شیء را به روشی از نظر علمی معنادار تعریف کنیم؟ یک راه برای مفهومسازی این است که ببینیم نقاط تا چه حد با خط ۴۵ درجه روی نمودار پراکندگی بین مقدار پیشبینیشده و مقادیر واقعی همراستا هستند. بنابراین، اگر نمودار پراکندگی اینها همراستایی قوی با این خط ۴۵ درجه نشان دهد، میتوانیم بگوییم سطح خوبی از توافق بین این دو وجود دارد.
تفاوت توافق با همبستگی
وقتی مردم به توافق فکر میکنند، اغلب ضریب همبستگی پیرسون (Pearson’s correlation coefficient) را به یاد میآورند، معیاری که در اوایل اکثر دورههای آمار معرفی میشود. ضریب همبستگی پیرسون برای ارزیابی قدرت و جهت یک رابطه خطی بین دو متغیر مفید است، اما به طور خاص میزان همراستایی دادهها با خط ۴۵ درجه را اندازهگیری نمیکند. کیم خاطرنشان میکند که برای مثال، این ضریب میتواند همبستگی قوی را نشان دهد حتی اگر رابطه از خطی با شیب ۵۰ یا ۷۵ درجه پیروی کند.
او افزود:
در مورد ما، ما بهطور خاص علاقهمند به همراستایی با خط ۴۵ درجه هستیم. برای این منظور، از یک معیار متفاوت استفاده میکنیم: ضریب همبستگی توافق (CCC) که توسط لین در سال ۱۹۸۹ معرفی شد. این معیار بهطور خاص بر میزان همراستایی دادهها با خط ۴۵ درجه تمرکز دارد. آنچه ما توسعه دادهایم، یک پیشبینیکننده است که برای به حداکثر رساندن همبستگی توافق بین مقادیر پیشبینیشده و مقادیر واقعی طراحی شده است.
آزمایش MALP بر روی دادههای دنیای واقعی
این تیم MALP را با استفاده از شبیهسازیهای کامپیوتری و دادههای دنیای واقعی، از جمله اسکن چشم و اندازهگیری چربی بدن، ارزیابی کرد. برای نشان دادن اثربخشی آن، محققان MALP را بر روی دادههای یک مطالعه چشمپزشکی اعمال کردند که دو دستگاه توموگرافی همدوسی نوری (OCT): Stratus OCT قدیمیتر و Cirrus OCT جدیدتر را مقایسه میکرد. از آنجاییکه کلینیکها در حال تغییر به سیستم Cirrus هستند، پزشکان به یک راه قابل اعتماد برای تبدیل اندازهگیریها نیاز دارند تا ثبات در طول زمان و بین دستگاهها را تضمین کنند.
محققان با استفاده از اسکنهای با کیفیت بالا از ۲۶ چشم چپ و ۳۰ چشم راست، آزمایش کردند که MALP چقدر خوب میتواند اندازهگیریهای Stratus OCT را بر اساس دادههای Cirrus OCT تخمین بزند و عملکرد آن را با رویکرد حداقل مربعات مقایسه کردند. MALP پیشبینیهایی تولید کرد که با اندازهگیریهای واقعی Stratus همخوانی بیشتری داشت، در حالی که روش حداقل مربعات در کاهش میانگین خطا عملکرد کمی بهتر داشت که این، مبادله بین صحت و توافق را برجسته میکند.
این تیم همچنین MALP را بر روی مجموعه دادههای چربی بدن که شامل اندازهگیریهای ۲۵۲ بزرگسال، از جمله وزن، اندازه شکم و سایر ابعاد بدن بود، آزمایش کرد. از آنجا که روشهای مستقیم اندازهگیری چربی بدن، مانند وزنکشی زیر آب، دقیق اما پرهزینه هستند، محققان اغلب به تخمینها از اندازهگیریهای آسانتر تکیه میکنند. با استفاده از این اندازهگیریها برای پیشبینی درصد چربی بدن، MALP با روش استاندارد حداقل مربعات مقایسه شد. نتایج، مشابه مطالعه اسکن چشم بود: MALP پیشبینیهایی ارائه داد که با مقادیر واقعی همخوانی بیشتری داشت، در حالی که رویکرد حداقل مربعات خطاهای میانگین کمی کوچکتر تولید کرد – که نشاندهنده تعادل بین توافق و کاهش خطا است.
کاربردهای گستردهتر و گامهای بعدی
کیم و همکارانش دریافتند که MALP اغلب پیشبینیهایی ارائه میدهد که در مقایسه با روشهای سنتی، با دادههای واقعی بهتر مطابقت دارند. با این حال، انتخاب بین MALP و روشهای مرسوم باید به هدف و زمینه پروژههای فردی بستگی داشته باشد. اگر به حداقل رساندن خطا مهمترین چیز است، روشهای کلاسیک همچنان عملکرد خوبی دارند؛ اگر توافق کلیدی است، MALP انتخاب بهتری است.
این یافتهها میتواند پیامدهای عمدهای برای بهبود ابزارهای پیشبینی در زمینههای مختلف – از پزشکی و بهداشت عمومی گرفته تا اقتصاد و مهندسی – داشته باشد. برای دانشمندان داده و محققانی که روی مدلهای پیشبینی کار میکنند، MALP یک ابزار جدید و امیدوارکننده ارائه میدهد، به ویژه هنگامی که به حداقل رساندن خطا فقط مربوط به نزدیک بودن نیست، بلکه مربوط به توافق کامل با حقیقت است.
کیم میگوید:
ما باید بیشتر تحقیق کنیم. در حال حاضر، تنظیمات ما در محدوده کلاس پیشبینیکنندههای خطی است. این مجموعه به اندازه کافی بزرگ است که در زمینههای مختلف به صورت عملی مورد استفاده قرار گیرد، اما از نظر ریاضی هنوز محدود است. بنابراین، ما میخواهیم این را به کلاس کلی گسترش دهیم تا هدف ما حذف بخش خطی باشد و به پیشبینیکننده حداکثر توافق (Maximum Agreement Predictor) تبدیل شود.
منبع: Scitechdaily























