پژوهشگران در حال استفاده از فناوری یادگیری ماشین برای شناسایی ویروس‌های حیوانی هستند که می‌توانند با پرش از سد گونه‌ای انسان‌ها را آلوده کنند.
کالین کارلسون، زیست‌شناس دانشگاه جورج‌تاون، نگران ویروس آبله موش است. این ویروس که در سال ۱۹۳۰ کشف شد، بین موش‌ها منتشر می‌شود و آن‌ها را بی‌رحمانه می‌کشد؛ اما دانشمندان هرگز آن را به‌عنوان تهدیدی برای انسان‌ها در نظر نگرفته‌اند. اکنون، دکتر کارلسون و همکارانش و کامپیوترهایشان در‌این‌باره زیاد مطمئن نیستند.
پژوهشگران با استفاده از تکنیکی به نام یادگیری ماشین چند سال گذشته را صرف برنامه‌نویسی کامپیوترها کرده‌اند تا آن‌ها را درزمینه‌ی ویروس‌هایی که می‌توانند انسان را آلوده کنند، آموزش دهند. کامپیوترها اطلاعات زیادی درباره‌ی زیست‌شناسی و بوم‌شناسی میزبان‌های حیوانی ویروس‌ها و ژنوم و ویژگی‌های دیگر ویروس‌ها تجزیه‌و‌تحلیل کردند. با گذشت زمان، کامپیوترها عوامل خاصی را شناسایی کردند که می‌توانستند پیش‌بینی کنند که آیا ویروس خاصی قابلیت سرریز به انسان‌ها را دارد یا نه.
وقتی کامپیوترها توانایی خود را روی ویروس‌هایی ثابت کردند که دانشمندان قبلاً آن‌ها را به‌شدت مطالعه کرده بودند، دکتر کارلسون و همکارانش آن‌ها را روی موارد ناشناخته به‌کار بردند و درنهایت، فهرست کوتاهی از ویروس‌های دارای قابلیت پرش از مانع گونه‌ای و ایجاد شیوع در انسان‌ها تولید کردند. در آخرین دورهای اجرای مدل، الگوریتم‌ها به‌طور غیرمنتظره ویروس آبله موش را در صدر فهرست پاتوژن‌های خطرناک قرار دادند. دکتر کارلسون گفت: «هربار که مدل را اجرا می‌کنیم، این ویروس در صدر فهرست ظاهر می‌شود.»

دکتر کارلسون و همکارانش که از این موضوع متحیر شده بودند، مقالات علمی را بررسی کردند. آنان با سندی از شیوع فراموش‌شده‌ای برخورد کردند که در سال ۱۹۸۷ در روستاهای چین رخ داده بود. براثر این شیوع، دانش‌آموزان دچار عفونتی شده بودند که گلودرد و التهاب در دست و پاهایشان را در پی داشت.
سال‌ها بعد، تیمی از دانشمندان آزمایش‌هایی روی نمونه‌های سواب گلو انجام دادند که حین شیوع مذکور جمع‌آوری و ذخیره شده بود. در سال ۲۰۱۲، گزارش شد که نمونه‌های مذکور حاوی DNA آبله موش بودند؛ اما به آن مطالعه چندان توجه نشد و یک دهه بعد آبله موش همچنان تهدیدی برای انسان‌ها محسوب نمی‌شود. بااین‌حال، اگر کامپیوتر دکتر کارلسون و همکارانش درست بگوید، این ویروس سزاوار بررسی جدید است.
دانشمندان حدود ۲۵۰ بیماری انسانی را شناسایی کرده‌اند که با عبور ویروس جانوری از سد گونه‌ای ظاهر شده‌اند. برای مثال، HIV از شامپانزه‌ها پرش پیدا کرد و ویروس کرونای جدید از خفاش‌ها نشئت گرفت.

کالین کارلسون، زیست‌شناس دانشگاه جورج‌تاون، در حال برنامه‌نویسی کامپیوترها بوده است تا به آنان درزمینه‌ی ویروس‌ها آموزش دهد.

در حالت ایدئال، دانشمندان می‌خواهند ویروس سرریز بعدی را قبل از اینکه شروع به آلوده‌کردن انسان‌ها کند، شناسایی کنند؛ اما ویروس‌های حیوانی زیادی وجود دارد و ویروس‌شناسان نمی‌توانند همه‌ی آن‌ها را مطالعه کنند. دانشمندان بیش از هزار ویروس را در پستانداران شناسایی کرده‌اند؛ ولی این تعداد احتمالاً بخش کمی از شمار واقعی ویروس‌های پستانداران است. برخی از پژوهشگران حدس می‌زنند که پستانداران حامل ده‌هاهزار ویروس هستند؛ درحالی‌که دیگران این تعداد را صدهاهزار ویروس برآورد می‌کنند.
پژوهشگرانی مانند دکتر کارلسون به‌منظور شناسایی سرریزهای بالقوه جدید، در حال استفاده از کامپیوترها برای پیداکردن الگوهای پنهان در داده‌های علمی هستند. برای مثال، آن‌ها می‌توانند ویروس‌هایی را پیدا کنند که به‌طورخاص ممکن است موجب بیماری انسان شوند. همچنین، می‌توانند پیش‌بینی کنند که کدام حیوانات به‌احتمال زیاد حامل ویروس‌های خطرناکی هستند که هنوز از آن‌ها خبر نداریم.
باربارا هان، بوم‌شناس بیماری‌ها در مؤسسه‌ی مطالعات اکوسیستم کری در میلبروک نیویورک و همکار دکتر کارلسون گفت: «مانند این است که چشم‌های جدیدی داشته باشید. تعداد ابعادی که مدل می‌تواند ببیند، بیش از چیزی است که شما می‌توانید ببینید.» دکتر هان اولین‌بار در سال ۲۰۱۰ با یادگیری ماشین برخورد کرد. دانشمندان کامپیوتر چندین دهه بود که در حال توسعه این تکنیک بودند و ساخت ابزاهای قدرتمند به‌کمک آن را شروع کرده بودند.

باربارا هان، بوم‌شناس بیماری‌ها در مؤسسه‌ی مطالعات بوم‌شناسی کری در نیویورک و همکار دکتر کارلسون

این روزها یادگیری ماشین به کامپیوترها کمک می‌کند تا کارت‌های اعتباری تقلبی و چهره‌ی انسان‌ها را تشخیص دهند؛ اما تعداد کمی از پژوهشگران از یادگیری ماشین درزمینه‌ی بیماری‌ها استفاده کرده بودند. دکتر هان فکر می‌کرد که آیا می‌توان از این تکنیک برای یافتن پاسخ پرسش‌هایی مانند این مسئله استفاده کند که چرا کمتر از ۱۰ درصد از گونه‌های جونده حاوی پاتوژن‌هایی هستند که مشخص شده است انسان‌ها را آلوده می‌کنند.
دکتر هان اطلاعاتی از گونه‌های مختلف جوندگان از یکی از پایگاه‌های داده آنلاین به کامیپوتری وارد کرد (هر چیزی از سن در زمان از شیرگیری تا تراکم جمعیتی آن‌ها). کامپیوتر سپس ویژگی‌های جوندگانی را جست‌وجو می‌کرد که مشخص شده بود حامل تعداد زیادی از پاتوژن‌های بین‌گونه‌‌ای هستند. وقتی کامپیوتر مدلی را ایجاد کرد، او آن را روی گروه دیگری از گونه‌های جوندگان آزمایش و مشاهده کرد که با چه دقتی می‌تواند حدس بزند که کدام‌یک مملو از عوامل بیماری‌زا هستند. درنهایت، مدل کامپیوتری به دقت ۹۰ درصد رسید.
سپس دکتر هان به جوندگانی روی آورد که هنوز ازنظر پاتوژن‌های سرریز بررسی نشده‌اند و فهرستی از گونه‌های با اولویت زیاد را تهیه کرد. او و همکارانش پیش‌بینی کردند گونه‌هایی مانند ول کوهی و موش ملخ‌خوار شمال‌غرب آمریکای‌شمالی احتمالاً حامل پاتوژن‌های نگران‌کننده باشند.

از بین صفاتی که دکتر هان و همکارانش به کامپیوتر خود ارائه دادند، طول عمر جوندگان یکی از صفاتی بود که بیشتر از همه مهم‌تر بود. به‌نظر می‌رسد گونه‌هایی که در جوانی می‌میرند، حامل پاتوژن‌های بیشتری باشند، شاید به این دلیل که تکامل منابع را بیشتر از اینکه صرف سیستم ایمنی قوی کند، صرف تولیدمثل می‌کند.
این نتایج شامل سال‌ها پژوهش پرزحمت بود که در آن دکتر هان و همکارانش پایگاه‌های داده بوم‌شناسی و مطالعات علمی را به‌دنبال داده‌های مفید عمیقاً بررسی کردند. اخیراً پژوهشگران با ایجاد پایگاه‌های داده‌ای که برای آموزش کامپیوترها درباره ویروس‌ها و میزبان‌های آن‌ها طراحی شده است، به این کار سرعت بخشیده‌اند.
 
موش ملخ‌خوار شمالی، از گونه‌هایی است که تیم دکتر هان پیش‌بینی کرده است حامل پاتوژن نگران‌کننده‌ای است.

برای مثال، در ماه مارس دکتر کارلسون و همکارانش پایگاه داده با دسترسی آزاد به نام VIRION را معرفی کردند که در آن زمان، حاوی نیم‌میلیون قطعه اطلاعات درباره‌ی ۹,۵۲۱ ویروس و ۳,۶۹۲ میزبان جانوری آن‌ها بود و اطلاعات موجود در این پایگاه داده‌ها در حال گسترش است.
پایگاه‌های داده‌ای همچون VIRION امکان طرح پرسش‌های دقیق‌تری درباره‌ی دنیاگیری‌های جدید فراهم می‌کنند. زمانی که دنیاگیری کووید رخ داد، طولی نکشید که مشخص شد ناشی از ویروس جدیدی به نام SARS-CoV-2 است. دکتر کارلسون و دکتر هان و همکارانشان برنامه‌هایی برای شناسایی حیواناتی ایجاد کردند که با احتمال زیاد خویشاوندان ویروس کرونای جدید را در خود جای داده‌اند.
ویروس SARS-CoV-2 به گونه‌ای از ویروس‌ها به نام بتاکروناویروس‌ها تعلق دارد که شامل ویروس‌های عامل همه‌گیری‌های سارس و مرس نیز می‌شوند. این ویروس‌ها در بیشتر مواقع خفاش‌ها را آلوده می‌کنند. زمانی که SARS-CoV-2 در ژانویه ۲۰۲۰ کشف شد، با بررسی‌های دانشمندان مشخص شد ۷۹ گونه از خفاش‌ها حامل آن‌ها هستند. بااین‌حال، دانشمندان به‌طور سیستماتیک تمام ۱,۴۴۷ گونه خفاش‌ها را به‌دنبال پیدا‌کردن بتاکروناویروس‌ها جست‌وجو نکرده‌اند و چنین پروژه‌ای چندین سال طول می‌کشد تا کامل شود.

دکتر کارلسون و دکتر هان و همکارانشان داده‌های زیستی درباره‌ی انواع خفاش‌ها (رژیم غذایی، طول بال‌ها و…) را وارد کامپیوتر و مدلی ایجاد کردند که می‌توانست پیش‌بینی کند کدام خفاش‌ها با احتمال بیشتر حامل بتاکروناویروس‌ها هستند. آن‌ها بیش از ۳۰۰ گونه را پیدا کردند که این شرایط را داشتند.
از زمان آن پیش‌بینی در سال ۲۰۲۰، پژوهشگران بتاکروناویروس‌ها را در ۴۷ گونه خفاش پیدا کرده‌اند. همه‌ی آن ۴۷ گونه، در فهرست پیش‌بینی‌شده‌ی برخی از مدل‌های کامپیوتری قرار داشتند که آن‌ها برای مطالعه خود ایجاد کرده بودند.
دانیل بکر، بوم‌شناس بیماری در دانشگاه اوکلاهاما، نیز روی مطالعه بتاکروناویروس‌ها کار کرده است. وی بیان کرد شگفت‌انگیز بود که ویژگی‌های ساده‌ای مانند اندازه‌ی بدن بتواند به پیش‌بینی‌های قوی درباره‌ی ویروس‌ها منجر شود. او این دستاورد را حاصل زیست‌شناسی تطبیقی می‌داند.
دکتر بکر اکنون از حیاط‌خلوت خانه‌ی خود فهرست میزان‌های احتمالی بتاکروناویروس‌ها را دنبال می‌کند. طبق پیش‌بینی‌ها، برخی از خفاش‌های اوکلاهاما باید حامل این ویروس‌ها باشند. البته اگر دکتر بکر بتاکروناویروسی را در حیاط‌خلوت خانه‌ی خود پیدا کند، نمی‌تواند فوراً بگوید که این تهدیدی قریب‌الوقوع برای انسان‌ها خواهد بود. دانشمندان ابتدا باید آزمایش‌های پرزحمتی را برای قضاوت درباره‌ی خطر آن انجام دهند.
دکتر پراناو پاندیت، متخصص همه‌گیرشناس در دانشگاه کالیفرنیا، هشدار می‌دهد که این مدل‌ها هنوز کامل نیستند. آن‌ها وقتی روی ویروس‌های به‌خوبی مطالعه‌شده آزمایش می‌شوند، به‌طور چشمگیری بهتر عمل می‌کنند؛ اما می‌توانند از این بهتر شوند. او گفت: «در مرحله‌ای نیستیم که بتوانیم آن نتایج را بگیریم و به دنیا هشدار دهیم که این ویروس مشترک بین انسان و حیوان است.»
ناردوس مولتز، ویروس‌شناس محاسباتی در دانشگاه گلاسکو و همکارانش مدلی ایجاد کرده‌اند که می‌تواند دقت مدل‌ها را افزایش چشمگیری دهد. مدل‌های آن‌ها به‌جای اینکه میزبان‌های ویروس را در نظر بگیرد، ژن‌های آن را بررسی می‌کند. می‌توان به کامپیوتر یاد داد که ویژگی‌های ظریف موجود در ژن‌های ویروس‌هایی را تشخیص دهد که می‌توانند انسان را آلوده کنند.

دکتر مولتز و همکارانش در اولین گزارش خود درباره‌ی این تکنیک گفته‌اند مدلی ایجاد کردند که می‌تواند در بیش از ۷۰ درصد از مواقع به‌درستی ویروس‌های آلوده‌کننده انسان را تشخیص دهد. دکتر مولتز هنوز نمی‌تواند بگوید دلیل کارایی مدل مبتنی‌بر ژن او چیست؛ اما ایده‌هایی دارد. سلول‌های ما می‌توانند ژن‌های خارجی را تشخیص دهند و هشداری برای سیستم ایمنی ارسال کنند. ویروس‌هایی که می‌توانند سلول‌های ما را آلوده کند، ممکن است توانایی تقلید از DNA خود ما را به‌عنوان نوعی استتار ویروسی داشته باشند.

هنگامی که پژوهشگران مدل خود را روی ویروس‌های حیوانی به‌کار بردند، با فهرستی متشکل از ۲۷۲ گونه دارای خطر فراوان سرریز مواجهه شدند. این تعداد برای مطالعه‌ی عمیق ویروس‌شناسان بسیار زیاد است. امی دی‌ویت، ویروس‌شناس آزمایشگاه راکی‌مانتین در همیلتون، بر پژوهش‌های مرتبط با ویروس کرونای جدید و آنفلوانزا و ویروس‌های دیگر نظارت می‌کند. او گفت نمی‌توان روی این تعداد ویروس کار کرد و باید تعداد آن‌ها محدودتر شود.
دکتر مولتز نیز تصدیق کرد که او و همکارانش باید راهی برای شناسایی بدترین بدترین‌ها در میان ویروس‌های حیوانی پیدا کنند. او گفت: «این شروع کار است.» او برای تکمیل مطالعه‌ی اولیه‌ی خود با دکتر کارلسون و همکارانش همکاری می‌کند تا داده‌های مرتبط با ژن‌های ویروس‌ها را با اطلاعات زیست‌شناسی و بوم‌شناسی میزبان‌های آن‌ها ادغام کند. پژوهشگران از این رویکرد نتایج امیدوارکننده‌ای به‌دست آورده‌اند (مثلاً ویروس آبله موش).
انواع دیگر داده‌ها ممکن است پیش‌بینی‌ها را حتی بهتر کند. برای مثال، یکی از ویژگی‌های مهم ویروس پوشش مولکول‌های قند روی سطح آن است. ویروس‌های مختلف الگوهای متفاوتی از مولکول‌های قند دارند و این آرایش می‌تواند تأثیر زیادی بر موفقیت آن‌ها بگذارد. برخی از ویروس‌ها می‌توانند از این لایه مولکولی برای پنهان‌شدن از سیستم ایمنی میزبان استفاده کنند. در موارد دیگر، ویروس می‌تواند از مولکول‌های قند برای اتصال به سلول‌های جدید و آغاز عفونت جدید استفاده کند.

این ماه، دکتر کارلسون و همکارانش تفسیری را منتشر کردند و گفتند یادگیری ماشین ممکن است بینش‌های فراوانی درباره‌ی پوشش قندی ویروس‌ها و میزبان آن‌ها حاصل کند. دانشمندان قبلاً مقدار زیادی از این نوع اطلاعات را جمع‌آوری کرده‌اند؛ اما هنوز به‌شکلی درنیامده است که کامپیوترها بتوانند براساس آن آموزش ببینند. دکتر کارلسون گفت: «احساس می‌کنم بیش از آنچه فکر می‌کنیم، می‌دانیم.»
دکتر دی‌ویت گفت مدل‌های یادگیری ماشین می‌توانند روزی ویروس‌شناسایی مانند خود او را درزمینه‌ی مطالعه ویروس‌های حیوانی خاص هدایت کنند؛ اما او خاطرنشان کرد که مدل‌ها عمدتاً روی ظرفیت پاتوژن برای آلوده‌کردن سلول‌های انسانی تمرکز کرده‌اند. ویروس قبل از اینکه بتواند موجب بیماری انسانی جدیدی شود، باید از فردی به فرد دیگر منتقل شود و در طول مسیر علائم جدی را ایجاد کند. دکتر دی‌ویت منتظر نسل جدیدی از مدل‌های یادگیری ماشین است که بتوانند این پیش‌بینی‌ها را نیز انجام دهند. او گفت:
آنچه می‌خواهیم بدانیم، لزوماً این نیست که کدام ویروس‌ها می‌توانند انسان را آلوده کنند؛ بلکه این موضوع است که کدام ویروس‌ها می‌توانند موجب شیوع شوند. بنابراین، گام بعدی پی‌بردن به این مسئله است.