Αν ζούσε σήμερα ο Δαρβίνος, σίγουρα θα χρησιμοποιούσε υπολογιστικά εργαλεία, αλγορίθμους και εξελικτικά μοντέλα που αναπτύσσει ο καθηγητής Πληροφορικής στο Τεχνολογικό Ινστιτούτο της Καρλσρούης (KIT), Αλέξης Σταματάκης για να αναλύσει την εξέλιξη των ειδών, και θα έκανε τη ζωή του εύκολη…
Αυτό σκέφτομαι βλέποντάς τον δρα Σταματάκη χαμογελαστό να έρχεται προς το μέρος μου. Τα υπολογιστικά εργαλεία και τα φυλογενετικά δέντρα, τα δέντρα της ζωής κυριαρχούν στις συζητήσεις μας από το 2016, όταν για πρώτη φορά συναντηθήκαμε σε ένα κεντρικό καφέ της Αθήνας.
Ήταν η εποχή που με δυο δημοσιεύσεις του στο επιστημονικό περιοδικό Science είχε «ταράξει» τα νερά στο πεδίο της εξέλιξης των εντόμων, της πολυπληθέστερης και πιο ποικιλόμορφης ομάδας έμβιων όντων στον κόσμο, και αργότερα των πτηνών και είχε ανοίξει δρόμο στη διαλεύκανση της εξελικτικής ιστορίας γενικά όλων των οργανισμών.
Οκτώ χρόνια μετά, με αφορμή ένα συνέδριο, συναντιόμαστε ξανά σε ένα καφέ στην Αλεξανδρούπολη αυτή τη φορά και ξαναπιάνουμε την ίδια κουβέντα. Μόνο που τώρα ο ίδιος με μια διεθνή ομάδα επιστημόνων από το “Bird 10.000 Genomes Project” (B10K) και με τη δική του ερευνητική ομάδα (Computational Molecular Evolution Group) στο HITS (Heidelberg Institute for Theoretical Studies) και στο Τεχνολογικό Ινστιτούτο της Καρλσρούης (KIT) έχουν κάνει ένα τεράστιο άλμα στην ανάπτυξη υπολογιστικών εργαλείων και έχουν δημοσιεύσει ακόμη μια εργασία στο Nature αυτή τη φορά, σχετικά με την πολυπλοκότητα της εξέλιξης των πτηνών, η οποία έχει ξεκινήσει να γίνεται θέμα συζήτησης διεθνώς.
Το αποτέλεσμα της εργασίας είναι ένα καλά υποστηριζόμενο φυλογενετικό δέντρο, το οποίο ωστόσο παρουσιάζει έναν εκπληκτικό βαθμό εξελικτικών σχέσεων, οι οποίες δεν μπορούν, προς το παρόν, να ερμηνευτούν. Για την περαιτέρω εξαγωγή συμπερασμάτων απαιτούνται πολλά επιπλέον δεδομένα ώστε να απαντηθούν τα ανοιχτά ερωτήματα.
«Τώρα διαθέτουμε 50 φορές περισσότερα δεδομένα από ό,τι είχαμε πριν δέκα χρόνια. Αναλύσαμε τα γονιδιώματα 363 ειδών πτηνών χρησιμοποιώντας συγκεκριμένες γονιδιακές περιοχές τους και μια πληθώρα υπολογιστικών μεθόδων.
Το αποτέλεσμα είναι ένα καλά υποστηριζόμενο δέντρο της εξέλιξης των πτηνών. Η πρόκληση ήταν να εξελίσσουμε τα υπολογιστικά εργαλεία ώστε να μπορέσουμε να αναλύσουμε έναν τέτοιο τεράστιο όγκο δεδομένων. Καλύψαμε σχεδόν το 95% των ειδών πουλιών, που επί του παρόντος είναι το μάξιμουμ», εξηγεί ο ίδιος, λέγοντάς μου πως με τα ίδια μοντέλα, λογισμικά και κριτήρια μπορούμε να κατασκευάσουμε εξελικτικά δέντρα ακόμη και για τις γλώσσες που μιλάμε!
Αξίζει να αναφερθεί ότι ο καθηγητής Αλέξης Σταματάκης συγκαταλέγεται στους ελάχιστους ειδήμονες στους σχετικούς αλγόριθμους, στους παράλληλους υπολογιστές, στις παράλληλες αρχιτεκτονικές και στην εξελικτική Βιοπληροφορική στην Ευρώπη, αλλά και σε ολόκληρο τον κόσμο.
Σχετικά πρόσφατα ανέλαβε έδρα ERA (European Research Area) στην Υπολογιστική Βιοποικιλότητα στο Ινστιτούτο Πληροφορικής του Ιδρύματος Τεχνολογίας και Έρευνας (ΙΤΕ) στην Κρήτη, με χρηματοδότηση 2,4 εκατομμυρίων ευρώ για την επόμενη 5ετία. Η λειτουργία της νέας ομάδας Υπολογιστικής Βιοποικιλότητας (Biodiversity Computing Group - BCG) που έχει συσταθεί από τις αρχές του 2023 βασίζεται στην τεχνογνωσία του Ινστιτούτου Πληροφορικής του ΙΤΕ πάνω στην ανάπτυξη μεθόδων υπολογιστών υψηλής απόδοσης και μηχανικής μάθησης.
Η χρήση φυλογενετικών δένδρων αλλάζει το πεδίο της έρευνας
Η θεωρία της εξέλιξης των ειδών στηρίζεται στην κοινή καταγωγή όλων των μορφών της ζωής και στην διαφοροποίηση τους στην διάρκεια του χρόνου μέσα από την σύνθετη διαδικασία των μεταλλαγών και της φυσικής επιλογής. Επομένως, όλα τα είδη που διαβιούν σήμερα στον πλανήτη μας, αλλά και αυτά που εξαφανίστηκαν έχουν έναν βαθμό συγγένειας μεταξύ τους, η έκταση του οποίου καθορίζεται από το πόσο πρόσφατα έζησε το είδος από το οποίο προέκυψαν. Έτσι, μπορούμε να ενώσουμε τα είδη σε ένα εξελικτικό δένδρο, το φυλογενετικό, όπως κάνουμε και με τα γενεαλογικά δένδρα. Η διαφορά είναι ότι στα γενεαλογικά δένδρα η συγγένεια των ατόμων του ίδιου είδους είναι γνωστή, ενώ στα φυλογενετικά πρέπει να υπολογιστεί από το βαθμό ομοιότητας διαφόρων χαρακτηριστικών.
Μέχρι τα μέσα του 20ου αιώνα οι επιστήμονες στηρίζονταν μόνο σε μορφολογικά χαρακτηριστικά για την αναπαράσταση της εξελικτικής ιστορίας των ειδών. Πλέον αυτή η αναπαράσταση βασίζεται στη χρήση των αλληλουχιών του DNA από διάφορα είδη και αποτελεί μια από τις πιο προκλητικές και πιο δύσκολες εφαρμογές της υπολογιστικής επιστήμης.
«Στην τελευταία δημοσίευσή μας χρησιμοποιήσαμε 4 υπολογιστικά εργαλεία που αναπτύξαμε και που εφαρμόσαμε στα πτηνά, τα οποία μπορούν να εφαρμοστούν και σε άλλους οργανισμούς.
Η δουλειά μας είναι να δημιουργούμε εργαλεία και να τα διαθέτουμε στους εξελικτικούς βιολόγους ώστε να τους βοηθάμε να βγάζουν νόημα από τα δεδομένα τους», λέει ο Αλέξης Σταματάκης.
Σύμφωνα με τον ίδιο, οι εξελικτικοί βιολόγοι παράγουν αυτή τη στιγμή μια μοριακή “χιονοστιβάδα” δεδομένων που είναι δύσκολο να αναλυθούν ακόμα και με τους ισχυρότερους υπερυπολογιστές.
Η πρόκληση για την επιστήμη των υπολογιστών είναι η ανάπτυξη προγραμμάτων και μεθόδων για τον υπολογισμό των εξελικτικών δέντρων και την ανακάλυψη καινούργιας γνώσης μέσα στη μάζα των μοριακών δεδομένων. «Το να μελετήσεις αυτό το ογκώδες υλικό χωρίς την προσαρμογή προγραμμάτων που σε βοηθούν να τα “τρέξεις” και να τα αναλύσεις παράλληλα σε 5-10.000 επεξεργαστές, είναι πλέον αδύνατο», σχολιάζει ο ερευνητής.
Ένα από τα κλασικά πλέον εργαλεία στον χώρο τις εξελικτικής βιολογίας που ανέπτυξε ο καθηγητής- και από τα highlights του εργαστηρίου του-είναι το πρόγραμμα RAxML, το οποίο επιτρέπει την ανακατασκευή τεράστιων φυλογενετικών δέντρων, που περιλαμβάνουν έως και 120.000 οργανισμούς. Πρόκειται για μια από τις πιο δημοφιλείς εφαρμογές για φυλογενετικές αναλύσεις, η οποία μετράει άπειρες αναφορές στις βιοεπιστήμες τα τελευταία 20 έτη.
Το RAxML είναι διαθέσιμο με τη μορφή ανοικτού κώδικα (open source), έτσι ώστε οι βιολόγοι σε όλο τον κόσμο να μπορούν να το χρησιμοποιούν εντελώς δωρεάν για να αναλύουν τα δεδομένα τους.
Στην έρευνα που δημοσιεύτηκε στο Nature χρησιμοποιήθηκαν εργαλεία που αναπτύχθηκαν από μέλη της ομάδας Υπολογιστικής Μοριακής Εξέλιξης (CME) στο Ινστιτούτο Θεωρητικών Μελετών της Χαϊδελβέργης (HITS) μαζί με επιστήμονες από το Biodiversity Computing Group (BCG) στο Ινστιτούτο Επιστήμης Υπολογιστών (ΙΠ) του ΙΤΕ στο Ηράκλειο.
«Στη μελέτη χρησιμοποιήθηκε ένα από τα πιο “φρέσκα” εργαλεία μας, το ParGenes που είναι ένα λογισμικό ανοιχτού κώδικα βασισμένο στην ενσωμάτωση δύο ακόμα λογισμικών ανοιχτού κώδικα που ονομάζονται RAxML-NG και Modeltest-NG. Το RAxML-NG είναι το εργαλείο RAxML επόμενης γενιάς για τον υπολογισμό φυλογενετικών δέντρων από δεδομένα DNA, που αναπτύξαμε στο Ηράκλειο και στην Χαϊδελβέργη, ενώ το Modeltest-NG είναι ένα εργαλείο για την επιλογή του βέλτιστου στατιστικού μοντέλου εξέλιξης για δεδομένα DNA.
Όλα τα εργαλεία μπορούν να “τρέξουν” ανάλογα με τον όγκο των δεδομένων τόσο σε ένα φορητό υπολογιστή όσο και στους υπερ-υπολογιστές (supercomputers) και να χρησιμοποιηθούν για έρευνα σε διάφορους κλάδους των βιοεπιστημών. Να σημειωθεί ότι, κατά τη διάρκεια της πανδημίας, το RAxML-NG χρησιμοποιήθηκε από πολλούς επιστήμονες ανά τον κόσμο για την ανάλυση της εξέλιξης των στελεχών του ιού SARS-CoV-2», προσθέτει ο επιστήμονας.
Σύμφωνα με τον ίδιο, το λογισμικό ParGenes μπορεί να υπολογίσει σε σύντομο χρονικό διάστημα έναν τεράστιο αριθμό φυλογενετικών δέντρων για διαφορετικές περιοχές του γονιδιώματος σε μία συστοιχία υπολογιστών. «Για να το καταφέρουμε αυτό, λύσαμε ένα κλασικό πρόβλημα της πληροφορικής, και συγκεκριμένα το πώς μοιράζουμε αποτελεσματικά, στον ελάχιστο δυνατό χρόνο, έναν μεγάλο αριθμό υπολογισμών σε μία υπολογιστική συστοιχία», προσθέτει ο ερευνητής.
Μια σημαντική προσθήκη στη συγκεκριμένη μελέτη ήταν η πρόβλεψη της φυλογενετικής δυσκολίας που αναπτύχθηκε από τη διδακτορική φοιτήτρια του κ. Σταματάκη στην ομάδα της Χαϊδελβέργης (και συχνή επισκέπτρια στο ΙΤΕ), Julia Haag, χρησιμοποιώντας τεχνικές μηχανικής μάθησης.
«Αυτό το εργαλείο που ονομάζεται Pythia (κάνει προβλέψεις ευρισκόμενο σε έκσταση όπως η Πυθία, αλλά όχι από τα φύλλα δάφνης που μασάει, αλλά από τον όγκο των δεδομένων με τα οποία “ταϊζεται”) και που χρησιμοποιεί τεχνητή νοημοσύνη, είναι ένα από τα καλύτερα που έχουμε αναπτύξει τα τελευταία χρόνια. Το τροφοδοτείς με κάποια δεδομένα που θέλεις για να φτιάξεις ένα εξελικτικό δέντρο και αυτό σου κάνει πρόγνωση πόσο σήμα υπάρχει σε αυτά τα δεδομένα δηλαδή, αν η ανάλυση που θα κάνεις θα είναι εύκολη ή δύσκολη και αν θα σου βγάλει ένα ξεκάθαρο δέντρο ή ένα δέντρο με μεγάλη αβεβαιότητα. Αυτό που μας απασχολεί γενικότερα τον τελευταίο καιρό είναι πως μπορούμε να υπολογίσουμε την αβεβαιότητα των αποτελεσμάτων μας.
Σε κάθε βήμα ανάλυσης προσπαθούμε να δούμε ποιες αβεβαιότητες υπάρχουν και να τις προωθήσουμε στο επόμενο βήμα», εξηγεί ο δρ Σταματάκης.
Εξελικτική Βιοπληροφορική με χαμηλό περιβαλλοντικό αποτύπωμα
Η ενέργεια είναι ο περιοριστικός πόρος σε ένα τεράστιο φάσμα υπολογιστικών συστημάτων, από ενσωματωμένους αισθητήρες έως κινητά τηλέφωνα και κέντρα δεδομένων. Οι ερευνητές σκέφτονται τώρα πώς να σχεδιάζουν και να κατασκευάζουν υπολογιστικά συστήματα που να ελαχιστοποιούν την κατανάλωση ενέργειας. Αυτή η ανησυχία υπάρχει και στην ερευνητική ομάδα του Αλέξη Σταματάκη: «Υπάρχει μια περιβαλλοντική ανησυχία επειδή τα εργαλεία μας χρησιμοποιούνται κατά κόρον και επομένως καταναλώνουν πάρα πολλή ενέργεια που παράγει μεγάλο περιβαλλοντικό αποτύπωμα», σχολιάζει ο ίδιος.
Στην αγορά ηλεκτρικής ενέργειας υπάρχουν τιμές ηλεκτρικού ρεύματος σε πραγματικό χρόνο. Η αξία του ρεύματος διαμορφώνεται από τη συμμετοχή των ανανεώσιμων πηγών ενέργειας στο ενεργειακό μίγμα που χρησιμοποιείται για την παραγωγή ηλεκτρικής ενέργειας. Με απλά λόγια όταν έχουμε πολλή ανανεώσιμη ενέργεια ποσοστιαία είναι φθηνό το ρεύμα και όταν έχουμε λίγη είναι ακριβό, και αυτό το κόστος μπορεί να μεταφερθεί στους καταναλωτές με το να πληρώνουν την τιμή του ρεύματος σε πραγματικό χρόνο τη στιγμή που το καταναλώνουν.
«Εμείς το εκμεταλλευόμαστε αυτό και προσαρμόζουμε σε πραγματικό χρόνο την ταχύτητα με την οποία “τρέχουμε” τους επεξεργαστές. Ανάλογα με τη συμμετοχή των ανανεώσιμων πηγών ενέργειας στο ενεργειακό μίγμα που χρησιμοποιείται για την παραγωγή ηλεκτρικής ενέργειας, “τρέχουμε” αργά ή γρήγορα τους υπολογισμούς μας και μειώνουμε το περιβαλλοντικό τους αποτύπωμα και το κόστος. Εδώ ίσως κάποιος πει πως όσοι θέλουν να “τρέξουν” γρήγορα προγράμματα θα καθυστερήσουν, όμως έχουμε δει πως όταν μειώνουμε την ταχύτητα του επεξεργαστή κατά 20%, η μέση ταχύτητα εκτέλεσης των προγραμμάτων μειώνεται μόνο κατά 10% και αυτή η διαφορά είναι το κέρδος. Δεν μειώνεις μόνο το οικολογικό αποτύπωμα αλλά και το κόστος του ρεύματος ενός υπολογιστικού κέντρου που είναι τεράστιο», αναφέρει ο καθηγητής, βάζοντας στη συζήτηση και τα φωτοβολταικά συστήματα:
«Με τα φωτοβολταικά μπορείς να βελτιώσεις τον ταυτοχρονισμό (δηλαδή να καταναλώνεις περισσότερη ενέργεια όταν η παραγωγή ρεύματος έχει φτάσει στο ταβάνι π.χ. να φορτίζεις το κινητό σου ή το ηλεκτρικό σου αυτοκίνητό ντάλα μεσημέρι). Έτσι το υπολογιστικό εργαλείο μπορεί να “τρέχει” παράλληλα με την παραγωγή του φωτοβολταικού σου συστήματος. Έχουμε αναπτύξει ένα τέτοιο εργαλείο, ανοιχτού κώδικα βεβαίως, που θα το παρουσιάσουμε στο διεθνές συνέδριο υπερυπολογιστών στο Αμβούργο τον ερχόμενο Μάιο».
Ποιος είναι ο Αλέξης Σταματάκης
Ο Αλέξης γεννήθηκε στην γερμανική πόλη Σααρμπρύκεν από πατέρα Έλληνα πολιτικό επιστήμονα και από Γερμανίδα μητέρα, καθηγήτρια κλασικού τραγουδιού. Όταν εκείνος έγινε τεσσάρων ετών, η οικογένεια Σταματάκη μετακόμισε μόνιμα στην Ελλάδα. Ο Αλέξανδρος Σταματάκης φοίτησε στη Γερμανική Σχολή Αθηνών και σπούδασε Πληροφορική στο Πολυτεχνείο του Μονάχου (Technische Universität München) και στην École Normale Supérieure de Lyon (επίσης γνωστή ως ENS) κάνοντας πρακτική άσκηση στην Αθήνα, στο Παρίσι και στη Μαδρίτη.
Το 2001 έλαβε το δίπλωμά του στην Επιστήμη των Υπολογιστών από το Πολυτεχνείο του Μονάχου και το 2004 εκπόνησε τη διδακτορική του διατριβή (στο ίδιο πανεπιστήμιο) πάνω στους αλγορίθμους και στους παράλληλους υπολογιστές (parallel computing), με αντικείμενο την φυλογενετική συμπερασματολογία (ανακατασκευή των εξελικτικών δέντρων με χρήση δεδομένων DNA).
Συνέχισε να εργάζεται στον τομέα της εξελικτικής Βιοπληροφορικής και των παράλληλων υπολογιστών (parallel computing) ως μεταδιδακτορικός ερευνητής στο Ινστιτούτο Πληροφορικής του ΙΤΕ στο Ηράκλειο της Κρήτης και στο Ελβετικό Ομοσπονδιακό Ινστιτούτο Τεχνολογίας στη Λοζάνη. Στις αρχές του 2008 επέστρεψε στο Μόναχο για να ξεκινήσει, με γερμανική χρηματοδότηση, τη δική του ανεξάρτητη ερευνητική ομάδα Νέων (DFG Emmy Noether-Programme της γερμανικής γραμματείας έρευνας, DFG) στο Πολυτεχνείο του Μονάχου.
Το φθινόπωρο του 2010 μετακινήθηκε στο Ινστιτούτο Θεωρητικών Σπουδών της Χαϊδελβέργης (HITS) για να ξεκινήσει τη νέα του δουλειά, μόνιμα πια, ως επικεφαλής της ερευνητικής ομάδας για computational molecular evolution. Το 2012 διορίστηκε ως τακτικός καθηγητής στο Τμήμα Επιστήμης Υπολογιστών του Τεχνολογικού Ινστιτούτου της Καρλσρούης, αλλά και ως συνεργαζόμενος καθηγητής στο Τμήμα Οικολογίας και Εξελικτικής Βιολογίας στο Πανεπιστήμιο της Αριζόνα στο Tucson.
Το 2023 μετακινήθηκε στην Κρήτη όπου ανέλαβε καθήκοντα ως ERA chair για να στήσει την καινούργια ομάδα υπολογιστικής βιοποικιλότητας, ενώ ταυτόχρονα διατηρεί τις θέσεις και την ομάδα του στην Γερμανία. Η καινούργια ομάδα συνέβαλε σημαντικά στο brain gain, καθώς 6 από τα 7 μέλη της επέστρεψαν στην Κρήτη από Γερμανία, Γαλλία, ΗΠΑ, Αυστρία και Ισπανία.
Κάθε δύο χρόνια, κατά την τελευταία 14ετία, διοργανώνει Θερινό Σχολείο για την υπολογιστική μοριακή εξέλιξη στο ΕΛΚΕΘΕ Κρήτης, χρηματοδοτούμενο από τον Ευρωπαϊκό Οργανισμό Μοριακής Βιολογίας (ΕΜΒΟ) και από το HITS στη Χαϊδελβέργη.