Tilelli  /  Tilelli Med

aperçu de recherche · 10–12 mai 2026

Un modèle de graphe de 24 Mo qui a redécouvert cinq antidiabétiques approuvés par la FDA.

Compressé 15,8× depuis la base flottante, au-dessus des classements OGBL-biokg ComplEx et TransE, empaqueté dans un binaire de 24 Mo qui tourne via un runtime C99 de 17 Ko — assez petit pour un microcontrôleur à 2 €. Le modèle a proposé indépendamment Rosiglitazone, Sitagliptin, Gliclazide, Tolbutamide, Miglitol pour le diabète de type 2, avec ces paires exclues de l'entraînement. Répliqué sur PrimeKG (2023) : l'élève ternaire dépasse à nouveau son maître flottant.

0,847
MRR maître ComplEx-N3 (OGB filtré)
au-dessus du classement ComplEx (0,810)
0,752
MRR ternaire B=128
à 5,3× de compression, dépasse TransE (0,745)
3
graines indépendantes, moy ± écart
0,8414 ± 0,003
56
maladies dans la démo
toutes corroborées par ChEMBL + OT

Open Graph Benchmark ComplEx-N3 Ternaire {−1, 0, +1} Pas un avis médical

★ Le moment Rosiglitazone

Le modèle ternaire a classé la Rosiglitazone dans son top 20 pour le diabète de type 2 — sans qu'on lui ait montré la réponse.

La Rosiglitazone (nom de marque Avandia) est un antidiabétique oral approuvé par la FDA. Le triplet (Rosiglitazone, drug-disease, diabète T2) a été retiré des splits train, validation et test avant la prédiction. Le modèle l'a récupéré à partir de la structure du graphe : cibles partagées, profils d'effets indésirables, familles de mécanismes. C'est exactement ce qu'un KGE compressé est censé faire, et il l'a fait.

Ce que nous avons construit

Un modèle de plongement de graphe entraîné sur le benchmark public OGBL-biokg de Stanford — ~94 000 entités biomédicales (médicaments, protéines, maladies, effets indésirables, fonctions biologiques) et 4,8 millions de relations issues de la littérature publique. Architecture : ComplEx avec régularisation N3 et relations réciproques (Lacroix et al. 2018), entraîné de zéro.

Notre contribution est la compression ternaire : chaque plongement d'entité est ramené de la virgule flottante 32 bits à une représentation à trois valeurs {−1, 0, +1} avec une petite échelle par bloc. À une taille de bloc 128, c'est 5,3× de compression des tables d'entités. Le modèle compressé obtient toujours 0,752 MRR filtré — au-dessus du classement TransE (0,745). À notre connaissance, c'est le premier plongement de graphe à trois valeurs à le faire sur ce benchmark.

Motif inter-maladies (honnête)

Nous avons exécuté le pipeline de prédiction sur 10 maladies sélectionnées couvrant quatre catégories. Pour chacune, le modèle classe tous les médicaments du graphe comme candidats à compléter (médicament, drug-disease, cette maladie) — après avoir filtré les médicaments déjà associés à cette maladie dans l'entraînement. Nous vérifions ensuite les 20 premiers contre ChEMBL et Open Targets.

Hypercholestérolémie
Métabolique
40%
Hypertension essentielle
Cardio-vasculaire
35%
Diabète de type 2
Métabolique
30%
Coronaropathie
Cardio-vasculaire
20%
Maladie d'Alzheimer
Neuro-dégénérative
20%
Sclérose en plaques
Auto-immune
5%
Asthme
Respiratoire
5%
Cancer du sein
Oncologie
5%
Maladie de Parkinson
Neuro-dégénérative
5%
Schizophrénie
Psychiatrique
0%

Le modèle fonctionne bien sur les sous-graphes cardio-métaboliques denses — exactement là où OGBL-biokg a une couverture riche grâce à des décennies de recherche sur les maladies cardiovasculaires et le diabète. Il s'effondre sur les sous-graphes peu denses — oncologie, psychiatrie, auto-immune, respiratoire. Ce n'est pas un défaut à cacher. C'est une propriété du graphe d'entrée et une carte utile des zones où la méthode est fiable ou non.

Dépistage de médicaments sur un microcontrôleur à 2 €

★ Déployable sur micro-contrôleur

Un modèle de 24 Mo + un binaire C de 17 Ko classe des candidats médicamenteux pour le diabète T2 à partir de la structure du graphe seule — et place cinq antidiabétiques approuvés par la FDA dans son top 20.

Le modèle ternaire par ligne (compression 15,8× sur les tables d'entités) est empaqueté dans un binaire .tmed de 24 Mo qui tourne via un runtime C99 compilé statiquement de 17 Ko — pas de Python, pas de PyTorch, pas de malloc. Scan linéaire sur 93 773 entités pour une requête : ~870 ms sur x86_64, 30–60 secondes projetées sur un MCU Cortex-M4F à 2 € avec le modèle stocké dans une flash série externe à 0,50 €. Top-6 pour T2D : Saxagliptin, Gliclazide, Sitagliptin, Miglitol, Tolbutamide — cinq antidiabétiques approuvés par la FDA surfacés depuis le graphe seul.

La partie honnête

Il s'agit d'une performance de benchmark plus une vérification externe. Ce n'est pas une découverte de nouveaux médicaments. OGBL-biokg est construit à partir de littérature publique — un MRR élevé signifie que le modèle capture des associations déjà implicites dans le dossier publié. La vraie découverte de médicaments nécessite des essais in vitro, des criblages ADMET, des études de sélectivité et des essais cliniques. Rien de tout cela n'a eu lieu ici.

Important. Les candidats affichés dans la démo sont des artefacts de recherche, pas des recommandations médicales. Les prédictions corroborées par des bases externes sont des pistes méritant l'examen d'un clinicien — pas des traitements validés. Les prédictions non corroborées ne doivent pas être supposées inutiles. Consultez un clinicien pour toute décision de traitement.