méthodes techniques

Comment le modèle est construit.

Une description technique brève et honnête. Ce que nous avons fait, comment nous l'avons évalué, et ce que nous n'avons pas fait.

Modèle de base

Nous utilisons ComplEx (Trouillon et al., 2016) : une fonction de score par factorisation tensorielle à valeurs complexes sur des triplets (tête, relation, queue). Pour un triplet (h, r, t), le score est la partie réelle de <h, r, conj(t)> sur des plongements complexes.

Nous ajoutons le régularisateur N3 (Lacroix et al., 2018), une régularisation de puissance tensorielle L₃ qui domine systématiquement L₂/Frobenius pour les modèles de la famille ComplEx, et les relations réciproques : chaque triplet d'entraînement (h, r, t) est augmenté avec (t, r⁻¹, h). La recette combinée (« ComplEx-N3 ») est le niveau de référence publié sur les benchmarks standards de graphes de connaissances.

Entraînement

Jeu de données : benchmark public OGBL-biokg (~94 K entités, 51 relations de base + 51 réciproques, 4,76 M triplets d'entraînement).
Dimension de plongement : 512 (réel + 512 imaginaire par entité).
Loss : entropie croisée 1-N. Chaque requête (h, r) score les 93 K entités ; la queue dorée est la cible.
Régularisation : N3 avec λ=10⁻², normalisée par exemple.
Optimiseur : Adagrad, lr=0,1.
Batch : 2048. Précision : bfloat16 mixte via PyTorch autocast.
Epoques : 15 (la loss plafonne à l'époque 5 ; 15 suffit).
Matériel : une seule NVIDIA RTX A6000.

Compression ternaire

Les tables réelle et imaginaire de chaque entité sont quantifiées indépendamment dans {−1, 0, +1} avec une petite échelle flottante par bloc. La taille de bloc B est le bouton : B=1 signifie une échelle unique par ligne (compression maximale), B=512 une échelle par dimension (pas de compression). À B=128, on obtient 5,3× de compression des tables d'entités et le modèle dépasse encore le classement TransE d'OGBL.

Évaluation

Nous utilisons le protocole filtré officiel d'OGB : chaque triplet de test est livré avec 500 négatifs contraints par type, déjà filtrés contre les splits train + valid + test. Nous classons l'or contre (or + 500 négatifs) côté tête et queue, et rapportons le rang réciproque moyen.

Reproductibilité multi-graines

Nous avons entraîné 3 modèles ComplEx-N3 indépendants avec graines 1, 2, 3 :

Graine	MRR Validation	Hits@1	Hits@10
1	0,8378	0,774	0,946
2	0,8427	0,786	0,945
3	0,8436	0,785	0,949
Moyenne ± écart	0,8414 ± 0,003	0,782 ± 0,005	0,947 ± 0,002

Un écart de 0,003 entre graines signifie que le résultat est stable.

Balayage de compression (test)

Bloc	MRR	Hits@1	Hits@10	Compression
Maître flottant	0,847	0,790	0,949	1×
B=256	0,794	0,717	0,939	3,2×
B=128	0,752	0,667	0,923	5,3×
B=64	0,730	0,637	0,914	8,0×
B=1 (par ligne)	0,696	0,592	0,901	15,8×

Repères du classement : TransE 0,745, RotatE 0,799, ComplEx 0,810. Notre ternaire B=128 dépasse TransE ; B=256 se situe entre TransE et RotatE.

Tête d'accord (confiance par requête)

Nous avons entraîné un petit MLP qui prend les plongements flottants (h, r) et prédit si l'élève ternaire sera d'accord avec le maître flottant sur le top-1 queue pour cette requête. Cela donne un signal de confiance par requête — cliniquement utile, car « est-ce que le modèle bon marché est fiable pour ce cas ? » est la vraie question.

Architecture : 4·D → 64 → 64 → 1 sigmoïde (D = 512).
Entraîné sur 5K requêtes de validation, perte BCE contre l'étiquette d'accord.
AUC test : 0,755. Brier test : 0,086.
Calibration : les requêtes avec P prédit >0,8 ont un taux d'accord réel de 59 %.

C'est l'analogue médical de la métacognition de style NEO que nous mesurons sur les modèles de chat de pointe — exposée non comme un signal de boîte noire mais comme un petit prédicteur auditable dont l'AUC et le Brier sont rapportés à chaque version.

Pipeline de prédiction de candidats

Pour une maladie cible D (UMLS CUI) :

Localiser l'ID d'entité de D dans l'espace maladie d'OGBL-biokg.
Pour chaque médicament, calculer le score du triplet (médicament, drug-disease, D) avec chaque maître par graine ; moyenner sur les graines.
Filtrer les médicaments qui apparaissent déjà dans un triplet (médicament, drug-disease, D) des splits train, valid ou test d'OGBL-biokg.
Retourner les 20 meilleurs par score moyen, avec l'écart-type entre graines comme colonne de stabilité.
Pour chaque candidat, consulter les indications via l'API ChEMBL drug-indication (avec UniChem pour mapper PubChem CID → ChEMBL ID) et l'API GraphQL Open Targets. Marquer les candidats ayant au moins une indication pour D.

Ce que nous n'avons pas fait

Pas d'entraînement avec quantification dans la boucle. L'élève ternaire est quantifié post-hoc (absmean) depuis le maître flottant entraîné ; pas de QAT.
Pas de validation clinique ou expérimentale. La corroboration est purement contre des bases publiques. Aucun candidat n'a été testé in vitro ou in vivo par nous.
Pas de modélisation de préférence / contre-indication sur OGBL-biokg. Le modèle ne connaît ni la dose, ni la voie, ni l'âge, ni les comorbidités. Il classe la plausibilité d'association sous la relation (médicament, drug-disease, *) telle que définie dans OGBL-biokg, rien de plus. PrimeKG ajoute contraindication comme relation de première classe — voir le suivi PrimeKG.
Pas de run multi-graines sur la tête d'accord. La tête a été entraînée une fois ; les bandes de reproductibilité ne sont pas encore mesurées pour elle.

Références

Trouillon et al., 2016. Complex Embeddings for Simple Link Prediction.
Lacroix et al., 2018. Canonical Tensor Decomposition for Knowledge Base Completion.
Hu et al., 2020. Open Graph Benchmark: Datasets for Machine Learning on Graphs.
Chandak, Huang & Zitnik, 2023. Building a knowledge graph to enable precision medicine. Nature Scientific Data.
ChEMBL : www.ebi.ac.uk/chembl
Open Targets : platform.opentargets.org