banner

Nachricht

Dec 25, 2023

Edge- und modulare Signifikanzbewertung im Einzelfall

Scientific Reports Band 13, Artikelnummer: 7868 (2023) Diesen Artikel zitieren

266 Zugriffe

1 Altmetrisch

Details zu den Metriken

Individuenspezifische Netzwerke, definiert als Netzwerke von Knoten und Verbindungskanten, die für eine Person spezifisch sind, sind vielversprechende Werkzeuge für die Präzisionsmedizin. Wenn solche Netzwerke biologisch sind, wird die Interpretation funktionaler Module auf individueller Ebene möglich. Ein wenig untersuchtes Problem ist die Relevanz- oder „Signifikanz“-Bewertung jedes einzelnen individuellen Netzwerks. In diesem Artikel werden neuartige Verfahren zur Bewertung der Kanten- und Modulsignifikanz für gewichtete und ungewichtete individuenspezifische Netzwerke vorgeschlagen. Konkret schlagen wir einen modularen Cook-Abstand vor, der eine Methode verwendet, die die iterative Modellierung einer Kante im Vergleich zu allen anderen innerhalb eines Moduls beinhaltet. Es werden auch zwei Verfahren vorgeschlagen (LOO-ISN, MultiLOO-ISN), die Änderungen zwischen der Verwendung aller Individuen und der Verwendung aller Individuen unter Auslassung eines Individuums (LOO) bewerten und auf empirisch abgeleiteten Kanten basieren. Wir vergleichen unsere Vorschläge mit Wettbewerbern, einschließlich Anpassungen der OPTICS-, kNN- und Spoutlier-Methoden, durch eine umfangreiche Simulationsstudie, die auf realen Szenarien für Gen-Koexpression und mikrobielle Interaktionsnetzwerke basiert. Die Ergebnisse zeigen die Vorteile der Durchführung modularer gegenüber kantenweisen Signifikanzbewertungen für individuell spezifische Netzwerke. Darüber hinaus gehört die modulare Cook-Distanz in allen betrachteten Simulationseinstellungen zu den Spitzenreitern. Schließlich ist die Identifizierung abgelegener Individuen hinsichtlich ihrer individuenspezifischen Netzwerke für Zwecke der Präzisionsmedizin von Bedeutung, wie durch die Netzwerkanalyse von Mikrobiom-Häufigkeitsprofilen bestätigt wird.

Bei der Analyse der Beziehung zwischen biologischen Merkmalen und komplexen Merkmalen ist es oft unmöglich, das Ergebnis oder den Phänotyp mit einem einzelnen Gen oder einem einzelnen Signalweg zu charakterisieren1, und es sind fortgeschrittenere Charakterisierungen erforderlich. Komplexe Krankheiten haben keine eindeutige Ursache, sondern resultieren aus einer Anhäufung verschiedener und interagierender Variationen2. Fortschritte in der Biotechnologie, wie die Entwicklung hochauflösender Bildgebungsmodalitäten und Hochdurchsatz-Sequenzierungsmethoden, haben hochdimensionale, voneinander abhängige Daten über wachsende Sammlungen von Individuen verfügbar gemacht. Solche Daten müssen robust und stabil analysiert werden. Die Netzwerkmedizin ermöglicht es, über univariate Analysen hinauszugehen und die Komplexität biologischer Netzwerke zu erfassen2,3.

Netzwerke eignen sich gut zur Visualisierung und Analyse vielfältiger biologischer Prozesse in der Medizin. Ein Netzwerk ist eine Sammlung verbundener Objekte. Die Objekte werden als Knoten oder Vertices bezeichnet. Sie werden normalerweise als Punkte visualisiert. Verbindungen zwischen den Knoten werden als Kanten oder Links bezeichnet. Diese werden grafisch als Linien zwischen Punkten gezeichnet. An solche Netzwerke können zusätzliche Informationen angehängt werden, beispielsweise Knotenbezeichnungen oder Kantengewichte. Ein Modul ist ein Teilnetzwerk, das aus einer Teilmenge ausgewählter Knoten und Kanten besteht. Die Netzwerkmodularität misst die Stärke der Aufteilung eines Netzwerks in Module. Weitere Einzelheiten finden Sie in Tabelle S1. Graphentheoretische Konstrukte wie Module können in prädiktiven oder deskriptiven Modellen robuster und effektiver sein als herkömmliche klinische Variablen4. Sie werden häufig zwischen Diagrammen verglichen, wobei jedes Diagramm einen anderen Zustand oder Zustand darstellen kann (z. B. erkrankt oder gesund). Wie wir später sehen werden, können Netzwerke auch für jeden Einzelnen separat aufgebaut werden.

Populationsbasierte biologische Modelle, die Kanten in biologischen Netzwerken ableiten, indem sie Proben zusammenfassen oder eine einzigartige Netzwerkverkabelung festlegen, die für alle Individuen einer Zielgruppe gilt, wurden verwendet, um Merkmale für nachgelagerte fundierte Analysen zu extrahieren5 oder um die Erkennung und Interpretation von Epistase mithilfe des Genoms zu steuern -weite Assoziationsstudiendesigns6. Auch aus der Sicht der personalisierten Medizin haben sie gezeigt, dass sie dabei helfen, patientenspezifische Schlussfolgerungen zu ziehen (z. B. 7). Allerdings ist ein „One-Size-Fits-All“-Medikament nicht mehr akzeptabel8,9 und die Extrapolation von Schlussfolgerungen aus bevölkerungsbezogenen Netzwerken ist möglicherweise nicht spezifisch genug für eine bestimmte Person. Während statistische Interaktionen auf Bevölkerungsebene stattfinden, finden biologische Interaktionen darüber hinaus auf individueller Ebene statt10. Angesichts der Tatsache, dass biologisch relevante Interaktome von Individuum zu Individuum variieren können, hat der Aufbau individuenspezifischer Netzwerke mit individuenspezifischen Kanten wachsendes Interesse gefunden.

Hier definieren wir ein individuenspezifisches Netzwerk (ISN) als ein Netzwerk, das ein einzelnes Individuum beschreibt, mit Kanten (Kantengewichten), die zwischen Individuen unterschiedlich sein können. Folglich bedeutet der Vergleich von ISNs den Vergleich potenziell unterschiedlicher Netzwerkverkabelungen. Beispiele für ISNs, die dieser Definition entsprechen, sind die differenziellen Netzwerke von 11,12 und die abgeschlossenen Netzwerke von 13,14,15. In differenziellen Netzwerken werden individuenspezifische Kantengewichte durch den Vergleich von bevölkerungsbasierten Kantengewichten zwischen der Gesamtpopulation und der Population mit dem hinzugefügten oder entfernten Individuum erhalten. Daher enthalten Kanten Informationen über den Einfluss eines Individuums auf eine Population. In abgeschlossenen Netzwerken ist jede ISN eigenständig und geht davon aus, dass eine Person aus einer Verteilung stammt, wobei das bevölkerungsbasierte Referenznetzwerk das erwartete Netzwerk ist. Die Untersuchung neuer Methoden zur Messung von Variationen, beispielsweise anhand individueller Kanten und Module, kann eine andere Perspektive auf die Analyse vorhandener Daten bieten und die Identifizierung von Endotypen, die Risikovorhersage und die Behandlungsplanung verbessern.

Personenspezifische Netzwerke sind kein neues Konzept. Im Prinzip können wir, sobald wir über genügend Informationen über eine Person verfügen, die über einen längeren Zeitraum oder unter verschiedenen Bedingungen erfasst wurden, die Vielfältigkeit ausnutzen und ein Netzwerk aufbauen, das für diese Person einzigartig ist. Mehrere Beispiele beziehen sich auf die Neurowissenschaften16,17,18,19. Andere beziehen sich auf funktionelle Netzwerke zwischen Zellen (z. B. indem sie die Positionen von Betazellen in Gewebeschnitten widerspiegeln20). Allerdings sind die gesammelten Daten häufig statisch oder beziehen sich auf eine einzelne Erkrankung. Eine der Herausforderungen von ISNs besteht daher darin, dass sie ohne wiederholte Maßnahmen im Laufe der Zeit oder unter bestimmten Bedingungen konstruiert werden können. Die ersten Kanteninferenzansätze in diesem Sinne wurden in den Jahren 21 und 13 diskutiert und entwickelt und basieren auf der Auswahl einer Referenzpopulation, dem Hinzufügen oder Entfernen eines Individuums und der Neuschätzung des Netzwerks mit der erweiterten bzw. reduzierten Population. Eine weitere Herausforderung besteht darin, relevante Informationen aus einer abgeleiteten ISN zu extrahieren. Übliche Praxis besteht darin, Informationen zu aggregieren, z. B. die Mittelung der Kantengewichte in jedem ISN, und dann nach Zusammenhängen mit interessierenden Phänotypen zu suchen (z. B. Arzneimittelreaktion und Zeit bis zum klinischen Ereignis22,23). Das häufigste Ziel von Studien, die ISNs als Eingabe verwenden, ist die Vorhersage (eine Übersicht finden Sie unter 24). Dabei geht es in der Regel darum, graphentheoretische Merkmale zu extrahieren und sie mit einem interessierenden Phänotyp zu verknüpfen. Leider kann dies dazu führen, dass das volle Potenzial der ISNs verwässert wird25. Die primäre Herausforderung wird oft unzureichend angegangen: Für welche Personen ist es wichtig, eine ISN zu erstellen und zu interpretieren?

In dieser Arbeit stellen wir uns der Herausforderung, zu beurteilen, ob sich ein konstruiertes individuenspezifisches Netzwerk erheblich von einem bevölkerungsbasierten Netzwerk unterscheidet und gleichzeitig die Netzwerkkomplexität über die Grenzen hinaus berücksichtigt. Wir tun dies, indem wir die Herausforderung als Ausreißererkennungsproblem formulieren (dh das Problem, Muster in Daten zu finden, die nicht mit dem erwarteten Verhalten übereinstimmen). Wir konzentrieren uns auf die ISNs von Kuijjer13, definiert im II. Unterabschnitt des Abschnitts „Methoden“ bei der Entwicklung und Bewertung von Rand- und modularen Signifikanzbewertungsstrategien. Diese Netzwerke werden im Folgenden als ISNs-L bezeichnet (kurz für LIONESS, der Name von Kuijjers ISNs-Ansatz). Ein notwendiger Zwischenschritt für die ISNs-L-Berechnung ist das Netzwerk, das aus einer Referenzpopulation durch Entfernen eines Individuums abgeleitet wird, das wir LOO-Netzwerk nennen. Es gibt viele Vorteile von ISNs-L-Netzwerken. Im Wesentlichen ermöglicht es die Übertragung von Netzwerkinterpretationsstrategien von der Bevölkerung auf das Individuum; es ermöglicht auch, sich auf jedes Individuum und seine/ihre spezifischen Dynamiken und Assoziationen zu konzentrieren; Schließlich geht es von der Vorstellung eines aus einer Ansammlung von Individuen abgeleiteten Netzwerks aus, das als Modell für ein durchschnittliches Individuum angesehen werden kann. Darüber hinaus vergleichen wir zur Vervollständigung die auf ISNs-L erzielten Ergebnisse mit den Ergebnissen eines anderen ISN-Ansatzes: SSN (probenspezifisches Netzwerk)21.

Unsere Arbeit überwindet die Einschränkungen der aktuellen Praktiken mit ISNs. Die größte Einschränkung besteht darin, dass die Signifikanzbewertung eines ISN normalerweise auf Statistiken mit großen Stichproben beruht, die stark korrelierte Stichproben umfassen (die sich nur durch eine einzelne Stichprobe voneinander unterscheiden). Daher bleibt die Bewertung der statistischen Signifikanz von ISNs-L und auf diese Weise die Identifizierung extremer oder außergewöhnlicher Individuen ein unzureichend untersuchtes Problem. Darüber hinaus wird die Signifikanzbewertung bestenfalls pro Kante überprüft. Beliebte Beispiele sind differenzielle Netzwerke, die 14,21,26 entwickelt wurden. Single-Edge-Signifikanzbewertungen haben Einschränkungen gemeldet27. Kanten treten möglicherweise nicht in völliger Isolation auf, sondern in einem stark verbundenen und voneinander abhängigen Ökosystem, das durch das gesamte Netzwerk vorgegeben wird. Sowohl aus analytischer als auch aus translationaler Sicht können Module daher geeignetere Instrumente sein, um die statistische Signifikanz einer Person anhand ihrer ISN zu bewerten. Nach unserem besten Wissen gibt es keinen formellen Bericht über die Modulsignifikanzbewertung im Zusammenhang mit der ISN-Ausreißererkennung.

Die Hauptbeiträge dieser Arbeit sind wie folgt: (i) Entwicklung neuartiger Methoden zur Ausreißererkennung, insbesondere eines modifizierten modularen Cook-Distanzmaßes und Leave-One-Out-Methoden (LOO-ISN und MultiLOO-ISN); (ii) Anpassung der vorhandenen Ausreißererkennungsmethoden kNN, OPTICS und Spoutlier, um ISNs zu berücksichtigen; (iii) Einführung und Bewertung der Relevanz eines neuartigen modularen Signifikanzbewertungsparadigmas mit ISNs; (iv) Bewertung anhand synthetischer Daten und Validierung anhand realer Daten bei gleichzeitiger Bewertung der Stärken und Schwächen der betrachteten kantenorientierten und modulorientierten Strategien. Dieser Artikel schließt die Literaturlücke, indem er ein Signifikanzmaß für ISNs entwickelt, das es ermöglicht zu entscheiden, welche Personen von einer personenspezifischen Netzwerkanalyse profitieren würden.

Der Aufsatz ist wie folgt aufgebaut. Wir unterteilen den Abschnitt „Ergebnisse“ in drei Unterabschnitte: zwei umfangreiche Simulationsstudien mit unterschiedlichen Verteilungsannahmen und eine Mikrobiom-Datenanwendung. Hyperparameter dürfen entsprechend einem Auswahlraster variieren. Der Abschnitt „Diskussion“ stellt die wichtigsten Erkenntnisse vor und schlägt neue Forschungsfragen vor. Im Abschnitt „Methoden“ beschreiben wir Daten und Methoden. Weitere Details werden als Zusatzmaterial präsentiert. Ein Glossar der Terminologie finden Sie in der Ergänzungstabelle S1.

Die Leistung der vorgeschlagenen Methoden zur Erkennung von Ausreißern wird anhand synthetischer und realer Daten bewertet und verglichen. Unser realer Anwendungsfall ist eine Studie zum menschlichen Mikrobiom. Die synthetischen Daten spiegeln zwei Szenarien wider: eines mit Genexpression und eines mit mikrobiellen Profilen, die für eine Population von Individuen verfügbar sind. Diese beiden Szenarien implizieren unterschiedliche zugrunde liegende Verteilungen zur Generierung der Daten, wobei davon ausgegangen wird, dass die Genexpression normalverteilt ist und bei mikrobiellen Daten die Zusammensetzung der Daten berücksichtigt wird. In synthetischen Daten werden Ausreißer- und Nicht-Ausreißer-Individuen aus zwei unterschiedlichen Verteilungen ausgewählt, wobei jede einzelne unterschiedliche Parameterwerte verwendet, d. h. eine unterschiedliche Varianz/Kovarianz-Matrix, die die Zusammenhänge zwischen Variablen quantifiziert; Somit ist die Grundwahrheit bekannt, dh ob eine Person ein Ausreißer ist (1) oder nicht (0). Anhand des simulierten Analysedatensatzes (Dimension: \(N \times k\), mit N Individuen und k Variablen) haben wir die Pearson-Korrelation berechnet, um das bevölkerungsbasierte Netzwerk zu erstellen (Dimension \(k \times k\)). Im bevölkerungsbasierten Netzwerk haben wir die ISN für jede Person berechnet. Diese ISNs stellen die Eingabe für die vorgeschlagenen Methoden zur Ausreißererkennung dar, wobei die individuenspezifischen Kantengewichte den Merkmalssatz bilden. Die verschiedenen Schritte sind in Abb. S1 dargestellt. Daher wird für jedes Individuum seine Grundwahrheit mit der durch jede Methode berechneten Rangfolge der Ausreißer verglichen. Der Outlier Score (OS) für eine bestimmte Person ist der Grad, in dem eine bestimmte Methode die Person als Ausreißer klassifiziert. Der Vergleich der Wirksamkeit verschiedener Methoden wird unter verschiedenen experimentellen Bedingungen und unter Verwendung eines vorgegebenen Rasters von Hyperparameterwerten durchgeführt. Als Fallstudie aus der Praxis betrachteten wir einen Teil der LucKi-Kohorte28 mit im Laufe der Zeit gesammelten Mikrobiomen von Säuglingen. Die Erforschung von Methoden zur Identifizierung sinnvoller Module in einem Netzwerk ist ein weites Feld, das den Rahmen dieses Dokuments sprengt. Die vorgeschlagenen Methoden sind unabhängig vom gewählten Modulerkennungsalgorithmus. Für die reale Fallstudie verwendeten wir den SPINGLASS29-Algorithmus zur Identifizierung von Modulen.

Die in diesem Artikel bewerteten und verglichenen Methoden gehören zu einer der folgenden Gruppen: (i) neuartige Vorschläge, (ii) Anpassungen bestehender Methoden und (iii) Methoden aus der wissenschaftlichen Literatur. Von den Methoden der wissenschaftlichen Literatur wurde bisher nur über SSN21 im ISN-Bereich berichtet. Da Liu21 eine Signifikanzbewertungsmethode und eine Netzwerkkonstruktionstechnik einführt, die beide üblicherweise als SSN bezeichnet werden, werden wir sie als SSN-m bzw. SSN-n bezeichnen. Darüber hinaus werden Methoden je nach ihrer Begründung in die folgenden Familien eingeteilt: (i) Leave-One-out, (ii) Cook-Distanz, (iii) Spoutlier und (iv) kNN und OPTICS. Die Leave-One-Out-Familie (LOO) nutzt die Auswirkungen aus, die sich daraus ergeben, dass jeweils nur eine Person aus dem Analysedatensatz entfernt wird. es enthält; (i) LOO-ISN, (ii) MultiLOO-ISN und (iii) SSN-m. Die Cook-Distanzfamilie ist eine Sammlung modularer Cook-Distanzaggregationen, einschließlich unserer Vorschläge, die als bezeichnet werden: Cook-Medium, Cook-Max und Cook-Mittelwert, die sich durch die verwendete Aggregationsfunktion unterscheiden, d. h. jeweils Median, Maximum und Mittelwert. Ein iteratives Verfahren berechnet Cook-Distanzen. Der Algorithmus betrachtet eine Kante als Ziel und sagt ihren Wert (Kantengewicht) anhand aller anderen Kanten voraus, die zum gegebenen Modul gehören. Die Familie Spoutlier geht auf das Werk von Sugiyama30 zurück und verwendet einen festen Bezugssatz in den nächsten Nachbarn. Wir bezeichnen die ursprüngliche Implementierung als Spoutlier-l. Die Anpassungen der Spoutlier-Methoden werden als OTS bezeichnet und drehen sich um alternative Abstandsmaße, Referenzsatzberechnungen und Ensembling. OTS-Euklidisch und OTS-Kosinus nutzen euklidische Distanz bzw. Kosinus-Unähnlichkeit, und beide verwenden einen modifizierten Referenzsatz als Spoutlier-l. MOTS euc und mOTS cosinus sind ein Ensemble aus OTS euklidischem bzw. OTS cosinus. Schließlich verwendet mOTS glob sowohl den OTS-Euklidischen als auch den OTS-Kosinus als Basisprädiktoren.

Nach unserem besten Wissen wurden Methoden der kNN31- und OPTICS32-Familie noch nie im ISN-Bereich angewendet. Für jede Methode haben wir mehrere Hyperparameterwerte untersucht. In der kNN-Familie ist kNN 5,\(\sqrt{N}\) mit den Parametern \(k_{min}\) und \(k_{max}\) auf 5 gesetzt und \(\sqrt{N}\) erreicht die besten Simulationsleistungen und wird daher als kNN bezeichnet. Eine ausführliche Beschreibung aller Methoden und Parametereinstellungen finden Sie im Abschnitt „Methoden“ sowie eine ausführliche Tabelle S2 mit den Merkmalen aller Akronyme im Abschnitt „Ergänzend“. Die oben genannten Methoden werden auf ISNs-L angewendet, zu Vergleichszwecken wurden jedoch dieselben numerischen Experimente auf SSN-n durchgeführt. Ergebnisse aus der Anwendung der SSN-n-Methoden werden mit dem Suffix -n gekennzeichnet.

Schließlich wurden numerische Experimente auf der Grundlage synthetischer Daten ausgewertet, indem der berechnete Ausreißer-Score OS mit der Grundwahrheit GT verglichen und so eine ROC-Kurve erstellt wurde. Als Leistungsmaß wird die Fläche unter der Kurve AUC verwendet.

Dieses Simulationsschema zielt darauf ab, Gen-Koexpressionsnetzwerke nachzuahmen. Weitere Einzelheiten zu den Merkmalen von Gen-Koexpressionsnetzwerken finden Sie in der Ergänzungstabelle S1. Wir haben ein experimentelles Raster erstellt, indem wir synthetische Daten für verschiedene Werte der folgenden Parameter generiert haben; Stichprobengröße N, Modulgröße k, Anzahl der Ausreißer M und Wahrscheinlichkeitsverteilung, die Ausreißer generiert (weitere Details im Abschnitt „Synthetische Daten“ der „Methoden“). Jeder Eintrag (Zeile) des experimentellen Rasters wird als Einstellung bezeichnet, die aus 200 Läufen besteht. Bei jedem Lauf wird ein Datensatz ausgegeben, dessen Zeilen Einzelpersonen und dessen Spalten Variablen (Knoten) zugeordnet sind. Darüber hinaus ist jeder Zeile eine binäre Variable, die Grundwahrheit, zugeordnet, die angibt, ob eine Person ein Ausreißer ist oder nicht.

Der Datensatz wird zur Berechnung des bevölkerungsbasierten Netzwerks (Dimension \(k\times k\)) verwendet, dessen Basiselement die Assoziation zwischen den Knoten \(v_i\) und \(v_j\) ist. Dieses bevölkerungsbasierte Netzwerk charakterisiert die Assoziationen (in unserer Arbeit Pearson-Korrelation) zwischen den Variablen und definiert die Adjazenzmatrix. Aus dem bevölkerungsbasierten Netzwerk wird ein einzelnes Netzwerk (ISNs-L oder SSN-n21) als nachgelagerte Analyseeingabe berechnet. Die Menge der individuenspezifischen Kantengewichte in einem Modul bildet den Funktionsumfang der Ausreißererkennungsmethoden.

Eine Erkenntnis wird als Ergebnis der Anwendung einer Methode auf eine Umgebung definiert; Für jede Realisierung wird das Betriebssystem für jedes individuelle Netzwerk berechnet, wodurch die Unterstützung für das Individuum als Ausreißer quantifiziert wird. Daher können diese Bewertungswerte in eine Rangfolge gebracht werden, um die Personen zu finden, bei denen es sich am wahrscheinlichsten um Ausreißer handelt. Anschließend fassen wir für jede Methode und für jede Einstellung die Ergebnisse der entsprechenden 200 Läufe mit der mittleren AUC aufgrund ihrer Robustheit gegenüber Extremwerten zusammen. Als grobe Zusammenfassung bilden wir den Durchschnitt über alle Einstellungen und berechnen die mittleren und mittleren AUC-Werte für jede Methode. Diese Ergebnisse sind in Tabelle 1 aufgeführt.

Cooks Med erreicht den besten mittleren AUC-Wert (0,920), während mOTS-Cosinus den besten mittleren AUC-Wert (0,866) erreicht. Die OPTICS-Methoden sind nicht effektiv und erzielen Leistungswerte, die kaum besser sind als eine zufällige Schätzung. Schließlich erreichen weder kNN noch mOTS euc einen aggregierten AUC-Wert von mehr als 0,7, während alle Leave-One-Out-Methoden (MultiLOO-ISN, LOO-ISN, SSN-m) aggregierte AUC-Werte von weniger als 0,64 erreichen. Wie im Abschnitt „Methode“ ausführlich erläutert, gelten nicht alle Methoden für jede Einstellung, sodass der Vergleich unvollständig ist. Aus Gründen der Übersichtlichkeit werden in Tabelle 1 nur die Top-Methoden für jede Familie im Hinblick auf die AUC aufgeführt. Eine umfassende Tabelle S3 ist in der Ergänzung verfügbar.

In diesem Abschnitt werden verschiedene Methoden hinsichtlich der erzielten Leistung verglichen, wenn die erfassten synthetischen Daten nach der Stichprobengröße N = \(\{100.500,1000,2000\}\) gruppiert werden. Durch den Vergleich verschiedener Spoutlier-Implementierungen im Single-Shot (dh die einmal angewendete Methode, kein Ensemble) schneidet OTS-Kosinus deutlich besser ab als OTS-Euklidisch. Wie in Abb. 1a,b hervorgehoben, erreichen OTS- und mOTS-Cosinus einen AUC-Wert im Bereich von 0,75 bis 0,90. Euklidische Gegenstücke erreichen einen AUC-Wert von weniger als 0,65. Gleichzeitig wird kein Unterschied zwischen dem Spoutlier-l-Ansatz in der Literatur und dem benutzerdefinierten euklidischen OTS-Ansatz festgestellt: Die eingeführte Referenzsatzberechnung schneidet weder besser noch schlechter ab als der in der Literatur verwendete Ansatz. Die vorgeschlagenen Ensemble-Implementierungen erzielen bessere Ergebnisse als ihre Single-Shot-Pendants. Die Berücksichtigung des Medians der OTS-Vorhersagen über alle Wiederholungen ist äußerst effektiv. mOTS-Kosinus ist die beste Spoutlier-Methode und erreicht einen AUC-Wert von mehr als 0,8 für jeden Wert von N.

Synthetische Daten: normalverteilt. AUC-Werte verschiedener Methoden. (a) Single-Shot-Spoutlier-Methoden werden verglichen. Der OTS-Kosinus dominiert gleichmäßig den kanonischen OTS-Euklidischen. (b) Die Ensemble-Methoden werden verglichen, und der mOTS-Kosinus ist der beste für alle Werte der Stichprobengröße N. (c) Die p-Wert-erbringenden Methoden werden verglichen, und MultiLOO-ISN übertrifft die Gegenstücke. (d) Die übrigen Methoden werden verglichen, wobei Cooks Med durchgängig für alle Werte der Stichprobengröße N dominiert. Im unteren Bereich werden ausgewählte Methoden verglichen. e) Der Vergleich umfasst alle Einstellungen: mOTS-Cosinus- und Cook-Methoden (sowohl Cook's Med als auch Cook's Max) dominieren durchweg ihre Gegenstücke. f) Der Vergleich ist auf Einzelkanten-Einstellungen (\(k=2\)) beschränkt: Keine Methode erreicht einen AUC-Wert größer als 0,7.

Methoden, die p-Werte liefern, also LOO-ISN, MultiLOO-ISN und SSN-m, stellen einen relevanten Aspekt der aktuellen Studie dar und bieten einen klaren Schwellenwert für die Erkennung von Ausreißern. Ein Vergleich zwischen diesen Methoden ist in Abb. 1c dargestellt und zeigt, dass MultiLOO-ISN LOO-ISN für alle Werte der Stichprobengröße N übertrifft. Bemerkenswert ist, dass für die Literaturmethode SSN-m nur eine einzelne Kante (\(k=2) gilt \)) Vergleich möglich, daher werden nur diese Fälle dargestellt. kNN und OPTICS erreichen nie AUC\(> 0,7\) (Abb. 1d). Darüber hinaus werden die besten Methoden für jede Familie zusammen gezeigt, um einen Einblick in ihre Leistung bei unterschiedlichen Stichprobengrößenwerten zu erhalten, Abb. 1e. Cooks Distanz und mOTS-Kosinus stechen hervor und erreichen AUC-Werte von mehr als 0,8 für alle Größenwerte N. Diese Methoden dominieren ihre entsprechenden Gegenstücke um mehr als 0,2 für jede Einstellung. Keine Methode erreicht einen akzeptablen Leistungswert, d. h. AUC\(> 0,7\), für Single-Edge-Einstellungen (Abb. 1f), was die Notwendigkeit modularer Bewertungen unterstreicht. Schließlich stellen wir einen leicht positiven Zusammenhang zwischen AUC und Stichprobengröße N fest.

In modularen Einstellungen (\(k>2\)) erzielen die angepassten Cook-Distanzmethoden, dh Cook's med und Cook's max, die besten Leistungswerte. Ihnen folgt dicht gefolgt von der mOTS-Cosinus-Methode. Durch die Gruppierung der synthetischen Daten nach Modulgröße \(k= \{2,3,5,7,9,11,17 \}\) entsteht eine positive Beziehung zwischen der Modulgröße k und der Leistungs-AUC im (m)OTS-Kosinus (Abb. 2a,b) und Cooks Distanzmethoden (Abb. 2d,e). Andere Methoden (Abb. 2c) zeigen keinen Zusammenhang mit der Modulgröße k. Entscheidend ist, dass keine Methode einen zufriedenstellenden Leistungswert in der Single-Edge-Analyseeinstellung erreicht: Wenn k = 2, erreicht jede Methode einen AUC-Wert kleiner als 0,6. Allein aus diesen Ergebnissen geht die begrenzte Aussagekraft einer Kante hervor. Weitere bemerkenswerte Erkenntnisse ergeben sich aus dem Vergleich der Spoutlier-Methoden (Abb. 2a, b). Die Obergrenze für den Euklidischen Wert von mOTS liegt bei 0,7, während der Kosinus von mOTS für große Modulgrößen k einen AUC-Wert von mehr als 0,9 erreicht. Die AUC des mOTS-Globs hängt positiv mit der Modulgröße k zusammen und ist grob gesagt etwa 0,05 schlechter als der mOTS-Kosinus. Die Leistung von mOTS glob ist zwar suboptimal, weist jedoch darauf hin, wie wertvoll es ist, sowohl eine arithmetische als auch eine geometrische Sichtweise zu kombinieren. Das Szenario ist eine Kopie der Single-Shot-Einstellung: Der OTS-Kosinus hängt positiv mit der Modulgröße k zusammen, und die Ergebnisse sind um mehr als 0,2 besser als das euklidische OTS-Gegenstück für hohe k-Werte.

Synthetische Daten: normalverteilt. Mittlere AUC auf der y-Achse und Modulgröße k auf der x-Achse. (a) Single-Shot-Methoden von Spoutlier werden verglichen. Der OTS-Kosinus dominiert gleichmäßig sein euklidisches Gegenstück (OTS-Euklidisch) für \(k>2\). (b) Die Ensemble-Methoden der Spoutlier-Familie werden verglichen, und der mOTS-Kosinus ist der beste für \(k>2\). (c) p-Wert-Ergebnismethoden werden verglichen und MultiLOO-ISN erzielt die beste Leistung für \(k\ge 5\). (d) Die übrigen Methoden werden verglichen, wobei Cooks Med durchweg alle anderen dominiert, wenn \(k>2\). Im unteren Bereich werden ausgewählte Methoden miteinander verglichen. (e) Der Vergleich umfasst alle Einstellungen: Kosinusbasierte OTS- und Cook-Distanzmethoden dominieren durchweg ihre Gegenstücke, wenn \(k>2\). Unter den \(k=2\)-Einstellungen erreicht keine Methode eine zufriedenstellende Leistung.

Abbildung S2 zeigt, dass die Anzahl der Ausreißer keinen Einfluss auf das Verhalten von AUC in Bezug auf die Modulgröße k hat. Bei einer Änderung der Anzahl der Ausreißer M = \(\{1, 5, 10\}\) scheint die relative Rangfolge der Methoden stabil zu sein. Darüber hinaus ändert sich die Steigung zwischen der Leistungs-AUC und der Modulgröße k nicht. Die Leistung, d. h. die mittlere AUC über alle Läufe, die mit den besten Methoden erreicht wird, steht in einem negativen Zusammenhang mit der Anzahl der Ausreißer M: Wenn mehr Personen Ausreißer sind, nimmt die Leistung ab. Darüber hinaus besteht keine Wechselwirkung zwischen der Anzahl der Ausreißer M und der Modulgröße k. Cooks Distanzmethoden, also Cooks max und Cooks med, dominieren andere Methoden unabhängig von der Anzahl der Ausreißer M. Diese Methoden zeigen auch Robustheit für die Anzahl der Ausreißer M, indem sie in allen Einstellungen, insbesondere in Bezug auf diese, einen stabilen Leistungswert erzielen Fälle, in denen die Modulgröße k groß ist.

Dieses Simulationsschema zielt darauf ab, mikrobielle Koexistenznetzwerke nachzuahmen, die in der Ergänzungstabelle S1 ausführlich beschrieben werden. In diesem Abschnitt präsentieren und diskutieren wir die Leistung, die mit Methoden in einem mikrobiellen Simulationsschema erzielt wird. Eine Teilmenge des Gitters, das zur Simulation normalverteilter Daten verwendet wird, wird mit einem Gitter kombiniert, das explizit für Kompositionssimulationen entwickelt wurde, wodurch der Rechenaufwand erhöht wird. Im Einzelnen sind zusätzliche Parameter (i) Datenheterogenität, (ii) Multiplikationsfaktor (Mult)-Multiplikator zur Unterscheidung des Variablensatzes (Knotens) jedes Einzelnen zwischen Ausreißern (auch als Fälle bezeichnet) und Nicht-Ausreißern (Kontrollen) und (iii ) das Verhältnis der überhöhten Taxa zur Gesamtzahl. Daher entwickeln wir eine parallele Implementierung, bei der mehrere Instanzen derselben Simulationseinstellung mit unterschiedlichen Zufallsstarts durchgeführt wurden. Der gesamte Versuchsplan umfasst 150 Durchläufe für jede Einstellung, die im Raster des erweiterten Parameters enthalten ist (insgesamt 972 Einstellungen).

Anschließend erstellen wir nach dem gleichen Verfahren wie im vorherigen Abschnitt die ISNs-L- und SSN-n-Netzwerke für die Downstream-Analyse. Für jede Realisierung wird der entsprechende AUC-Wert berechnet und über alle 150 Läufe gemittelt, um den mit jeder Methode erzielten mittleren AUC-Wert zu erhalten.

Wir identifizieren den Grad der Datenheterogenität und den Multiplikationsfaktor als primäre Leistungstreiber. Daher ermitteln wir den Durchschnitt über alle Einstellungen, gruppiert nach dem primären Leistungstreiber, d. h. Datenheterogenität und Multiplikationsfaktor, und berechnen die mittleren und mittleren AUC-Werte für jede Methode. Tabelle 2 berichtet über die mittleren und mittleren AUC-Werte ausgewählter Methoden unter verschiedenen Datenheterogenitäts- und Multiplikationsfaktoreinstellungen. Für eine ausführliche Analyse verweisen wir den interessierten Leser auf das Supplementary.

Die mit verschiedenen Methoden erzielten Leistungen korrelieren positiv sowohl mit der Datenheterogenität als auch mit dem Multiplikationsfaktor. Die besten AUC-Werte erreichen wir, wenn Mult = 2 und Datenheterogenität = hoch (Tabelle 3). Die kNN- und die LOO-ISN-Methode gehören durchweg zu den leistungsstärksten Methoden für alle Einstellungen. Die euklidischen Methoden OTS, also sowohl OTS als auch mOTS euklidisch, sind zusammen mit Cooks Distanzmethoden konkurrenzfähig. Darüber hinaus erreicht keine Methode eine AUC \(>0,51\) in Einstellungen mit Mult = 1,1. In diesem Szenario ist die Diskrepanz zwischen Fällen und Kontrollen gering.

Wir heben die Hauptunterschiede zwischen den betrachteten Methoden hervor, indem wir uns auf Umgebungen mit hoher Heterogenität und hohem Multiplikator konzentrieren, dh einer hohen Differenzierung zwischen Taxa in Fällen und Kontrollpersonen. kNN erreicht die besten mittleren (0,801) und mittleren (0,803) AUC-Werte. Zu den Besten, die sowohl mittlere als auch mittlere AUC-Werte von mehr als 0,77 erreichen, gehören LOO-ISN, Spoutlier-L, Cook's max, OTS euklidisch und mOTS euc. Kosinusähnlichkeitsbasierte Methoden OTS erreichen niedrige AUC-Werte und scheinen für die Lösung der Aufgabe nicht geeignet zu sein. Darüber hinaus stellen wir fest, dass unterschiedliche Auswahlmöglichkeiten für Methodenparameter, mit Ausnahme des Distanzmaßes im Fall von OTS, nur einen geringen oder keinen Einfluss auf die endgültige Leistung haben.

Hier analysieren wir die Leistung bei der Gruppierung von Simulationsläufen nach Modulgröße k = \(\{2,5,11,17\}\). Angesichts der erheblichen Heterogenität der analysierten Daten liegt der Schwerpunkt auf der Aggregation von Iterationen in Umgebungen, in denen \(Mult=2\) und das Heterogenitätsniveau hoch ist. Bemerkenswerterweise schneidet LOO-ISN für \(k<5\) besser ab als MultiLOO-ISN, während OTS euklidisch im Gegensatz zu den Ergebnissen für Simulationen unter der Normalitätsannahme besser abschneidet als seine kosinusbasierten Gegenstücke. In Abb. 3 ist ein leicht positiver Zusammenhang zwischen der Größe k des Moduls und der Leistung (mittlerer AUC) zu beobachten, was die innere Modularität dieser Schätzungen hervorhebt.

Im Gegensatz zu dem, was wir für Simulationen unter der Normalitätsannahme beobachtet haben, ist die Bewertung für Einzelkanten-Einstellungen informativ: Die mittlere AUC liegt für die meisten der betrachteten Methoden bei etwa 0,75. Weitere bemerkenswerte Ergebnisse stammen aus dem Vergleich der Spoutlier-Methoden. Tatsächlich übertreffen euklidische Methoden ihre kosinusbasierten Gegenstücke deutlich (Abb. 3a). Bei der AUC ergibt sich durch den Einsatz einer Ensemble-Methode im Vergleich zu einer Einzelaufnahme nur ein geringfügiger Vorteil (durchschnittlich weniger als 0,05) (Abb. 3b). MultiLOO-ISN, LOO-ISN und SSN-m haben eine ähnliche Leistung für Single-Edge-Einstellungen (Abb. 3c). Cooks Distanzansätze gehören zu den leistungsstärksten, wenn die Modulgröße k hoch ist; Sie sind für kleine Modulgrößen suboptimal (Abb. 3d, e).

Synthetische Daten: kompositorisch. Mittlere AUC auf der y-Achse und Modulgröße k auf der x-Achse. (a) Single-Shot-Spoutlier-Methoden werden verglichen. Euklidische Methoden, sowohl OTS-Euklidisch als auch Spoutlier-l, dominieren den OTS-Kosinus. (b) Die Ensemble-Methoden von Spoutlier werden verglichen und mOTS euc erweist sich einheitlich als die beste Spoutlier-Implementierung, wenn \(k>2\). (c) p-Wert-Ergebnismethoden werden verglichen und MultiLOO-ISN erreicht die beste Leistung beginnend mit modularen Einstellungen, d. h. \(k>5\). In (d) werden die übrigen Methoden verglichen, wobei kNN und Cooks Max ihre Gegenstücke durchweg dominieren. Im unteren Bereich werden ausgewählte Methoden miteinander verglichen. Bei (e) umfasst der Vergleich alle Einstellungen: KNN, mOTS euc, LOO-ISN, Cook's max und Cook's med erzielen durchweg gute Leistungen.

Wie in Abb. S3 dargestellt, wird das Verhalten von AUC in Bezug auf die Modulgröße k nicht durch die Anzahl der Ausreißer M beeinflusst. Die relative Rangfolge der Methoden scheint in Bezug auf die Anzahl der Ausreißer M konsistent zu sein, mit Bereich M = \ (\{1,5,10 \}\). Eine Erhöhung der Anzahl der Ausreißer M verschlechtert die Leistung aller Methoden: Keine Methode weist eine hohe Robustheit gegenüber Ausreißern auf. Schließlich nimmt die Leistungsheterogenität, also die Spanne zwischen der besten und der schlechtesten Methode, leicht zu, wenn die Anzahl der Ausreißer M zunimmt.

Es ist bekannt, dass Mikrobiom-Koexistenznetzwerke reich an Informationen über den Gesundheitszustand von Einzelpersonen sind4,33. Daher verwenden wir Daten aus der LucKi-Gut-Kohorte, einer laufenden Studie, die die Entwicklung der Darmmikrobiota im Säuglings- und frühen Kindesalter überwacht, um die Ergebnisse zu validieren.

Der LucKi Gut ist in die größere Lucki Birth Cohort Study28 eingebettet; Es konzentriert sich hauptsächlich auf Neugeborene, sammelt mikrobielle Taxa in verschiedenen Stadien nach der Entbindung und berechnet so mikrobielle Assoziationen. Das Mikrobiom im sechsten Monat wurde als Meilenstein in der Reifung der mikrobiellen Gemeinschaft identifiziert. Daher ist es Gegenstand der Analyse. Wir konzentrieren uns auf die 81 Neugeborenen, deren mikrobielle Profile im sechsten Monat verfügbar sind, und versuchen mithilfe von Signifikanzbewertungsmethoden herauszufinden, welche individualspezifischen Module gegebenenfalls am Rande liegen. Wir wenden eine Filterung basierend auf der Prävalenz mikrobieller Taxa (\(< 10\%\)) an. Alle Proben weisen eine beträchtliche Sequenzierungstiefe auf (lautet: Median = 57.248, IQR = 29.504; Minimum = 11.123); Daher wenden wir keinen Filter auf die Anzahl der Lesevorgänge an. Die resultierenden Daten setzen sich aus 81 Neugeborenen pro 126 Mikroben zusammen. Wir haben die Daten mithilfe der Centered-Log-Ratio (CLR) transformiert und das Pearson-Korrelationsnetzwerk für den gesamten Datensatz, d. h. das bevölkerungsbasierte Netzwerk, berechnet.

Die betrachteten Module sind die Cluster, die durch Anwendung des Community-Erkennungsalgorithmus SPINGLASS29 auf das bevölkerungsbasierte Netzwerk erhalten werden. Wir wenden keine Binarisierung oder verteilungsbasierte Transformationen an. Wir setzen den Parameter Stopptemperatur auf 0,001, um die Granularität des Algorithmus zu erhöhen, während die anderen Parameter auf ihre Standardwerte gesetzt werden.

Wir wenden SPINGLASS29 auf die Lucki-Gut-Kohorte an und finden 4 mikrobiotische Module der Dimension {45, 41, 35, 5} Taxa. Die Module 1–3 haben eine Größe (Anzahl der Taxa), die außerhalb der Abdeckung der Simulationen liegt (\(>17\)). Darüber hinaus bestehen die Module 1–3 gemäß der Berechnung nach 27 aus mehr Kanten als Individuen 81, und daher können nicht alle auf der Cook-Distanz basierenden Methoden verwendet werden. Modul 4, bestehend aus 5 Knoten, reicht zur Validierung unseres Ansatzes aus, da es den Moduldimensionen in den Simulationen am nächsten kommt.

Daher wenden wir herausragende Techniken aus synthetischen Daten auf die ISNs-L von Modul 4 an. Insbesondere kNN 5 \(\sqrt{N}\), mOTS euc, MultiLOO-ISN, LOO-ISN, Cook's max mOTS cosine und mOTS Kosinus -n. MultiLOO-ISN und LOO-ISN finden 7 bzw. 4 signifikante Ausreißer, dargestellt in Abb. 4a,b. Durch Rangvergleich erstellen wir ein Ensemble-Ranking der Individuen. Eine vergleichende Studie von Li et al.34 führt uns zum geometrischen Mittel der Rankings, einem der besten Metriken in Bezug auf Leistung und Generalisierbarkeit. Es besteht eine starke Übereinstimmung zwischen den Ausreißerwerten verschiedener Methoden, wobei die Korrelation im absoluten Wert höher als 0,4 ist (Abb. 4d). Beim geometrischen Mittel konzentrieren wir uns auf die Top 6 (Abb. 4c). Wir wählen 6, da bei MultiLOO-ISN und LOO-ISN zwischen 7 und 4 Ausreißer gefunden werden.

Daten aus dem wirklichen Leben: die LucKi Gut-Kohorte. Filterkurve von ISNs unter Verwendung von Fiedler-Werten als Metrik. Die Standardabweichung ist ebenfalls dargestellt. In Modul 4 (a) werden die Filterkurven von 4 mit LOO-ISN identifizierten Ausreißern (grün) im Vergleich zum Rest (rot, als „Durchschnitt“ identifiziert) dargestellt. In (b) ist die grüne Linie die Filterkurve von 7 Ausreißern, die mit MultiLOO-ISN identifiziert wurden. In (c) werden die Top-6-Ausreißer, was das geometrische Mittel der Rangliste betrifft, gegenüber dem Rest (rot) dargestellt (grün). In (d) wird die Übereinstimmung hinsichtlich der OS-Korrelation zwischen den angegebenen Methoden berechnet. In (e) werden die Top-6-Ausreißer im gesamten Netzwerk (grün) im Vergleich zum Rest (rot) dargestellt. (f) Nur 2 der Top-6-Proben im gesamten Netzwerk sind auch in Modul 4 außerhalb.

Eine weitere Validierung erfolgt durch Diagrammfilterungskurven35, d. h. Diagrammdarstellungen, die unter Verwendung der relevanten Attribute und Strukturinformationen des Diagramms auf beschriftete und unbeschriftete Datensätze angewendet werden können. Es wird ein steigender Schwellenwert berücksichtigt und die Kanten, deren Gewicht kleiner als der aktuelle Schwellenwert ist, werden auf Null gesetzt. Anschließend wird eine den Teilgraphen zusammenfassende Metrik für verschiedene Schwellenwerte berechnet. Im Detail nutzen wir die algebraische Konnektivität von Graphen, den sogenannten Fiedler-Wert36; Es misst, wie gut ein Graph verbunden ist37. Weitere Informationen finden Sie in der Ergänzung.

In Abb. 4a – c stellen wir die Ausreißergruppen im Vergleich zum Durchschnitt aller anderen ISNs-L in der Population dar und zeigen somit eine starke Trennung im angegebenen Modul. Dies bestätigt die Ergebnisse von LOO-ISN, MultiLOO-ISN und den Top-6-Ausreißern.

Wir vergleichen die Top-6-Ausreißer mit externen Phänotypen wie der Art der Entbindung (Vaginal oder Kaiserschnitt) oder der Ernährungsart (Stillen, gemischte Ernährung, feste Nahrung). Wir finden eine Bereicherung bei der Ernährung mit fester Nahrung und eine leichte Bereicherung bei der Entbindung im Kaiserschnitt (hypergeometrische Tests, p-Wert von 0,032 bzw. 0,079, mit FDR-Korrektur).

Dann betrachten wir im Extremfall das gesamte Netzwerk als Modul (Abb. 4e). Wir iterieren die Pipeline im gesamten Netzwerk (dh auf den ISNs von 81 Individuen und 126 Taxa) und ordnen die Top-6-Ausreißer ein (wie zuvor). Wir weisen darauf hin, dass das Cook-Maximum nicht berechnet wurde, da es mehr Kanten als Stichproben gibt. Wir finden eine deutliche Anreicherung bei fester Nahrung in den Top 6 (6 von 6, hypergeometrischer FDR-korrigierter p-Wert von 0,032). Es wird keine Ebene der Lieferart angereichert. Darüber hinaus befinden sich 5 der Top-6-Proben in Cluster 2 der DMM-Clusteranalyse von Gallazzo et al.38 mit denselben Daten. Wir finden jedoch keine Anreicherung (FDR-korrigierter hypergeometrischer p-Wert \(= 0,35\)). Wir finden keine Trennung in den Filterkurven, wenn wir die sechs größten Ausreißer von Modul 4 im gesamten Netzwerk heranziehen. Von den Top-6-Ausreißern in Modul 4 sind nur zwei auch Ausreißer im gesamten Netzwerk (Abb. 4f).

Personenspezifische Netzwerke erfreuen sich immer größerer Beliebtheit. Im Allgemeinen bezeichnet eine ISN ein Netzwerk, das einer einzelnen Person zugeordnet werden kann. Daher kann ein systemischer Ansatz gewählt werden, um Einzelpersonen miteinander zu vergleichen und die Heterogenität in Patienten- oder Bevölkerungsgruppen zu bewerten, was als Grundlage für die Praxis der Präzisionsmedizin dienen kann. Hier konzentrieren wir uns auf ISNs mit Kanten, die individuell spezifische Gewichte haben. Oftmals verfügen solche ISNs auch über personenspezifische Knotenwerte, da diese direkt bei der Berechnung der Kanten verwendet werden. Man kann sich jedoch Beispiele vorstellen, für die Knotenwerte nicht direkt verfügbar wären. Beispielsweise könnten individuenspezifische statistische Epistase-Netzwerke auf Genebene den epistatischen Beitrag des Individuums zu einem Populations-Epistasemodell im Sinne von Kuijjer et al.13 erfassen. Individuenspezifische Genknotenwerte wären jedoch nur verfügbar, wenn die Ableitung des Populations-Epistase-Modells die Berechnung von Genzusammenfassungen umfasst. Sobald ISNs abgeleitet sind, können sie nach hochgradig verbundenen Subnetzen abgefragt werden. Wenn ISNs molekular sind, können sie durch Anreicherungsanalysen weiterverfolgt werden, um individualspezifische signifikante Signalwege zu identifizieren. Bevor wir jedoch mit solchen Analysen beginnen, untersuchen wir zunächst, ob das Individuum als einzigartige Stichprobe behandelt werden sollte oder ob davon ausgegangen werden kann, dass das Individuum den Bevölkerungstrends folgt. Somit können Schlussfolgerungen aus Bevölkerungsmodellen ohne weiteres auf das Individuum übertragen werden. Derzeit werden ISNs häufig Interpretationsworkflows unterzogen, unabhängig davon, ob sich Kanten oder Module erheblich von dem unterscheiden, was von einer Population erwartet werden kann. Daher untersucht diese Arbeit mehrere Methoden zur Erkennung von Ausreißern, formuliert neue und übersetzt sie in den Kontext von ISNs, wobei sie über die Bewertung der Signifikanz einzelner Kanten hinausgeht.

ISNs mit personenspezifischen Kanten können auf verschiedene Arten berechnet werden. Wir haben unsere Aufmerksamkeit auf Kuijjers lineare Interpolationsmethode beschränkt, da die Konstruktionsmethode auf jede Definition einer Kante angewendet werden kann. Dies bedeutet nicht, dass jede Kantengewichtsdefinition eine optimale Leistung liefert. Kuijjer berichtete13 (und auch Jahagirdan39), dass mit Mutual-Information-Kantengewichten verrauschtere Ergebnisse erzielt werden. Darüber hinaus erfordert jede Anwendungseinstellung eine gründliche Bewertung der Angemessenheit der übernommenen ISN-Definition anhand von Simulationsdaten, die die wahre Natur der Zielanwendungsdaten erfassen. Wenn man sie auf die Pearson-Korrelation als Maß für die Assoziation zwischen zwei Knoten anwendet, ähneln Kuijjers individuenspezifische Kanten denen von Liu et al.21 (SSN-n) ziemlich ähnlich. Letzterer entwickelte einen Z-Score (SSN-m) aus ISN-Kanten, um die Signifikanz zu bewerten. Allerdings war der Typ-I-Fehler für SSN-n leicht erhöht. Für die Begründung dieser Beobachtung verweisen wir auf Jahagirdan et al.27.

In diesem Artikel werden mehrere Methoden aus verschiedenen Forschungsbereichen vorgestellt, um zu beurteilen, welches Individuum sich signifikant von der Population unterscheidet, wobei die Population über ein Netzwerk interagierender biologischer Einheiten (z. B. Gene und ihre Ausprägungen oder Mikroben und ihre Häufigkeit) beschrieben wird. Da Entitäten oft nicht isoliert arbeiten, haben wir die aktuellen, hochmodernen Methoden zur Erkennung von Stichprobenausreißern so erweitert, dass sie auf der Grundlage miteinander verbundener Messreihen für jedes Individuum funktionieren. Daher suchen wir in den Simulationen nicht nach Modulen, sondern konditionieren auf einem bestimmten Subnetzwerk und prüfen dann, ob es sich bei den einzelnen Individuen um Ausreißer handelt, die auf dem Subnetzwerk basieren. Mit unseren Techniken identifizierte abgelegene Personen, nicht in den gesamten Netzwerken, sondern in einer Teilmenge, können auf interessante Subnetzwerke von ISNs hinweisen, die für Folgeanalysen näher untersucht werden sollten. Da wir erkannten, dass Knoten, seien es Gene, Taxa oder andere biologische Merkmale, nicht isoliert (sondern in Gemeinschaften) agieren, haben wir die aktuelle Analyse auf dem neuesten Stand der Technik in Richtung eines modularen Signifikanzparadigmas erweitert.

In unserer Arbeit haben wir die Null- und Alternativhypothesen, die wir mit jeder betrachteten Ausreißererkennungsmethode testen, klar spezifiziert. Unsere simulierten Daten ahmen zwei reale Szenarien nach: (1) Transkriptom-Netzwerke (Gen-Koexpression) für die Normalverteilung und (2) mikrobielle Koexistenz-Netzwerke für die Zusammensetzungsverteilung. Die Motivation, diese beiden Anwendungskontexte auszuwählen, ist wie folgt. Die Koexpression von Genen ist der Bereich, in dem ISNs hauptsächlich eingesetzt werden. Darüber hinaus lassen sich die Lesezahlen, wie von Conesa et al.40 hervorgehoben, am besten mit einer diskreten Verteilung modellieren (als Poisson- oder negatives Binomial41,42). Sobald die Daten jedoch normalisiert wurden – einschließlich TMM und Batch-Entfernung – verlieren sie möglicherweise ihren diskreten Charakter und ähneln eher einer kontinuierlichen Verteilung. Darüber hinaus bietet die Gaußsche Verteilung zahlreiche Vorteile, z. B. dass sie eine natürliche Darstellung eines Durchschnitts für große Stichprobengrößen darstellt und Mittelwert und Abweichung völlig unabhängig sind. Die Normalitätsannahme könnte ein Problem darstellen, daher ist ihre Verwendung nur auf Szenarien beschränkt, in denen die Annahme zutrifft. Für diese speziellen Felder ist eine benutzerdefinierte Datengenerierungstechnik erforderlich. Das Mikrobiom hat einen erheblichen Einfluss auf die Gesundheit43. Darüber hinaus ist der menschliche Darm ein komplexes Ökosystem, in dem Mikroben untereinander und mit dem Wirt interagieren33. Es hat sich gezeigt, dass mikrobielle Interaktionen potenziell umfassende Informationen über verschiedene Gesundheitszustände liefern33.

Im Zeitalter der Datenwissenschaft und Präzisionsmedizin ist die robuste Erkennung von Ausreißern von großem Interesse44,45. Die Feststellung, ob eine Beobachtung angesichts der verfügbaren Daten oder einer Referenz unwahrscheinlich ist, ist eindeutig kontextabhängig. In unserem Kontext von ISNs, bei denen es sich um Netzwerke handelt, ist es sinnvoller, auf multivariate Weise nach Ausreißern zu suchen, wobei ein multivariater Ausreißer klassischerweise als eine Beobachtung definiert wird, die mit einer bestimmten Korrelationsstruktur nicht übereinstimmt. Die Komplexität der multivariaten Ausreißererkennung wird im Zusammenhang mit ISNs, die aus Tausenden von Kanten bestehen können, noch verschärft. Um die Komplexität zu reduzieren und da Module häufig die Grundeinheiten für Interpretation und Übersetzung sind, beschränken wir die Dimensionalität der multivariaten Ausreißererkennung auf die von Modulen vorgegebenen Dimensionalitäten. Daher konzentrieren wir uns auf niedrigdimensionale Simulationen, um die Dimensionalität eines realen Moduls nachzubilden. Unsere ausgewählten Methoden zur Erkennung von Ausreißern sind Vertreter der kNN-, OPTICS-, Spoutlier-, Cook-Distanz- und SSN-m-Familien und sind unbeaufsichtigt: kNN und Spoutlier haben unterschiedliche Annahmen, sind aber beide entfernungsbasierte Techniken, während OPTICS dichtebasiert ist. SSN-m (als LOO-ISN und MultiLOO-ISN) basiert auf Leave-One-Out, während Cooks Distanz sowohl statistisch als auch distanzbasiert ist. Die ursprünglich für die univariate (multivariate) Ausreißererkennung entwickelten Methoden sind SSN-m (kNN, OPTICS, Spoutlier, Cook-Distanz). Obwohl es in allen Szenarios keinen Gesamtperformer gibt, können einige Beobachtungen gemacht werden: Die größere Dimension des Moduls geht mit besseren Leistungen einher. Darüber hinaus beobachteten wir eine leichte Leistungsverbesserung durch die Erhöhung der Stichprobengröße. Der Verteilungsabstand – auf den Zusammensetzungsdaten – zwischen Ausreißern und Nicht-Ausreißern ist ein entscheidender Leistungsfaktor. Insbesondere die Parameter Mult und Datenheterogenität. Einstellungen mit Mult=1,1 stellen für alle Methoden eine große Herausforderung dar, wobei der Wert der mittleren AUC zwischen 0,5 und 0,51 liegt. In diesem Szenario ist die Diskrepanz zwischen Fällen und Kontrollen gering und wird mit keiner Methode erkannt. Daher ist es von entscheidender Bedeutung, die Eigenschaften des Zieldatensatzes weiter zu analysieren, bevor Methoden zur Erkennung von Ausreißern kurzsichtig angewendet werden.

Basierend auf der Leistung der Methoden können wir Interpretationen und Erkenntnisse formulieren. Wir zeigen, dass die vorgeschlagenen Methoden, dh die auf die Kanten angewendeten Cook-Distanzmethoden, Cook-Max und Cook-Med, die erste Wahl sind. Cooks Methoden gehören zu den besten mit mOTS-Kosinus unter der Annahme der Normalität synthetischer Daten und mit kNN und LOO-ISN unter der Einstellung der Zusammensetzung synthetischer Daten. Im Gegenteil, OPTICS schneidet durchweg schlecht ab. Eine mögliche Erklärung für ein solches Ergebnis ist, dass Cooks Konstruktion der Ökosystemsicht, die die Netzwerkmedizin charakterisiert, die richtige Bedeutung verleihen kann. Tatsächlich wird bei der Berechnung des Einflusses/der Extremität einer Kante die gesamte modulare Struktur berücksichtigt. Darüber hinaus können wir ableiten, dass wir Kanten in Transkriptomdaten aus geometrischer Sicht angehen können. Dies wird durch die bessere Leistung des mOTS-Cosinus im Vergleich zum euklidischen Gegenstück deutlich. Der algebraische Ansatz – mOTS euklidisch – liefert bessere Ergebnisse bei Mikrobiomsimulationen.

Es gibt Alternativen zu den vorgeschlagenen Methoden zur Erkennung von Ausreißern. Allerdings können auch (nichtlineare) Dimensionsreduktionsmethoden wie (nichtlineare) PCA, (Kernel-)MDS oder SNE an Zelleneinträgen der oberen diagonalen Assoziationsmatrix, die mit jedem ISN verknüpft sind, zur Identifizierung von Ausreißern verwendet werden hauptsächlich nur durch Sichtprüfung. Einige Clustering-Ansätze sind robust gegenüber Ausreißern in dem Sinne, dass sie Ausreißer als separate Cluster identifizieren: Eine aktuelle Entwicklung, die im Zusammenhang mit ISNs vielversprechend ist, ist netANOVA, ein neuartiger hierarchischer Netzwerk-Clustering-Ansatz mit baumbasierter Signifikanzbewertung46.

Echte Daten bestätigen unsere Ergebnisse. Die Studie zu den Mikrobiotadaten der LucKi Gut-Kohorte validierte die vorgeschlagenen Methoden zur Erkennung von Ausreißern bei der Suche nach lokalen Ausreißern, d. h. Beobachtungen, die keine globalen Ausreißer sind, sondern nur dann zu Ausreißern werden, wenn sie zu bestimmten Merkmalsgemeinschaften gehören. Dies ist in Mikrobiomen aufgrund ihrer erheblich heterogenen Struktur und der Bedeutung ihrer Variation von entscheidender Bedeutung47. Darüber hinaus können wir durch die Kombination der leistungsstärksten Techniken im kleinsten Modul (d. h. Modul 4) die Art der Diät und die Art der Verabreichung voneinander trennen. Insbesondere die Art der Entbindung per Kaiserschnitt ist bekanntermaßen ein Hauptfaktor für die Mikrobiota in den frühen Lebensstadien48,49,50,51. Dies unterstreicht die Fähigkeit der oben genannten Methoden, ein Signal zu erfassen. Darüber hinaus sind die sechs Personen mit den meisten Ausreißern in Modul 4 keine Ausreißer im gesamten Netzwerk, Abb. 4e. Daher liefert die lokale Ausreißererkennung ergänzende Informationen.

Bei den meisten der vorgestellten Methoden handelt es sich um Ranking-Methoden, d. h. sie liefern eine Rangfolge der Ausreißer, während die Leave-One-out-Methoden (\(LOO-ISN\) und \(MultiLOO-ISN\)) echte Klassifikatoren sind, d. h. eine p liefern -Wert. Obwohl p-Werte es einfacher machen, eine außergewöhnliche Stichprobe zu bestimmen, lieferten einige unserer besten Ergebnisse, z. B. kNN, Cook-Distanz und Spoutlier, solche p-Werte nicht. Für Ranglisten ist mehr Arbeit erforderlich, um eine Rangliste in Entscheidungen darüber umzusetzen, welche Personen tatsächlich Ausreißer sind. Der Rechenaufwand variiert je nach Methode. MultiLOO-ISN und LOO-ISN sind die rechenintensivsten Single-Shot-Techniken. Die euklidischen OTS-Ansätze sind viel langsamer als das OPTICS-Gegenstück, was die Notwendigkeit einer weiteren Optimierung verdeutlicht. Cooks Distanzmethoden sind schnell, ihre Belastung steigt jedoch mit zunehmender Modulgröße schnell an. Der vollständige Vergleich auf einem Modul der Größe \(k=5\) und mit \(N = 1000\) Stichproben ist in der Ergänzung dargestellt.

Die Auswahl der Referenzdaten war ein Diskussionspunkt in den Originalarbeiten zur Einführung von ISNs. Beispielsweise untersuchten sie in Kuijjer13 die Verwendung von Teilmengen eines anfänglichen Referenzsatzes als Hintergrund und zeigten, dass dies kaum Auswirkungen auf das spezifische Netzwerk einer Person hatte, das aus diesem Hintergrund aufgebaut wurde, insbesondere wenn die Stichprobengröße zunahm (Kuijjer et al.,13). In ähnlicher Weise bewerteten Liu et al.21 auch die Auswirkungen sich ändernder Referenzsätze und kamen zu dem Schluss, dass die Methode gegenüber kleineren Referenzsätzen robust ist. In Jaha et al.27 bewerteten sie verschiedene Auswahlmöglichkeiten für Referenzsätze. Insbesondere die Auswirkungen der Erstellung eines Nur-Fall-, Nur-Kontroll- oder Pool-Referenzsatzes. Sie kamen zu dem Schluss, dass die Verwendung reiner Kontrollreferenzsätze bei der Vorhersage zwar vorteilhaft ist, aber die Fähigkeit zur Verallgemeinerung verringert. In dieser Arbeit war die Auswahl der Referenzdaten jedoch unkompliziert. Es ist nicht möglich, Referenzsätze, die nur auf Fälle oder Kontrollen beschränkt sind, in unbeaufsichtigten Umgebungen zu verwenden. Aufgrund der Variabilität des Referenzsatzes können Probleme auftreten. Wenn es sich bei den Stichproben des Referenzsatzes um eine Mischung verschiedener Populationen handelt, werden die Ergebnisse beeinträchtigt. Der Einfluss der Wahl der Referenzdaten auf den Ausreißerstatus oder die nachgelagerte Analyse wichtiger ISNs ist Gegenstand künftiger Arbeiten. Ein Folgeprojekt zielt darauf ab, homogene Referenzsätze als Gruppen von Stichproben zu finden, die das gleiche Assoziationsmuster aufweisen.

Sobald schließlich interessante Personen herausgegriffen wurden, können diese im Kontext der Präzisionsmedizin analysiert werden, um Biomarker zu identifizieren oder mechanistische Erkenntnisse zu liefern. In Übereinstimmung mit Jahagirdan39 stellen wir fest, dass die Klassengenauigkeit bereits bei Verwendung der Kantenwerte sehr hoch ist (unveröffentlicht). Wir vermuten, dass es von Vorteil ist, so weit wie möglich von einer durchschnittlichen Kantendarstellung (dh der Pearson-Korrelation) wegzugehen. In dieser Arbeit gehen wir über die einfache Verwendung von Kantenwerten als Prädiktoren hinaus und wenden ausgefeiltere Methoden an. Es können auch fortgeschrittenere Methoden eingesetzt werden, beispielsweise das Lernen der Graphdarstellung.

Zusammenfassend lässt sich sagen, dass ISNs vielversprechende Konstrukte sind. Ihre Einführung im Kontext der Präzisionsmedizin wird von Fortschritten bei der Interpretation von ISNs, aber auch von Bewertungen zur Identifizierung abgelegener oder außergewöhnlicher Personen abhängen. Solche Personen könnten von Diagnosen oder Interventionen profitieren, die auf ihren ISNs statt auf generischen Bevölkerungsmodellen basieren. Diese Arbeit zeigt den Mehrwert modulbasierter Ausreißererkennungsmethoden gegenüber häufig verwendeten Single-Edge-Ansätzen.

Um die vorgeschlagenen Methoden zu validieren, verwendeten wir Daten aus der LucKi Gut-Kohorte, einer laufenden Studie, die die Entwicklung der Darmmikrobiota im gesamten Säuglings- und frühen Kindesalter überwacht. LucKi Gut ist in die größere Lucki-Geburtskohortenstudie28 eingebettet. Metagenomische DNA wurde mit einem benutzerdefinierten Protokoll extrahiert, das mechanische und enzymatische Lyse umfasste52. Der primäre Analyseschritt an den Proben war die mikrobielle Profilierung durch Next-Generation-Sequenzierung der hypervariablen Genregion 16S rRNA V3–V4. Anschließend wurde eine DADA2-basierte Pipeline verwendet, um Amplikon-Sequenzvarianten zu identifizieren. Das Ergebnis dieser Schritte ist eine Sammlung von 1144 Taxa-Häufigkeiten. Wir konzentrierten uns hauptsächlich auf mikrobielle Assoziationen bei Neugeborenen, die im sechsten Monat nach der Entbindung gesammelt wurden und als Meilenstein in der Reifung der mikrobiellen Gemeinschaft identifiziert wurden, wobei wir die Aufmerksamkeit weiter auf die 81 Neugeborenen beschränkten, für die mikrobielle Profile verfügbar waren.

Die Auswahl informativer Individuen und Taxa sowie das Herausfiltern von zufälligem Rauschen wurde mit einem Abundanz- und Prävalenzfilter erreicht. Nur Amplikonsequenzvarianten mit einer Prävalenz von mehr als 10 % überlebten die Filterung. Die Filterung wurde als entscheidender Schritt im Mikrobiom53 erkannt und wir haben 10 % entsprechend ausgewählt53. Nur 126 (von 1144) Taxa blieben übrig. Auf die vorgefilterten Daten haben wir eine CLR-Transformation (Centered-Log-Ratio) angewendet.

Im Allgemeinen kann ein Netzwerk durch einen Graphen \(G=(V,E)\) dargestellt werden, wobei V eine endliche, nicht leere Menge von p Knoten bezeichnet und E eine Teilmenge von \(V\times V\) ist, die enthält Paare verbundener Knoten \(e_{ij}:=(v_i,v_j)\), die als Kanten bezeichnet werden. In gewichteten Netzwerken ist jeder Kante \(e_{ij}\) ein Gewicht \(w_{ij} \in R\) zugeordnet. Siehe auch Ergänzungstabelle S1. Für individuenspezifische Netzwerke gehen wir davon aus, dass für jedes Individuum q \((q=1,\ldots , N)\) ein eindeutiges Netzwerk \(G_q=(V_q,E_q)\) existiert, wobei N die Anzahl der Individuen ist innerhalb der Studienkohorte. Darüber hinaus ist ein Teilnetz/Modul \(G^\prime =\left( V^\prime ,E^\prime \right)\) ein Netzwerk mit \(V^\prime \subseteq V\) und \(E ^\prime \subseteq E\).

Die in der Studie berücksichtigten individuenspezifischen Netzwerke wurden über Kuijjers LIONESS13 abgeleitet (siehe auch Abb. S4), wodurch für jedes Individuum in der Studie ungerichtete, gewichtete, individuenspezifische Netzwerke mit starken Eigenschaften, Leistungen und Anpassungsfähigkeit in verschiedenen Kontexten entstanden sind13 ,27,54,55. Daher wird in unserer Arbeit ein individuenspezifisches Kantengewicht \(w_{ij}^q\) für das Individuum q mit der folgenden Formel berechnet:

Dabei ist \(w_{ij}^\alpha\) das Kantengewicht im bevölkerungsbasierten Netzwerk und \(w_{ij}^{\alpha -q}\) das mit demselben Maß berechnete Kantengewicht im Netzwerk der Assoziation (Pearson-Korrelation in dieser Arbeit), jedoch ohne die q-te Beobachtung, dh das LOO-Netzwerk.

Diese Formel nutzt den Unterschied zwischen zwei Netzwerken, bei denen der einzige Unterschied in der Abwesenheit/Anwesenheit eines Individuums q besteht, um Schlussfolgerungen über die Auswirkungen des Entfernens oder Hinzufügens eines Individuums auf die Netzwerktopologie zu ziehen. Darüber hinaus liegt die Inspiration für die Formel in dem Wunsch, ISNs so zu konstruieren, dass ihr Durchschnitt nahe an dem Netzwerk liegt, das durch Zusammenfassen aller Studienteilnehmer entsteht. Die Originalarbeit zeigt effektiv, dass mit \({N\rightarrow \infty }\) und unter der Annahme, dass das Verhältnis der Gewichte zwischen bevölkerungsbasierten und LOO-Netzwerken konstant ist, die Linearität gilt und das bevölkerungsbasierte Netzwerk sichtbar ist als gewichteter Durchschnitt der ISNs (siehe13, Suppl. 5.2).

Das SSN-n-Netzwerk wird durch die Kerndifferenz \(w_{ij}^\alpha -w_{ij}^{\alpha -q}\) definiert. In der ursprünglichen Arbeit21 basierte der Referenzsatz auf den Kontrollproben, er wurde jedoch 27 auf die gesamte Population ausgeweitet. Da wir uns in einer unbeaufsichtigten Umgebung befinden, haben wir die letztere Definition verwendet.

SSN-m, LOO-ISN und MultiLOO-ISN ergeben einen p-Wert, während OPTICS, kNN und Spoutlier Ranglisten sind, also einen Ausreißerwert ergeben. Die Merkmale der Methoden sind in Tabelle 4 hervorgehoben.

Es ist wichtig, die zugrunde liegende Nullhypothese zu klären, um die Ausreißer zu finden – Individuen, die von der bevölkerungsbasierten Assoziationsstruktur abweichen. Konkret gilt für eine gegebene Kante \(e_{ij}\):

Diese Formulierung zeigt den direkten Zusammenhang zwischen \(w_{ij}^q\) und \(w_{ij}^{\alpha }\). Wenn \(H_0\) nicht abgelehnt wird, sind die bevölkerungsbasierten Schlussfolgerungen direkt auf das q-te Individuum anwendbar. Wenn der Test in die zweiseitige Ablehnungszone fällt, wird die Person als Ausreißer für die Zielkante/das Zielmodul betrachtet. Die obige Formulierung Gl. (2) ist direkt auf ein Modul verallgemeinerbar, indem die Gleichheit für jede Kante innerhalb eines Moduls erweitert wird. Wir nehmen Md als Modul und definieren \(Me = \{w_{ij} :i,j \in Md\}\) als die Menge der Kantengewichte, die zu einem Modul gehören. Daher lautet die Nullhypothese:

Jede starke Abweichung von Gl. (2) (Gl. 3 in modularen Bewertungen) ist Teil von \(H_A\). Abhängig von der Methode variiert die Formulierung von \(H_0\): (1) Für SSN-m bezieht sich \(H_0\) auf die Kantengleichheit, die auf dem Referenznetzwerk und einem Netzwerk unter Hinzufügung der Stichprobe q berechnet wurde. Im Unterabschnitt zu SSN-m zeigen wir die Äquivalenz dieses Tests mit Gl. (2). (2) Für LOO-ISN und MultiLOO-ISN lautet die Nullhypothese Gl. (2) (Gleichung (3), wenn wir die Modulsignifikanz testen). Weitere Details finden Sie in den Unterabschnitten LOO-ISN und MultiLOO-ISN. Die anderen Methoden (3), kNN, OPTICS, Spoutlier, Cook-Distanz, folgen keinem klassischen Hypothesentest-Setup, dh sie liefern keine p-Werte oder statistische Signifikanz. Sie vergeben für die Kante/das Modul jedes Einzelnen eine Bewertung, die Ausreißerbewertung. Die Rangfolge der Ausreißerbewertung liefert eine Quantifizierung des Ausmaßes, in dem der Vorsprung/das Modul einer Person außerhalb liegt.

Wenn \(H_0\) nicht abgelehnt wird, kann kein Anspruch auf die als Ausreißer getestete Kante/das getestete Modul erhoben werden. Daher muss die Zielkante/das Zielmodul nicht einzeln charakterisiert werden und die bevölkerungsbasierte Aggregation ist die beste Schätzung. Insbesondere aus Gl. (1) finden wir, dass Gl. (2) ist eine notwendige und hinreichende Bedingung für:

Daher entspricht das Testen zwischen bevölkerungsbasierten und individuenspezifischen Kantengewichten dem Testen zwischen bevölkerungsbasierten und LOO-Netzwerken gemäß der ISNs-L-Formel. Eine grafische Übersicht der Signifikanzbewertungsstrategien finden Sie in Abb. 5.

Drei verschiedene Testszenarien, um zu beurteilen, ob ein Individuum im Vergleich zu einer Population, die durch ein vollständig verbundenes gewichtetes Netzwerk repräsentiert wird (d. h. alle Knoten sind verbunden), extrem ist. (a) Das Beispiel zeigt ein Netzwerk aus 3 Knoten (3 Kanten). Dies könnte ein Modul als Teilnetzwerk des größeren bevölkerungsbasierten globalen Netzwerks sein. In (b) wird die Entfernung zwischen dem LOO-Netzwerk und dem bevölkerungsbasierten Netzwerk berechnet. Beachten Sie, dass, wenn das bevölkerungsbasierte Netzwerk aus N Individuen abgeleitet wird, das LOO-Netzwerk auf \(N-1\) Individuen basiert. SSN-m verwendet dieses Testszenario, ist jedoch auf den bivariaten Fall (2 Knoten und 1 Verbindungskante) beschränkt. In (c) sehen wir die drei betrachteten Netzwerktypen: bevölkerungsbasiert, LOO und ISN, hervorgehoben für einzelnes q. Ähnlich wie in (b) wird in (d) der Abstand zwischen dem LOO-Netzwerk und dem bevölkerungsbasierten Netzwerk mit dem Abstand zwischen dem bevölkerungsbasierten Netzwerk und dem erwarteten LOO unter der Nullhypothese von Gl. konfrontiert. (4) \(E(w_{ij}^{\alpha }) = E(w_{ij}^{\alpha -q}\)). Nullnetzwerke werden generiert, indem für N Individuen festgelegte Merkmale aus der geschätzten Varianz/Kovarianz-Matrix abgetastet werden, sodass es keinen Unterschied zwischen den Individuen gibt, was keinen Unterschied in den Kantengewichten des Netzwerks hervorruft. Dieses Testszenario gilt für die MultiLOO-ISN- und LOO-ISN-Implementierungen, wo wir weitere Informationen zum Null-Netzwerk-Sampling bereitstellen. Abbildung S5 zeigt die Pipeline im Detail. Schließlich wird für (e) das spezifische Netzwerk der Zielperson mit den ISNs anderer Personen in der Population verglichen, was zu einem Ausreißer-Score für die Zielperson führt. Die Netzwerkkantengewichte werden in den Ausreißererkennungsalgorithmen kNN, Cook's Distance, OPTICS und OTS verwendet.

SSN-m21 berechnet einen p-Wert als Transformation der Differenz zwischen \(w^{\alpha }\) und \(w^{\alpha +q}\). \(w^{\alpha +q}\) ist ein Kantengewicht, das durch Addition einer Person vor der Berechnung der Korrelation berechnet wird. SSN-m wurde in einem differenziellen Netzwerkparadigma entwickelt und daran gebunden. Das Netzwerk wurde berechnet, indem eine q-Beobachtung hinzugefügt und nicht wie bei LIONESS entfernt wurde. Diese Diskrepanz stellt kein Problem dar, da die beiden Situationen (Hinzufügen oder Entfernen einer Beobachtung) durch eine Änderung des Standpunkts in Einklang gebracht werden können. Indem wir \(PCC_n\) als die Pearson-Korrelation zweier Knoten definieren, die anhand von n Beobachtungen berechnet wurde, definieren wir \(\Delta PCC_n = PCC_{n+1}-PCC_{n}\) als die Korrelationsdifferenz beim Hinzufügen von Beobachtungen n+1 . Es ist einfach, sich mit der LIONESS-Situation in Einklang zu bringen, indem man (n+1) = N setzt und dann eine Beobachtung entfernt, was n = N-1 ergibt. Die p-Wert-Berechnung basiert auf einem z-Score, der wie folgt berechnet wird:

Die zugrunde liegende Annahme ist die Normalität der Verteilung.

LOO-ISN gehört zur Leave-One-Out-Familie. In der Einzelkanteneinstellung (\(k=2\)), mit den Knoten \(v_i\) und \(v_j\) und unter der Nullhypothese \(H_0\) gemäß Gl. (2) Die LOO-ISN-Methode führt die folgenden Schritte aus; (1) Verwenden Sie den Analysedatensatz (\(N \times k\)-Matrix mit Knotenwerten), um das bevölkerungsbasierte Netzwerk mit einem einzelnen Element \(w_{ij}^{\alpha }\) zu berechnen, d. h. mit Pearson-Korrelation in unserer Arbeit; (2) Generieren Sie simulierte Daten, d. h. N Beobachtungen aus einer bivariaten Normalverteilung mit einem Mittelwert von Null (\(\mu = 0\)), einer Einheitsvarianz und einer Korrelation gleich \(w_{ij}^{\alpha }\) ; (3) Verwenden Sie simulierte Daten, um \(\hat{w}_{ij}^{\alpha }\) zu berechnen; (4) Entfernen Sie eine Stichprobe (ind) aus den Simulationsdaten und berechnen Sie die Korrelation \(\hat{e}_{ij}^{\alpha - ind}\) für die verbleibenden Daten; (5) Berechnen Sie die Differenz zwischen \(\hat{w}_{ij}^{\alpha }\) und \(\hat{w}_{ij}^{\alpha - ind}\); 6) Entfernen Sie das einzelne q aus dem Analysedatensatz und berechnen Sie \(w_{ij}^{\alpha -q}\) für jedes \(q=1, \cdots , N\); 7) Vergleichen Sie \(w_{ij}^{\alpha } - {w_{ij}^{\alpha - q}}\), berechnet anhand des Datensatzes der Analyse, mit \(\hat{w}_{ij} ^{\alpha } - \hat{w}_{ij}^{\alpha - ind}\), berechnet anhand von Simulationsdaten, um einen zugehörigen p-Wert zu erhalten. Wie bereits in Gl. (4) entspricht dem Testen zwischen bevölkerungsbasierten und einzelnen Kanten oder zwischen bevölkerungsbasierten und LOO-Kanten.

Die obigen Schritte, die die Pipeline für die Signifikanzbewertung einer einzelnen Kante (\(k=2\)) beschreiben, lassen sich direkt für den Fall verallgemeinern, dass ein Modul (\(k>2\)) betrachtet wird. In einem solchen Fall verwenden wir jedoch eine multivariate Normalverteilung zur Generierung der Simulationsdaten in Schritt 2), wobei die Dimension der Normalverteilung der Modulgröße k entspricht. Multivariate Normalsimulationen müssen die Struktur des Netzwerks unter der Nullhypothese \(H_0\) nachahmen. Daher generieren wir N Stichproben, die der empirischen Stichprobengröße entsprechen, mit einer Normalen, wobei wir die Varianz/Kovarianz-Matrix auf die Adjazenzmatrix A setzen, mit Einträgen über die gewichteten Kantengewichte \(w_{ij}^{\alpha }\) und der mittlere Vektor (\(k \times 1\)) auf 0. Daher werden die Korrelationskoeffizienten auf dem Datensatz der Analyse geschätzt, d. h. die Kantengewichte \(w_{ij}^\alpha\) für jede Kante dazwischen zwei Knoten \(v_i\) und \(v_j\) innerhalb des Moduls. Für eine visuelle Darstellung verweisen wir den Leser auf Abb. S5.

Während die p-Wert-Berechnung in Schritt (7) in einer Einzelkanten-Einstellung unkompliziert ist, sind in der modularen Einstellung mehrere Optionen möglich. LOO-ISN summiert die Unterschiede zwischen den Dimensionen, um eine univariate Verteilungs- und Ablehnungszone zu erstellen. Daher testet es das gesamte Modul.

Wir nehmen Md als Modul und definieren \(Me = \{w_{ij}^q:i,j \in Md\}\) als die Menge der Kantengewichte, die zu einem Modul gehören. Für jedes einzelne q haben wir die Teststatistik \(T_q\) definiert als:

\(T_q\) wird dann mit der empirischen Verteilung der Differenzsumme unter der Nullhypothese \(H_0\) verglichen, d. h. \(\hat{T}=\sum _{(i,j)\in Me}{ (\hat{w}_{ij}^\alpha -\hat{w}_{ij}^{\alpha -q})}\) und ein p-Wert wird erhalten. Sowohl für LOO-ISN als auch für MultiLOO-ISN ist der Pseudocode, der die verschiedenen Schritte im Detail erklärt, im Supplementary verfügbar.

MultiLOO-ISN folgt der zuvor beschriebenen Leave-One-Out-Pipeline und unterscheidet sich nur in der Aggregation der Funktionen. MultiLOO-ISN betrachtet das Modul als Punkt in einem hochdimensionalen Raum und konstruiert eine mehrdimensionale Ablehnungszone mit so vielen Dimensionen wie Kanten im Modul. Um die Teststatistik zu berechnen, müssen wir die Ablehnungszone jedoch auf einen Skalar reduzieren. Daher wenden wir die maximale Diskrepanz (nichtlinear) an, um eine univariate Verteilung unter \(H_0\) zu erstellen.

Mit Me, der Menge der zu einem Modul gehörenden Kantengewichte, definieren wir für jedes einzelne q die Teststatistik \(T_q\) als:

Wir vergleichen dann \(T_q\) mit der empirischen Verteilung des Maximums der Differenz unter \(H_0\), d. h. \(\hat{T}=\max _{(i,j)\in Md}{(\hat {w}_{ij}^\alpha -\ \hat{w}_{ij}^{\alpha -ind})}\) und rufen Sie einen p-Wert ab.

SSN-m, MultiLOO-ISN und LOO-ISN hängen eng zusammen: Alle gehen von Normalität aus und berücksichtigen als Parameter die Stichprobengröße und die empirische bevölkerungsbasierte Korrelation \(w_{ij}^\alpha\). Sie zeigen auch ähnliche Ergebnisse bei Einzelkanteneinstellungen.

Spoutlier30 ist eine schnelle Implementierung basierend auf der kNN-Logik. Es definiert einen Referenzsatz und berechnet dann die Abstände zwischen diesem Satz und der q-Zielbeobachtung. Anschließend wird das Minimum dieser Abstände extrahiert, da die Autoren angegeben haben, dass ein Ausreißer eine Beobachtung ist, die weit von jeder Beobachtung im Datensatz entfernt ist. Der Mindestabstand dieser Abstände ist das Betriebssystem. Der einzige Parameter ist die Anzahl der Individuen im Referenzsatz s. Wir legen \(s = 20\) entsprechend den Vorschlägen im Originalpapier fest. In dieser Arbeit nehmen wir die individuenspezifischen Kantengewichte in einem Modul als unsere Merkmale.

Die Quantifizierung des OS für einen Beobachtungsteil des Referenzsatzes der Größe s ist ein Eckfall. Wenn keine Maßnahmen ergriffen werden, hätten diese Personen einen Abstand von 0, was keinen Hinweis auf ihren Ausreißergrad gibt. In der Originalarbeit überwanden die Autoren diese Einschränkung, indem sie den niedrigsten Nicht-Null-Abstand vom s-Referenzsatz berechneten. Dieser Ansatz übersieht Ähnlichkeiten im Setting mit großen Stichprobengrößen und diskreten Merkmalen; In solchen Situationen ist es plausibel, mehrere Beobachtungen mit demselben Profil, nämlich einer Wiederholung, zu haben. Wenn sich im Referenzsatz eine Replik der Zielbeobachtung befindet, sollten wir eine Entfernung von 0 nicht verwerfen. Daher haben wir eine geringfügige Änderung des ursprünglichen Codes eingeführt. Wir haben \(s+1\) Beobachtungen abgetastet, und wenn das Ziel im Referenzsatz ist, verwenden wir die anderen Beobachtungen. Andernfalls ziehen wir zufällig s aus \(s+1\) Beobachtungen.

Das Distanzmaß ist entscheidend für die endgültige Leistung. Wir schlagen die Kosinusähnlichkeit (OTS-Kosinus) vor, um die geometrische Natur der Daten zu berücksichtigen. Die Unähnlichkeit wird durch ihr Komplement berechnet. Die geometrische Kosinusberechnung erfordert einen mehrdimensionalen Merkmalsraum und ist in Einzelkantenumgebungen nicht durchführbar. Unter Berücksichtigung des bekannten Paradigmas der Weisheit der Massen56 schlagen wir eine Ensemble-Technik vor. Wir iterieren den Algorithmus (mOTS-Cosinus, mOTS-euc) mehrere (10) Mal, um eine stabilere Leistung zu erzielen. Darüber hinaus schlagen wir auch eine Kombination aus euklidischer und kosinusähnlicher Ähnlichkeit (mOTS glob) vor. Somit werden arithmetische und geometrische Facetten kombiniert. Wir haben jede Methode sowohl in SSN-n- als auch in ISNs-L-Netzwerken implementiert.

Cooks Distanz basiert auf der Modulbegründung. Ein Modul ist eine Sammlung stark assoziierter Variablen (möglicherweise Gene/Taxa). Daher nutzt die Cook-Distanz gemeinsame Informationen zwischen den Komponenten des Moduls aus, bei denen es sich um Kanten oder Knoten handelt. Die vorgeschlagene Anpassung der Cook-Distanz sagt ein Kantengewicht über ein lineares Modell voraus, das alle anderen Kantengewichte im Modul als Prädiktoren für jede Iteration verwendet. Bei einem Modul der Größe k mit der Anzahl \(k=\) der Knoten beträgt die Anzahl der paarweisen Kombinationen (Reihenfolge nicht berücksichtigt) zwischen den Kanten \(C = \frac{k(k-1)}{2}\ ). Insbesondere für \(q= \{1,\ldots ,N\}\) und \(c=\{1,\ldots ,C\}\) verwenden wir ein lineares Modell (LM), um eine Kante vorherzusagen Gewicht \(w_{ij}^q\) mit jedem anderen Kantengewicht \(w_{lm}^q\) im Modul, \((l,m) \in \{1, 2, \dots , k \ }^2\) mit \((l,m) \ne (i,j)\) und \(l < m\):

Dann wenden wir die Cook-Distanz an, um zu ermitteln, welche Beobachtung exzentrisch ist (hohes Residuum) und einen erheblichen Einfluss hat, nämlich einen starken Einfluss auf die Schätzung von \(w_{ij}^q\). Cooks Abstand für eine Beobachtung q und Kantengewicht \(w_{ij}\) (Verbindungsknoten \(v_i\) und \(v_j\)) als Ziel ist wie folgt definiert:

wobei \(\hat{w}_{ij}^{p(q)}\) der angepasste Antwortwert ist, der erhalten wird, wenn einzelne q ausgeschlossen werden, mit

Die Berechnung der Cook-Distanz wird für (1) jede Beobachtung wiederholt und ergibt \(D_{ij}^1\), \(\ldots\), \(D_{ij}^N\) und 2) für jede Kante im Modul als Ziel, was \(D_{12}^q\), \(\ldots\), \(D_{k-1k}^q\) ergibt. Schließlich aggregieren wir für jede Beobachtung q alle \(D^q\)={\(D_{ij}^q\) mit \(j=2,\ldots , k\), \(i=1, \ldots , k-1, i

Wir konzentrieren uns auf die Umsetzung von Angiulli31. Diese Erweiterung wurde für die Ausreißererkennung entwickelt. Als Features verwenden wir alle Kantengewichte innerhalb eines Moduls Me. Für weitere Einzelheiten verweisen wir auf die Originalarbeit und den Methodenteil der Ergänzung.

OPTICS-OF (im Artikel einfach als OPTICS bezeichnet) ist eine Erweiterung von DBSCAN, die für die Erkennung von Ausreißern entwickelt wurde. Die Kantengewichte innerhalb eines Target-Moduls sind die Features. OPTICS ergibt einen Ausreißerwert. Für weitere Einzelheiten verweisen wir auf das Originalpapier und den Abschnitt „Ergänzende Methode“.

Wir haben synthetische Daten verwendet, um die oben genannten Methoden zu bewerten und zu vergleichen, sofern die Grundwahrheit verfügbar ist. Wir haben mehrere heterogene Umgebungen mit unterschiedlichen Annahmen, Generierungsschemata und Parametern erstellt. Insbesondere verwendeten wir zwei verschiedene Generationsschemata: (i) Normalverteilung und (ii) Zusammensetzungsschema. In beiden Schemata simulieren wir den Datensatz der Analyse (Einzelpersonen in den Zeilen, Merkmale in den Spalten, Dimension \(N\times k\)) über verschiedene Verteilungsparameter für die \(NM\)-Kontrollen und die M-Fälle, d. h , die Ausreißer.

Gemeinsame Parameter in beiden Schemata sind (1) die Stichprobengröße N, die zwischen 100 und 2000 variiert; (2) Anzahl der Ausreißer M, variierend zwischen 1 und 10 (in Prozent von \(0,05\%\) bis \(10\%\)); (3) die Größe k des Moduls, die die Anzahl der Knoten im Modul quantifiziert und von 2, einem Single-Edge-Szenario, bis 17 variiert. Sowohl in normalverteilten als auch in kompositorischen Simulationsschemata definieren wir eine multivariate Zufallsvariable [multivariate Normale für (i )], und wir proben den Variablensatz jedes Individuums (dh die Knoten) aus dieser multivariaten Verteilung. Individuen werden unabhängig voneinander beprobt, und alle Kontrollpersonen werden aus einer Verteilung mit denselben Parametern beprobt. Anschließend wird die Pearson-Korrelation auf den Stichprobendatensatz der Analyse angewendet, um das bevölkerungsbasierte Netzwerk aufzubauen (Einzeleintrag \(w_{ij}^{\alpha }\)). Dieses bevölkerungsbasierte Netzwerk ist die Eingabe für die ISN-Berechnung. Darüber hinaus haben wir für das Normalverteilungsschema zwei unterschiedliche Ausreißergenerierungsverteilungen verwendet und dabei angegeben, ob die Ausreißer derselben Verteilung angehören oder ob jeder aus einer eigenen Verteilung stammt. Die spezifischen Parameter des mikrobiellen Schemas steuern: (1) den Grad der Datenheterogenität (von einheitlich bis hoch variierend); (2) der Multiplikationsfaktor zwischen verschiedenen Mikroben (von 1,1 bis 2); und (3) der Prozentsatz der überhöhten Parameter, die Fälle und Kontrollen unterscheiden (von \(10\%\) bis \(40\%\)).

Wir haben mehrere Parametereinstellungen untersucht, insbesondere im Hinblick auf die Annahme der Datenverteilung. Eine Kombination von Parametern wird in einem Raster gespeichert. Für jeden Eintrag (Zeile) des Parameterrasters, der in den Datensimulationsschritten erstellt wurde, führten wir mehrere Läufe durch (200 in der Normalverteilung und 150 in der Zusammensetzung). Daher werden der Analysedatensatz (Einzelpersonen in den Zeilen, Merkmale/Knoten in den Spalten) und die Grundwahrheit generiert. Für jeden dieser Durchläufe haben wir alle vorgestellten Methoden angewendet und jede von ihnen ergibt den Vektor OS mit der Dimension N. Dieser Vektor enthält die M Fälle und \(NM\)-Kontrollen und stellt die Ausreißerwerte für die Individuen dar. Die Bezeichnung GT jedes Einzelnen bezieht sich auf die Gruppenzugehörigkeit: Zugehörigkeit zur Fall- (Ausreißer) oder Kontrollgruppe. Für jedes einzelne \(i=1,\cdots , N:\)

Die Daten, aus denen sich der Analysedatensatz zusammensetzt, werden durch eine multivariate Normalverteilung abgetastet. Der Mittelwertvektor ist auf Null festgelegt, während die Varianz-Kovarianz-Struktur zwischen M-Fällen und \(NM\)-Kontrollen unterschiedlich ist. Der Parameter k, die Modulgröße, steuert die Dimensionalität der Normalen. Stichprobenfälle und Kontrollbeobachtungen werden zusammengefügt und bilden den Datensatz der Analyse, d. h. der Nachahmung der Expression von Genen in unserer Population. Die Ground Truth GT von Einzelpersonen wird zur Bewertung der Leistung der vorgeschlagenen Methoden verwendet. Eine visuelle Pipeline ist in Abb. S6 dargestellt.

Basisparameter sind N, M, k und Ausreißergenerierung. Einzelheiten finden Sie in Tabelle 5. Wir haben Daten generiert, indem wir mehrere Parameter variierten und sie dann in einem Raster erweiterten, wobei jede Zeile eine eindeutige Kombination der Basisparameter darstellt und als Einstellung bezeichnet wird. Insgesamt haben wir über die Parameterkombinationen 168 verschiedene Einstellungen generiert. Die Schritte zur Generierung und Auswertung, also die Anwendung der vorgeschlagenen Methoden auf die Daten, wurden Rep = 200 Mal wiederholt, um das Rauschen zu verringern und robuste und reproduzierbare Ergebnisse sicherzustellen.

Wir erweiterten die Arbeit von Harrison57 und schlugen ein Dirichlet-basiertes Modell zur Simulation mikrobieller Daten vor. Zunächst haben wir folgende Stichproben genommen: (1) Eine Pareto-Verteilung mit Schwellenwert = 1 und \(\alpha\) = 0,7; oder (2) Eine Pareto-Verteilung mit Schwellenwert = 1 und \(\alpha\) = 4; oder (3) Eine gleichmäßige Verteilung mit dem Wert = 1. Die Pareto-Verteilung beschreibt Daten mit wenigen häufig vorkommenden Merkmalen und vielen seltenen Merkmalen. Jeder Knoten hat in der Gleichverteilung die gleiche Wahrscheinlichkeitsmasse. Daher haben wir den Vektor D mit dem Skalar \(d_i\) mit einem einzigen Eintrag und \(i=1,\cdots,p\) generiert. D ist ein Zwischenergebnis, das als Konzentrationsparameter (\(\alpha\)) bei der Dirichlet-Probenahme verwendet wird. Ein Vektor von \(d_i\) sagt uns, wie viel Wahrscheinlichkeitsmasse wir jedem Knoten, jedem Taxon zuweisen müssen.

Dann werden Fall- und Kontrollbeobachtungen durch einen Multiplikator (Mult) differenziert, um \({E^1}\) aus D zu erzeugen, mit einem Skalar mit einem einzigen Eintrag \(e^1_i\). Der Multiplikator erhöht die Wahrscheinlichkeitsmasse der Knoten in Fällen und Bereichen in \(Mult=\{1,1,\ 1,5,\ 2\}\). Der Prozentsatz der Knoten, die wir aufblasen, wird durch den Parameter angegeben: \(PercIncrease=\{\ 10\%,\ 25\%,\ 40\%\}\). Wie im Normalitätssimulationsschema haben wir Parameter in einem Gitter kombiniert. Nach der Fall-Kontroll-Differenzierung werden die Parameter, also \({E^1}\) und D, auf die gleiche Summe normiert, um Skaleneffekte aufgrund unterschiedlicher Dichten zu vermeiden:

mit \(i=1,\ldots ,p\), wodurch der Vektor \(E*\) entsteht.

Anschließend haben wir \(E*\) und D für \(Int=3\), den Intensitätsparameter, multipliziert, um die Differenzierung hervorzuheben. Dann wird für jede der \(NM\)-Kontrollpersonen D als Konzentrationsparameter in einer Dirichlet-Probenahme verwendet. Für ein einzelnes q ergibt die Dirichlet-Stichprobe \(pr^q\), Dimension \(p \times 1\). Wenn wir alle \(pr^q\) für die \(NM\)-Individuen kombinieren, erhalten wir die pr-Matrix der Dimension \((NM) \times p\) mit einem einzigen Eintrag \(pr_i^q\) der Wahrscheinlichkeit von Taxa i in einzelnen q. Wir haben \(pr^q\) als nachgeschalteten Eingabeparameter eines multinomialen Stichprobenverfahrens für das einzelne q mit einem zusätzlichen Parameter Anzahl der Lesevorgänge\(=5000\) verwendet. Die Anzahl der Lesevorgänge gibt die Gesamtzahl der Objekte an, die in der multinomialen Stichprobe mit dem Wahrscheinlichkeitsvektor \(prob=pr^q\) in p Felder (die Knoten) unterteilt werden sollen. Dieser Schritt ahmt einen Mikrobiom-Read an einer Person mit einer Anzahl von Reads = 5000 und einem Vektor mit Null-aufgeblasenen, kompositorischen und heterogenen Wahrscheinlichkeiten nach. Das erzeugte Ergebnis für das einzelne q ist ein Häufigkeitsvektor unter der Kontrolleinstellung. Ein analoges Verfahren wird angewendet, um die M-Fälle einzeln mit dem Parameter \({E^*}\) anstelle von D zu generieren. Wir fügen die Häufigkeiten für die \(NM\)-Kontrollen und die M-Fälle in den simulierten Analysedatensatz ein. Die vollständige Pipeline finden Sie in Abb. S7.

Um verzerrte perfekte negative Korrelationen zu vermeiden, haben wir ein Netzwerk abgetastet, das zehnmal größer (in Bezug auf die Anzahl der Knoten) als das Modul des Ziels ist, \(p=10\times k\). Anschließend haben wir eine Centered-Log-Ratio-Transformation (CLR)58 angewendet. Erst im allerletzten Schritt konzentrieren wir uns auf das Zielmodul. Wir haben sichergestellt, dass dieses Verfahren mindestens eine von Mult im k-dimensionalen Modul erhaltene Differenzierung beibehält. Ansonsten gibt es keine theoretische Rechtfertigung für Unterschiede zwischen Fällen und Kontrollen.

Tabelle 5 zeigt das endgültige Raster der Parameterwerte. Insgesamt haben wir über Parameterkombinationen 972 verschiedene Einstellungen generiert. Die Generierungs- und Auswertungsschritte werden für jede Einstellung \(Rep=150\) Mal wiederholt, um das Rauschen zu reduzieren und robuste und reproduzierbare Ergebnisse sicherzustellen. Im Vergleich zu Normalitätssimulationen variieren die Parameter N und k über einen begrenzten Satz. Diese Einschränkung kompensiert das Hinzufügen mikrobiomspezifischer Parameter und hält den Rechenaufwand unter Kontrolle.

Das Ergebnis einer Methode bei einem Lauf ist ein Ausreißer-Score-Vektor-OS. Dieser Vektor wird absteigend geordnet und mit dem Ground-Truth-Vektor GT verglichen (1 bei Ausreißer, 0 sonst). Während die Festlegung eines Schwellenwerts und die Binarisierung des Betriebssystems die Bewertungsaufgabe erleichtern würden, ist für die meisten der betrachteten Methoden kein Schwellenwert oder keine p-Wert-Berechnung bekannt. Die natürliche Art und Weise, unsere Ergebnisse auszuwerten, besteht darin, den Schwellenwert zu variieren und die entsprechende ROC-Kurve zu erstellen. Wir haben die Leistungen aggregiert und den Durchschnitt aller Läufe (200 normalverteilt, 150 für mikrobiell) für jede Einstellung gebildet. Angesichts der Variabilität und Schiefe der Leistungen haben wir den Median als Aggregationsmetrik verwendet.

Da die meisten dieser Familien über zu optimierende Parameter verfügen oder unterschiedliche Aggregationen verwendet werden können, ist die Anzahl der Implementierungen enorm. Aus Gründen der Konsistenz haben wir, soweit möglich, jede Methode sowohl auf SSN-n als auch auf ISNs-L für die Wahl jedes Parameters angewendet. In kNN haben wir zwei verschiedene Parametersätze \(k_{min}\) und \(k_{max}\) definiert. 1) Erstens sind \(k_{min}\) und \(k_{max}\) das Minimum bzw. Maximum zwischen log(N) und k, mit N Stichprobengröße und k Modulgröße. Die Einstellung dieses Parameters fasst sowohl die Variablen als auch den Probenraum zusammen; Dann sind (2) \(k_{min}\) und \(k_{max}\) das Minimum und Maximum zwischen 5 (als Basisparameter für kNN angesehen) und sqrt(N), das auch als Basislinie in30 verwendet wird . In OPTICS-OF setzen wir den Parameter n, also die Anzahl der Nachbarn, wie für kNN auf 5, \(\sqrt{N}\) oder \(mean(log(n), k+1)\), um sowohl Modul- als auch Stichprobengröße zusammenzufassen. Spoutliers einziger Parameter, die Dimension des Referenzsatzes, wird auf \(s=20\) festgelegt, wie empirisch im Original30-Artikel gefunden. Wir haben (1) den euklidischen Abstand und (2) die Kosinusähnlichkeit als Abstandsmaße implementiert. Wir haben Ensemble-Techniken auf die mOTS-Methoden angewendet, indem wir wiederholt die 20 Basisstichproben ausgewählt und die verschiedenen Ergebnisse mit dem Median aggregiert haben. Die berücksichtigten Aggregationen in den Cook-Distanzen waren (1) maximal, (2) durchschnittlich oder (3) median über alle Kanten in einem Modul. Alle Kombinationen und Ansätze sind in der Ergänzung beschrieben.

Der diesem Artikel zugrunde liegende Datensatz ist auf Anfrage beim Euregional Microbiome Center (www.microbiomecenter.eu) erhältlich. Simulationsdaten, Code und Grafiken sind im GitHub-Repository unter https://github.com/FedericoMelograna/Sign_ISN öffentlich verfügbar.

Der Code und die Simulationen sind auf GitHub unter https://github.com/FedericoMelograna/Sign_ISN frei verfügbar. Weitere Informationen zur Analyse, Software und Visualisierung finden Sie im Abschnitt Softwareanalyse und Visualisierung in den Ergänzenden Methoden.

Ozturk, K., Dow, M., Carlin, D., Bejar, R. & Carter, H. Das neue Potenzial der Netzwerkanalyse zur Information über die Präzisionskrebsmedizin. J. Mol. Biol. 430, 2875–2899. https://doi.org/10.1016/j.jmb.2018.06.016 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Barabási, A., Gulbahce, N. & Loscalzo, J. Netzwerkmedizin: Ein netzwerkbasierter Ansatz zur Behandlung menschlicher Krankheiten. Nat. Rev. Genet. 12, 56–68. https://doi.org/10.1038/nrg2918 (2010).

Artikel CAS Google Scholar

Sonawane, A., Weiss, S., Glass, K. & Sharma, A. Netzwerkmedizin im Zeitalter biomedizinischer Big Data. Vorderseite. Genet. 10, 294. https://doi.org/10.3389/FGENE.2019.00294 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Chen, L. et al. Mikrobielle Koabundanznetzwerke im Darm zeigen Spezifität bei entzündlichen Darmerkrankungen und Fettleibigkeit. Nat. Komm. 11, 1–12. https://doi.org/10.1038/s41467-020-17840-y (2020).

Artikel CAS Google Scholar

Urbanowicz, RJ, Meeker, M., La Cava, W., Olson, RS & Moore, JH Reliefbasierte Funktionsauswahl: Einführung und Rezension. J. Biomed. Informieren. 85, 189–203. https://doi.org/10.1016/j.jbi.2018.07.014 (2018).

Artikel PubMed PubMed Central Google Scholar

Duroux, D., Climente-González, H., Azencott, C.-A. & Van Steen, K. Interpretierbare netzwerkgesteuerte Epistase-Erkennung. GigaSciencehttps://doi.org/10.1093/gigascience/giab093 (2022).

Artikel PubMed PubMed Central Google Scholar

Menche, J. et al. Integration personalisierter Genexpressionsprofile in prädiktive krankheitsassoziierte Genpools. NPJ-System. Biol. Appl.https://doi.org/10.1038/s41540-017-0009-0 (2017).

Artikel PubMed PubMed Central Google Scholar

Kosorok, M. & Laber, E. Präzisionsmedizin. Annu. Rev. Zustand. Appl. 6, 263–286. https://doi.org/10.1146/annurev-statistics-030718-105251 (2019).

Artikel MathSciNet PubMed PubMed Central Google Scholar

Bzdok, D., Varoquaux, G., Prediction, SE & Association, N. ebnet den Weg zur Präzisionsmedizin. JAMA Psychiatrie 78(2), 127–128. https://doi.org/10.1001/jamapsychiatry.2020.2549 (2021).

Artikel PubMed Google Scholar

Moore, J. & Williams, S. Überwindung der konzeptionellen Kluft zwischen biologischer und statistischer Epistase: Systembiologie und eine modernere Synthese. Bioessays 27(6), 637–46. https://doi.org/10.1002/bies.20236 (2005).

Artikel CAS PubMed Google Scholar

Liu, W. et al. Effiziente Gaußsche probenspezifische Netzwerkmarker-Erkennung und Validierung der Arzneimittelanreicherungsanalyse. Berechnen. Biol. Chem.https://doi.org/10.1016/j.compbiolchem.2019.107139 (2019).

Artikel ADS PubMed Google Scholar

Huang, Y., Chang, X., Zhang, Y., Chen, L. & Liu, X. Krankheitscharakterisierung unter Verwendung eines teilweise korrelationsbasierten probenspezifischen Netzwerks. Knapp. Bioinform.https://doi.org/10.1093/bib/bbaa062 (2020).

Artikel PubMed PubMed Central Google Scholar

Kuijjer, M., Tung, M., Yuan, G., Quackenbush, J. & Glass, K. Schätzung probenspezifischer Regulierungsnetzwerke. Wissenschafthttps://doi.org/10.1016/j.isci.2019.03.021 (2019).

Artikel Google Scholar

Dai, H., Li, L., Zeng, T. & Chen, L. Zellspezifisches Netzwerk, aufgebaut aus Einzelzell-RNA-Sequenzierungsdaten. Nucleic Acids Res.https://doi.org/10.1093/nar/gkz172 (2019).

Artikel PubMed PubMed Central Google Scholar

Li, L., Dai, H., Fang, Z. & Chen, L. c-csn: Einzelzell-RNA-Sequenzierungsdatenanalyse durch bedingtes zellspezifisches Netzwerk. Genom. Proteom. Bioinform.https://doi.org/10.1016/J.GPB.2020.05.005 (2021).

Artikel Google Scholar

Flashner-Abramson, E., Vasudevan, S., Adejumobi, I., Sonnenblick, A. & Kravchenko-Balasha, N. Entschlüsselung der Krebsheterogenität: Untersuchung patientenspezifischer Signalsignaturen für eine personalisierte Krebstherapie. Theranostik 9, 5149–5165. https://doi.org/10.7150/thno.31657 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Guo, W.-F., Zhang, S.-W., Zeng, T., Akutsu, T. & Chen, L. Netzwerkkontrollprinzipien zur Identifizierung personalisierter Treibergene bei Krebs. Knapp. Bioinform. 21, 1641–1662. https://doi.org/10.1093/bib/bbz089 (2019).

Artikel CAS Google Scholar

Bian, J., Xie, M., Topaloglu, U. & Cisler, JM Ein probabilistisches Modell eines funktionellen Gehirnkonnektivitätsnetzwerks zur Entdeckung neuer Biomarker. AMIA Summits Transl. Wissenschaft. Proz. 2013, 21 (2013).

PubMed PubMed Central Google Scholar

Doucet, G. et al. Messungen der lokalen Graphentheorie im Ruhezustand vor der Operation sagen neurokognitive Ergebnisse nach einer Gehirnoperation bei Temporallappenepilepsie voraus. Epilepsie 56(4), 517–26. https://doi.org/10.1111/epi.12936 (2015).

Artikel PubMed Google Scholar

Gosak, M. et al. Netzwerkwissenschaft biologischer Systeme auf verschiedenen Skalen: Eine Übersicht. Physik. Life Rev.https://doi.org/10.1016/j.plrev.2017.11.003 (2018).

Artikel PubMed Google Scholar

Liu, X., Wang, Y., Ji, H., Aihara, K. & Chen, L. Personalisierte Charakterisierung von Krankheiten mithilfe probenspezifischer Netzwerke. Nukleinsäuren Res. 44, 772. https://doi.org/10.1093/nar/gkw772 (2016).

Artikel CAS Google Scholar

Maron, B. et al. Individualisierte Interaktome für die netzwerkbasierte Präzisionsmedizin bei hypertropher Kardiomyopathie mit Auswirkungen auf andere klinische Pathophänotypen. Nat. Kommun.https://doi.org/10.1038/s41467-021-21146-y (2021).

Artikel PubMed PubMed Central Google Scholar

Ha, M. et al. Personalisierte integrierte Netzwerkmodellierung des Krebsproteomatlas. Wissenschaft. Rep.https://doi.org/10.1038/s41598-018-32682-x (2018).

Artikel PubMed PubMed Central Google Scholar

Gregorich, M. et al. Fachspezifische Netzwerke als Merkmale für die prädiktive Modellierung: Ein Überblick über die Methoden. Wissenschaft. Rep.https://doi.org/10.13140/RG.2.2.24616.499 (2021).

Artikel Google Scholar

Elo, LL & Schwikowski, B. Analyse zeitaufgelöster Genexpressionsmessungen bei Individuen. PLUS EINS 8, 1–8. https://doi.org/10.1371/journal.pone.0082340 (2013).

Artikel CAS Google Scholar

Yu, X. et al. Personenspezifische Edge-Network-Analyse zur Krankheitsvorhersage. Nukleinsäuren Res. 45, 787. https://doi.org/10.1093/nar/gkx787 (2017).

Artikel CAS Google Scholar

Jahagirdar, S. & Saccenti, E. Evaluierung von Einzelproben-Netzwerk-Inferenzmethoden für die auf Metabolomik basierende Systemmedizin. J. Proteome Res. 20, 932–949. https://doi.org/10.1021/acs.jproteome.0c00696 (2021).

Artikel CAS PubMed Google Scholar

Korte-de Boer, D. et al. Lucki-Geburtskohortenstudie, Begründung und Design. BMC Public Health 15, 1–7. https://doi.org/10.1186/S12889-015-2255-7 (2015).

Artikel Google Scholar

Tripathi, S., Moutari, S., Dehmer, M. & Emmert-Streib, F. Vergleich von Modulerkennungsalgorithmen in Proteinnetzwerken und Untersuchung der biologischen Bedeutung vorhergesagter Module. BMC Bioinform.https://doi.org/10.1186/s12859-016-0979-8 (2016).

Artikel Google Scholar

Sugiyama, M. & Borgwardt, K. Schnelle distanzbasierte Ausreißererkennung durch Stichprobenziehung. Adv. Neuronale Inf. Verfahren. Syst. 26, 1–10 (2013).

Google Scholar

Angiulli, F. & Pizzuti, C. Schnelle Ausreißererkennung in hochdimensionalen Räumen. In „Vorlesungsunterlagen zur Informatik“ (einschließlich Unterreihen „Vorlesungsunterlagen zur künstlichen Intelligenz“ und „Vorlesungsunterlagen zur Bioinformatik“), 2431 LNAI, 15–27, https://doi.org/10.1007/3-540-45681-3_2 (2002).

Ankerst, M., Breunig, MM, Kriegel, HP & Sander, J. Optics: Ordnungspunkte zur Identifizierung der Clusterstruktur. SIGMOD Rec. 28, 49–60. https://doi.org/10.1145/304181.304187 (1999).

Artikel Google Scholar

Faust, K. et al. Mikrobielle Koexistenzbeziehungen im menschlichen Mikrobiom. PLOS-Computing. Biol. 8, 1002606. https://doi.org/10.1371/JOURNAL.PCBI.1002606 (2012).

Artikel Google Scholar

Li, X., Wang, X. & Xiao, G. Eine vergleichende Studie über Rangaggregationsmethoden für Teil- und Spitzenlisten in genomischen Anwendungen. Knapp. Bioinform. 20, 178–189. https://doi.org/10.1093/bib/bbx101 (2017).

Artikel CAS PubMed Central Google Scholar

O'bray, L., Rieck, B. & Borgwardt, K. Filtrationskurven für die grafische Darstellung; Filterkurven zur grafischen Darstellung. Knapp. Bioinform.https://doi.org/10.1145/3447548.3467442 (2021).

Artikel PubMed Google Scholar

Fiedler, M. Algebraische Konnektivität von Graphen. Tschechisch. Mathematik. J. 23, 298–305 (1973).

Artikel MathSciNet MATH Google Scholar

de Abreu, NMM Alte und neue Ergebnisse zur algebraischen Konnektivität von Graphen. Lineare Algebra-Appl. 423, 53–73. https://doi.org/10.1016/j.laa.2006.08.017 (2007).

Artikel MathSciNet MATH Google Scholar

Galazzo, G. et al. Entwicklung der Mikrobiota und Zusammenhänge mit Geburtsmodus, Ernährung und atopischen Störungen in einer Längsschnittanalyse von Stuhlproben, die vom Säuglingsalter bis zur frühen Kindheit gesammelt wurden. Gastroenterologie 158, 1584–1596. https://doi.org/10.1053/j.gastro.2020.01.024 (2020).

Artikel CAS PubMed Google Scholar

Jahagirdar, S. & Saccenti, E. Zur Verwendung von Korrelation und mi als Maß für die Metabolit-Metabolit-Assoziation für die Analyse der differenziellen Netzwerkkonnektivität. Metabolitenhttps://doi.org/10.3390/metabo10040171 (2020).

Artikel PubMed PubMed Central Google Scholar

Conesa, A., Madrigal, P. & Tarazona, S. Eine Übersicht über Best Practices für die RNA-Seq-Datenanalyse. Genombiol. 17, 13. https://doi.org/10.1186/s13059-016-0881-8 (2016).

Artikel CAS PubMed PubMed Central Google Scholar

Anders, S. & Huber, W. Differentialexpressionsanalyse für Sequenzzähldaten. Genombiol. 11, 1–12. https://doi.org/10.1186/gb-2010-11-10-r106 (2010).

Artikel CAS Google Scholar

Robinson, MD & Smyth, GK Moderierte statistische Tests zur Bewertung von Unterschieden in der Tag-Häufigkeit. Bioinformatik 23, 2881–2887. https://doi.org/10.1093/bioinformatics/btm453 (2007).

Artikel CAS PubMed Google Scholar

Walker, W. Die Bedeutung einer angemessenen anfänglichen bakteriellen Besiedlung des Darms für die Gesundheit von Neugeborenen, Kindern und Erwachsenen. Pädiat. Res.https://doi.org/10.1038/pr.2017.111 (2017).

Artikel ADS PubMed Google Scholar

Smiti, A. Ein kritischer Überblick über Methoden zur Erkennung von Ausreißern. Berechnen. Wissenschaft. Rev. 38, 100306. https://doi.org/10.1016/j.cosrev.2020.100306 (2020).

Artikel MathSciNet MATH Google Scholar

Wang, H., Bah, M. & Hammad, M. Fortschritte bei Techniken zur Erkennung von Ausreißern: Eine Umfrage. IEEE Access 7, 107964–108000. https://doi.org/10.1109/access.2019.2932769 (2019).

Artikel Google Scholar

Duroux, D. & Steen, K. netanova: Neuartige Graph-Clustering-Technik mit Signifikanzbewertung über hierarchisches Anova. BioRxivhttps://doi.org/10.1101/2022.06.28.497741 (2022).

Artikel Google Scholar

Yu, Vorderseite. Genet.https://doi.org/10.3389/fgene.2019.00283 (2019).

Artikel PubMed PubMed Central Google Scholar

Reyman, M., Houten, M. & Baarle, D. Einfluss der mit dem Abgabemodus verbundenen Dynamik der Darmmikrobiota auf die Gesundheit im ersten Lebensjahr. Nat. Komm. 10, 4997. https://doi.org/10.1038/s41467-019-13014-7 (2019).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Dominguez-Bello, MG et al. Der Geburtsmodus prägt den Erwerb und die Struktur der anfänglichen Mikrobiota in mehreren Körperlebensräumen bei Neugeborenen. Proz. Natl. Acad. Wissenschaft. USA 107, 11971–11975. https://doi.org/10.1073/pnas.1002601107 (2010).

Artikel ADS PubMed PubMed Central Google Scholar

Sevelsted, A., Stokholm, J., Bønnelykke, K. & Bisgaard, H. Kaiserschnitt und chronische Immunerkrankungen. Pädiatrie 135, e92–e98. https://doi.org/10.1542/peds.2014-0596 (2015).

Artikel PubMed Google Scholar

Mueller, NT et al. Pränatale Antibiotikaexposition, Kaiserschnitt und Risiko für Fettleibigkeit bei Kindern. Int. J. Obes. 2005(39), 665–670. https://doi.org/10.1038/ijo.2014.180 (2015).

Artikel Google Scholar

Stearns, JC et al. Kulturelle und molekularbasierte Profile zeigen mit zunehmendem Alter Veränderungen in den Bakteriengemeinschaften der oberen Atemwege. ISME J. 9, 1246–1259. https://doi.org/10.1038/ismej.2014.250 (2015).

Artikel PubMed PubMed Central Google Scholar

Nearing, J., Douglas, G. & Hayes, M. Methoden zur differenziellen Abundanz von Mikrobiomen führen zu unterschiedlichen Ergebnissen in 38 Datensätzen. Nat. Komm. 13, 342. https://doi.org/10.1038/s41467-022-28034-z (2022).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Guo, W., Yu, X., Shi, Q., Liang, J. & Zhang, S. Leistungsbewertung probenspezifischer Netzwerkkontrollmethoden für die Analyse biologischer Massen- und Einzelzelldaten. PLOS-Computing. Biol. 17, 1008962. https://doi.org/10.1371/journal.pcbi.1008962 (2021).

Artikel CAS Google Scholar

Kuijjer, M., Hsieh, P. & Quackenbush, J. lionessr: Single-Sample-Netzwerkinferenz in r. BMC Cancer 19, 1003. https://doi.org/10.1186/s12885-019-6235-7 (2019).

Artikel PubMed PubMed Central Google Scholar

Surowiecki, J. Die Weisheit der Massen (Anchor, 2005).

Google Scholar

Harrison, JG, Calder, WJ, Shastry, V. & Buerkle, CA Dirichlet-Multinomialmodellierung übertrifft Alternativen für die Analyse von Mikrobiom- und anderen ökologischen Zähldaten. Wissenschaft. Rep.https://doi.org/10.1101/711317 (2019).

Artikel PubMed PubMed Central Google Scholar

Aitchison, J. Die statistische Analyse von Zusammensetzungsdaten (Chapman und Hall, 1986).

Buchen Sie MATH Google Scholar

Referenzen herunterladen

Diese Studie war eingebettet in das Euregionale Mikrobiomzentrum (www.microbiomecenter.eu), eine grenzüberschreitende Initiative zu Wirt-Mikrobiom-Interaktionen zwischen der Universität Lüttich, der Universität Maastricht, dem Maastricht University Medical Center+ und der Uniklinik RWTH Aachen. Die Finanzierung erfolgte aus dem Forschungs- und Innovationsprogramm Horizont 2020 der Europäischen Union im Rahmen der Marie-Sklodowska-Curie-Zuschussvereinbarungen Nr. 813533 (mlfpm.eu) und Nr. 860895 (h2020transys.eu). Vielen Dank an Diane Duroux vom BIO3-Labor der Universität Lüttich (Belgien) für inspirierende Diskussionen über ISNs und an Alice Giampino von der Universität Mailand-Bicocca für Diskussionen und Klarstellungen zur Dirichlet-Probenahme.

Diese Autoren haben gleichermaßen beigetragen: Fabio Stella und Kristel Van Steen.

BIO3 – Labor für Systemmedizin, Abteilung für Humangenetik, KU Leuven, Leuven, Belgien

Federico Melograna, Zuqi Li und Kristel Van Steen

School of Nutrition and Translational Research in Metabolism (NUTRIM), Abteilung für medizinische Mikrobiologie, Infektionskrankheiten und Infektionsprävention, Maastricht University Medical Center+, Maastricht, Niederlande

Gianluca Galazzo & John Penders

Institut für Medizinische Mikrobiologie, Universitätsklinikum der RWTH Aachen, RWTH, Aachen, Deutschland

Niels van Best

Institut für Epidemiologie, Pflege und öffentliche Gesundheitsforschung (CAPHRI), Universität Maastricht, Maastricht, Niederlande

Niels van Best & Monique Mommers

Forschungsinstitut für Pflege und öffentliche Gesundheit (CAPHRI), Universität Maastricht, Maastricht, Niederlande

John Pender

Institut für Informatik, Systeme und Kommunikation, Universität Mailand-Bicocca, 20126, Mailand, Italien

Fabio Stella

BIO3 – Labor für Systemgenetik, GIGA-R Medical Genomics, Universität Lüttich, Lüttich, Belgien

Kristall Van Steen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

FM, FS und KVS entwickelten die Methoden, FM, FS und KVS konzipierten die Simulationen, FM führte die Simulationen durch, FM und ZL analysierten die Ergebnisse. KVS, FM und JP halfen bei der Interpretation der Ergebnisse, während MM, JP, GG und NVB bei der Analyse und Interpretation der realen Datenanwendung halfen; GG und JP führten eine DMM-Analyse für die LucKi-Kohorte durch.

Korrespondenz mit Federico Melograna.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Melograna, F., Li, Z., Galazzo, G. et al. Rand- und modulare Signifikanzbewertung in personenspezifischen Netzwerken. Sci Rep 13, 7868 (2023). https://doi.org/10.1038/s41598-023-34759-8

Zitat herunterladen

Eingegangen: 19. September 2022

Angenommen: 07. Mai 2023

Veröffentlicht: 15. Mai 2023

DOI: https://doi.org/10.1038/s41598-023-34759-8

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.

AKTIE