← Experimenten

P1-rapport uitgelegd — Van rotatiecurven tot zwakke lenswerking: toetsing van de gemiddelde gravitatiereactie van EFT

Een publieksgerichte gids op basis van P1_RC_GGL: een strikte sluitingstest van sterrenstelseldynamica en zwakke lenswerking (v1.1)

Oorspronkelijk rapport door Guanglin Tu | Versiebasis: P1 v1.1 | Redactionele status: publieke uitlegtekst / geen peer-reviewed artikel
Gerelateerde archieven: Rapport-DOI 10.5281/zenodo.18526334 | Reproductiepakket-DOI 10.5281/zenodo.18526286

Leesopmerking

Dit is een uitlegversie, geen afzonderlijk academisch rapport. Ze is gebaseerd op het oorspronkelijke P1-rapport, behoudt de belangrijkste figuren en tabellen, en voegt begrijpelijke uitleg toe over wat elke grote stap betekent.

Deze gids legt alleen uit wat P1 concludeert onder zijn gespecificeerde datasets, parameterboekhouding en statistische protocol: in de gezamenlijke test van sterrenstelselrotatiecurven (RC) en zwakke lenswerking tussen sterrenstelsels (GGL) presteert het model van EFT’s gemiddelde gravitatiereactie duidelijk beter dan de hier geteste minimale DM_RAZOR-baseline.

Deze gids interpreteert P1 niet als de claim dat “donkere materie is omvergeworpen”. P1 is slechts de eerste stap in de P-reeks-experimenten. Het test één observeerbare laag van EFT — de “gemiddelde gravitatiebodem” — niet de volledige inhoud van het complete EFT-raamwerk.

0 | P1 in vijf minuten begrijpen: wat doet deze test precies?

Zie P1 als een consistentietest tussen verschillende meetkanalen. De vraag is niet alleen of een model één dataset kan fitten. In plaats daarvan zet P1 twee heel verschillende gravitatie-uitlezingen op dezelfde auditbank: rotatiecurven (RC) lezen de dynamica binnen sterrenstelselschijven, terwijl zwakke lenswerking tussen sterrenstelsels (GGL) de geprojecteerde gravitatiereactie op grotere schalen leest.

P1 in één zin

P1 legt de lat hoger: van “fit het één meetkanaal goed?” naar “sluit het over meetkanalen heen?” Een model heeft waarschijnlijker een gravitatie-structuur opgepikt die RC en GGL delen als het goed presteert onder de juiste mapping en het signaal instort nadat de mapping is geschud.

Tabel 0 | De kerncijfers van P1 en hoe u ze leest

Metriek

Lezing in P1 / P1A

Betekenis in gewone taal

Gezamenlijke-fit ΔlogL_total

In de hoofdtekstvergelijking ligt EFT 1155–1337 boven DM_RAZOR

Het totale scoreverschil over de twee datasets; groter betekent een betere algehele verklaring.

Sluitingssterkte ΔlogL_closure

In de hoofdtekstvergelijking ligt EFT op 172–281, terwijl DM_RAZOR 127 is

Het vermogen om GGL te voorspellen na inferentie uit alleen RC; groter betekent sterkere zelfconsistentie tussen meetkanalen.

Shuffle-negatieve controle

Na het schudden van RC-bin→GGL-bin daalt het EFT-sluitingssignaal naar 6–23

Als de juiste correspondentie wordt verbroken, zou het voordeel moeten verdwijnen; hoe scherper de instorting, hoe beter dit een schijnsignaal uitsluit.

P1A-stresstest met meerdere DM-varianten

DM 7+1 + DM_STD, met EFT_BIN behouden als vergelijking

P1A kijkt niet alleen naar de minimale DM_RAZOR-baseline. Het plaatst meerdere laagdimensionale, auditeerbare DM-versterkingstakken in hetzelfde sluitingsprotocol.


1 | Waarom P1 uitvoeren? Waar loopt kosmologie op sterrenstelselschaal vast?

Problemen op sterrenstelselschaal blijven moeilijk omdat de “extra gravitatie-/massabehoefte” niet alleen een rotatiecurveverschijnsel is. Veel waarnemingen laten een nauwe koppeling zien tussen zichtbare baryonische materie in sterrenstelsels en de feitelijke dynamische en lensuitlezingen. Voor de donkere-materieroute betekent dit dat donkere halo’s, baryonische feedback, de vormingsgeschiedenis van sterrenstelsels en observationele systematiek zeer nauwkeurig op elkaar moeten worden afgestemd. Voor zwaartekrachtroutes zonder donkere materie betekent het dat een model er niet alleen goed uit mag zien op RC; het moet ook zwakke lenswerking, populatieschaalrelaties en negatieve controles doorstaan.

Dat is de motivatie voor P1. Het vertrekt niet vanuit “donkere materie is fout” of “EFT moet juist zijn”. Het brengt één toetsbare claim onder audit: kan de gemiddelde gravitatiereactie van EFT een reproduceerbaar, overdraagbaar signaal achterlaten in de RC→GGL-sluiting tussen meetkanalen?

Externe literatuurcontext: waarom het RC+GGL-venster belangrijk is

De radiale-versnellingsrelatie (RAR) die McGaugh, Lelli en Schombert in 2016 voorstelden, toont een nauwe correlatie met lage spreiding tussen de waargenomen versnelling die door rotatiecurven wordt getraceerd en de versnelling die uit baryonische materie wordt voorspeld. Dit maakt “koppeling tussen baryonen en gravitatiereactie” onvermijdelijk voor theorie op sterrenstelselschaal.

Brouwer et al. (2021) gebruikten KiDS-1000-zwakke lenswerking om de RAR uit te breiden naar lagere versnellingen en grotere stralen, en vergeleken MOND, Verlinde’s emergente zwaartekracht en LambdaCDM-modellen. Zij merkten ook op dat verschillen tussen vroege en late typen sterrenstelsels, gashalo’s en de verbinding tussen sterrenstelsel en halo belangrijke verklaringskwesties blijven.

Mistele et al. (2024) gebruikten verder zwakke lenswerking om cirkel-snelheidscurven voor geïsoleerde sterrenstelsels af te leiden, en rapporteerden geen duidelijke daling tot enkele honderden kpc en zelfs tot ongeveer 1 Mpc, in overeenstemming met de BTFR. Dit laat zien dat zwakke lenswerking een belangrijke externe uitlezing wordt voor het testen van gravitatiereactie op sterrenstelselschaal.

De waarde van P1 ligt daarom niet in het feit dat het “als eerste RC en GGL samen bespreekt”. De waarde ligt erin dat beide in een auditeerbaar protocol worden geplaatst, opgebouwd uit een vaste mapping, een parameterboekhouding, RC-only→GGL-sluiting, shuffle-negatieve controles en P1A-stresstests met meerdere DM-varianten.


2 | Wat betekent EFT in P1? Het is niet Effective Field Theory

Hier verwijst EFT naar de Energiefilamenttheorie (Energy Filament Theory, EFT), niet naar de in de natuurkunde gangbare Effective Field Theory. In het technische P1-rapport wordt EFT terughoudend gebruikt: het gaat de vergelijking niet in als volledige eindtheorie, maar wordt eerst samengeperst tot een observeerbare, fitklare en falsifieerbare parameterisatie van “gemiddelde gravitatiereactie”.

Gewoon gezegd begint P1 niet met het bespreken van elke microscopische bron van extra zwaartekracht, en probeert het niet het hele EFT-raamwerk in één keer te bewijzen. Het stelt een smallere en hardere vraag: als er op sterrenstelselschaal een gemiddelde extra gravitatiereactie bestaat, kan die dan eerst RC verklaren en vervolgens worden overgedragen om GGL te voorspellen?

Welk deel van EFT test P1?

P1 richt zich op de “gemiddelde gravitatiebodem”: een statistisch stabiele gemiddelde bijdrage die over samples kan worden overgedragen.

P1 behandelt nog niet de “stochastische/ruisbodem”: de willekeurige termen, individuele verschillen of extra spreiding die meer microscopische fluctuatieprocessen kunnen introduceren.

P1 behandelt ook niet het volledige microscopische mechanisme, de abundantie, levensduur of globale kosmologische randvoorwaarden. Het is de eerste stap in de P-reeks-experimenten, geen eindvonnis.


3 | Het plan van de P1-reeks: waarom beginnen met de “gemiddelde bodem”?

De P-reeks kan worden begrepen als het observationele terughaalprogramma van EFT. Het legt niet alle claims tegelijk op tafel; het isoleert eerst het deel dat met publieke data het gemakkelijkst te testen is. De strategie van P1 is om eerst de gemiddelde term te testen: als de gemiddelde gravitatiereactie niet eens van RC naar GGL kan sluiten, dan ontbreekt een stevig ingangspunt voor de bespreking van complexere ruistermen of microscopische mechanismen.

Tabel 1 | Gelaagde positionering van de P-reeks

Laag

Gestelde vraag

Rol in P1

P1

Kan gemiddelde gravitatiereactie sluiten in RC→GGL?

Hoofdvraag van het huidige rapport

P1A

Als de DM-kant wordt versterkt, blijft de conclusie dan stabiel?

Bijlage B: DM 7+1 + DM_STD-stresstest

Latere P-reeks-werkzaamheden

Kan het protocol worden uitgebreid naar meer data, meer meetkanalen en complexere systematiek?

Richting voor toekomstig werk

Vragen op dieper niveau

Hoe hangen de gemiddelde term, de ruisterm en het microscopische mechanisme samen?

Buiten de conclusiescope van P1


4 | Wat zijn de data? Wat vertellen RC en GGL ons?


4.1 Rotatiecurven (RC): de “snelheidsmeter” binnen sterrenstelselschijven

Rotatiecurven leggen vast hoe snel gas en sterren op verschillende stralen rond het centrum van een sterrenstelsel bewegen. Hoe sneller de rotatie, des te sterker de vereiste middelpuntzoekende kracht op die straal — en dus des te sterker de effectieve zwaartekracht. P1 gebruikt de SPARC-database, met een voorbewerking die 104 sterrenstelsels en 2.295 snelheidsdatapunten omvat, verdeeld over 20 RC-bins.


4.2 Zwakke lenswerking (GGL): een “zwaartekrachtschaal” op grotere schaal

Zwakke lenswerking tussen sterrenstelsels meet hoe voorgrondsterrenstelsels het licht van achtergrondsterrenstelsels licht afbuigen. Dit komt overeen met een geprojecteerde gravitatiereactie op grotere, halo-schaalstralen en hangt niet af van de details van gasdynamica binnen een sterrenstelsel. P1 gebruikt de publieke GGL-data van KiDS-1000 / Brouwer et al. (2021): 4 bins voor stellaire massa, 15 radiale punten per bin, in totaal 60 datapunten, waarbij de volledige covariantie wordt gebruikt.


4.3 Vaste mapping: waarom 20 RC-bins → 4 GGL-bins belangrijk is

P1 verbindt de 20 RC-bins met de 4 GGL-bins via een vaste regel: elke GGL-bin correspondeert met 5 RC-bins, gecombineerd via een naar aantallen sterrenstelsels gewogen gemiddelde. Deze mapping blijft voor alle modellen ongewijzigd en fungeert als harde randvoorwaarde voor sluitingstests en eerlijke vergelijking.

Waarom de mapping niet achteraf afstemmen?

Als men achteraf kon kiezen “welke RC-bins met welke GGL-bins corresponderen”, zou een model sluiting kunnen fabriceren door de correspondentie te herschikken. P1 vergrendelt de 20→4-mapping vooraf en breekt die bewust met een shuffle-negatieve controle, juist om te beoordelen of het sluitingssignaal werkelijk afhangt van een fysisch redelijke correspondentie.


5 | Modellen en methoden: wat vergelijkt P1 precies?


5.1 De EFT-kant: laagdimensionale gemiddelde gravitatiereactie

Aan de EFT-kant wordt een laagdimensionale extra-snelheidsterm gebruikt om de gemiddelde gravitatiereactie te beschrijven. De vorm van de extra term wordt gestuurd door een dimensieloze kernelfunctie f(r/ℓ), waarbij ℓ de globale schaal is, en de amplitude per RC-bin wordt toegekend. Verschillende kernels vertegenwoordigen verschillende beginhellingen, overgangssnelheden en langbereikstaarten, en worden gebruikt voor robuustheidsstresstests.


5.2 De DM-kant: de hoofdtekstvergelijking en bijlage P1A moeten apart worden gelezen

In de hoofdtekstvergelijking is DM_RAZOR een geminimaliseerde, auditeerbare NFW-baseline: het gebruikt een vaste c–M-relatie en bevat geen halo-tot-halo-spreiding, adiabatische contractie, feedbackkernen, niet-sfericiteit of omgevingstermen. De kracht van dit ontwerp ligt in gecontroleerde vrijheidsgraden en eenvoudige reproduceerbaarheid; de zwakte is dat het niet elk LambdaCDM- of donkere-materiehalomodel kan vertegenwoordigen.

Daarom wordt de DM-kant in Bijlage B (P1A) omgezet in een reeks “gestandaardiseerde stresstests”. Zonder de gedeelde mapping of het sluitingsprotocol te wijzigen, voegt P1A geleidelijk laagdimensionale versterkingstakken toe, zoals SCAT, AC, FB, HIER_CMSCAT, CORE1P, lensing m en de gecombineerde baseline DM_STD, terwijl EFT_BIN als vergelijking behouden blijft. Kort gezegd is P1A geen vergelijking met slechts één minimale DM-baseline; het meet een reeks gangbare, auditeerbare DM-mechanismen met dezelfde “sluitingsliniaal”.

De precieze conclusiekadering die hier wordt gebruikt

Hoofdtekst: de EFT-familie presteert in de hoofdvergelijking duidelijk beter dan de minimale DM_RAZOR.

Bijlage B / P1A: onder meerdere laagdimensionale, auditeerbare DM-versterkingstakken en de DM_STD-stresstest verbeteren sommige gezamenlijke DM-fits, maar de sluitingssterkte elimineert het voordeel van EFT_BIN niet.

De veiligste formulering is daarom: binnen de data, mapping, parameterboekhouding en het sluitingsprotocol van P1/P1A toont de gemiddelde gravitatiereactie van EFT sterkere consistentie tussen datasets; dit is niet hetzelfde als het uitsluiten van alle donkere-materiemodellen.


5.3 Sluitingstests: de belangrijkste experimentele syntaxis van P1

1. Fit uitsluitend met RC om een reeks RC-only posterior-samples te verkrijgen.

2. Stem niet opnieuw af met GGL; gebruik de RC-posterior direct om GGL te voorspellen.

3. Gebruik de volledige covariantie om de GGL-voorspellingsscore onder de juiste mapping te berekenen: logL_true.

4. Permuteer de RC-bin→GGL-bin-correspondentie willekeurig om de negatieve-controlescore logL_perm te berekenen.

5. Trek de twee van elkaar af om de sluitingssterkte te krijgen: ΔlogL_closure = <logL_true> − <logL_perm>.

Analogie in gewone taal

Een sluitingstest lijkt op een hertoets in een kruisverhoor. Het model leert eerst patronen in de RC-examenruimte en antwoordt daarna in de GGL-examenruimte. Als het een gedeelde regel heeft geleerd in plaats van een lokale truc, zou het na het wisselen van ruimte nog steeds goed moeten antwoorden; als de correspondentie tussen examenruimten bewust wordt geschud, zou het voordeel moeten verdwijnen.


5.4 Voordat u de technische tabellen leest: vier ingangspunten

Tabel 5.4 | Leesroute voor de volgende reeks liggende technische tabellen

Ingangspunt

Waar u naar kijkt

Waarom het belangrijk is

Tabel S1a

Totale score van de gezamenlijke RC+GGL-fit

Beantwoordt: “Als de twee datasets samen worden bekeken, wiens algehele verklaring is sterker?”

Tabel S1b

Sluitingssterkte, shuffle en robuustheidsscans

Beantwoordt: “Kan wat uit RC is geleerd naar GGL worden overgedragen?”

Tabel B0

Definities van meerdere DM-versterkingstakken in P1A

Voorkomt dat P1 wordt gereduceerd tot “alleen een vergelijking met minimale DM_RAZOR”.

Tabel B1

P1A-scorebord voor sluiting en gezamenlijke fit

Controleert of het sluitingsvoordeel verdwijnt nadat DM is versterkt.

Opmerking over lay-out

Liggende pagina’s beginnen op de volgende pagina, zodat de brede tabellen uit het oorspronkelijke rapport intact kunnen blijven zonder kolommen te verwijderen of ze tot onleesbaarheid samen te persen. De hoofdtekst heeft al een uitleg in gewone taal gegeven; de liggende technische tabellen zijn voor lezers die waarden en modeltakken willen verifiëren.

Figuur 0.1 | De workflow van P1’s sluitingstest in één schema

Opmerking: de bovenste keten is de “sluitingstest” (alleen RC fitten → de RC-posterior gebruiken om GGL te voorspellen); de onderste keten is de “gezamenlijke fit” (RC+GGL samen scoren). Rechts wordt de echte mapping vergeleken met de geschudde mapping om de sluitingssterkte ΔlogL te verkrijgen.

6 | Belangrijke technische tabellen: hoofdtabellen uit het oorspronkelijke rapport en P1A-tabellen


Tabel S1a | Hoofdmetrieken voor de gezamenlijke-fitvergelijking (RC+GGL, strict; behouden uit het oorspronkelijke rapport)

Model (werkruimte)

W-kernel

k

Gezamenlijke logL_total (beste)

ΔlogL_total t.o.v. DM

AICc

BIC

DM_RAZOR

geen

20

-16927.763

0.0

33895.885

34010.811

EFT_BIN

geen

21

-15590.552

1337.21

31223.501

31344.155

EFT_WEXP

exponentieel

21

-15668.83

1258.932

31380.057

31500.711

EFT_WYUK

Yukawa

21

-15772.936

1154.827

31588.268

31708.922

EFT_WPOW

machtswetstaart

21

-15633.321

1294.442

31309.038

31429.692

Tabel S1b | Sluitings- en robuustheidsmetrieken (strict; behouden uit het oorspronkelijke rapport)

Model (werkruimte)

Sluitings-ΔlogL (true-perm)

ΔlogL na shuffle-negatieve controle

σ_int-scan ΔlogL-bereik

R_min-scan ΔlogL-bereik

cov-shrink-scan ΔlogL-bereik

DM_RAZOR

126.678

22.725

EFT_BIN

231.611

14.984

459–1548

1243–1289

1337–1351

EFT_WEXP

171.977

6.04

408–1471

1169–1207

1259–1277

EFT_WYUK

179.808

14.688

380–1341

1065–1099

1155–1166

EFT_WPOW

280.513

6.672

457–1500

1203–1247

1294–1308

Tabel B0 | Definities van DM-versterkingstakken in P1A (behouden uit Bijlage B van het oorspronkelijke rapport)

Werkruimte

dm_model

Nieuwe parameter (≤1)

Fysische motivatie (kern)

Implementatieprincipe (auditvriendelijk)

DM_RAZOR

NFW (vaste c–M, geen spreiding)

Minimale, auditeerbare LambdaCDM-halo-baseline; gebruikt als strikte vergelijking met EFT

Vaste gedeelde mapping; strikte parameterboekhouding; alleen gebruikt als baseline voor relatieve vergelijking

DM_RAZOR_SCAT

NFW + c–M-spreiding (legacy)

σ_logc

De c–M-relatie heeft spreiding; benaderd met een lognormale spreiding met één parameter

≤1 nieuwe parameter; gebruikt nog steeds de gedeelde mapping; sluitingswinst is het acceptatiecriterium

DM_RAZOR_AC

NFW + adiabatische contractie (legacy)

α_AC

Baryonische inval kan adiabatische halocontractie veroorzaken; benaderd met een sterkteparameter

≤1 nieuwe parameter; mapping ongewijzigd; rapporteert AICc/BIC-veranderingen en sluitingswinst

DM_RAZOR_FB

NFW + feedbackkern (legacy)

log r_core

Feedback kan een binnenkern creëren; benaderd met een kernschaal met één parameter

≤1 nieuwe parameter; dezelfde sluitings-/negatieve-controlekadering; RC-only-verbetering is niet het enige doel

DM_HIER_CMSCAT

Hiërarchische c–M-spreiding + prior

σ_logc(hier)

Een meer standaard hiërarchische c_i∼logN(c(M_i),σ_logc); beïnvloedt de gezamenlijke RC- en GGL-posterior

Expliciete prior; latente c_i gemarginaliseerd; blijft laagdimensionaal en auditeerbaar

DM_CORE1P

Eenparameter-kernproxy (geïnspireerd op coreNFW/DC14)

log r_core

Gebruikt een kernproxy met één parameter voor het hoofdeffect van baryonische feedback, en vermijdt hoogdimensionale details van stervorming

Verwijst naar standaardliteratuur; ≤1 nieuwe parameter; gekoppeld aan de sluitingstest

DM_RAZOR_M

NFW + lensing-shear-kalibratie-nuisance

m_shear(GGL)

Absorbeert een belangrijke systematiek aan de zwakke-lenskant met een effectieve parameter, waardoor het risico afneemt dat systematiek als fysica wordt behandeld

Nuisance expliciet vastgelegd; mag niet terugwerken op RC; resultaten worden vooral beoordeeld op sluitingsrobuustheid

DM_STD

Gestandaardiseerde DM-baseline (HIER_CMSCAT + CORE1P + m)

σ_logc + log r_core (+ m_shear)

Brengt de drie meest voorkomende bezwaren samen in één nog steeds laagdimensionale gestandaardiseerde baseline

Rapporteert parameterboekhouding en informatiecriteria samen; sluiting is de hoofdmetriek; gebruikt als sterkste DM-verdedigingsvergelijking

Tabel B1 | P1A-scorebord (groter is beter; behouden uit Bijlage B van het oorspronkelijke rapport)

Modeltak (werkruimte)

Δk

Beste RC-only logL_RC (Δ)

Sluitingssterkte ΔlogL_closure (Δ)

Beste gezamenlijke logL_total (Δ)

DM_RAZOR

0

-15702.654 (+0.000)

122.205 (+0.000)

-27347.068 (+0.000)

DM_RAZOR_SCAT

1

-15702.294 (+0.361)

121.236 (-0.969)

-23153.311 (+4193.758)

DM_RAZOR_AC

1

-15703.689 (-1.035)

121.531 (-0.674)

-23982.557 (+3364.511)

DM_RAZOR_FB

1

-15496.046 (+206.609)

129.454 (+7.249)

-27478.531 (-131.463)

DM_HIER_CMSCAT

1

-15702.644 (+0.010)

121.978 (-0.227)

-23153.160 (+4193.908)

DM_CORE1P

1

-15723.158 (-20.504)

122.056 (-0.149)

-27336.258 (+10.810)

DM_RAZOR_M

0 (+m)

-15702.654 (+0.000)

122.205 (+0.000)

-27340.451 (+6.617)

DM_STD

2 (+m)

-15832.203 (-129.549)

105.690 (-16.515)

-22984.445 (+4362.623)

EFT_BIN

1

-14631.537 (+1071.117)

204.620 (+82.415)

-19001.142 (+8345.926)

Hoe u Tabel B1 leest (P1A-scorebord)

• Δk: nieuw toegevoegde vrijheidsgraden (groter betekent een complexer model; complexer betekent niet automatisch beter).

• Focus op twee kolommen: sluitingssterkte ΔlogL_closure(Δ) (groter betekent meer overdrachtszelfconsistentie) en beste gezamenlijke logL_total(Δ) (de totaalscore van de gezamenlijke fit).

• De waarde tussen haakjes, (Δ), is het verschil ten opzichte van DM_RAZOR, waardoor directe vergelijking eenvoudiger wordt.

• De hoofdvraag van deze tabel is of het sluitingsvoordeel verdwijnt nadat de DM-baseline “redelijk is versterkt”.

• Leestip: DM_STD verbetert de gezamenlijke score duidelijk, maar de sluitingssterkte daalt; EFT_BIN blijft nog steeds hoger in sluitingssterkte.

In één zin: binnen deze laagdimensionale, auditeerbare set DM-versterkingen levert verbetering van de gezamenlijke fit niet automatisch sterkere sluiting op; sluiting, dus overdraagbaarheid, blijft het sleutelcriterium.


7 | Hoe moeten de hoofdresultaten worden gelezen?

7.1 Gezamenlijke fit: over beide datasets bekeken is de hoofdvergelijkingsscore van EFT hoger

Tabel S1a en Figuur S4 laten zien dat de EFT-familie, bij dezelfde data, dezelfde gedeelde mapping en ongeveer dezelfde parameterschaal, een gezamenlijke ΔlogL_total van 1155–1337 heeft ten opzichte van DM_RAZOR. Een algemene lezer kan dit zo begrijpen: onder dezelfde scoringsregel, toegepast op RC en GGL samen, krijgen de EFT-hoofdvergelijkingsmodellen een hogere totaalscore.


7.2 Sluitingstest: wat P1 vooral wil benadrukken is “overdraagbaarheid”

Een hoge sluitingssterkte betekent dat parameters die alleen uit RC zijn afgeleid GGL beter kunnen voorspellen zonder opnieuw naar GGL te kijken. In het P1-rapport bedraagt de ΔlogL_closure van EFT 172–281, terwijl DM_RAZOR 127 haalt. Dit resultaat is belangrijker dan zeggen dat “elk model zijn eigen data goed fit”, omdat het de vrijheid van het model op de tweede dataset beperkt.


7.3 Negatieve controle: waarom is “signaalinstorting” juist goed?

Nadat P1 de RC-bin→GGL-bin-groeperingscorrespondentie willekeurig door elkaar schudt, daalt het EFT-sluitingssignaal naar het bereik 6–23. Voor een algemene lezer is deze stap een soort anti-valsspeelcontrole: als het sluitingsvoordeel alleen door code, eenheden, covariantiebehandeling of toevallige fitting werd veroorzaakt, zou het voordeel zelfs bij een geschudde correspondentie kunnen blijven bestaan. In werkelijkheid stort het voordeel in, wat laat zien dat het van de juiste mapping afhangt.

Figuur S3 | Sluitingssterkte (groter is beter): gemiddeld log-likelihoodvoordeel voor RC-only → GGL-voorspelling.

Zo leest u deze figuur

Deze figuur vormt de kern van P1. Hoe hoger de balk, hoe beter de uit RC geleerde informatie naar GGL wordt overgedragen.

De EFT-familie ligt over het geheel hoger dan DM_RAZOR, wat wijst op sterkere EFT-sluiting tussen meetkanalen in het experiment “eerst RC leren, dan GGL voorspellen”.

Figuur S4 | Gezamenlijke-fitvoordeel (groter is beter): beste RC+GGL logL_total ten opzichte van DM_RAZOR.

Zo leest u deze figuur

Deze figuur toont de totaalscore nadat RC en GGL zijn gecombineerd.

Alle EFT-modellen liggen ruim boven 0, wat aangeeft dat het EFT-voordeel in de hoofdvergelijking geen lokaal eenduidig punt-effect is, maar een algemeen patroon in de gezamenlijke analyse.

Figuur R1 | Negatieve controle: het sluitingssignaal daalt scherp na het schudden van de groepering.

Zo leest u deze figuur

Deze figuur laat zien dat het sluitingssignaal scherp daalt zodra de juiste RC↔GGL-binrelatie wordt verstoord.

Hierdoor lijkt het P1-resultaat meer op echte consistentie in mapping tussen datasets dan op een numeriek toeval dat onder willekeurige mappings te verkrijgen is.


8 | Robuustheid en controles: hoe voorkomt P1 dat het “alleen een mooi ogende fit” is?

De eenvoudigste kritiek op een technisch rapport is de vraag of het voordeel voortkomt uit één ruisinstelling, één datacut in het centrale gebied, één covariantiebehandeling of overfitting. P1 vangt dit op met meerdere stresstests.

Tabel 2 | Hoe u P1’s robuustheidstests en negatieve controles leest

Test

Zorg die het probeert uit te sluiten

Hoe u het leest

σ_int-scan

Als RC extra onbekende spreiding bevat, blijft de conclusie dan stabiel?

Nadat RC-fouten worden versoepeld, blijven de EFT-rangorde en de schaal van het voordeel stabiel.

R_min-scan

Als de centrale gebieden van sterrenstelsels niet volledig worden vertrouwd, blijft de conclusie dan stabiel?

Na het wegsnijden van de centrale gebieden behoudt EFT nog steeds een positief voordeel.

cov-shrink-scan

Als de GGL-covariantieschatting onzeker is, blijft de conclusie dan stabiel?

Na covariantiekrimp richting de diagonaal is het voordeel niet gevoelig.

Ablatieladder

Vertrouwt EFT op onnodige complexiteit om een fit af te dwingen?

De volledige EFT_BIN wordt ondersteund door de informatiecriteria.

LOO-voorspelling op achtergehouden data

Verklaart het model alleen data die het al heeft gezien?

Na het achterhouden van een GGL-bin vertoont het model nog steeds sterke generalisatieprestaties.

RC-bin-shuffle

Komt de sluiting voort uit de echte mapping?

De sluiting daalt nadat de groepering is geschud, wat mappingafhankelijkheid ondersteunt.

Figuur R2 | Bereik van ΔlogL_total onder de σ_int-scan (groter is beter).

Zo leest u deze figuur

Test of de voorsprong van EFT blijft bestaan na wijzigingen in de aangenomen intrinsieke RC-spreiding.

Figuur R3 | Bereik van ΔlogL_total onder de R_min-scan (groter is beter).

Zo leest u deze figuur

Test of het voordeel van EFT stabiel blijft nadat complexe centrale gebieden zijn weggesneden.

Figuur R4 | Bereik van ΔlogL_total onder de cov-shrink-scan (groter is beter).

Zo leest u deze figuur

Test of de rangorde gevoelig is voor veranderingen in de behandeling van zwakke-lenscovariantie.

Figuur R5 | EFT_BIN-ablatieladder (AICc, kleiner is beter).

Zo leest u deze figuur

Test of de volledige EFT_BIN nodig is om de data te verklaren, in plaats van alleen onnodige parameters toe te voegen.

Figuur R6 | LOO: log-likelihoodverdeling voor achtergehouden bins.

Zo leest u deze figuur

Test of het model nog voorspellende prestaties heeft op ongeziene GGL-bins.

Figuur R7 | Negatieve controle: geschudde mapping veroorzaakt een duidelijke daling in sluitingsgemiddelde logL_true.

Zo leest u deze figuur

Laat verder zien, vanuit het perspectief van gemiddelde logL_true, dat sluiting afhangt van de juiste mapping tussen datasets.


9 | P1A: waarom “meerdere DM-modellen in de bijlage” een belangrijke correctie is

Deze sectie vraagt niet: “Heeft EFT slechts één minimale DM_RAZOR-baseline verslagen?” Ze vraagt of de conclusies van de sluitingstest en de gezamenlijke fit veranderen wanneer de DM-baseline wordt versterkt binnen een laagdimensionale, reproduceerbare en duidelijk vastgelegde parameterboekhouding (P1A). Met andere woorden: P1A wil het bezwaar verkleinen dat “er alleen een te zwakke DM-baseline is gekozen” en verplaatst de discussie naar de vraag of het sluitingsgedrag nog steeds verschilt onder een reeks auditeerbare DM-versterkingen.

P1A is niet ontworpen om alle mogelijke LambdaCDM-halomodellering uit te putten, en maakt van de DM-kant ook geen hoogdimensionale, niet-auditeerbare fitter. Het selecteert laagdimensionale, reproduceerbare versterkingen met een duidelijke parameterboekhouding: concentratiespreiding, adiabatische contractie, feedbackkern, hiërarchische c–M-spreidingsprior, een eenparameter-kernproxy, een zwakke-lenswerking shear-kalibratie-nuisance en de gecombineerde DM_STD-baseline.

Hoofdlezing van P1A

Van de drie legacy-takken levert alleen feedback/kern een kleine netto toename van de sluitingssterkte op; SCAT en AC leveren geen netto sluitingswinst.

DM_HIER_CMSCAT, DM_RAZOR_M en DM_CORE1P hebben zeer weinig effect op de sluitingssterkte of tonen geen significante netto verbetering.

DM_STD kan de gezamenlijke logL aanzienlijk verbeteren, maar de sluitingssterkte daalt, wat suggereert dat het vooral de flexibiliteit van de gezamenlijke fit verbetert en niet de RC→GGL-overdrachtsvoorspellingskracht.

EFT_BIN behoudt in P1A Tabel B1 nog steeds een hogere sluitingssterkte en een voordeel in de gezamenlijke fit; daarom mag de kernclaim van P1 niet worden gereduceerd tot “het versloeg alleen minimale DM_RAZOR”.

Figuur B1 | P1A-scorebord: sluiting en gezamenlijke ΔlogL ten opzichte van de baseline (groter is beter).

Zo leest u deze figuur

Deze figuur toont de prestaties van meerdere DM-versterkingstakken ten opzichte van de baseline.

De betekenis is niet “alle DM is uitgesloten”, maar eerder dit: binnen de laagdimensionale, auditeerbare DM-versterkingen die P1A selecteert, neemt versterking van DM het sluitingsvoordeel van EFT_BIN niet weg.


10 | Waarom het P1-experiment ertoe doet

10.1 Methodologische betekenis: “sluiting tussen meetkanalen” boven “fitten van één meetkanaal” plaatsen

Theorie op sterrenstelselschaal kan gemakkelijk blijven steken in de vraag of een model een bepaalde set rotatiecurven kan fitten. P1 tilt de vraag één niveau hoger: kunnen parameters die uit RC zijn geleerd zwakke lenswerking voorspellen zonder opnieuw op GGL af te stemmen? Daarmee verandert P1 van een “fitwedstrijd” in een “overdrachtsvoorspellingstest”.

10.2 Betekenis voor transparantie: de reproduceerbaarheidsketen als deel van het resultaat behandelen

Een belangrijke bijdrage van P1 is dat het de data, tabellen en figuren, runlabels, negatieve controles, het reproductiepakket en de auditketen samen vrijgeeft. Dat is belangrijk voor zowel voorstanders als critici: de discussie kan terugkeren naar dezelfde publieke data, dezelfde mapping, dezelfde scripts en dezelfde metrieken, in plaats van slogans te vergelijken.

10.3 Fysische betekenis: een sterke stresstest voor richtingen van “zwaartekracht zonder donkere materie”

Binnen zwaartekrachtrichtingen zonder donkere materie kunnen veel modellen een deel van de rotatiecurven of de RAR verklaren. De moeilijkere taak is om ook zwakke-lensuitlezingen te doorstaan en onder negatieve controles te laten zien dat het signaal afhangt van de juiste mapping. P1 doet ertoe omdat het de gemiddelde gravitatiereactie van EFT in een protocol plaatst dat op een extern examen lijkt: RC is het oefenterrein, GGL is het overdrachtsveld en shuffle is het anti-valsspeelveld.

10.4 Is dit een belangrijk experiment voor het veld van “zwaartekracht zonder donkere materie”?

Zorgvuldig geformuleerd: als de dataverwerking, het reproductiepakket en het sluitingsprotocol van P1 externe beoordeling doorstaan, dan kan het worden beschouwd als een RC+GGL-sluitingsexperiment dat in richtingen van zwaartekracht zonder donkere materie / gemodificeerde zwaartekracht serieus genomen moet worden. Het belang ervan ligt niet in de slogan “donkere materie is omvergeworpen”, maar in het bieden van een criterium tussen meetkanalen dat kan worden gerepliceerd, aangevochten en uitgebreid.

Bestaan er al RC+GGL-voorspellingssluitingsraamwerken op hetzelfde niveau?

Er bestaan relevante raamwerken en observationele tradities: MOND/RAR ordent veel rotatiecurveverschijnselen goed; het KiDS-1000-werk over zwakke-lenswerking en RAR vergeleek ook MOND, Verlinde’s emergente zwaartekracht en LambdaCDM-modellen; LambdaCDM kan sommige zwakke-lens- en dynamische verschijnselen ook verklaren via sterrenstelsel–halo-verbindingen, gashalo’s en feedbackmodellering.

Maar de precieze claim van P1 is niet dat “geen enkel ander raamwerk ter wereld RC+GGL kan verklaren”. Integendeel: onder P1’s eigen publieke protocol — vaste mapping, RC-only→GGL-sluiting, shuffle-negatieve controles, parameterboekhouding en P1A-stresstests met meerdere DM-varianten — rapporteert EFT sterkere sluitingsprestaties.

Met andere woorden: het deel van P1 dat externe toetsing het meest waard is, is het concrete, reproduceerbare vergelijkingsprotocol. Een zeer waardevolle volgende stap is te zien of MOND/RAR, LambdaCDM/HOD, hydrodynamische simulaties of andere raamwerken voor gemodificeerde zwaartekracht onder hetzelfde protocol dezelfde of hogere sluitingsscores kunnen bereiken.


11 | Wat kan P1 concluderen, en wat niet?

Tabel 3 | Grenzen van P1’s conclusies

Kan concluderen

Onder P1’s RC+GGL-data, vaste mapping en hoofdvergelijkingsprotocol heeft de EFT-familie hogere gezamenlijke-fitscores en sluitingssterkte dan de minimale DM_RAZOR.

Kan concluderen

Binnen P1A’s laagdimensionale, auditeerbare bereik van DM-versterkingen elimineren meerdere DM-versterkingen het sluitingsvoordeel van EFT_BIN niet.

Kan concluderen

De shuffle-negatieve controle laat zien dat het sluitingssignaal afhangt van de juiste mapping tussen datasets en niet onder willekeurige mappings te verkrijgen is.

Kan niet concluderen

Men kan niet zeggen dat P1 alle donkere-materiemodellen heeft omvergeworpen. P1A put niet-sfericiteit, omgevingsafhankelijkheid, complexe sterrenstelsel–halo-verbindingen, hoogdimensionale feedback of volledige kosmologische simulaties nog steeds niet uit.

Kan niet concluderen

Men kan niet zeggen dat het volledige EFT-raamwerk vanuit eerste principes is bewezen. P1 test alleen de fenomenologische laag van gemiddelde gravitatiereactie.

Kan niet concluderen

Men kan niet zeggen dat alle systematiek is uitgesloten. P1 biedt alleen robuustheidsbewijs binnen de genoemde stresstests en auditscope.


12 | Veelgestelde vragen van algemene lezers

V1: Zegt dit dat “donkere materie niet bestaat”?

Nee. De conclusies van P1 moeten beperkt blijven tot de data, het protocol en de vergelijkingsmodellen die hier zijn gebruikt. P1A gaat verder dan de minimale DM_RAZOR, maar vertegenwoordigt nog steeds niet alle mogelijke donkere-materiemodellen.

V2: Zegt dit dat “EFT bewezen is”?

Ook nee. P1 test EFT als een parameterisatie van gemiddelde gravitatiereactie en toont sterkere prestaties in RC→GGL-sluiting; het microscopische mechanisme en de volledige theorie behoren niet tot de conclusie van P1.

V3: Waarom geen significantiewaarde direct in σ rapporteren?

P1 gebruikt uniforme likelihoodscores, informatiecriteria en sluitingsverschillen. ΔlogL is een relatief voordeel onder dezelfde scoringsregel; het is niet gelijkwaardig aan één enkele σ-waarde.

V4: Waarom RC-bin→GGL-bin schudden?

Dit is een negatieve controle. Een echt signaal tussen meetkanalen zou van de juiste mapping moeten afhangen; als het na schudden even sterk blijft, zou dat juist wijzen op mogelijke implementatiebias of een statistisch vals signaal.

V5: Wat moet P1 hierna doen?

Breid hetzelfde protocol uit naar meer data, meer DM-vergelijkingen, complexere systematiek en meer raamwerken voor gemodificeerde zwaartekracht — vooral op manieren die externe teams in staat stellen opnieuw te testen onder dezelfde sluitingsmetriek.


13 | Miniwoordenlijst

Tabel 4 | Miniwoordenlijst

Term

Uitleg in één zin

Rotatiecurve (RC)

De relatie tussen straal en rotatiesnelheid in een sterrenstelselschijf, gebruikt om de effectieve zwaartekracht binnen de schijf af te leiden.

Zwakke lenswerking (GGL)

Een maat voor de gemiddelde gravitatie-/massaverdeling rond voorgrondsterrenstelsels via de statistische vervorming van de vormen van achtergrondsterrenstelsels.

Sluitingstest

Gebruikt de RC-posterior om GGL te voorspellen en vergelijkt die daarna met de negatieve controle die door geschudde mapping ontstaat.

Negatieve controle

Breekt bewust een sleutelstructuur om te zien of het signaal verdwijnt; gebruikt om valse signalen uit te sluiten.

NFW-halo

Een dichtheidsprofiel voor donkere-materiehalo’s dat vaak wordt gebruikt in modellen voor koude donkere materie.

c–M-relatie

De relatie tussen donkere-materiehaloconcentratie c en massa M; of spreiding wordt toegestaan beïnvloedt de modelflexibiliteit.

DM_STD

De gestandaardiseerde DM-stresstesttak in P1A die meerdere laagdimensionale DM-versterkingen en een lensing-nuisanceterm combineert.

ΔlogL

Het log-likelihoodverschil tussen twee modellen onder dezelfde scoringsregel; een positieve waarde betekent dat het eerste model beter is.

Covariantie

Een matrixbeschrijving van correlaties tussen datapunten; zwakke-lensdata vereisen meestal de volledige covariantie.


14 | Aanbevolen leesroute en citatie-ingangen

1. Lees eerst Secties 0–2 van deze gids om de vraag van P1 en de bewust terughoudende rol van EFT in P1 vast te leggen.

2. Lees daarna Figuur S3, Figuur S4 en Tabellen S1a/S1b om sluitingssterkte, gezamenlijke fitting en negatieve controles te begrijpen.

3. Als u bezorgd bent dat de “DM-baseline te zwak is”, ga dan direct naar Sectie 9 en Tabel B1 / Figuur B1.

4. Voor technische verificatie keert u terug naar het technische P1-rapport v1.1, het supplement met tabellen en figuren en de full_fit_runpack.

Belangrijkste archiefingangen

Technisch P1-rapport (releaseniveau, Concept DOI): 10.5281/zenodo.18526334

Volledig P1-reproductiepakket (Concept DOI): 10.5281/zenodo.18526286

Gestructureerde EFT-kennisbank (optioneel, Concept DOI): 10.5281/zenodo.18853200

Licentie-opmerking: het technische rapport gebruikt CC BY-NC-ND 4.0; het volledige reproductiepakket gebruikt CC BY 4.0 (raadpleeg het technische rapport en de Zenodo-archieven als gezaghebbend).


15 | Referenties en externe achtergrond

McGaugh, S. S., Lelli, F., & Schombert, J. M. (2016). The Radial Acceleration Relation in Rotationally Supported Galaxies. Physical Review Letters, 117, 201101. DOI: 10.1103/PhysRevLett.117.201101.

Famaey, B., & McGaugh, S. S. (2012). Modified Newtonian Dynamics (MOND): Observational Phenomenology and Relativistic Extensions. Living Reviews in Relativity, 15, 10. DOI: 10.12942/lrr-2012-10.

Brouwer, M. M., Oman, K. A., Valentijn, E. A., et al. (2021). The weak lensing radial acceleration relation: Constraining modified gravity and cold dark matter theories with KiDS-1000. Astronomy & Astrophysics, 650, A113. DOI: 10.1051/0004-6361/202040108.

Mistele, T., McGaugh, S., Lelli, F., Schombert, J., & Li, P. (2024). Indefinitely Flat Circular Velocities and the Baryonic Tully-Fisher Relation from Weak Lensing. The Astrophysical Journal Letters, 969, L3 / arXiv:2406.09685.

Bullock, J. S., & Boylan-Kolchin, M. (2017). Small-Scale Challenges to the LambdaCDM Paradigm. Annual Review of Astronomy and Astrophysics, 55, 343–387. DOI: 10.1146/annurev-astro-091916-055313.

Lelli, F., McGaugh, S. S., & Schombert, J. M. (2016). SPARC: Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves. The Astronomical Journal, 152, 157. DOI: 10.3847/0004-6256/152/6/157.

Navarro, J. F., Frenk, C. S., & White, S. D. M. (1997). A Universal Density Profile from Hierarchical Clustering. Astrophysical Journal, 490, 493.

Dutton, A. A., & Macciò, A. V. (2014). Cold dark matter haloes in the Planck era: evolution of structural parameters for NFW haloes. Monthly Notices of the Royal Astronomical Society, 441, 3359–3374.