← Experiment

Een publieksgerichte uitleg op basis van P1_RC_GGL: Een strikte sluitingstest van sterrenstelseldynamica en zwakke lenswerking (v1.1)

Origineel rapport door Guanglin Tu | Versiebasis: P1 v1.1 | Positionering: publieksuitleg / geen peer-reviewed artikel
Gerelateerde archieven: rapport-DOI 10.5281/zenodo.18526334 | reproduceerbaarheidspakket-DOI 10.5281/zenodo.18526286

Leesnotities

Dit is een uitlegtekst, geen nieuw academisch rapport. Hij is gebaseerd op het oorspronkelijke P1-rapport, behoudt de belangrijkste figuren en tabellen en voegt bij elke kernstap publieksgerichte uitleg toe over ‘wat dit betekent’.

Dit artikel legt alleen de conclusies uit die P1 bereikt binnen zijn vastgelegde datasets, parameterboekhouding en statistische protocol: in de gezamenlijke test van rotatiecurven van sterrenstelsels (RC) en zwakke lenswerking tussen sterrenstelsels (GGL) loopt EFT’s model voor gemiddelde zwaartekrachtrespons duidelijk voor op de hier geteste minimale DM_RAZOR-basislijn.

Dit artikel leest P1 niet als de conclusie dat ‘donkere materie is omvergeworpen’. P1 is slechts de eerste stap in de P-serie-experimenten. Het test één waarneembare laag binnen EFT — de ‘gemiddelde zwaartekrachtbasis’ — en niet de volledige EFT-theorie.

0 | P1 in vijf minuten begrijpen: wat wordt hier eigenlijk getest?

P1 kan worden gelezen als een validatie-experiment tussen meetkanalen. Het vraagt niet alleen of een model één dataset kan fitten; het legt twee heel verschillende zwaartekrachtuitlezingen op dezelfde auditbank: rotatiecurven (RC) lezen de dynamica binnen sterrenstelselschijven, terwijl zwakke lenswerking tussen sterrenstelsels (GGL) de geprojecteerde zwaartekrachtrespons op grotere schalen leest.

P1’s kernboodschap

P1 verhoogt de vergelijkingsdrempel van ‘past het één meetkanaal goed?’ naar ‘sluit het over meetkanalen heen?’ Goede prestaties onder de juiste mapping, gevolgd door instorting van het signaal wanneer de mapping wordt geschud, suggereren dat het model mogelijk een zwaartekrachtstructuur heeft vastgelegd die RC en GGL delen.

Tabel 0 | De kerncijfers van P1 en hoe je ze leest

Metric

Hoe P1 / P1A dit leest

Uitleg in gewone taal

Gezamenlijke fit ΔlogL_total

Hoofdtekstvergelijking: EFT ligt 1155–1337 boven DM_RAZOR

Totaal scoreverschil over de twee datasets; groter betekent een betere algemene verklaring.

Sluitingssterkte ΔlogL_closure

Hoofdtekstvergelijking: EFT is 172–281, terwijl DM_RAZOR 127 is

Vermogen om GGL te voorspellen na inferentie uit alleen RC; groter betekent meer zelfconsistentie tussen meetkanalen.

Negatieve-controlerandomisatie

Na het schudden van RC-bin→GGL-bin daalt het EFT-sluitingssignaal naar 6–23

Als de juiste correspondentie wordt verbroken, hoort het voordeel te verdwijnen; hoe sterker het verdwijnt, hoe meer valse signalen worden uitgesloten.

P1A-stresstest met meerdere DM-modellen

DM 7+1 + DM_STD, met EFT_BIN behouden als vergelijker

P1A kijkt niet alleen naar de minimale DM_RAZOR; het plaatst meerdere laag-dimensionale, auditeerbare DM-versterkingsvertakkingen in hetzelfde sluitingsprotocol.


1 | Waarom P1 nodig was: waar kosmologie op sterrenstelselschaal vastloopt

Het probleem op sterrenstelselschaal blijft lastig omdat de behoefte aan ‘extra zwaartekracht/massa’ niet alleen een rotatiecurveverschijnsel is. Een grote hoeveelheid waarnemingen laat een nauwe koppeling zien tussen zichtbare baryonische materie in sterrenstelsels en de feitelijke dynamische/lens-uitlezingen. Voor de route via donkere materie betekent dit dat donkere halo’s, baryonische feedback, vormingsgeschiedenissen van sterrenstelsels en observatiesystematiek zeer precies op elkaar moeten worden afgestemd. Voor routes zonder donkere materie betekent het dat een model er niet alleen goed uit mag zien op RC; het moet ook standhouden bij zwakke lenswerking, populatieschaalwetten en negatieve controles.

Dat is de motivatie van P1. Het vertrekt niet vanuit ‘donkere materie is fout’ of ‘EFT moet gelijk hebben’. Het brengt één toetsbare claim voor het tribunaal: kan EFT’s gemiddelde zwaartekrachtrespons een reproduceerbaar en overdraagbaar signaal achterlaten in RC→GGL-sluiting tussen meetkanalen?

Externe literatuurcontext: waarom het RC+GGL-venster belangrijk is

McGaugh, Lelli en Schombert (2016) stelden de radialeversnellingsrelatie (RAR) voor, die een nauwe relatie met kleine spreiding toont tussen de door rotatiecurven gemeten waargenomen versnelling en de uit baryonische materie voorspelde versnelling. Daardoor wordt baryon–zwaartekrachtresponskoppeling een onvermijdelijk thema voor theorie op sterrenstelselschaal.

Brouwer et al. (2021) gebruikten KiDS-1000 zwakke lenswerking om de RAR uit te breiden naar lagere versnellingen en grotere radii, en vergeleken MOND, Verlinde emergent gravity en LambdaCDM-modellen. Zij merkten ook op dat verschillen tussen vroege en late typen sterrenstelsels, gashalo’s en sterrenstelsel–halo-verbindingen sleutelvragen voor verklaring blijven.

Mistele et al. (2024) gebruikten zwakke lenswerking verder om circulaire-snelheidscurven voor geïsoleerde sterrenstelsels af te leiden en rapporteerden geen duidelijke afname tot honderden kpc en zelfs ongeveer 1 Mpc, in overeenstemming met de BTFR. Dit laat zien dat zwakke lenswerking een belangrijke externe uitlezing wordt voor zwaartekrachtrespons op sterrenstelselschaal.

De waarde van P1 ligt daarom niet in het feit dat het als eerste RC en GGL samen bespreekt. De waarde ligt erin dat het beide onderbrengt in een auditeerbaar protocol met een vaste mapping, een parameterboekhouding, RC-only→GGL-sluiting, shuffle-negatieve controles en P1A-stresstests met meerdere DM-modellen.


2 | Wat betekent EFT in P1? Het is niet Effective Field Theory

Hier betekent EFT Energiedraadtheorie (Energy Filament Theory), niet de in de natuurkunde bekende effectieve veldtheorie (Effective Field Theory). In het technische P1-rapport wordt EFT heel terughoudend ingezet: het treedt niet aan als volledige eindtheorie, maar wordt eerst samengeperst tot een waarneembare, fitklare en falsifieerbare parametrisering van een ‘gemiddelde zwaartekrachtrespons’.

Eenvoudig gezegd probeert P1 niet alle microscopische bronnen van extra zwaartekracht te bespreken en ook niet het hele EFT-raamwerk in één stap te bewijzen. Het stelt een smallere en hardere vraag: als er op sterrenstelselschaal een vorm van gemiddelde extra zwaartekrachtrespons bestaat, kan die dan eerst RC verklaren en vervolgens worden overgedragen om GGL te voorspellen?

Welk deel van EFT test P1?

P1 test de ‘gemiddelde zwaartekrachtbasis’: een statistisch stabiele, overdraagbare gemiddelde bijdrage.

P1 behandelt nog niet de ‘stochastische / ruisbasis’: de willekeurige termen, object-tot-objectverschillen of extra spreiding die uit microscopischere fluctuatieprocessen kunnen ontstaan.

P1 bespreekt ook niet het volledige microscopische mechanisme, abundanties, levensduren of globale kosmologische beperkingen. Het is de eerste stap in de P-serie-experimenten, niet het eindoordeel.


3 | Het P-serieplan: waarom beginnen bij de ‘gemiddelde basis’?

De P-serie kan worden begrepen als EFT’s observatie- en terugvindprogramma. Het legt niet alle claims tegelijk op tafel. In plaats daarvan isoleert het het onderdeel dat het gemakkelijkst met publieke data te testen is. P1 begint met de gemiddelde term: als de gemiddelde zwaartekrachtrespons niet kan sluiten van RC naar GGL, is er geen stevige ingang om complexere ruistermen of microscopische mechanismen te bespreken.

Tabel 1 | Gelaagde positionering van de P-serie

Laag

Vraag

Plaats in P1

P1

Kan de gemiddelde zwaartekrachtrespons sluiten van RC naar GGL?

Hoofdvraag van het huidige rapport

P1A

Blijft de conclusie stabiel als de DM-kant wordt versterkt?

Bijlage B: DM 7+1 + DM_STD-stresstest

Toekomstig werk in de P-serie

Kan dit worden uitgebreid naar meer data, meer meetkanalen en complexere systematiek?

Toekomstige richting

Diepere vragen

Hoe sluiten de gemiddelde term, de ruisterm en de microscopische mechanismen op elkaar aan?

Buiten het conclusiebereik van P1


4 | Wat zijn de data? Wat vertellen RC en GGL elk?


4.1 Rotatiecurven (RC): een snelheidsliniaal in sterrenstelselschijven

Rotatiecurven registreren hoe snel gas en sterren op verschillende afstanden van het centrum van een sterrenstelsel rondlopen. Hogere baansnelheden impliceren dat er een sterkere centripetale kracht nodig is, en dus een sterkere effectieve zwaartekrachtrespons. P1 gebruikt de SPARC-database; na voorbewerking bevat die 104 sterrenstelsels, 2.295 snelheidsdatapunten en 20 RC-bins.


4.2 Zwakke lenswerking (GGL): een grotere-schaal ‘zwaartekrachtweegschaal’

Zwakke lenswerking tussen sterrenstelsels meet hoe voorgrondstelsels het licht van achtergrondstelsels licht afbuigen. Dit correspondeert met een geprojecteerde zwaartekrachtrespons op grotere, halo-schaal en hangt niet af van de gasdynamische details van sterrenstelselschijven. P1 gebruikt publieke GGL-data van KiDS-1000 / Brouwer et al. (2021): vier stellair-massa-bins, 15 radiale punten per bin, samen 60 datapunten, met de volledige covariantie.


4.3 Vaste mapping: waarom 20 RC-bins → 4 GGL-bins belangrijk is

P1 verbindt 20 RC-bins met 4 GGL-bins via een vaste regel: elke GGL-bin komt overeen met vijf RC-bins, gemiddeld met gewichten op basis van het aantal sterrenstelsels. Deze mapping blijft voor elk model vast. Zij vormt een harde randvoorwaarde voor sluitingstests en eerlijke vergelijking.

Waarom de mapping niet achteraf afstemmen?

Als men achteraf zou mogen kiezen welke RC-bins met welke GGL-bins overeenkomen, zou een model sluiting kunnen fabriceren door de correspondentie te herschikken. P1 vergrendelt de 20→4-mapping vooraf en breekt die vervolgens doelbewust met een shuffle-negatieve controle, juist om te testen of het sluitingssignaal werkelijk afhankelijk is van een fysisch redelijke correspondentie.


5 | Modellen en methode: wat vergelijkt P1 eigenlijk?


5.1 EFT-kant: een laag-dimensionale gemiddelde zwaartekrachtrespons

Aan de EFT-kant beschrijft een laag-dimensionale extra-snelheidsterm de gemiddelde zwaartekrachtrespons. De vorm van die extra term wordt gestuurd door een dimensieloze kernfunctie f(r/ℓ), waarbij ℓ een globale schaal is, terwijl de amplitudes per RC-bin worden toegewezen. Verschillende kernen coderen verschillende beginhellingen, overgangsgedrag en lange-afstandsstaarten, en dienen zo als robuustheidsstresstests.


5.2 DM-kant: de hoofdvergelijking en Bijlage P1A moeten apart worden gelezen

In de hoofdvergelijking is DM_RAZOR een geminimaliseerde, auditeerbare NFW-basislijn: hij legt de c–M-relatie vast en bevat geen halo-tot-halo-spreiding, adiabatische contractie, feedbackkern, niet-sfericiteit of omgevingsterm. Het voordeel van dit ontwerp is gecontroleerde vrijheidsgraden en gemakkelijke reproduceerbaarheid; de beperking is dat het niet elk LambdaCDM- of donkere-materie-halomodel vertegenwoordigt.

Daarom maakt Bijlage B (P1A) van de DM-kant een gestandaardiseerde stresstest. Zonder de gedeelde mapping of het sluitingsprotocol te wijzigen, worden laag-dimensionale versterkingsvertakkingen toegevoegd, zoals SCAT, AC, FB, HIER_CMSCAT, CORE1P, lenswerking-m en de gecombineerde basislijn DM_STD, terwijl EFT_BIN als vergelijker behouden blijft. Een goede manier om P1A te lezen is deze: EFT wordt niet alleen vergeleken met één minimale DM-basislijn; een reeks gangbare, auditeerbare DM-mechanismen wordt langs dezelfde ‘sluitingscriterium’ gelegd.

De precieze conclusie die hier wordt gebruikt

Hoofdtekst: de EFT-familie presteert in de hoofdvergelijking duidelijk beter dan de minimale DM_RAZOR.

Bijlage B / P1A: over meerdere laag-dimensionale, auditeerbare DM-versterkingsvertakkingen en de DM_STD-stresstest verbeteren sommige DM-gezamenlijke fits, maar de sluitingssterkte wist het voordeel van EFT_BIN niet uit.

De veiligste formulering is daarom: binnen P1/P1A’s data, mapping, parameterboekhouding en sluitingsprotocol toont EFT’s gemiddelde zwaartekrachtrespons sterkere consistentie tussen data. Dit komt niet neer op het uitsluiten van alle donkere-materiemodellen.


5.3 Sluitingstest: P1’s belangrijkste experimentele logica

1. Fit alleen RC en verkrijg een set RC-only posterior-samples.

2. Stem niet opnieuw af op GGL; gebruik de RC-posterior direct om GGL te voorspellen.

3. Gebruik de volledige covariantie om de GGL-voorspellingsscore logL_true onder de juiste mapping te berekenen.

4. Permuteer willekeurig de correspondentie RC-bin→GGL-bin en bereken de negatieve-controlescore logL_perm.

5. Trek beide van elkaar af om de sluitingssterkte te verkrijgen: ΔlogL_closure = <logL_true> − <logL_perm>.

Analogie in gewone taal

De sluitingstest lijkt op een herkansing in een andere examenzaal: het model leert eerst een regel in de RC-zaal en geeft daarna antwoord in de GGL-zaal. Als het een gedeelde regel heeft geleerd en geen lokale truc, moet het in de tweede zaal nog steeds goed presteren; als de correspondentie tussen examenzalen bewust wordt geschud, hoort het voordeel te verdwijnen.


5.4 Vóór het lezen van de technische tabellen: vier ingangen

Tabel 5.4 | Hoe je de volgende reeks liggende technische tabellen leest

Ingang

Waarnaar kijken

Waarom het belangrijk is

Tabel S1a

RC+GGL-totaalscore van de gezamenlijke fit

Beantwoordt: ‘Over beide datasets genomen, wiens algemene verklaring is sterker?’

Tabel S1b

Sluitingssterkte, shuffle, robuustheidsscans

Beantwoordt: ‘Kan wat uit RC is geleerd naar GGL worden overgedragen?’

Tabel B0

Definities van meerdere DM-versterkingsvertakkingen in P1A

Voorkomt dat P1 wordt gereduceerd tot ‘alleen vergeleken met de minimale DM_RAZOR’.

Tabel B1

P1A-sluitings- en gezamenlijke scorebord

Controleert of versterkte DM het sluitingsvoordeel uitwist.

Lay-outnotitie

De volgende pagina schakelt over naar liggende oriëntatie zodat de brede tabellen uit het oorspronkelijke rapport behouden blijven zonder kolommen te verwijderen of ze onleesbaar samen te persen. De hoofdtekst heeft al een uitleg in gewone taal gegeven; de liggende technische tabellen zijn bedoeld voor lezers die cijfers en modelvertakkingen moeten controleren.

Figuur 0.1 | P1’s sluitingstest-workflow in één oogopslag

Noot: de bovenste keten is de ‘sluitingstest’ (alleen RC fitten → de RC-posterior gebruiken om GGL te voorspellen); de onderste keten is de ‘gezamenlijke fit’ (RC+GGL samen scoren). Rechts wordt de echte mapping vergeleken met geschudde mappings om de sluitingssterkte ΔlogL te verkrijgen.


6 | Belangrijke technische tabellen: hoofdtabellen van het rapport en P1A-tabellen

Tabel S1a | Hoofdmetrics voor vergelijking van gezamenlijke fit (RC+GGL, Strict; overgenomen uit het oorspronkelijke rapport)

Model (workspace)

W-kern

k

Gezamenlijke logL_total (best)

ΔlogL_total t.o.v. DM

AICc

BIC

DM_RAZOR

geen

20

-16927.763

0.0

33895.885

34010.811

EFT_BIN

geen

21

-15590.552

1337.21

31223.501

31344.155

EFT_WEXP

exponentieel

21

-15668.83

1258.932

31380.057

31500.711

EFT_WYUK

yukawa

21

-15772.936

1154.827

31588.268

31708.922

EFT_WPOW

powerlaw_tail

21

-15633.321

1294.442

31309.038

31429.692

Tabel S1b | Sluitings- en robuustheidsmetrics (Strict; overgenomen uit het oorspronkelijke rapport)

Model (workspace)

Sluiting ΔlogL (true-perm)

ΔlogL na negatieve-controlerandomisatie

σ_int-scan ΔlogL-bereik

R_min-scan ΔlogL-bereik

cov-shrink-scan ΔlogL-bereik

DM_RAZOR

126.678

22.725

EFT_BIN

231.611

14.984

459–1548

1243–1289

1337–1351

EFT_WEXP

171.977

6.04

408–1471

1169–1207

1259–1277

EFT_WYUK

179.808

14.688

380–1341

1065–1099

1155–1166

EFT_WPOW

280.513

6.672

457–1500

1203–1247

1294–1308

Tabel B0 | Definities van DM-versterkingsvertakkingen in P1A (overgenomen uit Bijlage B van het oorspronkelijke rapport)

Workspace

dm_model

Nieuwe parameters (≤1)

Fysische motivatie (kern)

Implementatieregel (auditvriendelijk)

DM_RAZOR

NFW (vaste c–M, geen spreiding)

Minimale, auditeerbare LambdaCDM-halo-basislijn; gebruikt als strikte vergelijker voor EFT

Gedeelde mapping vastgezet; strikte parameterboekhouding; alleen als basislijn voor relatieve vergelijking gebruikt

DM_RAZOR_SCAT

NFW + c–M-spreiding (legacy)

σ_logc

De c–M-relatie heeft spreiding; benaderd met een één-parameter lognormale spreiding

≤1 nieuwe parameter; gebruikt nog steeds de gedeelde mapping; sluitingswinst is het acceptatiecriterium

DM_RAZOR_AC

NFW + adiabatische contractie (legacy)

α_AC

Baryonische instroom kan adiabatische contractie van de halo veroorzaken; benaderd met één sterkteparameter

≤1 nieuwe parameter; mapping onveranderd; rapporteert AICc/BIC-veranderingen en sluitingswinst

DM_RAZOR_FB

NFW + feedbackkern (legacy)

log r_core

Feedback kan in het binnengebied een core vormen; benaderd met één kernschaalparameter

≤1 nieuwe parameter; hetzelfde sluitings-/negatieve-controleprotocol; RC-only-verbetering is niet het enige doel

DM_HIER_CMSCAT

Hiërarchische c–M-spreiding + prior

σ_logc (hier)

Een meer standaard hiërarchische c_i∼logN(c(M_i), σ_logc); beïnvloedt de gezamenlijke RC- en GGL-posterior tegelijk

Expliciete prior; latente c_i gemarginaliseerd; blijft laag-dimensionaal en auditeerbaar

DM_CORE1P

1‑parameter-kernproxy (geïnspireerd op coreNFW/DC14)

log r_core

Gebruikt een één-parameter-kernproxy voor het hoofdeffect van baryonische feedback en vermijdt hoog-dimensionale details van stervorming

Verwijst naar standaardliteratuur; ≤1 nieuwe parameter; gekoppeld aan de sluitingstest

DM_RAZOR_M

NFW + nuisance voor shear-kalibratie in lenswerking

m_shear (GGL)

Absorbeert een kernsystematiek aan de zwakke-lenswerkingkant als effectieve parameter, waardoor het risico daalt dat systematiek als natuurkunde wordt behandeld

De nuisanceparameter wordt expliciet geboekt; mag niet terugwerken op RC; resultaten worden vooral beoordeeld op robuuste sluiting

DM_STD

Gestandaardiseerde DM-basislijn (HIER_CMSCAT + CORE1P + m)

σ_logc + log r_core (+ m_shear)

Brengt drie gangbare klassen van bezwaren onder in een nog steeds laag-dimensionale gestandaardiseerde basislijn

Rapporteert parameterboekhouding en informatiecriteria samen; sluiting is de hoofdmetric; gebruikt als sterkste DM-verdedigingsvergelijker

Tabel B1 | P1A-scorebord (hoger is beter; overgenomen uit Bijlage B van het oorspronkelijke rapport)

Modelvertakking (workspace)

Δk

RC-only beste logL_RC (Δ)

Sluitingssterkte ΔlogL_closure (Δ)

Gezamenlijke beste logL_total (Δ)

DM_RAZOR

0

-15702.654 (+0.000)

122.205 (+0.000)

-27347.068 (+0.000)

DM_RAZOR_SCAT

1

-15702.294 (+0.361)

121.236 (-0.969)

-23153.311 (+4193.758)

DM_RAZOR_AC

1

-15703.689 (-1.035)

121.531 (-0.674)

-23982.557 (+3364.511)

DM_RAZOR_FB

1

-15496.046 (+206.609)

129.454 (+7.249)

-27478.531 (-131.463)

DM_HIER_CMSCAT

1

-15702.644 (+0.010)

121.978 (-0.227)

-23153.160 (+4193.908)

DM_CORE1P

1

-15723.158 (-20.504)

122.056 (-0.149)

-27336.258 (+10.810)

DM_RAZOR_M

0 (+m)

-15702.654 (+0.000)

122.205 (+0.000)

-27340.451 (+6.617)

DM_STD

2 (+m)

-15832.203 (-129.549)

105.690 (-16.515)

-22984.445 (+4362.623)

EFT_BIN

1

-14631.537 (+1071.117)

204.620 (+82.415)

-19001.142 (+8345.926)

Hoe lees je tabel B1 (P1A-scorebord)

• Δk: toegevoegde vrijheidsgraden (groter betekent een complexer model; complexer betekent niet beter).

• Let vooral op twee kolommen: sluitingssterkte ΔlogL_closure(Δ) (groter betekent meer overdrachtszelfconsistentie) en beste gezamenlijke logL_total(Δ) (totale score van gezamenlijke fit).

• De (Δ) tussen haakjes is het verschil ten opzichte van DM_RAZOR, waardoor directe vergelijking eenvoudig is.

• De hoofdvraag van deze tabel is: als de DM-basislijn ‘redelijk wordt versterkt’, verdwijnt het sluitingsvoordeel dan?

• Leesnotitie: DM_STD verbetert de gezamenlijke score aanzienlijk, maar de sluitingssterkte daalt juist; EFT_BIN behoudt nog steeds een hogere sluitingssterkte.

Samenvatting in één zin: binnen dit laag-dimensionale, auditeerbare bereik van DM-versterkingen levert het verbeteren van de gezamenlijke fit niet automatisch sterkere sluiting op; sluiting (overdraagbaarheid) blijft het sleutelcriterium.


7 | Hoe moeten de hoofdresultaten worden gelezen?


7.1 Gezamenlijke fit: over beide datasets scoort de EFT-hoofdvergelijking hoger

Tabel S1a en figuur S4 laten zien dat de EFT-familie, bij dezelfde data, dezelfde gedeelde mapping en vrijwel dezelfde parameterschaal, een gezamenlijke ΔlogL_total van 1155–1337 heeft ten opzichte van DM_RAZOR. Voor algemene lezers betekent dit dat de EFT-modellen in de hoofdvergelijking onder één scoringsregel die RC en GGL combineert, een hogere totaalscore krijgen.


7.2 Sluitingstest: P1’s hoofdaccent ligt op overdraagbaarheid

Een hoge sluitingssterkte betekent dat een model parameters uit alleen RC kan afleiden en, zonder opnieuw naar GGL te kijken, GGL beter kan voorspellen. In het P1-rapport heeft EFT ΔlogL_closure = 172–281, terwijl DM_RAZOR 127 heeft. Dit is belangrijker dan zeggen dat ‘elke fit er goed uitziet’, omdat het de vrijheid van het model op de tweede dataset beperkt.


7.3 Negatieve controle: waarom is ‘instorting van het signaal’ juist goed?

Nadat P1 de groepscorrespondentie RC-bin→GGL-bin willekeurig heeft geschud, daalt EFT’s sluitingssignaal naar het bereik 6–23. Voor algemene lezers is dit een anti-valsstap: als het sluitingsvoordeel alleen uit code, eenheden, covariantiekeuzes of toevallige fit kwam, zouden geschudde correspondenties nog steeds een voordeel kunnen tonen. In plaats daarvan stort het voordeel in, wat laat zien dat het afhangt van de juiste mapping.

Figuur S3 | Sluitingssterkte (hoger is beter): gemiddeld log-likelihoodvoordeel voor RC-only → GGL-voorspelling.

Hoe lees je deze figuur

Deze figuur vormt de kern van P1. Hoe hoger de balk, hoe beter de informatie die een model uit RC leerde naar GGL wordt overgedragen.

De EFT-familie als geheel staat boven DM_RAZOR, wat wijst op sterkere sluiting tussen meetkanalen in het experiment ‘eerst RC leren, dan GGL voorspellen’.

Figuur S4 | Voordeel van gezamenlijke fit (hoger is beter): RC+GGL beste logL_total ten opzichte van DM_RAZOR.

Hoe lees je deze figuur

Deze figuur toont de totaalscore nadat RC en GGL zijn gecombineerd.

Alle EFT-varianten liggen ruim boven 0, wat laat zien dat het EFT-voordeel in de hoofdvergelijking geen lokaal éénpuntseffect is, maar het globale gedrag van de gezamenlijke analyse.

Figuur R1 | Negatieve controle: het sluitingssignaal daalt scherp na het schudden van de groepering.

Hoe lees je deze figuur

Deze figuur laat zien dat het sluitingssignaal scherp daalt zodra de juiste RC↔GGL-binrelatie wordt geschud.

Daardoor lijkt het P1-resultaat meer op echte consistentie in een mapping tussen datasets dan op een numeriek toeval dat onder willekeurige mappings kan worden verkregen.


8 | Robuustheid en controles: hoe voorkomt P1 dat het ‘gewoon beter fit’?

Een technisch rapport is het kwetsbaarst voor de zorg dat het voordeel kan voortkomen uit een bepaalde ruisinstelling, een keuze voor data uit het centrale gebied, covariantiebehandeling of overfitting. P1 beantwoordt die zorg met meerdere stresstests.

Tabel 2 | Hoe je P1’s robuustheidstests en negatieve controles leest

Test

Zorg die hij probeert uit te sluiten

Hoe je hem leest

σ_int-scan

Als RC extra onbekende spreiding bevat, blijft de conclusie dan stabiel?

Na het verruimen van de RC-fouten blijven de EFT-rangschikking en de omvang van het voordeel stabiel.

R_min-scan

Als het centrale gebied van het sterrenstelsel niet volledig wordt vertrouwd, blijft de conclusie dan stabiel?

Na het wegsnijden van het centrale gebied behoudt EFT nog steeds een positief voordeel.

cov-shrink-scan

Als de GGL-covariantie-inschatting onzeker is, blijft de conclusie dan stabiel?

Na het krimpen van de covariantie richting een diagonale matrix is het voordeel niet gevoelig.

Ablatieladder

Dwingt EFT een fit af via onnodige complexiteit?

De volledige EFT_BIN is nodig volgens de informatiecriteria.

LOO-voorspelling met weggelaten bins

Verklaart het model alleen data die het al heeft gezien?

Nadat een GGL-bin is weggelaten, toont het model nog steeds sterke generalisatie.

RC-bin-shuffle

Komt sluiting voort uit de echte mapping?

Sluiting daalt nadat de groepering is geschud, wat mappingafhankelijkheid ondersteunt.

Figuur R2 | Bereik van ΔlogL_total onder de σ_int-scan (hoger is beter).

Hoe lees je deze figuur

Test of EFT’s voorsprong blijft bestaan na wijzigingen in de instelling voor intrinsieke RC-spreiding.

Figuur R3 | Bereik van ΔlogL_total onder de R_min-scan (hoger is beter).

Hoe lees je deze figuur

Test of EFT’s voordeel stabiel blijft nadat het complexe centrale gebied is weggesneden.

Figuur R4 | Bereik van ΔlogL_total onder de cov-shrink-scan (hoger is beter).

Hoe lees je deze figuur

Test of de rangschikking gevoelig is voor veranderingen in de behandeling van zwakke-lenswerkingcovariantie.

Figuur R5 | Ablatieladder voor EFT_BIN (AICc; lager is beter).

Hoe lees je deze figuur

Test of de volledige EFT_BIN nodig is om de data te verklaren, in plaats van slechts parameters toe te voegen.

Figuur R6 | LOO: verdeling van log-likelihood voor weggelaten bins.

Hoe lees je deze figuur

Test of het model nog steeds goed voorspelt op een ongeziene GGL-bin.

Figuur R7 | Negatieve controle: geschudde mapping veroorzaakt een duidelijke daling in mean logL_true.

Hoe lees je deze figuur

Laat vanuit het perspectief van mean logL_true verder zien dat sluiting afhangt van de juiste mapping tussen datasets.


9 | P1A: waarom de meerdere DM-modellen in de appendix belangrijk zijn

Deze sectie vraagt niet: ‘Heeft EFT alleen één minimale DM_RAZOR verslagen?’ Zij vraagt of de conclusies uit sluitingstest en gezamenlijke fit veranderen wanneer de DM-basislijn binnen een laag-dimensionale, reproduceerbare en helder geboekstaafde parameterboekhouding wordt versterkt (P1A). Met andere woorden: P1A is bedoeld om het bezwaar te verkleinen dat de vergelijking een te zwakke DM-basislijn gebruikte, en om de discussie te verplaatsen naar de vraag of de sluitingsprestatie nog steeds verschilt onder een reeks auditeerbare DM-versterkingen.

P1A probeert niet elke mogelijke LambdaCDM-halomodelleringsoptie uit te putten, en maakt van de DM-kant ook geen hoog-dimensionale, niet-auditeerbare fitmachine. Het kiest laag-dimensionale, reproduceerbare, boekhoudkundig heldere versterkingen: concentratiespreiding, adiabatische contractie, feedbackkern, hiërarchische c–M-spreidingsprior, één-parameter-kernproxy, nuisanceparameter voor shear-kalibratie in zwakke lenswerking en de gecombineerde DM_STD-basislijn.

Belangrijkste lezing van P1A

Van de drie legacy-vertakkingen levert alleen feedback/kern een kleine nettowinst in sluitingssterkte op; SCAT en AC leveren geen netto sluitingswinst.

DM_HIER_CMSCAT, DM_RAZOR_M en DM_CORE1P hebben weinig effect op de sluitingssterkte of tonen geen significante nettowinst.

DM_STD kan gezamenlijke logL aanzienlijk verbeteren, maar de sluitingssterkte daalt; dit suggereert dat het vooral de flexibiliteit van de gezamenlijke fit vergroot, niet de RC→GGL-overdrachtsvoorspellingskracht.

In P1A-tabel B1 behoudt EFT_BIN nog steeds een hogere sluitingssterkte en een voordeel in gezamenlijke fit. De kernclaim van P1 moet daarom niet worden vereenvoudigd tot ‘het versloeg alleen de minimale DM_RAZOR’.

Figuur B1 | P1A-scorebord: sluitings- en gezamenlijke ΔlogL ten opzichte van basislijn (hoger is beter).

Hoe lees je deze figuur

Deze figuur toont hoe meerdere DM-versterkingsvertakkingen presteren ten opzichte van de basislijn.

De betekenis is niet ‘alle DM is uitgesloten’. De figuur laat zien dat versterkte DM, binnen het laag-dimensionale, auditeerbare DM-versterkingsbereik dat P1A kiest, het sluitingsvoordeel van EFT_BIN niet uitwist.


10 | Waarom het P1-experiment ertoe doet

10.1 Methodologische betekenis: zet sluiting tussen meetkanalen boven fitten op één meetkanaal

Theorie op sterrenstelselschaal loopt vaak vast in discussies over de vraag of een model één set rotatiecurven kan fitten. P1 legt de lat hoger: kunnen parameters die uit RC zijn geleerd zwakke lenswerking voorspellen zonder opnieuw op GGL af te stemmen? Daarmee verandert P1 van een fitwedstrijd in een test van overdrachtsvoorspelling.

10.2 Betekenis voor transparantie: maak de reproduceerbare keten onderdeel van het resultaat

Een belangrijke bijdrage van P1 is dat het data, tabellen en figuren, run-labels, negatieve controles, reproduceerbaarheidspakket en auditspoor samen vrijgeeft. Dat is zowel voor voorstanders als critici belangrijk: de discussie kan terugkeren naar dezelfde publieke data, dezelfde mapping, dezelfde scripts en dezelfde metrics, in plaats van slogans te vergelijken.


10.3 Fysische betekenis: een sterke stresstest voor zwaartekracht zonder DM

In richtingen zonder DM kunnen veel modellen een deel van de rotatiecurve- of RAR-fenomenologie verklaren. De moeilijkere taak is om tegelijk door de uitlezingen van zwakke lenswerking te komen en onder negatieve controles te laten zien dat het signaal afhangt van de juiste mapping. De betekenis van P1 is dat het EFT’s gemiddelde zwaartekrachtrespons in een protocol plaatst dat op een extern examen lijkt: RC is het trainingsveld, GGL is het overdrachtsveld en shuffle is het anti-valsspeelveld.


10.4 Is dit een belangrijk experiment voor het veld van zwaartekracht zonder DM?

Voorzichtig geformuleerd: als P1’s dataverwerking, reproduceerbaarheidspakket en sluitingsprotocol onder externe replicatie standhouden, dan kan het worden beschouwd als een RC+GGL-sluitingsexperiment dat in onderzoek naar zwaartekracht zonder DM / gewijzigde zwaartekracht serieus aandacht verdient. Het belang ligt niet in de frase ‘donkere materie is omvergeworpen’, maar in het bieden van een criterium tussen meetkanalen dat kan worden gekopieerd, betwist en uitgebreid.

Bestaat er al een vergelijkbaar sterk RC+GGL-raamwerk voor voorspellingssluiting?

Relevante raamwerken en observatietradities bestaan al: MOND/RAR ordent een groot deel van de rotatiecurvefenomenen zeer goed; KiDS-1000-werk rond de zwakke-lenswerking-RAR heeft ook MOND, Verlinde emergent gravity en LambdaCDM-modellen vergeleken; LambdaCDM kan sommige zwakke-lenswerking-/dynamische verschijnselen eveneens verklaren via sterrenstelsel–halo-verbindingen, gashalo’s en feedbackmodellering.

Maar P1’s precieze claim is niet: ‘geen enkel ander raamwerk ter wereld kan RC+GGL verklaren’. De claim is dat EFT onder P1’s eigen publieke protocol — vaste mapping, RC-only→GGL-sluiting, shuffle-negatieve controle, parameterboekhouding en P1A-stresstests met meerdere DM-modellen — een sterkere sluitingsprestatie rapporteert.

Met andere woorden: het deel van P1 dat externe toetsing het meest verdient, is het concrete en reproduceerbare vergelijkingsprotocol dat het voorstelt. Of MOND/RAR, LambdaCDM/HOD, hydrodynamische simulaties of andere raamwerken voor gewijzigde zwaartekracht onder hetzelfde protocol dezelfde of een hogere sluitingsscore kunnen bereiken, is een zeer waardevolle volgende stap.


11 | Wat kan P1 concluderen? Wat kan het niet concluderen?

Tabel 3 | Grenzen van P1’s conclusies

Kan concluderen

Onder P1’s RC+GGL-data, vaste mapping en hoofdvergelijkingsprotocol heeft de EFT-familie een hogere gezamenlijke fit en sluitingssterkte dan de minimale DM_RAZOR.

Kan concluderen

Binnen P1A’s laag-dimensionale, auditeerbare DM-versterkingsbereik wissen meerdere DM-versterkingen het sluitingsvoordeel van EFT_BIN niet uit.

Kan concluderen

De shuffle-negatieve controle laat zien dat het sluitingssignaal afhangt van de juiste mapping tussen datasets en niet van willekeurige mappings.

Kan niet concluderen

Er kan niet worden geconcludeerd dat P1 alle donkere-materiemodellen heeft weerlegd. P1A put nog steeds geen niet-sfericiteit, omgevingsafhankelijkheid, complexe sterrenstelsel–halo-verbindingen, hoog-dimensionale feedback of volledige kosmologische simulaties uit.

Kan niet concluderen

Er kan niet worden geconcludeerd dat de volledige EFT-theorie vanuit eerste principes is bewezen. P1 test alleen de fenomenologische laag van gemiddelde zwaartekrachtrespons.

Kan niet concluderen

Er kan niet worden geconcludeerd dat alle systematiek is uitgesloten. P1 levert alleen robuustheidsbewijs binnen de genoemde stresstests en auditomvang.


12 | Veelgestelde vragen

Q1: Zegt dit dat ‘donkere materie niet bestaat’?

Nee. P1’s conclusie moet beperkt blijven tot de data, het protocol en de vergelijkingsmodellen die in dit artikel worden gebruikt. P1A gaat verder dan de minimale DM_RAZOR-basislijn, maar vertegenwoordigt nog steeds niet elk mogelijk donkere-materiemodel.

Q2: Zegt dit dat ‘EFT al bewezen is’?

Ook nee. P1 test EFT als een geparametriseerde gemiddelde zwaartekrachtrespons en laat sterkere prestaties zien in RC→GGL-sluiting; microscopische mechanismen en de volledige theorie zijn geen conclusies van P1.

Q3: Waarom niet direct een significantie in σ vermelden?

P1 gebruikt een uniforme likelihoodscore, informatiecriteria en sluitingsverschillen. ΔlogL is een relatief voordeel onder dezelfde scoringsregel; het is niet hetzelfde als één enkele σ-waarde.

Q4: Waarom RC-bin→GGL-bin schudden?

Dit is de negatieve controle. Een echt signaal tussen meetkanalen moet afhankelijk zijn van de juiste mapping. Als het geschudde geval even sterk bleef, zou dat eerder wijzen op implementatiebias of een statistisch vals signaal.

Q5: Wat zou P1 hierna moeten doen?

Breid hetzelfde protocol uit naar meer data, meer DM-controles, complexere systematiek en meer raamwerken voor gewijzigde zwaartekracht, vooral op manieren die externe teams in staat stellen dezelfde sluitingsmaat te repliceren.


13 | Kleine begrippenlijst

Tabel 4 | Kleine begrippenlijst

Term

Uitleg in één zin

Rotatiecurve (RC)

De radius–snelheidsrelatie in een sterrenstelselschijf, gebruikt om effectieve zwaartekracht binnen de schijf af te leiden.

Zwakke lenswerking (GGL)

Meet de gemiddelde zwaartekracht-/massaverdeling rond voorgrondstelsels via de statistische vervorming van vormen van achtergrondstelsels.

Sluitingstest

Gebruikt de RC-posterior om GGL te voorspellen en vergelijkt die met een negatieve controle met geschudde mapping.

Negatieve controle

Breekt doelbewust een sleutelstructuur om te zien of het signaal verdwijnt; gebruikt om valse signalen uit te sluiten.

NFW-halo

Een dichtheidsprofiel voor donkere-materiehalo’s dat vaak wordt gebruikt in modellen met koude donkere materie.

c–M-relatie

De relatie tussen de concentratie c en massa M van een donkere-materiehalo; het toestaan van spreiding verandert de modelflexibiliteit.

DM_STD

In P1A: een gestandaardiseerde DM-stresstestvertakking die meerdere laag-dimensionale DM-versterkingen en een nuisanceparameter voor lenswerking combineert.

ΔlogL

Verschil in log-likelihood tussen twee modellen onder dezelfde scoringsregel; positieve waarden betekenen dat het eerste model beter presteert.

Covariantie

Een matrixbeschrijving van correlaties tussen datapunten; zwakke-lenswerkingdata vereisen doorgaans de volledige covariantie.


14 | Aanbevolen leesroute en citatie-ingangen

1. Lees eerst secties 0–2 om P1’s vraagstelling en de terughoudende rol van EFT in P1 vast te leggen.

2. Bekijk daarna figuren S3 en S4 en tabellen S1a/S1b om sluitingssterkte, gezamenlijke fit en negatieve controles te begrijpen.

3. Als je je zorgen maakt dat de DM-basislijn te zwak is, ga dan direct naar sectie 9 en tabel B1 / figuur B1.

4. Voor technische replicatie keer je terug naar het technische P1-rapport v1.1, het Tables & Figures Supplement en full_fit_runpack.

Belangrijkste archiefingangen

Technisch P1-rapport (publicatiekwaliteit, Concept DOI): 10.5281/zenodo.18526334

Volledig reproduceerbaarheidspakket van P1 (Concept DOI): 10.5281/zenodo.18526286

Gestructureerde EFT-kennisbank (optioneel, Concept DOI): 10.5281/zenodo.18853200

Licentienotitie: het technische rapport gebruikt CC BY-NC-ND 4.0; het volledige reproduceerbaarheidspakket gebruikt CC BY 4.0 (onder voorbehoud van het technische rapport en de Zenodo-archiefrecords).


15 | Referenties en externe achtergrond

McGaugh, S. S., Lelli, F., & Schombert, J. M. (2016). The Radial Acceleration Relation in Rotationally Supported Galaxies. Physical Review Letters, 117, 201101. DOI: 10.1103/PhysRevLett.117.201101.

Famaey, B., & McGaugh, S. S. (2012). Modified Newtonian Dynamics (MOND): Observational Phenomenology and Relativistic Extensions. Living Reviews in Relativity, 15, 10. DOI: 10.12942/lrr-2012-10.

Brouwer, M. M., Oman, K. A., Valentijn, E. A., et al. (2021). The weak lensing radial acceleration relation: Constraining modified gravity and cold dark matter theories with KiDS-1000. Astronomy & Astrophysics, 650, A113. DOI: 10.1051/0004-6361/202040108.

Mistele, T., McGaugh, S., Lelli, F., Schombert, J., & Li, P. (2024). Indefinitely Flat Circular Velocities and the Baryonic Tully-Fisher Relation from Weak Lensing. The Astrophysical Journal Letters, 969, L3 / arXiv:2406.09685.

Bullock, J. S., & Boylan-Kolchin, M. (2017). Small-Scale Challenges to the LambdaCDM Paradigm. Annual Review of Astronomy and Astrophysics, 55, 343–387. DOI: 10.1146/annurev-astro-091916-055313.

Lelli, F., McGaugh, S. S., & Schombert, J. M. (2016). SPARC: Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves. The Astronomical Journal, 152, 157. DOI: 10.3847/0004-6256/152/6/157.

Navarro, J. F., Frenk, C. S., & White, S. D. M. (1997). A Universal Density Profile from Hierarchical Clustering. Astrophysical Journal, 490, 493.

Dutton, A. A., & Macciò, A. V. (2014). Cold dark matter haloes in the Planck era: evolution of structural parameters for NFW haloes. Monthly Notices of the Royal Astronomical Society, 441, 3359–3374.