P1-rapport uitgelegd — Van rotatiecurven naar zwakke lenswerking: de gemiddelde zwaartekrachtrespons van de energiefilamenttheorie (Energy Filament Theory, EFT) toetsen

← Experiment

Een publieksgerichte uitleg op basis van P1_RC_GGL: Een strikte sluitingstest van sterrenstelseldynamica en zwakke lenswerking (v1.1)

Origineel rapport door Guanglin Tu | Versiebasis: P1 v1.1 | Positionering: publieksuitleg / geen peer-reviewed artikel
Gerelateerde archieven: rapport-DOI 10.5281/zenodo.18526334 | reproduceerbaarheidspakket-DOI 10.5281/zenodo.18526286

Leesnotities

Dit is een uitlegtekst, geen nieuw academisch rapport. Hij is gebaseerd op het oorspronkelijke P1-rapport, behoudt de belangrijkste figuren en tabellen en voegt bij elke kernstap publieksgerichte uitleg toe over ‘wat dit betekent’.

Dit artikel legt alleen de conclusies uit die P1 bereikt binnen zijn vastgelegde datasets, parameterboekhouding en statistische protocol: in de gezamenlijke test van rotatiecurven van sterrenstelsels (RC) en zwakke lenswerking tussen sterrenstelsels (GGL) loopt EFT’s model voor gemiddelde zwaartekrachtrespons duidelijk voor op de hier geteste minimale DM_RAZOR-basislijn.

Dit artikel leest P1 niet als de conclusie dat ‘donkere materie is omvergeworpen’. P1 is slechts de eerste stap in de P-serie-experimenten. Het test één waarneembare laag binnen EFT — de ‘gemiddelde zwaartekrachtbasis’ — en niet de volledige EFT-theorie.

0 | P1 in vijf minuten begrijpen: wat wordt hier eigenlijk getest?

P1 kan worden gelezen als een validatie-experiment tussen meetkanalen. Het vraagt niet alleen of een model één dataset kan fitten; het legt twee heel verschillende zwaartekrachtuitlezingen op dezelfde auditbank: rotatiecurven (RC) lezen de dynamica binnen sterrenstelselschijven, terwijl zwakke lenswerking tussen sterrenstelsels (GGL) de geprojecteerde zwaartekrachtrespons op grotere schalen leest.

RC werkt als een snelheidsmeter: het vertelt hoe snel gas en sterren op verschillende afstanden binnen een sterrenstelselschijf rondlopen.
GGL werkt als een weegschaal: door te meten hoe voorgrondstelsels het achtergrondlicht licht afbuigen, leidt het de gemiddelde zwaartekracht-/massaverdeling rond sterrenstelsels op grotere schaal af.
De kernvraag van P1 is: kan hetzelfde model een patroon uit RC leren en blijft dat patroon zinvol wanneer het naar GGL wordt overgedragen?

P1’s kernboodschap

P1 verhoogt de vergelijkingsdrempel van ‘past het één meetkanaal goed?’ naar ‘sluit het over meetkanalen heen?’ Goede prestaties onder de juiste mapping, gevolgd door instorting van het signaal wanneer de mapping wordt geschud, suggereren dat het model mogelijk een zwaartekrachtstructuur heeft vastgelegd die RC en GGL delen.

Tabel 0 | De kerncijfers van P1 en hoe je ze leest

Metric	Hoe P1 / P1A dit leest	Uitleg in gewone taal
Gezamenlijke fit ΔlogL_total	Hoofdtekstvergelijking: EFT ligt 1155–1337 boven DM_RAZOR	Totaal scoreverschil over de twee datasets; groter betekent een betere algemene verklaring.
Sluitingssterkte ΔlogL_closure	Hoofdtekstvergelijking: EFT is 172–281, terwijl DM_RAZOR 127 is	Vermogen om GGL te voorspellen na inferentie uit alleen RC; groter betekent meer zelfconsistentie tussen meetkanalen.
Negatieve-controlerandomisatie	Na het schudden van RC-bin→GGL-bin daalt het EFT-sluitingssignaal naar 6–23	Als de juiste correspondentie wordt verbroken, hoort het voordeel te verdwijnen; hoe sterker het verdwijnt, hoe meer valse signalen worden uitgesloten.
P1A-stresstest met meerdere DM-modellen	DM 7+1 + DM_STD, met EFT_BIN behouden als vergelijker	P1A kijkt niet alleen naar de minimale DM_RAZOR; het plaatst meerdere laag-dimensionale, auditeerbare DM-versterkingsvertakkingen in hetzelfde sluitingsprotocol.

1 | Waarom P1 nodig was: waar kosmologie op sterrenstelselschaal vastloopt

Het probleem op sterrenstelselschaal blijft lastig omdat de behoefte aan ‘extra zwaartekracht/massa’ niet alleen een rotatiecurveverschijnsel is. Een grote hoeveelheid waarnemingen laat een nauwe koppeling zien tussen zichtbare baryonische materie in sterrenstelsels en de feitelijke dynamische/lens-uitlezingen. Voor de route via donkere materie betekent dit dat donkere halo’s, baryonische feedback, vormingsgeschiedenissen van sterrenstelsels en observatiesystematiek zeer precies op elkaar moeten worden afgestemd. Voor routes zonder donkere materie betekent het dat een model er niet alleen goed uit mag zien op RC; het moet ook standhouden bij zwakke lenswerking, populatieschaalwetten en negatieve controles.

Dat is de motivatie van P1. Het vertrekt niet vanuit ‘donkere materie is fout’ of ‘EFT moet gelijk hebben’. Het brengt één toetsbare claim voor het tribunaal: kan EFT’s gemiddelde zwaartekrachtrespons een reproduceerbaar en overdraagbaar signaal achterlaten in RC→GGL-sluiting tussen meetkanalen?

Externe literatuurcontext: waarom het RC+GGL-venster belangrijk is

McGaugh, Lelli en Schombert (2016) stelden de radialeversnellingsrelatie (RAR) voor, die een nauwe relatie met kleine spreiding toont tussen de door rotatiecurven gemeten waargenomen versnelling en de uit baryonische materie voorspelde versnelling. Daardoor wordt baryon–zwaartekrachtresponskoppeling een onvermijdelijk thema voor theorie op sterrenstelselschaal.

Brouwer et al. (2021) gebruikten KiDS-1000 zwakke lenswerking om de RAR uit te breiden naar lagere versnellingen en grotere radii, en vergeleken MOND, Verlinde emergent gravity en LambdaCDM-modellen. Zij merkten ook op dat verschillen tussen vroege en late typen sterrenstelsels, gashalo’s en sterrenstelsel–halo-verbindingen sleutelvragen voor verklaring blijven.

Mistele et al. (2024) gebruikten zwakke lenswerking verder om circulaire-snelheidscurven voor geïsoleerde sterrenstelsels af te leiden en rapporteerden geen duidelijke afname tot honderden kpc en zelfs ongeveer 1 Mpc, in overeenstemming met de BTFR. Dit laat zien dat zwakke lenswerking een belangrijke externe uitlezing wordt voor zwaartekrachtrespons op sterrenstelselschaal.

De waarde van P1 ligt daarom niet in het feit dat het als eerste RC en GGL samen bespreekt. De waarde ligt erin dat het beide onderbrengt in een auditeerbaar protocol met een vaste mapping, een parameterboekhouding, RC-only→GGL-sluiting, shuffle-negatieve controles en P1A-stresstests met meerdere DM-modellen.

2 | Wat betekent EFT in P1? Het is niet Effective Field Theory

Hier betekent EFT Energiedraadtheorie (Energy Filament Theory), niet de in de natuurkunde bekende effectieve veldtheorie (Effective Field Theory). In het technische P1-rapport wordt EFT heel terughoudend ingezet: het treedt niet aan als volledige eindtheorie, maar wordt eerst samengeperst tot een waarneembare, fitklare en falsifieerbare parametrisering van een ‘gemiddelde zwaartekrachtrespons’.

Eenvoudig gezegd probeert P1 niet alle microscopische bronnen van extra zwaartekracht te bespreken en ook niet het hele EFT-raamwerk in één stap te bewijzen. Het stelt een smallere en hardere vraag: als er op sterrenstelselschaal een vorm van gemiddelde extra zwaartekrachtrespons bestaat, kan die dan eerst RC verklaren en vervolgens worden overgedragen om GGL te voorspellen?

Welk deel van EFT test P1?

P1 test de ‘gemiddelde zwaartekrachtbasis’: een statistisch stabiele, overdraagbare gemiddelde bijdrage.

P1 behandelt nog niet de ‘stochastische / ruisbasis’: de willekeurige termen, object-tot-objectverschillen of extra spreiding die uit microscopischere fluctuatieprocessen kunnen ontstaan.

P1 bespreekt ook niet het volledige microscopische mechanisme, abundanties, levensduren of globale kosmologische beperkingen. Het is de eerste stap in de P-serie-experimenten, niet het eindoordeel.

3 | Het P-serieplan: waarom beginnen bij de ‘gemiddelde basis’?

De P-serie kan worden begrepen als EFT’s observatie- en terugvindprogramma. Het legt niet alle claims tegelijk op tafel. In plaats daarvan isoleert het het onderdeel dat het gemakkelijkst met publieke data te testen is. P1 begint met de gemiddelde term: als de gemiddelde zwaartekrachtrespons niet kan sluiten van RC naar GGL, is er geen stevige ingang om complexere ruistermen of microscopische mechanismen te bespreken.

Tabel 1 | Gelaagde positionering van de P-serie

Laag	Vraag	Plaats in P1
P1	Kan de gemiddelde zwaartekrachtrespons sluiten van RC naar GGL?	Hoofdvraag van het huidige rapport
P1A	Blijft de conclusie stabiel als de DM-kant wordt versterkt?	Bijlage B: DM 7+1 + DM_STD-stresstest
Toekomstig werk in de P-serie	Kan dit worden uitgebreid naar meer data, meer meetkanalen en complexere systematiek?	Toekomstige richting
Diepere vragen	Hoe sluiten de gemiddelde term, de ruisterm en de microscopische mechanismen op elkaar aan?	Buiten het conclusiebereik van P1

4 | Wat zijn de data? Wat vertellen RC en GGL elk?

4.1 Rotatiecurven (RC): een snelheidsliniaal in sterrenstelselschijven

Rotatiecurven registreren hoe snel gas en sterren op verschillende afstanden van het centrum van een sterrenstelsel rondlopen. Hogere baansnelheden impliceren dat er een sterkere centripetale kracht nodig is, en dus een sterkere effectieve zwaartekrachtrespons. P1 gebruikt de SPARC-database; na voorbewerking bevat die 104 sterrenstelsels, 2.295 snelheidsdatapunten en 20 RC-bins.

4.2 Zwakke lenswerking (GGL): een grotere-schaal ‘zwaartekrachtweegschaal’

Zwakke lenswerking tussen sterrenstelsels meet hoe voorgrondstelsels het licht van achtergrondstelsels licht afbuigen. Dit correspondeert met een geprojecteerde zwaartekrachtrespons op grotere, halo-schaal en hangt niet af van de gasdynamische details van sterrenstelselschijven. P1 gebruikt publieke GGL-data van KiDS-1000 / Brouwer et al. (2021): vier stellair-massa-bins, 15 radiale punten per bin, samen 60 datapunten, met de volledige covariantie.

4.3 Vaste mapping: waarom 20 RC-bins → 4 GGL-bins belangrijk is

P1 verbindt 20 RC-bins met 4 GGL-bins via een vaste regel: elke GGL-bin komt overeen met vijf RC-bins, gemiddeld met gewichten op basis van het aantal sterrenstelsels. Deze mapping blijft voor elk model vast. Zij vormt een harde randvoorwaarde voor sluitingstests en eerlijke vergelijking.

Waarom de mapping niet achteraf afstemmen?

Als men achteraf zou mogen kiezen welke RC-bins met welke GGL-bins overeenkomen, zou een model sluiting kunnen fabriceren door de correspondentie te herschikken. P1 vergrendelt de 20→4-mapping vooraf en breekt die vervolgens doelbewust met een shuffle-negatieve controle, juist om te testen of het sluitingssignaal werkelijk afhankelijk is van een fysisch redelijke correspondentie.

5 | Modellen en methode: wat vergelijkt P1 eigenlijk?

5.1 EFT-kant: een laag-dimensionale gemiddelde zwaartekrachtrespons

Aan de EFT-kant beschrijft een laag-dimensionale extra-snelheidsterm de gemiddelde zwaartekrachtrespons. De vorm van die extra term wordt gestuurd door een dimensieloze kernfunctie f(r/ℓ), waarbij ℓ een globale schaal is, terwijl de amplitudes per RC-bin worden toegewezen. Verschillende kernen coderen verschillende beginhellingen, overgangsgedrag en lange-afstandsstaarten, en dienen zo als robuustheidsstresstests.

5.2 DM-kant: de hoofdvergelijking en Bijlage P1A moeten apart worden gelezen

In de hoofdvergelijking is DM_RAZOR een geminimaliseerde, auditeerbare NFW-basislijn: hij legt de c–M-relatie vast en bevat geen halo-tot-halo-spreiding, adiabatische contractie, feedbackkern, niet-sfericiteit of omgevingsterm. Het voordeel van dit ontwerp is gecontroleerde vrijheidsgraden en gemakkelijke reproduceerbaarheid; de beperking is dat het niet elk LambdaCDM- of donkere-materie-halomodel vertegenwoordigt.

Daarom maakt Bijlage B (P1A) van de DM-kant een gestandaardiseerde stresstest. Zonder de gedeelde mapping of het sluitingsprotocol te wijzigen, worden laag-dimensionale versterkingsvertakkingen toegevoegd, zoals SCAT, AC, FB, HIER_CMSCAT, CORE1P, lenswerking-m en de gecombineerde basislijn DM_STD, terwijl EFT_BIN als vergelijker behouden blijft. Een goede manier om P1A te lezen is deze: EFT wordt niet alleen vergeleken met één minimale DM-basislijn; een reeks gangbare, auditeerbare DM-mechanismen wordt langs dezelfde ‘sluitingscriterium’ gelegd.

De precieze conclusie die hier wordt gebruikt

Hoofdtekst: de EFT-familie presteert in de hoofdvergelijking duidelijk beter dan de minimale DM_RAZOR.

Bijlage B / P1A: over meerdere laag-dimensionale, auditeerbare DM-versterkingsvertakkingen en de DM_STD-stresstest verbeteren sommige DM-gezamenlijke fits, maar de sluitingssterkte wist het voordeel van EFT_BIN niet uit.

De veiligste formulering is daarom: binnen P1/P1A’s data, mapping, parameterboekhouding en sluitingsprotocol toont EFT’s gemiddelde zwaartekrachtrespons sterkere consistentie tussen data. Dit komt niet neer op het uitsluiten van alle donkere-materiemodellen.

5.3 Sluitingstest: P1’s belangrijkste experimentele logica

1. Fit alleen RC en verkrijg een set RC-only posterior-samples.

2. Stem niet opnieuw af op GGL; gebruik de RC-posterior direct om GGL te voorspellen.

3. Gebruik de volledige covariantie om de GGL-voorspellingsscore logL_true onder de juiste mapping te berekenen.

4. Permuteer willekeurig de correspondentie RC-bin→GGL-bin en bereken de negatieve-controlescore logL_perm.

5. Trek beide van elkaar af om de sluitingssterkte te verkrijgen: ΔlogL_closure = <logL_true> − <logL_perm>.

Analogie in gewone taal

De sluitingstest lijkt op een herkansing in een andere examenzaal: het model leert eerst een regel in de RC-zaal en geeft daarna antwoord in de GGL-zaal. Als het een gedeelde regel heeft geleerd en geen lokale truc, moet het in de tweede zaal nog steeds goed presteren; als de correspondentie tussen examenzalen bewust wordt geschud, hoort het voordeel te verdwijnen.

5.4 Vóór het lezen van de technische tabellen: vier ingangen

Tabel 5.4 | Hoe je de volgende reeks liggende technische tabellen leest

Ingang	Waarnaar kijken	Waarom het belangrijk is
Tabel S1a	RC+GGL-totaalscore van de gezamenlijke fit	Beantwoordt: ‘Over beide datasets genomen, wiens algemene verklaring is sterker?’
Tabel S1b	Sluitingssterkte, shuffle, robuustheidsscans	Beantwoordt: ‘Kan wat uit RC is geleerd naar GGL worden overgedragen?’
Tabel B0	Definities van meerdere DM-versterkingsvertakkingen in P1A	Voorkomt dat P1 wordt gereduceerd tot ‘alleen vergeleken met de minimale DM_RAZOR’.
Tabel B1	P1A-sluitings- en gezamenlijke scorebord	Controleert of versterkte DM het sluitingsvoordeel uitwist.

Lay-outnotitie

De volgende pagina schakelt over naar liggende oriëntatie zodat de brede tabellen uit het oorspronkelijke rapport behouden blijven zonder kolommen te verwijderen of ze onleesbaar samen te persen. De hoofdtekst heeft al een uitleg in gewone taal gegeven; de liggende technische tabellen zijn bedoeld voor lezers die cijfers en modelvertakkingen moeten controleren.

Figuur 0.1 | P1’s sluitingstest-workflow in één oogopslag

Noot: de bovenste keten is de ‘sluitingstest’ (alleen RC fitten → de RC-posterior gebruiken om GGL te voorspellen); de onderste keten is de ‘gezamenlijke fit’ (RC+GGL samen scoren). Rechts wordt de echte mapping vergeleken met geschudde mappings om de sluitingssterkte ΔlogL te verkrijgen.

6 | Belangrijke technische tabellen: hoofdtabellen van het rapport en P1A-tabellen

Tabel S1a | Hoofdmetrics voor vergelijking van gezamenlijke fit (RC+GGL, Strict; overgenomen uit het oorspronkelijke rapport)

Model (workspace)	W-kern	k	Gezamenlijke logL_total (best)	ΔlogL_total t.o.v. DM	AICc	BIC
DM_RAZOR	geen	20	-16927.763	0.0	33895.885	34010.811
EFT_BIN	geen	21	-15590.552	1337.21	31223.501	31344.155
EFT_WEXP	exponentieel	21	-15668.83	1258.932	31380.057	31500.711
EFT_WYUK	yukawa	21	-15772.936	1154.827	31588.268	31708.922
EFT_WPOW	powerlaw_tail	21	-15633.321	1294.442	31309.038	31429.692

Tabel S1b | Sluitings- en robuustheidsmetrics (Strict; overgenomen uit het oorspronkelijke rapport)

Model (workspace)	Sluiting ΔlogL (true-perm)	ΔlogL na negatieve-controlerandomisatie	σ_int-scan ΔlogL-bereik	R_min-scan ΔlogL-bereik	cov-shrink-scan ΔlogL-bereik
DM_RAZOR	126.678	22.725	—	—	—
EFT_BIN	231.611	14.984	459–1548	1243–1289	1337–1351
EFT_WEXP	171.977	6.04	408–1471	1169–1207	1259–1277
EFT_WYUK	179.808	14.688	380–1341	1065–1099	1155–1166
EFT_WPOW	280.513	6.672	457–1500	1203–1247	1294–1308

Tabel B0 | Definities van DM-versterkingsvertakkingen in P1A (overgenomen uit Bijlage B van het oorspronkelijke rapport)

Workspace	dm_model	Nieuwe parameters (≤1)	Fysische motivatie (kern)	Implementatieregel (auditvriendelijk)
DM_RAZOR	NFW (vaste c–M, geen spreiding)	—	Minimale, auditeerbare LambdaCDM-halo-basislijn; gebruikt als strikte vergelijker voor EFT	Gedeelde mapping vastgezet; strikte parameterboekhouding; alleen als basislijn voor relatieve vergelijking gebruikt
DM_RAZOR_SCAT	NFW + c–M-spreiding (legacy)	σ_logc	De c–M-relatie heeft spreiding; benaderd met een één-parameter lognormale spreiding	≤1 nieuwe parameter; gebruikt nog steeds de gedeelde mapping; sluitingswinst is het acceptatiecriterium
DM_RAZOR_AC	NFW + adiabatische contractie (legacy)	α_AC	Baryonische instroom kan adiabatische contractie van de halo veroorzaken; benaderd met één sterkteparameter	≤1 nieuwe parameter; mapping onveranderd; rapporteert AICc/BIC-veranderingen en sluitingswinst
DM_RAZOR_FB	NFW + feedbackkern (legacy)	log r_core	Feedback kan in het binnengebied een core vormen; benaderd met één kernschaalparameter	≤1 nieuwe parameter; hetzelfde sluitings-/negatieve-controleprotocol; RC-only-verbetering is niet het enige doel
DM_HIER_CMSCAT	Hiërarchische c–M-spreiding + prior	σ_logc (hier)	Een meer standaard hiërarchische c_i∼logN(c(M_i), σ_logc); beïnvloedt de gezamenlijke RC- en GGL-posterior tegelijk	Expliciete prior; latente c_i gemarginaliseerd; blijft laag-dimensionaal en auditeerbaar
DM_CORE1P	1‑parameter-kernproxy (geïnspireerd op coreNFW/DC14)	log r_core	Gebruikt een één-parameter-kernproxy voor het hoofdeffect van baryonische feedback en vermijdt hoog-dimensionale details van stervorming	Verwijst naar standaardliteratuur; ≤1 nieuwe parameter; gekoppeld aan de sluitingstest
DM_RAZOR_M	NFW + nuisance voor shear-kalibratie in lenswerking	m_shear (GGL)	Absorbeert een kernsystematiek aan de zwakke-lenswerkingkant als effectieve parameter, waardoor het risico daalt dat systematiek als natuurkunde wordt behandeld	De nuisanceparameter wordt expliciet geboekt; mag niet terugwerken op RC; resultaten worden vooral beoordeeld op robuuste sluiting
DM_STD	Gestandaardiseerde DM-basislijn (HIER_CMSCAT + CORE1P + m)	σ_logc + log r_core (+ m_shear)	Brengt drie gangbare klassen van bezwaren onder in een nog steeds laag-dimensionale gestandaardiseerde basislijn	Rapporteert parameterboekhouding en informatiecriteria samen; sluiting is de hoofdmetric; gebruikt als sterkste DM-verdedigingsvergelijker

Tabel B1 | P1A-scorebord (hoger is beter; overgenomen uit Bijlage B van het oorspronkelijke rapport)

Modelvertakking (workspace)	Δk	RC-only beste logL_RC (Δ)	Sluitingssterkte ΔlogL_closure (Δ)	Gezamenlijke beste logL_total (Δ)
DM_RAZOR	0	-15702.654 (+0.000)	122.205 (+0.000)	-27347.068 (+0.000)
DM_RAZOR_SCAT	1	-15702.294 (+0.361)	121.236 (-0.969)	-23153.311 (+4193.758)
DM_RAZOR_AC	1	-15703.689 (-1.035)	121.531 (-0.674)	-23982.557 (+3364.511)
DM_RAZOR_FB	1	-15496.046 (+206.609)	129.454 (+7.249)	-27478.531 (-131.463)
DM_HIER_CMSCAT	1	-15702.644 (+0.010)	121.978 (-0.227)	-23153.160 (+4193.908)
DM_CORE1P	1	-15723.158 (-20.504)	122.056 (-0.149)	-27336.258 (+10.810)
DM_RAZOR_M	0 (+m)	-15702.654 (+0.000)	122.205 (+0.000)	-27340.451 (+6.617)
DM_STD	2 (+m)	-15832.203 (-129.549)	105.690 (-16.515)	-22984.445 (+4362.623)
EFT_BIN	1	-14631.537 (+1071.117)	204.620 (+82.415)	-19001.142 (+8345.926)

Hoe lees je tabel B1 (P1A-scorebord)

• Δk: toegevoegde vrijheidsgraden (groter betekent een complexer model; complexer betekent niet beter).

• Let vooral op twee kolommen: sluitingssterkte ΔlogL_closure(Δ) (groter betekent meer overdrachtszelfconsistentie) en beste gezamenlijke logL_total(Δ) (totale score van gezamenlijke fit).

• De (Δ) tussen haakjes is het verschil ten opzichte van DM_RAZOR, waardoor directe vergelijking eenvoudig is.

• De hoofdvraag van deze tabel is: als de DM-basislijn ‘redelijk wordt versterkt’, verdwijnt het sluitingsvoordeel dan?

• Leesnotitie: DM_STD verbetert de gezamenlijke score aanzienlijk, maar de sluitingssterkte daalt juist; EFT_BIN behoudt nog steeds een hogere sluitingssterkte.

Samenvatting in één zin: binnen dit laag-dimensionale, auditeerbare bereik van DM-versterkingen levert het verbeteren van de gezamenlijke fit niet automatisch sterkere sluiting op; sluiting (overdraagbaarheid) blijft het sleutelcriterium.

7 | Hoe moeten de hoofdresultaten worden gelezen?

7.1 Gezamenlijke fit: over beide datasets scoort de EFT-hoofdvergelijking hoger

Tabel S1a en figuur S4 laten zien dat de EFT-familie, bij dezelfde data, dezelfde gedeelde mapping en vrijwel dezelfde parameterschaal, een gezamenlijke ΔlogL_total van 1155–1337 heeft ten opzichte van DM_RAZOR. Voor algemene lezers betekent dit dat de EFT-modellen in de hoofdvergelijking onder één scoringsregel die RC en GGL combineert, een hogere totaalscore krijgen.

7.2 Sluitingstest: P1’s hoofdaccent ligt op overdraagbaarheid

Een hoge sluitingssterkte betekent dat een model parameters uit alleen RC kan afleiden en, zonder opnieuw naar GGL te kijken, GGL beter kan voorspellen. In het P1-rapport heeft EFT ΔlogL_closure = 172–281, terwijl DM_RAZOR 127 heeft. Dit is belangrijker dan zeggen dat ‘elke fit er goed uitziet’, omdat het de vrijheid van het model op de tweede dataset beperkt.

7.3 Negatieve controle: waarom is ‘instorting van het signaal’ juist goed?

Nadat P1 de groepscorrespondentie RC-bin→GGL-bin willekeurig heeft geschud, daalt EFT’s sluitingssignaal naar het bereik 6–23. Voor algemene lezers is dit een anti-valsstap: als het sluitingsvoordeel alleen uit code, eenheden, covariantiekeuzes of toevallige fit kwam, zouden geschudde correspondenties nog steeds een voordeel kunnen tonen. In plaats daarvan stort het voordeel in, wat laat zien dat het afhangt van de juiste mapping.

Figuur S3 | Sluitingssterkte (hoger is beter): gemiddeld log-likelihoodvoordeel voor RC-only → GGL-voorspelling.

Hoe lees je deze figuur

Deze figuur vormt de kern van P1. Hoe hoger de balk, hoe beter de informatie die een model uit RC leerde naar GGL wordt overgedragen.

De EFT-familie als geheel staat boven DM_RAZOR, wat wijst op sterkere sluiting tussen meetkanalen in het experiment ‘eerst RC leren, dan GGL voorspellen’.

Figuur S4 | Voordeel van gezamenlijke fit (hoger is beter): RC+GGL beste logL_total ten opzichte van DM_RAZOR.

Hoe lees je deze figuur

Deze figuur toont de totaalscore nadat RC en GGL zijn gecombineerd.

Alle EFT-varianten liggen ruim boven 0, wat laat zien dat het EFT-voordeel in de hoofdvergelijking geen lokaal éénpuntseffect is, maar het globale gedrag van de gezamenlijke analyse.

Figuur R1 | Negatieve controle: het sluitingssignaal daalt scherp na het schudden van de groepering.

Hoe lees je deze figuur

Deze figuur laat zien dat het sluitingssignaal scherp daalt zodra de juiste RC↔GGL-binrelatie wordt geschud.

Daardoor lijkt het P1-resultaat meer op echte consistentie in een mapping tussen datasets dan op een numeriek toeval dat onder willekeurige mappings kan worden verkregen.

8 | Robuustheid en controles: hoe voorkomt P1 dat het ‘gewoon beter fit’?

Een technisch rapport is het kwetsbaarst voor de zorg dat het voordeel kan voortkomen uit een bepaalde ruisinstelling, een keuze voor data uit het centrale gebied, covariantiebehandeling of overfitting. P1 beantwoordt die zorg met meerdere stresstests.

Tabel 2 | Hoe je P1’s robuustheidstests en negatieve controles leest

Test	Zorg die hij probeert uit te sluiten	Hoe je hem leest
σ_int-scan	Als RC extra onbekende spreiding bevat, blijft de conclusie dan stabiel?	Na het verruimen van de RC-fouten blijven de EFT-rangschikking en de omvang van het voordeel stabiel.
R_min-scan	Als het centrale gebied van het sterrenstelsel niet volledig wordt vertrouwd, blijft de conclusie dan stabiel?	Na het wegsnijden van het centrale gebied behoudt EFT nog steeds een positief voordeel.
cov-shrink-scan	Als de GGL-covariantie-inschatting onzeker is, blijft de conclusie dan stabiel?	Na het krimpen van de covariantie richting een diagonale matrix is het voordeel niet gevoelig.
Ablatieladder	Dwingt EFT een fit af via onnodige complexiteit?	De volledige EFT_BIN is nodig volgens de informatiecriteria.
LOO-voorspelling met weggelaten bins	Verklaart het model alleen data die het al heeft gezien?	Nadat een GGL-bin is weggelaten, toont het model nog steeds sterke generalisatie.
RC-bin-shuffle	Komt sluiting voort uit de echte mapping?	Sluiting daalt nadat de groepering is geschud, wat mappingafhankelijkheid ondersteunt.

Figuur R2 | Bereik van ΔlogL_total onder de σ_int-scan (hoger is beter).

Hoe lees je deze figuur

Test of EFT’s voorsprong blijft bestaan na wijzigingen in de instelling voor intrinsieke RC-spreiding.

Figuur R3 | Bereik van ΔlogL_total onder de R_min-scan (hoger is beter).

Hoe lees je deze figuur

Test of EFT’s voordeel stabiel blijft nadat het complexe centrale gebied is weggesneden.

Figuur R4 | Bereik van ΔlogL_total onder de cov-shrink-scan (hoger is beter).

Hoe lees je deze figuur

Test of de rangschikking gevoelig is voor veranderingen in de behandeling van zwakke-lenswerkingcovariantie.

Figuur R5 | Ablatieladder voor EFT_BIN (AICc; lager is beter).

Hoe lees je deze figuur

Test of de volledige EFT_BIN nodig is om de data te verklaren, in plaats van slechts parameters toe te voegen.

Figuur R6 | LOO: verdeling van log-likelihood voor weggelaten bins.

Hoe lees je deze figuur

Test of het model nog steeds goed voorspelt op een ongeziene GGL-bin.

Figuur R7 | Negatieve controle: geschudde mapping veroorzaakt een duidelijke daling in mean logL_true.

Hoe lees je deze figuur

Laat vanuit het perspectief van mean logL_true verder zien dat sluiting afhangt van de juiste mapping tussen datasets.

9 | P1A: waarom de meerdere DM-modellen in de appendix belangrijk zijn

Deze sectie vraagt niet: ‘Heeft EFT alleen één minimale DM_RAZOR verslagen?’ Zij vraagt of de conclusies uit sluitingstest en gezamenlijke fit veranderen wanneer de DM-basislijn binnen een laag-dimensionale, reproduceerbare en helder geboekstaafde parameterboekhouding wordt versterkt (P1A). Met andere woorden: P1A is bedoeld om het bezwaar te verkleinen dat de vergelijking een te zwakke DM-basislijn gebruikte, en om de discussie te verplaatsen naar de vraag of de sluitingsprestatie nog steeds verschilt onder een reeks auditeerbare DM-versterkingen.

P1A probeert niet elke mogelijke LambdaCDM-halomodelleringsoptie uit te putten, en maakt van de DM-kant ook geen hoog-dimensionale, niet-auditeerbare fitmachine. Het kiest laag-dimensionale, reproduceerbare, boekhoudkundig heldere versterkingen: concentratiespreiding, adiabatische contractie, feedbackkern, hiërarchische c–M-spreidingsprior, één-parameter-kernproxy, nuisanceparameter voor shear-kalibratie in zwakke lenswerking en de gecombineerde DM_STD-basislijn.

Belangrijkste lezing van P1A

Van de drie legacy-vertakkingen levert alleen feedback/kern een kleine nettowinst in sluitingssterkte op; SCAT en AC leveren geen netto sluitingswinst.

DM_HIER_CMSCAT, DM_RAZOR_M en DM_CORE1P hebben weinig effect op de sluitingssterkte of tonen geen significante nettowinst.

DM_STD kan gezamenlijke logL aanzienlijk verbeteren, maar de sluitingssterkte daalt; dit suggereert dat het vooral de flexibiliteit van de gezamenlijke fit vergroot, niet de RC→GGL-overdrachtsvoorspellingskracht.

In P1A-tabel B1 behoudt EFT_BIN nog steeds een hogere sluitingssterkte en een voordeel in gezamenlijke fit. De kernclaim van P1 moet daarom niet worden vereenvoudigd tot ‘het versloeg alleen de minimale DM_RAZOR’.

Figuur B1 | P1A-scorebord: sluitings- en gezamenlijke ΔlogL ten opzichte van basislijn (hoger is beter).

Hoe lees je deze figuur

Deze figuur toont hoe meerdere DM-versterkingsvertakkingen presteren ten opzichte van de basislijn.

De betekenis is niet ‘alle DM is uitgesloten’. De figuur laat zien dat versterkte DM, binnen het laag-dimensionale, auditeerbare DM-versterkingsbereik dat P1A kiest, het sluitingsvoordeel van EFT_BIN niet uitwist.

10 | Waarom het P1-experiment ertoe doet

10.1 Methodologische betekenis: zet sluiting tussen meetkanalen boven fitten op één meetkanaal

Theorie op sterrenstelselschaal loopt vaak vast in discussies over de vraag of een model één set rotatiecurven kan fitten. P1 legt de lat hoger: kunnen parameters die uit RC zijn geleerd zwakke lenswerking voorspellen zonder opnieuw op GGL af te stemmen? Daarmee verandert P1 van een fitwedstrijd in een test van overdrachtsvoorspelling.

10.2 Betekenis voor transparantie: maak de reproduceerbare keten onderdeel van het resultaat

Een belangrijke bijdrage van P1 is dat het data, tabellen en figuren, run-labels, negatieve controles, reproduceerbaarheidspakket en auditspoor samen vrijgeeft. Dat is zowel voor voorstanders als critici belangrijk: de discussie kan terugkeren naar dezelfde publieke data, dezelfde mapping, dezelfde scripts en dezelfde metrics, in plaats van slogans te vergelijken.

10.3 Fysische betekenis: een sterke stresstest voor zwaartekracht zonder DM

In richtingen zonder DM kunnen veel modellen een deel van de rotatiecurve- of RAR-fenomenologie verklaren. De moeilijkere taak is om tegelijk door de uitlezingen van zwakke lenswerking te komen en onder negatieve controles te laten zien dat het signaal afhangt van de juiste mapping. De betekenis van P1 is dat het EFT’s gemiddelde zwaartekrachtrespons in een protocol plaatst dat op een extern examen lijkt: RC is het trainingsveld, GGL is het overdrachtsveld en shuffle is het anti-valsspeelveld.

10.4 Is dit een belangrijk experiment voor het veld van zwaartekracht zonder DM?

Voorzichtig geformuleerd: als P1’s dataverwerking, reproduceerbaarheidspakket en sluitingsprotocol onder externe replicatie standhouden, dan kan het worden beschouwd als een RC+GGL-sluitingsexperiment dat in onderzoek naar zwaartekracht zonder DM / gewijzigde zwaartekracht serieus aandacht verdient. Het belang ligt niet in de frase ‘donkere materie is omvergeworpen’, maar in het bieden van een criterium tussen meetkanalen dat kan worden gekopieerd, betwist en uitgebreid.

Bestaat er al een vergelijkbaar sterk RC+GGL-raamwerk voor voorspellingssluiting?

Relevante raamwerken en observatietradities bestaan al: MOND/RAR ordent een groot deel van de rotatiecurvefenomenen zeer goed; KiDS-1000-werk rond de zwakke-lenswerking-RAR heeft ook MOND, Verlinde emergent gravity en LambdaCDM-modellen vergeleken; LambdaCDM kan sommige zwakke-lenswerking-/dynamische verschijnselen eveneens verklaren via sterrenstelsel–halo-verbindingen, gashalo’s en feedbackmodellering.

Maar P1’s precieze claim is niet: ‘geen enkel ander raamwerk ter wereld kan RC+GGL verklaren’. De claim is dat EFT onder P1’s eigen publieke protocol — vaste mapping, RC-only→GGL-sluiting, shuffle-negatieve controle, parameterboekhouding en P1A-stresstests met meerdere DM-modellen — een sterkere sluitingsprestatie rapporteert.

Met andere woorden: het deel van P1 dat externe toetsing het meest verdient, is het concrete en reproduceerbare vergelijkingsprotocol dat het voorstelt. Of MOND/RAR, LambdaCDM/HOD, hydrodynamische simulaties of andere raamwerken voor gewijzigde zwaartekracht onder hetzelfde protocol dezelfde of een hogere sluitingsscore kunnen bereiken, is een zeer waardevolle volgende stap.

11 | Wat kan P1 concluderen? Wat kan het niet concluderen?

Tabel 3 | Grenzen van P1’s conclusies

Kan concluderen	Onder P1’s RC+GGL-data, vaste mapping en hoofdvergelijkingsprotocol heeft de EFT-familie een hogere gezamenlijke fit en sluitingssterkte dan de minimale DM_RAZOR.
Kan concluderen	Binnen P1A’s laag-dimensionale, auditeerbare DM-versterkingsbereik wissen meerdere DM-versterkingen het sluitingsvoordeel van EFT_BIN niet uit.
Kan concluderen	De shuffle-negatieve controle laat zien dat het sluitingssignaal afhangt van de juiste mapping tussen datasets en niet van willekeurige mappings.
Kan niet concluderen	Er kan niet worden geconcludeerd dat P1 alle donkere-materiemodellen heeft weerlegd. P1A put nog steeds geen niet-sfericiteit, omgevingsafhankelijkheid, complexe sterrenstelsel–halo-verbindingen, hoog-dimensionale feedback of volledige kosmologische simulaties uit.
Kan niet concluderen	Er kan niet worden geconcludeerd dat de volledige EFT-theorie vanuit eerste principes is bewezen. P1 test alleen de fenomenologische laag van gemiddelde zwaartekrachtrespons.
Kan niet concluderen	Er kan niet worden geconcludeerd dat alle systematiek is uitgesloten. P1 levert alleen robuustheidsbewijs binnen de genoemde stresstests en auditomvang.

12 | Veelgestelde vragen

Q1: Zegt dit dat ‘donkere materie niet bestaat’?

Nee. P1’s conclusie moet beperkt blijven tot de data, het protocol en de vergelijkingsmodellen die in dit artikel worden gebruikt. P1A gaat verder dan de minimale DM_RAZOR-basislijn, maar vertegenwoordigt nog steeds niet elk mogelijk donkere-materiemodel.

Q2: Zegt dit dat ‘EFT al bewezen is’?

Ook nee. P1 test EFT als een geparametriseerde gemiddelde zwaartekrachtrespons en laat sterkere prestaties zien in RC→GGL-sluiting; microscopische mechanismen en de volledige theorie zijn geen conclusies van P1.

Q3: Waarom niet direct een significantie in σ vermelden?

P1 gebruikt een uniforme likelihoodscore, informatiecriteria en sluitingsverschillen. ΔlogL is een relatief voordeel onder dezelfde scoringsregel; het is niet hetzelfde als één enkele σ-waarde.

Q4: Waarom RC-bin→GGL-bin schudden?

Dit is de negatieve controle. Een echt signaal tussen meetkanalen moet afhankelijk zijn van de juiste mapping. Als het geschudde geval even sterk bleef, zou dat eerder wijzen op implementatiebias of een statistisch vals signaal.

Q5: Wat zou P1 hierna moeten doen?

Breid hetzelfde protocol uit naar meer data, meer DM-controles, complexere systematiek en meer raamwerken voor gewijzigde zwaartekracht, vooral op manieren die externe teams in staat stellen dezelfde sluitingsmaat te repliceren.

13 | Kleine begrippenlijst

Tabel 4 | Kleine begrippenlijst

Term	Uitleg in één zin
Rotatiecurve (RC)	De radius–snelheidsrelatie in een sterrenstelselschijf, gebruikt om effectieve zwaartekracht binnen de schijf af te leiden.
Zwakke lenswerking (GGL)	Meet de gemiddelde zwaartekracht-/massaverdeling rond voorgrondstelsels via de statistische vervorming van vormen van achtergrondstelsels.
Sluitingstest	Gebruikt de RC-posterior om GGL te voorspellen en vergelijkt die met een negatieve controle met geschudde mapping.
Negatieve controle	Breekt doelbewust een sleutelstructuur om te zien of het signaal verdwijnt; gebruikt om valse signalen uit te sluiten.
NFW-halo	Een dichtheidsprofiel voor donkere-materiehalo’s dat vaak wordt gebruikt in modellen met koude donkere materie.
c–M-relatie	De relatie tussen de concentratie c en massa M van een donkere-materiehalo; het toestaan van spreiding verandert de modelflexibiliteit.
DM_STD	In P1A: een gestandaardiseerde DM-stresstestvertakking die meerdere laag-dimensionale DM-versterkingen en een nuisanceparameter voor lenswerking combineert.
ΔlogL	Verschil in log-likelihood tussen twee modellen onder dezelfde scoringsregel; positieve waarden betekenen dat het eerste model beter presteert.
Covariantie	Een matrixbeschrijving van correlaties tussen datapunten; zwakke-lenswerkingdata vereisen doorgaans de volledige covariantie.

14 | Aanbevolen leesroute en citatie-ingangen

1. Lees eerst secties 0–2 om P1’s vraagstelling en de terughoudende rol van EFT in P1 vast te leggen.

2. Bekijk daarna figuren S3 en S4 en tabellen S1a/S1b om sluitingssterkte, gezamenlijke fit en negatieve controles te begrijpen.

3. Als je je zorgen maakt dat de DM-basislijn te zwak is, ga dan direct naar sectie 9 en tabel B1 / figuur B1.

4. Voor technische replicatie keer je terug naar het technische P1-rapport v1.1, het Tables & Figures Supplement en full_fit_runpack.

Belangrijkste archiefingangen

Technisch P1-rapport (publicatiekwaliteit, Concept DOI): 10.5281/zenodo.18526334

Volledig reproduceerbaarheidspakket van P1 (Concept DOI): 10.5281/zenodo.18526286

Gestructureerde EFT-kennisbank (optioneel, Concept DOI): 10.5281/zenodo.18853200

Licentienotitie: het technische rapport gebruikt CC BY-NC-ND 4.0; het volledige reproduceerbaarheidspakket gebruikt CC BY 4.0 (onder voorbehoud van het technische rapport en de Zenodo-archiefrecords).

15 | Referenties en externe achtergrond

McGaugh, S. S., Lelli, F., & Schombert, J. M. (2016). The Radial Acceleration Relation in Rotationally Supported Galaxies. Physical Review Letters, 117, 201101. DOI: 10.1103/PhysRevLett.117.201101.

Famaey, B., & McGaugh, S. S. (2012). Modified Newtonian Dynamics (MOND): Observational Phenomenology and Relativistic Extensions. Living Reviews in Relativity, 15, 10. DOI: 10.12942/lrr-2012-10.

Brouwer, M. M., Oman, K. A., Valentijn, E. A., et al. (2021). The weak lensing radial acceleration relation: Constraining modified gravity and cold dark matter theories with KiDS-1000. Astronomy & Astrophysics, 650, A113. DOI: 10.1051/0004-6361/202040108.

Mistele, T., McGaugh, S., Lelli, F., Schombert, J., & Li, P. (2024). Indefinitely Flat Circular Velocities and the Baryonic Tully-Fisher Relation from Weak Lensing. The Astrophysical Journal Letters, 969, L3 / arXiv:2406.09685.

Bullock, J. S., & Boylan-Kolchin, M. (2017). Small-Scale Challenges to the LambdaCDM Paradigm. Annual Review of Astronomy and Astrophysics, 55, 343–387. DOI: 10.1146/annurev-astro-091916-055313.

Lelli, F., McGaugh, S. S., & Schombert, J. M. (2016). SPARC: Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves. The Astronomical Journal, 152, 157. DOI: 10.3847/0004-6256/152/6/157.

Navarro, J. F., Frenk, C. S., & White, S. D. M. (1997). A Universal Density Profile from Hierarchical Clustering. Astrophysical Journal, 490, 493.

Dutton, A. A., & Macciò, A. V. (2014). Cold dark matter haloes in the Planck era: evolution of structural parameters for NFW haloes. Monthly Notices of the Royal Astronomical Society, 441, 3359–3374.

0 | P1 in vijf minuten begrijpen: wat wordt hier eigenlijk getest?

1 | Waarom P1 nodig was: waar kosmologie op sterrenstelselschaal vastloopt

2 | Wat betekent EFT in P1? Het is niet Effective Field Theory

3 | Het P-serieplan: waarom beginnen bij de ‘gemiddelde basis’?

4 | Wat zijn de data? Wat vertellen RC en GGL elk?

4.1 Rotatiecurven (RC): een snelheidsliniaal in sterrenstelselschijven

4.2 Zwakke lenswerking (GGL): een grotere-schaal ‘zwaartekrachtweegschaal’

4.3 Vaste mapping: waarom 20 RC-bins → 4 GGL-bins belangrijk is

5 | Modellen en methode: wat vergelijkt P1 eigenlijk?

5.1 EFT-kant: een laag-dimensionale gemiddelde zwaartekrachtrespons

5.2 DM-kant: de hoofdvergelijking en Bijlage P1A moeten apart worden gelezen

5.3 Sluitingstest: P1’s belangrijkste experimentele logica

5.4 Vóór het lezen van de technische tabellen: vier ingangen

6 | Belangrijke technische tabellen: hoofdtabellen van het rapport en P1A-tabellen

122.205 (+0.000)

121.236 (-0.969)

121.531 (-0.674)

129.454 (+7.249)

121.978 (-0.227)

122.056 (-0.149)

122.205 (+0.000)

105.690 (-16.515)

204.620 (+82.415)

7 | Hoe moeten de hoofdresultaten worden gelezen?

7.1 Gezamenlijke fit: over beide datasets scoort de EFT-hoofdvergelijking hoger

7.2 Sluitingstest: P1’s hoofdaccent ligt op overdraagbaarheid

7.3 Negatieve controle: waarom is ‘instorting van het signaal’ juist goed?

8 | Robuustheid en controles: hoe voorkomt P1 dat het ‘gewoon beter fit’?

9 | P1A: waarom de meerdere DM-modellen in de appendix belangrijk zijn

10 | Waarom het P1-experiment ertoe doet

10.3 Fysische betekenis: een sterke stresstest voor zwaartekracht zonder DM

10.4 Is dit een belangrijk experiment voor het veld van zwaartekracht zonder DM?

11 | Wat kan P1 concluderen? Wat kan het niet concluderen?

12 | Veelgestelde vragen

13 | Kleine begrippenlijst

14 | Aanbevolen leesroute en citatie-ingangen

15 | Referenties en externe achtergrond