Een publieksgerichte uitleg op basis van P1_RC_GGL: Een strikte sluitingstest van sterrenstelseldynamica en zwakke lenswerking (v1.1)
Leesnotities |
Dit is een uitlegtekst, geen nieuw academisch rapport. Hij is gebaseerd op het oorspronkelijke P1-rapport, behoudt de belangrijkste figuren en tabellen en voegt bij elke kernstap publieksgerichte uitleg toe over ‘wat dit betekent’. |
Dit artikel legt alleen de conclusies uit die P1 bereikt binnen zijn vastgelegde datasets, parameterboekhouding en statistische protocol: in de gezamenlijke test van rotatiecurven van sterrenstelsels (RC) en zwakke lenswerking tussen sterrenstelsels (GGL) loopt EFT’s model voor gemiddelde zwaartekrachtrespons duidelijk voor op de hier geteste minimale DM_RAZOR-basislijn. |
Dit artikel leest P1 niet als de conclusie dat ‘donkere materie is omvergeworpen’. P1 is slechts de eerste stap in de P-serie-experimenten. Het test één waarneembare laag binnen EFT — de ‘gemiddelde zwaartekrachtbasis’ — en niet de volledige EFT-theorie. |
0 | P1 in vijf minuten begrijpen: wat wordt hier eigenlijk getest?
P1 kan worden gelezen als een validatie-experiment tussen meetkanalen. Het vraagt niet alleen of een model één dataset kan fitten; het legt twee heel verschillende zwaartekrachtuitlezingen op dezelfde auditbank: rotatiecurven (RC) lezen de dynamica binnen sterrenstelselschijven, terwijl zwakke lenswerking tussen sterrenstelsels (GGL) de geprojecteerde zwaartekrachtrespons op grotere schalen leest.
- RC werkt als een snelheidsmeter: het vertelt hoe snel gas en sterren op verschillende afstanden binnen een sterrenstelselschijf rondlopen.
- GGL werkt als een weegschaal: door te meten hoe voorgrondstelsels het achtergrondlicht licht afbuigen, leidt het de gemiddelde zwaartekracht-/massaverdeling rond sterrenstelsels op grotere schaal af.
- De kernvraag van P1 is: kan hetzelfde model een patroon uit RC leren en blijft dat patroon zinvol wanneer het naar GGL wordt overgedragen?
P1’s kernboodschap |
P1 verhoogt de vergelijkingsdrempel van ‘past het één meetkanaal goed?’ naar ‘sluit het over meetkanalen heen?’ Goede prestaties onder de juiste mapping, gevolgd door instorting van het signaal wanneer de mapping wordt geschud, suggereren dat het model mogelijk een zwaartekrachtstructuur heeft vastgelegd die RC en GGL delen. |
Tabel 0 | De kerncijfers van P1 en hoe je ze leest
Metric | Hoe P1 / P1A dit leest | Uitleg in gewone taal |
Gezamenlijke fit ΔlogL_total | Hoofdtekstvergelijking: EFT ligt 1155–1337 boven DM_RAZOR | Totaal scoreverschil over de twee datasets; groter betekent een betere algemene verklaring. |
Sluitingssterkte ΔlogL_closure | Hoofdtekstvergelijking: EFT is 172–281, terwijl DM_RAZOR 127 is | Vermogen om GGL te voorspellen na inferentie uit alleen RC; groter betekent meer zelfconsistentie tussen meetkanalen. |
Negatieve-controlerandomisatie | Na het schudden van RC-bin→GGL-bin daalt het EFT-sluitingssignaal naar 6–23 | Als de juiste correspondentie wordt verbroken, hoort het voordeel te verdwijnen; hoe sterker het verdwijnt, hoe meer valse signalen worden uitgesloten. |
P1A-stresstest met meerdere DM-modellen | DM 7+1 + DM_STD, met EFT_BIN behouden als vergelijker | P1A kijkt niet alleen naar de minimale DM_RAZOR; het plaatst meerdere laag-dimensionale, auditeerbare DM-versterkingsvertakkingen in hetzelfde sluitingsprotocol. |
1 | Waarom P1 nodig was: waar kosmologie op sterrenstelselschaal vastloopt
Het probleem op sterrenstelselschaal blijft lastig omdat de behoefte aan ‘extra zwaartekracht/massa’ niet alleen een rotatiecurveverschijnsel is. Een grote hoeveelheid waarnemingen laat een nauwe koppeling zien tussen zichtbare baryonische materie in sterrenstelsels en de feitelijke dynamische/lens-uitlezingen. Voor de route via donkere materie betekent dit dat donkere halo’s, baryonische feedback, vormingsgeschiedenissen van sterrenstelsels en observatiesystematiek zeer precies op elkaar moeten worden afgestemd. Voor routes zonder donkere materie betekent het dat een model er niet alleen goed uit mag zien op RC; het moet ook standhouden bij zwakke lenswerking, populatieschaalwetten en negatieve controles.
Dat is de motivatie van P1. Het vertrekt niet vanuit ‘donkere materie is fout’ of ‘EFT moet gelijk hebben’. Het brengt één toetsbare claim voor het tribunaal: kan EFT’s gemiddelde zwaartekrachtrespons een reproduceerbaar en overdraagbaar signaal achterlaten in RC→GGL-sluiting tussen meetkanalen?
Externe literatuurcontext: waarom het RC+GGL-venster belangrijk is |
McGaugh, Lelli en Schombert (2016) stelden de radialeversnellingsrelatie (RAR) voor, die een nauwe relatie met kleine spreiding toont tussen de door rotatiecurven gemeten waargenomen versnelling en de uit baryonische materie voorspelde versnelling. Daardoor wordt baryon–zwaartekrachtresponskoppeling een onvermijdelijk thema voor theorie op sterrenstelselschaal. |
Brouwer et al. (2021) gebruikten KiDS-1000 zwakke lenswerking om de RAR uit te breiden naar lagere versnellingen en grotere radii, en vergeleken MOND, Verlinde emergent gravity en LambdaCDM-modellen. Zij merkten ook op dat verschillen tussen vroege en late typen sterrenstelsels, gashalo’s en sterrenstelsel–halo-verbindingen sleutelvragen voor verklaring blijven. |
Mistele et al. (2024) gebruikten zwakke lenswerking verder om circulaire-snelheidscurven voor geïsoleerde sterrenstelsels af te leiden en rapporteerden geen duidelijke afname tot honderden kpc en zelfs ongeveer 1 Mpc, in overeenstemming met de BTFR. Dit laat zien dat zwakke lenswerking een belangrijke externe uitlezing wordt voor zwaartekrachtrespons op sterrenstelselschaal. |
De waarde van P1 ligt daarom niet in het feit dat het als eerste RC en GGL samen bespreekt. De waarde ligt erin dat het beide onderbrengt in een auditeerbaar protocol met een vaste mapping, een parameterboekhouding, RC-only→GGL-sluiting, shuffle-negatieve controles en P1A-stresstests met meerdere DM-modellen.
2 | Wat betekent EFT in P1? Het is niet Effective Field Theory
Hier betekent EFT Energiedraadtheorie (Energy Filament Theory), niet de in de natuurkunde bekende effectieve veldtheorie (Effective Field Theory). In het technische P1-rapport wordt EFT heel terughoudend ingezet: het treedt niet aan als volledige eindtheorie, maar wordt eerst samengeperst tot een waarneembare, fitklare en falsifieerbare parametrisering van een ‘gemiddelde zwaartekrachtrespons’.
Eenvoudig gezegd probeert P1 niet alle microscopische bronnen van extra zwaartekracht te bespreken en ook niet het hele EFT-raamwerk in één stap te bewijzen. Het stelt een smallere en hardere vraag: als er op sterrenstelselschaal een vorm van gemiddelde extra zwaartekrachtrespons bestaat, kan die dan eerst RC verklaren en vervolgens worden overgedragen om GGL te voorspellen?
Welk deel van EFT test P1? |
P1 test de ‘gemiddelde zwaartekrachtbasis’: een statistisch stabiele, overdraagbare gemiddelde bijdrage. |
P1 behandelt nog niet de ‘stochastische / ruisbasis’: de willekeurige termen, object-tot-objectverschillen of extra spreiding die uit microscopischere fluctuatieprocessen kunnen ontstaan. |
P1 bespreekt ook niet het volledige microscopische mechanisme, abundanties, levensduren of globale kosmologische beperkingen. Het is de eerste stap in de P-serie-experimenten, niet het eindoordeel. |
3 | Het P-serieplan: waarom beginnen bij de ‘gemiddelde basis’?
De P-serie kan worden begrepen als EFT’s observatie- en terugvindprogramma. Het legt niet alle claims tegelijk op tafel. In plaats daarvan isoleert het het onderdeel dat het gemakkelijkst met publieke data te testen is. P1 begint met de gemiddelde term: als de gemiddelde zwaartekrachtrespons niet kan sluiten van RC naar GGL, is er geen stevige ingang om complexere ruistermen of microscopische mechanismen te bespreken.
Tabel 1 | Gelaagde positionering van de P-serie
Laag | Vraag | Plaats in P1 |
P1 | Kan de gemiddelde zwaartekrachtrespons sluiten van RC naar GGL? | Hoofdvraag van het huidige rapport |
P1A | Blijft de conclusie stabiel als de DM-kant wordt versterkt? | Bijlage B: DM 7+1 + DM_STD-stresstest |
Toekomstig werk in de P-serie | Kan dit worden uitgebreid naar meer data, meer meetkanalen en complexere systematiek? | Toekomstige richting |
Diepere vragen | Hoe sluiten de gemiddelde term, de ruisterm en de microscopische mechanismen op elkaar aan? | Buiten het conclusiebereik van P1 |
4 | Wat zijn de data? Wat vertellen RC en GGL elk?
4.1 Rotatiecurven (RC): een snelheidsliniaal in sterrenstelselschijven
Rotatiecurven registreren hoe snel gas en sterren op verschillende afstanden van het centrum van een sterrenstelsel rondlopen. Hogere baansnelheden impliceren dat er een sterkere centripetale kracht nodig is, en dus een sterkere effectieve zwaartekrachtrespons. P1 gebruikt de SPARC-database; na voorbewerking bevat die 104 sterrenstelsels, 2.295 snelheidsdatapunten en 20 RC-bins.
4.2 Zwakke lenswerking (GGL): een grotere-schaal ‘zwaartekrachtweegschaal’
Zwakke lenswerking tussen sterrenstelsels meet hoe voorgrondstelsels het licht van achtergrondstelsels licht afbuigen. Dit correspondeert met een geprojecteerde zwaartekrachtrespons op grotere, halo-schaal en hangt niet af van de gasdynamische details van sterrenstelselschijven. P1 gebruikt publieke GGL-data van KiDS-1000 / Brouwer et al. (2021): vier stellair-massa-bins, 15 radiale punten per bin, samen 60 datapunten, met de volledige covariantie.
4.3 Vaste mapping: waarom 20 RC-bins → 4 GGL-bins belangrijk is
P1 verbindt 20 RC-bins met 4 GGL-bins via een vaste regel: elke GGL-bin komt overeen met vijf RC-bins, gemiddeld met gewichten op basis van het aantal sterrenstelsels. Deze mapping blijft voor elk model vast. Zij vormt een harde randvoorwaarde voor sluitingstests en eerlijke vergelijking.
Waarom de mapping niet achteraf afstemmen? |
Als men achteraf zou mogen kiezen welke RC-bins met welke GGL-bins overeenkomen, zou een model sluiting kunnen fabriceren door de correspondentie te herschikken. P1 vergrendelt de 20→4-mapping vooraf en breekt die vervolgens doelbewust met een shuffle-negatieve controle, juist om te testen of het sluitingssignaal werkelijk afhankelijk is van een fysisch redelijke correspondentie. |
5 | Modellen en methode: wat vergelijkt P1 eigenlijk?
5.1 EFT-kant: een laag-dimensionale gemiddelde zwaartekrachtrespons
Aan de EFT-kant beschrijft een laag-dimensionale extra-snelheidsterm de gemiddelde zwaartekrachtrespons. De vorm van die extra term wordt gestuurd door een dimensieloze kernfunctie f(r/ℓ), waarbij ℓ een globale schaal is, terwijl de amplitudes per RC-bin worden toegewezen. Verschillende kernen coderen verschillende beginhellingen, overgangsgedrag en lange-afstandsstaarten, en dienen zo als robuustheidsstresstests.
5.2 DM-kant: de hoofdvergelijking en Bijlage P1A moeten apart worden gelezen
In de hoofdvergelijking is DM_RAZOR een geminimaliseerde, auditeerbare NFW-basislijn: hij legt de c–M-relatie vast en bevat geen halo-tot-halo-spreiding, adiabatische contractie, feedbackkern, niet-sfericiteit of omgevingsterm. Het voordeel van dit ontwerp is gecontroleerde vrijheidsgraden en gemakkelijke reproduceerbaarheid; de beperking is dat het niet elk LambdaCDM- of donkere-materie-halomodel vertegenwoordigt.
Daarom maakt Bijlage B (P1A) van de DM-kant een gestandaardiseerde stresstest. Zonder de gedeelde mapping of het sluitingsprotocol te wijzigen, worden laag-dimensionale versterkingsvertakkingen toegevoegd, zoals SCAT, AC, FB, HIER_CMSCAT, CORE1P, lenswerking-m en de gecombineerde basislijn DM_STD, terwijl EFT_BIN als vergelijker behouden blijft. Een goede manier om P1A te lezen is deze: EFT wordt niet alleen vergeleken met één minimale DM-basislijn; een reeks gangbare, auditeerbare DM-mechanismen wordt langs dezelfde ‘sluitingscriterium’ gelegd.
De precieze conclusie die hier wordt gebruikt |
Hoofdtekst: de EFT-familie presteert in de hoofdvergelijking duidelijk beter dan de minimale DM_RAZOR. |
Bijlage B / P1A: over meerdere laag-dimensionale, auditeerbare DM-versterkingsvertakkingen en de DM_STD-stresstest verbeteren sommige DM-gezamenlijke fits, maar de sluitingssterkte wist het voordeel van EFT_BIN niet uit. |
De veiligste formulering is daarom: binnen P1/P1A’s data, mapping, parameterboekhouding en sluitingsprotocol toont EFT’s gemiddelde zwaartekrachtrespons sterkere consistentie tussen data. Dit komt niet neer op het uitsluiten van alle donkere-materiemodellen. |
5.3 Sluitingstest: P1’s belangrijkste experimentele logica
1. Fit alleen RC en verkrijg een set RC-only posterior-samples.
2. Stem niet opnieuw af op GGL; gebruik de RC-posterior direct om GGL te voorspellen.
3. Gebruik de volledige covariantie om de GGL-voorspellingsscore logL_true onder de juiste mapping te berekenen.
4. Permuteer willekeurig de correspondentie RC-bin→GGL-bin en bereken de negatieve-controlescore logL_perm.
5. Trek beide van elkaar af om de sluitingssterkte te verkrijgen: ΔlogL_closure = <logL_true> − <logL_perm>.
Analogie in gewone taal |
De sluitingstest lijkt op een herkansing in een andere examenzaal: het model leert eerst een regel in de RC-zaal en geeft daarna antwoord in de GGL-zaal. Als het een gedeelde regel heeft geleerd en geen lokale truc, moet het in de tweede zaal nog steeds goed presteren; als de correspondentie tussen examenzalen bewust wordt geschud, hoort het voordeel te verdwijnen. |
5.4 Vóór het lezen van de technische tabellen: vier ingangen
Tabel 5.4 | Hoe je de volgende reeks liggende technische tabellen leest
Ingang | Waarnaar kijken | Waarom het belangrijk is |
Tabel S1a | RC+GGL-totaalscore van de gezamenlijke fit | Beantwoordt: ‘Over beide datasets genomen, wiens algemene verklaring is sterker?’ |
Tabel S1b | Sluitingssterkte, shuffle, robuustheidsscans | Beantwoordt: ‘Kan wat uit RC is geleerd naar GGL worden overgedragen?’ |
Tabel B0 | Definities van meerdere DM-versterkingsvertakkingen in P1A | Voorkomt dat P1 wordt gereduceerd tot ‘alleen vergeleken met de minimale DM_RAZOR’. |
Tabel B1 | P1A-sluitings- en gezamenlijke scorebord | Controleert of versterkte DM het sluitingsvoordeel uitwist. |
Lay-outnotitie |
De volgende pagina schakelt over naar liggende oriëntatie zodat de brede tabellen uit het oorspronkelijke rapport behouden blijven zonder kolommen te verwijderen of ze onleesbaar samen te persen. De hoofdtekst heeft al een uitleg in gewone taal gegeven; de liggende technische tabellen zijn bedoeld voor lezers die cijfers en modelvertakkingen moeten controleren. |
Figuur 0.1 | P1’s sluitingstest-workflow in één oogopslag

Noot: de bovenste keten is de ‘sluitingstest’ (alleen RC fitten → de RC-posterior gebruiken om GGL te voorspellen); de onderste keten is de ‘gezamenlijke fit’ (RC+GGL samen scoren). Rechts wordt de echte mapping vergeleken met geschudde mappings om de sluitingssterkte ΔlogL te verkrijgen.
6 | Belangrijke technische tabellen: hoofdtabellen van het rapport en P1A-tabellen
Tabel S1a | Hoofdmetrics voor vergelijking van gezamenlijke fit (RC+GGL, Strict; overgenomen uit het oorspronkelijke rapport)
Model (workspace) | W-kern | k | Gezamenlijke logL_total (best) | ΔlogL_total t.o.v. DM | AICc | BIC |
DM_RAZOR | geen | 20 | -16927.763 | 0.0 | 33895.885 | 34010.811 |
EFT_BIN | geen | 21 | -15590.552 | 1337.21 | 31223.501 | 31344.155 |
EFT_WEXP | exponentieel | 21 | -15668.83 | 1258.932 | 31380.057 | 31500.711 |
EFT_WYUK | yukawa | 21 | -15772.936 | 1154.827 | 31588.268 | 31708.922 |
EFT_WPOW | powerlaw_tail | 21 | -15633.321 | 1294.442 | 31309.038 | 31429.692 |
Tabel S1b | Sluitings- en robuustheidsmetrics (Strict; overgenomen uit het oorspronkelijke rapport)
Model (workspace) | Sluiting ΔlogL (true-perm) | ΔlogL na negatieve-controlerandomisatie | σ_int-scan ΔlogL-bereik | R_min-scan ΔlogL-bereik | cov-shrink-scan ΔlogL-bereik |
DM_RAZOR | 126.678 | 22.725 | — | — | — |
EFT_BIN | 231.611 | 14.984 | 459–1548 | 1243–1289 | 1337–1351 |
EFT_WEXP | 171.977 | 6.04 | 408–1471 | 1169–1207 | 1259–1277 |
EFT_WYUK | 179.808 | 14.688 | 380–1341 | 1065–1099 | 1155–1166 |
EFT_WPOW | 280.513 | 6.672 | 457–1500 | 1203–1247 | 1294–1308 |
Tabel B0 | Definities van DM-versterkingsvertakkingen in P1A (overgenomen uit Bijlage B van het oorspronkelijke rapport)
Workspace | dm_model | Nieuwe parameters (≤1) | Fysische motivatie (kern) | Implementatieregel (auditvriendelijk) |
DM_RAZOR | NFW (vaste c–M, geen spreiding) | — | Minimale, auditeerbare LambdaCDM-halo-basislijn; gebruikt als strikte vergelijker voor EFT | Gedeelde mapping vastgezet; strikte parameterboekhouding; alleen als basislijn voor relatieve vergelijking gebruikt |
DM_RAZOR_SCAT | NFW + c–M-spreiding (legacy) | σ_logc | De c–M-relatie heeft spreiding; benaderd met een één-parameter lognormale spreiding | ≤1 nieuwe parameter; gebruikt nog steeds de gedeelde mapping; sluitingswinst is het acceptatiecriterium |
DM_RAZOR_AC | NFW + adiabatische contractie (legacy) | α_AC | Baryonische instroom kan adiabatische contractie van de halo veroorzaken; benaderd met één sterkteparameter | ≤1 nieuwe parameter; mapping onveranderd; rapporteert AICc/BIC-veranderingen en sluitingswinst |
DM_RAZOR_FB | NFW + feedbackkern (legacy) | log r_core | Feedback kan in het binnengebied een core vormen; benaderd met één kernschaalparameter | ≤1 nieuwe parameter; hetzelfde sluitings-/negatieve-controleprotocol; RC-only-verbetering is niet het enige doel |
DM_HIER_CMSCAT | Hiërarchische c–M-spreiding + prior | σ_logc (hier) | Een meer standaard hiërarchische c_i∼logN(c(M_i), σ_logc); beïnvloedt de gezamenlijke RC- en GGL-posterior tegelijk | Expliciete prior; latente c_i gemarginaliseerd; blijft laag-dimensionaal en auditeerbaar |
DM_CORE1P | 1‑parameter-kernproxy (geïnspireerd op coreNFW/DC14) | log r_core | Gebruikt een één-parameter-kernproxy voor het hoofdeffect van baryonische feedback en vermijdt hoog-dimensionale details van stervorming | Verwijst naar standaardliteratuur; ≤1 nieuwe parameter; gekoppeld aan de sluitingstest |
DM_RAZOR_M | NFW + nuisance voor shear-kalibratie in lenswerking | m_shear (GGL) | Absorbeert een kernsystematiek aan de zwakke-lenswerkingkant als effectieve parameter, waardoor het risico daalt dat systematiek als natuurkunde wordt behandeld | De nuisanceparameter wordt expliciet geboekt; mag niet terugwerken op RC; resultaten worden vooral beoordeeld op robuuste sluiting |
DM_STD | Gestandaardiseerde DM-basislijn (HIER_CMSCAT + CORE1P + m) | σ_logc + log r_core (+ m_shear) | Brengt drie gangbare klassen van bezwaren onder in een nog steeds laag-dimensionale gestandaardiseerde basislijn | Rapporteert parameterboekhouding en informatiecriteria samen; sluiting is de hoofdmetric; gebruikt als sterkste DM-verdedigingsvergelijker |
Tabel B1 | P1A-scorebord (hoger is beter; overgenomen uit Bijlage B van het oorspronkelijke rapport)
Modelvertakking (workspace) | Δk | RC-only beste logL_RC (Δ) | Sluitingssterkte ΔlogL_closure (Δ) | Gezamenlijke beste logL_total (Δ) |
DM_RAZOR | 0 | -15702.654 (+0.000) | 122.205 (+0.000) | -27347.068 (+0.000) |
DM_RAZOR_SCAT | 1 | -15702.294 (+0.361) | 121.236 (-0.969) | -23153.311 (+4193.758) |
DM_RAZOR_AC | 1 | -15703.689 (-1.035) | 121.531 (-0.674) | -23982.557 (+3364.511) |
DM_RAZOR_FB | 1 | -15496.046 (+206.609) | 129.454 (+7.249) | -27478.531 (-131.463) |
DM_HIER_CMSCAT | 1 | -15702.644 (+0.010) | 121.978 (-0.227) | -23153.160 (+4193.908) |
DM_CORE1P | 1 | -15723.158 (-20.504) | 122.056 (-0.149) | -27336.258 (+10.810) |
DM_RAZOR_M | 0 (+m) | -15702.654 (+0.000) | 122.205 (+0.000) | -27340.451 (+6.617) |
DM_STD | 2 (+m) | -15832.203 (-129.549) | 105.690 (-16.515) | -22984.445 (+4362.623) |
EFT_BIN | 1 | -14631.537 (+1071.117) | 204.620 (+82.415) | -19001.142 (+8345.926) |
Hoe lees je tabel B1 (P1A-scorebord) |
• Δk: toegevoegde vrijheidsgraden (groter betekent een complexer model; complexer betekent niet beter). • Let vooral op twee kolommen: sluitingssterkte ΔlogL_closure(Δ) (groter betekent meer overdrachtszelfconsistentie) en beste gezamenlijke logL_total(Δ) (totale score van gezamenlijke fit). • De (Δ) tussen haakjes is het verschil ten opzichte van DM_RAZOR, waardoor directe vergelijking eenvoudig is. |
• De hoofdvraag van deze tabel is: als de DM-basislijn ‘redelijk wordt versterkt’, verdwijnt het sluitingsvoordeel dan? • Leesnotitie: DM_STD verbetert de gezamenlijke score aanzienlijk, maar de sluitingssterkte daalt juist; EFT_BIN behoudt nog steeds een hogere sluitingssterkte. |
Samenvatting in één zin: binnen dit laag-dimensionale, auditeerbare bereik van DM-versterkingen levert het verbeteren van de gezamenlijke fit niet automatisch sterkere sluiting op; sluiting (overdraagbaarheid) blijft het sleutelcriterium. |
7 | Hoe moeten de hoofdresultaten worden gelezen?
7.1 Gezamenlijke fit: over beide datasets scoort de EFT-hoofdvergelijking hoger
Tabel S1a en figuur S4 laten zien dat de EFT-familie, bij dezelfde data, dezelfde gedeelde mapping en vrijwel dezelfde parameterschaal, een gezamenlijke ΔlogL_total van 1155–1337 heeft ten opzichte van DM_RAZOR. Voor algemene lezers betekent dit dat de EFT-modellen in de hoofdvergelijking onder één scoringsregel die RC en GGL combineert, een hogere totaalscore krijgen.
7.2 Sluitingstest: P1’s hoofdaccent ligt op overdraagbaarheid
Een hoge sluitingssterkte betekent dat een model parameters uit alleen RC kan afleiden en, zonder opnieuw naar GGL te kijken, GGL beter kan voorspellen. In het P1-rapport heeft EFT ΔlogL_closure = 172–281, terwijl DM_RAZOR 127 heeft. Dit is belangrijker dan zeggen dat ‘elke fit er goed uitziet’, omdat het de vrijheid van het model op de tweede dataset beperkt.
7.3 Negatieve controle: waarom is ‘instorting van het signaal’ juist goed?
Nadat P1 de groepscorrespondentie RC-bin→GGL-bin willekeurig heeft geschud, daalt EFT’s sluitingssignaal naar het bereik 6–23. Voor algemene lezers is dit een anti-valsstap: als het sluitingsvoordeel alleen uit code, eenheden, covariantiekeuzes of toevallige fit kwam, zouden geschudde correspondenties nog steeds een voordeel kunnen tonen. In plaats daarvan stort het voordeel in, wat laat zien dat het afhangt van de juiste mapping.

Figuur S3 | Sluitingssterkte (hoger is beter): gemiddeld log-likelihoodvoordeel voor RC-only → GGL-voorspelling.
Hoe lees je deze figuur |
Deze figuur vormt de kern van P1. Hoe hoger de balk, hoe beter de informatie die een model uit RC leerde naar GGL wordt overgedragen. |
De EFT-familie als geheel staat boven DM_RAZOR, wat wijst op sterkere sluiting tussen meetkanalen in het experiment ‘eerst RC leren, dan GGL voorspellen’. |

Figuur S4 | Voordeel van gezamenlijke fit (hoger is beter): RC+GGL beste logL_total ten opzichte van DM_RAZOR.
Hoe lees je deze figuur |
Deze figuur toont de totaalscore nadat RC en GGL zijn gecombineerd. |
Alle EFT-varianten liggen ruim boven 0, wat laat zien dat het EFT-voordeel in de hoofdvergelijking geen lokaal éénpuntseffect is, maar het globale gedrag van de gezamenlijke analyse. |

Figuur R1 | Negatieve controle: het sluitingssignaal daalt scherp na het schudden van de groepering.
Hoe lees je deze figuur |
Deze figuur laat zien dat het sluitingssignaal scherp daalt zodra de juiste RC↔GGL-binrelatie wordt geschud. |
Daardoor lijkt het P1-resultaat meer op echte consistentie in een mapping tussen datasets dan op een numeriek toeval dat onder willekeurige mappings kan worden verkregen. |
8 | Robuustheid en controles: hoe voorkomt P1 dat het ‘gewoon beter fit’?
Een technisch rapport is het kwetsbaarst voor de zorg dat het voordeel kan voortkomen uit een bepaalde ruisinstelling, een keuze voor data uit het centrale gebied, covariantiebehandeling of overfitting. P1 beantwoordt die zorg met meerdere stresstests.
Tabel 2 | Hoe je P1’s robuustheidstests en negatieve controles leest
Test | Zorg die hij probeert uit te sluiten | Hoe je hem leest |
σ_int-scan | Als RC extra onbekende spreiding bevat, blijft de conclusie dan stabiel? | Na het verruimen van de RC-fouten blijven de EFT-rangschikking en de omvang van het voordeel stabiel. |
R_min-scan | Als het centrale gebied van het sterrenstelsel niet volledig wordt vertrouwd, blijft de conclusie dan stabiel? | Na het wegsnijden van het centrale gebied behoudt EFT nog steeds een positief voordeel. |
cov-shrink-scan | Als de GGL-covariantie-inschatting onzeker is, blijft de conclusie dan stabiel? | Na het krimpen van de covariantie richting een diagonale matrix is het voordeel niet gevoelig. |
Ablatieladder | Dwingt EFT een fit af via onnodige complexiteit? | De volledige EFT_BIN is nodig volgens de informatiecriteria. |
LOO-voorspelling met weggelaten bins | Verklaart het model alleen data die het al heeft gezien? | Nadat een GGL-bin is weggelaten, toont het model nog steeds sterke generalisatie. |
RC-bin-shuffle | Komt sluiting voort uit de echte mapping? | Sluiting daalt nadat de groepering is geschud, wat mappingafhankelijkheid ondersteunt. |

Figuur R2 | Bereik van ΔlogL_total onder de σ_int-scan (hoger is beter).
Hoe lees je deze figuur |
Test of EFT’s voorsprong blijft bestaan na wijzigingen in de instelling voor intrinsieke RC-spreiding. |

Figuur R3 | Bereik van ΔlogL_total onder de R_min-scan (hoger is beter).
Hoe lees je deze figuur |
Test of EFT’s voordeel stabiel blijft nadat het complexe centrale gebied is weggesneden. |

Figuur R4 | Bereik van ΔlogL_total onder de cov-shrink-scan (hoger is beter).
Hoe lees je deze figuur |
Test of de rangschikking gevoelig is voor veranderingen in de behandeling van zwakke-lenswerkingcovariantie. |

Figuur R5 | Ablatieladder voor EFT_BIN (AICc; lager is beter).
Hoe lees je deze figuur |
Test of de volledige EFT_BIN nodig is om de data te verklaren, in plaats van slechts parameters toe te voegen. |

Figuur R6 | LOO: verdeling van log-likelihood voor weggelaten bins.
Hoe lees je deze figuur |
Test of het model nog steeds goed voorspelt op een ongeziene GGL-bin. |

Figuur R7 | Negatieve controle: geschudde mapping veroorzaakt een duidelijke daling in mean logL_true.
Hoe lees je deze figuur |
Laat vanuit het perspectief van mean logL_true verder zien dat sluiting afhangt van de juiste mapping tussen datasets. |
9 | P1A: waarom de meerdere DM-modellen in de appendix belangrijk zijn
Deze sectie vraagt niet: ‘Heeft EFT alleen één minimale DM_RAZOR verslagen?’ Zij vraagt of de conclusies uit sluitingstest en gezamenlijke fit veranderen wanneer de DM-basislijn binnen een laag-dimensionale, reproduceerbare en helder geboekstaafde parameterboekhouding wordt versterkt (P1A). Met andere woorden: P1A is bedoeld om het bezwaar te verkleinen dat de vergelijking een te zwakke DM-basislijn gebruikte, en om de discussie te verplaatsen naar de vraag of de sluitingsprestatie nog steeds verschilt onder een reeks auditeerbare DM-versterkingen.
P1A probeert niet elke mogelijke LambdaCDM-halomodelleringsoptie uit te putten, en maakt van de DM-kant ook geen hoog-dimensionale, niet-auditeerbare fitmachine. Het kiest laag-dimensionale, reproduceerbare, boekhoudkundig heldere versterkingen: concentratiespreiding, adiabatische contractie, feedbackkern, hiërarchische c–M-spreidingsprior, één-parameter-kernproxy, nuisanceparameter voor shear-kalibratie in zwakke lenswerking en de gecombineerde DM_STD-basislijn.
Belangrijkste lezing van P1A |
Van de drie legacy-vertakkingen levert alleen feedback/kern een kleine nettowinst in sluitingssterkte op; SCAT en AC leveren geen netto sluitingswinst. |
DM_HIER_CMSCAT, DM_RAZOR_M en DM_CORE1P hebben weinig effect op de sluitingssterkte of tonen geen significante nettowinst. |
DM_STD kan gezamenlijke logL aanzienlijk verbeteren, maar de sluitingssterkte daalt; dit suggereert dat het vooral de flexibiliteit van de gezamenlijke fit vergroot, niet de RC→GGL-overdrachtsvoorspellingskracht. |
In P1A-tabel B1 behoudt EFT_BIN nog steeds een hogere sluitingssterkte en een voordeel in gezamenlijke fit. De kernclaim van P1 moet daarom niet worden vereenvoudigd tot ‘het versloeg alleen de minimale DM_RAZOR’. |

Figuur B1 | P1A-scorebord: sluitings- en gezamenlijke ΔlogL ten opzichte van basislijn (hoger is beter).
Hoe lees je deze figuur |
Deze figuur toont hoe meerdere DM-versterkingsvertakkingen presteren ten opzichte van de basislijn. |
De betekenis is niet ‘alle DM is uitgesloten’. De figuur laat zien dat versterkte DM, binnen het laag-dimensionale, auditeerbare DM-versterkingsbereik dat P1A kiest, het sluitingsvoordeel van EFT_BIN niet uitwist. |
10 | Waarom het P1-experiment ertoe doet
10.1 Methodologische betekenis: zet sluiting tussen meetkanalen boven fitten op één meetkanaal
Theorie op sterrenstelselschaal loopt vaak vast in discussies over de vraag of een model één set rotatiecurven kan fitten. P1 legt de lat hoger: kunnen parameters die uit RC zijn geleerd zwakke lenswerking voorspellen zonder opnieuw op GGL af te stemmen? Daarmee verandert P1 van een fitwedstrijd in een test van overdrachtsvoorspelling.
10.2 Betekenis voor transparantie: maak de reproduceerbare keten onderdeel van het resultaat
Een belangrijke bijdrage van P1 is dat het data, tabellen en figuren, run-labels, negatieve controles, reproduceerbaarheidspakket en auditspoor samen vrijgeeft. Dat is zowel voor voorstanders als critici belangrijk: de discussie kan terugkeren naar dezelfde publieke data, dezelfde mapping, dezelfde scripts en dezelfde metrics, in plaats van slogans te vergelijken.
10.3 Fysische betekenis: een sterke stresstest voor zwaartekracht zonder DM
In richtingen zonder DM kunnen veel modellen een deel van de rotatiecurve- of RAR-fenomenologie verklaren. De moeilijkere taak is om tegelijk door de uitlezingen van zwakke lenswerking te komen en onder negatieve controles te laten zien dat het signaal afhangt van de juiste mapping. De betekenis van P1 is dat het EFT’s gemiddelde zwaartekrachtrespons in een protocol plaatst dat op een extern examen lijkt: RC is het trainingsveld, GGL is het overdrachtsveld en shuffle is het anti-valsspeelveld.
10.4 Is dit een belangrijk experiment voor het veld van zwaartekracht zonder DM?
Voorzichtig geformuleerd: als P1’s dataverwerking, reproduceerbaarheidspakket en sluitingsprotocol onder externe replicatie standhouden, dan kan het worden beschouwd als een RC+GGL-sluitingsexperiment dat in onderzoek naar zwaartekracht zonder DM / gewijzigde zwaartekracht serieus aandacht verdient. Het belang ligt niet in de frase ‘donkere materie is omvergeworpen’, maar in het bieden van een criterium tussen meetkanalen dat kan worden gekopieerd, betwist en uitgebreid.
Bestaat er al een vergelijkbaar sterk RC+GGL-raamwerk voor voorspellingssluiting? |
Relevante raamwerken en observatietradities bestaan al: MOND/RAR ordent een groot deel van de rotatiecurvefenomenen zeer goed; KiDS-1000-werk rond de zwakke-lenswerking-RAR heeft ook MOND, Verlinde emergent gravity en LambdaCDM-modellen vergeleken; LambdaCDM kan sommige zwakke-lenswerking-/dynamische verschijnselen eveneens verklaren via sterrenstelsel–halo-verbindingen, gashalo’s en feedbackmodellering. |
Maar P1’s precieze claim is niet: ‘geen enkel ander raamwerk ter wereld kan RC+GGL verklaren’. De claim is dat EFT onder P1’s eigen publieke protocol — vaste mapping, RC-only→GGL-sluiting, shuffle-negatieve controle, parameterboekhouding en P1A-stresstests met meerdere DM-modellen — een sterkere sluitingsprestatie rapporteert. |
Met andere woorden: het deel van P1 dat externe toetsing het meest verdient, is het concrete en reproduceerbare vergelijkingsprotocol dat het voorstelt. Of MOND/RAR, LambdaCDM/HOD, hydrodynamische simulaties of andere raamwerken voor gewijzigde zwaartekracht onder hetzelfde protocol dezelfde of een hogere sluitingsscore kunnen bereiken, is een zeer waardevolle volgende stap. |
11 | Wat kan P1 concluderen? Wat kan het niet concluderen?
Tabel 3 | Grenzen van P1’s conclusies
Kan concluderen | Onder P1’s RC+GGL-data, vaste mapping en hoofdvergelijkingsprotocol heeft de EFT-familie een hogere gezamenlijke fit en sluitingssterkte dan de minimale DM_RAZOR. |
Kan concluderen | Binnen P1A’s laag-dimensionale, auditeerbare DM-versterkingsbereik wissen meerdere DM-versterkingen het sluitingsvoordeel van EFT_BIN niet uit. |
Kan concluderen | De shuffle-negatieve controle laat zien dat het sluitingssignaal afhangt van de juiste mapping tussen datasets en niet van willekeurige mappings. |
Kan niet concluderen | Er kan niet worden geconcludeerd dat P1 alle donkere-materiemodellen heeft weerlegd. P1A put nog steeds geen niet-sfericiteit, omgevingsafhankelijkheid, complexe sterrenstelsel–halo-verbindingen, hoog-dimensionale feedback of volledige kosmologische simulaties uit. |
Kan niet concluderen | Er kan niet worden geconcludeerd dat de volledige EFT-theorie vanuit eerste principes is bewezen. P1 test alleen de fenomenologische laag van gemiddelde zwaartekrachtrespons. |
Kan niet concluderen | Er kan niet worden geconcludeerd dat alle systematiek is uitgesloten. P1 levert alleen robuustheidsbewijs binnen de genoemde stresstests en auditomvang. |
12 | Veelgestelde vragen
Q1: Zegt dit dat ‘donkere materie niet bestaat’?
Nee. P1’s conclusie moet beperkt blijven tot de data, het protocol en de vergelijkingsmodellen die in dit artikel worden gebruikt. P1A gaat verder dan de minimale DM_RAZOR-basislijn, maar vertegenwoordigt nog steeds niet elk mogelijk donkere-materiemodel.
Q2: Zegt dit dat ‘EFT al bewezen is’?
Ook nee. P1 test EFT als een geparametriseerde gemiddelde zwaartekrachtrespons en laat sterkere prestaties zien in RC→GGL-sluiting; microscopische mechanismen en de volledige theorie zijn geen conclusies van P1.
Q3: Waarom niet direct een significantie in σ vermelden?
P1 gebruikt een uniforme likelihoodscore, informatiecriteria en sluitingsverschillen. ΔlogL is een relatief voordeel onder dezelfde scoringsregel; het is niet hetzelfde als één enkele σ-waarde.
Q4: Waarom RC-bin→GGL-bin schudden?
Dit is de negatieve controle. Een echt signaal tussen meetkanalen moet afhankelijk zijn van de juiste mapping. Als het geschudde geval even sterk bleef, zou dat eerder wijzen op implementatiebias of een statistisch vals signaal.
Q5: Wat zou P1 hierna moeten doen?
Breid hetzelfde protocol uit naar meer data, meer DM-controles, complexere systematiek en meer raamwerken voor gewijzigde zwaartekracht, vooral op manieren die externe teams in staat stellen dezelfde sluitingsmaat te repliceren.
13 | Kleine begrippenlijst
Tabel 4 | Kleine begrippenlijst
Term | Uitleg in één zin |
Rotatiecurve (RC) | De radius–snelheidsrelatie in een sterrenstelselschijf, gebruikt om effectieve zwaartekracht binnen de schijf af te leiden. |
Zwakke lenswerking (GGL) | Meet de gemiddelde zwaartekracht-/massaverdeling rond voorgrondstelsels via de statistische vervorming van vormen van achtergrondstelsels. |
Sluitingstest | Gebruikt de RC-posterior om GGL te voorspellen en vergelijkt die met een negatieve controle met geschudde mapping. |
Negatieve controle | Breekt doelbewust een sleutelstructuur om te zien of het signaal verdwijnt; gebruikt om valse signalen uit te sluiten. |
NFW-halo | Een dichtheidsprofiel voor donkere-materiehalo’s dat vaak wordt gebruikt in modellen met koude donkere materie. |
c–M-relatie | De relatie tussen de concentratie c en massa M van een donkere-materiehalo; het toestaan van spreiding verandert de modelflexibiliteit. |
DM_STD | In P1A: een gestandaardiseerde DM-stresstestvertakking die meerdere laag-dimensionale DM-versterkingen en een nuisanceparameter voor lenswerking combineert. |
ΔlogL | Verschil in log-likelihood tussen twee modellen onder dezelfde scoringsregel; positieve waarden betekenen dat het eerste model beter presteert. |
Covariantie | Een matrixbeschrijving van correlaties tussen datapunten; zwakke-lenswerkingdata vereisen doorgaans de volledige covariantie. |
14 | Aanbevolen leesroute en citatie-ingangen
1. Lees eerst secties 0–2 om P1’s vraagstelling en de terughoudende rol van EFT in P1 vast te leggen.
2. Bekijk daarna figuren S3 en S4 en tabellen S1a/S1b om sluitingssterkte, gezamenlijke fit en negatieve controles te begrijpen.
3. Als je je zorgen maakt dat de DM-basislijn te zwak is, ga dan direct naar sectie 9 en tabel B1 / figuur B1.
4. Voor technische replicatie keer je terug naar het technische P1-rapport v1.1, het Tables & Figures Supplement en full_fit_runpack.
Belangrijkste archiefingangen |
Technisch P1-rapport (publicatiekwaliteit, Concept DOI): 10.5281/zenodo.18526334 |
Volledig reproduceerbaarheidspakket van P1 (Concept DOI): 10.5281/zenodo.18526286 |
Gestructureerde EFT-kennisbank (optioneel, Concept DOI): 10.5281/zenodo.18853200 |
Licentienotitie: het technische rapport gebruikt CC BY-NC-ND 4.0; het volledige reproduceerbaarheidspakket gebruikt CC BY 4.0 (onder voorbehoud van het technische rapport en de Zenodo-archiefrecords). |
15 | Referenties en externe achtergrond
McGaugh, S. S., Lelli, F., & Schombert, J. M. (2016). The Radial Acceleration Relation in Rotationally Supported Galaxies. Physical Review Letters, 117, 201101. DOI: 10.1103/PhysRevLett.117.201101.
Famaey, B., & McGaugh, S. S. (2012). Modified Newtonian Dynamics (MOND): Observational Phenomenology and Relativistic Extensions. Living Reviews in Relativity, 15, 10. DOI: 10.12942/lrr-2012-10.
Brouwer, M. M., Oman, K. A., Valentijn, E. A., et al. (2021). The weak lensing radial acceleration relation: Constraining modified gravity and cold dark matter theories with KiDS-1000. Astronomy & Astrophysics, 650, A113. DOI: 10.1051/0004-6361/202040108.
Mistele, T., McGaugh, S., Lelli, F., Schombert, J., & Li, P. (2024). Indefinitely Flat Circular Velocities and the Baryonic Tully-Fisher Relation from Weak Lensing. The Astrophysical Journal Letters, 969, L3 / arXiv:2406.09685.
Bullock, J. S., & Boylan-Kolchin, M. (2017). Small-Scale Challenges to the LambdaCDM Paradigm. Annual Review of Astronomy and Astrophysics, 55, 343–387. DOI: 10.1146/annurev-astro-091916-055313.
Lelli, F., McGaugh, S. S., & Schombert, J. M. (2016). SPARC: Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves. The Astronomical Journal, 152, 157. DOI: 10.3847/0004-6256/152/6/157.
Navarro, J. F., Frenk, C. S., & White, S. D. M. (1997). A Universal Density Profile from Hierarchical Clustering. Astrophysical Journal, 490, 493.
Dutton, A. A., & Macciò, A. V. (2014). Cold dark matter haloes in the Planck era: evolution of structural parameters for NFW haloes. Monthly Notices of the Royal Astronomical Society, 441, 3359–3374.