P1-rapport uitgelegd — Van rotatiecurven tot zwakke lenswerking: toetsing van de gemiddelde gravitatiereactie van EFT
Een publieksgerichte gids op basis van P1_RC_GGL: een strikte sluitingstest van sterrenstelseldynamica en zwakke lenswerking (v1.1)
Raadpleeg het oorspronkelijke evaluatierapport:
1. ChatGPT: https://chatgpt.com/share/6a00cd62-6e34-83eb-b165-6ec09e3519cc
2. Gemini: https://gemini.google.com/share/773ec96d75a0
3. Grok: https://grok.com/share/bGVnYWN5LWNvcHk_c0b4fa65-0e86-4adb-9b58-5617d616dc04
4. Qwen: https://chat.qwen.ai/s/22ab9336-671f-420a-a7fa-43e24774bb2a?fev=0.2.46
5. DeepSeek: https://chat.deepseek.com/share/tj6k7hb5owtoldg2bm
Leesopmerking |
Dit is een uitlegversie, geen afzonderlijk academisch rapport. Ze is gebaseerd op het oorspronkelijke P1-rapport, behoudt de belangrijkste figuren en tabellen, en voegt begrijpelijke uitleg toe over wat elke grote stap betekent. |
Deze gids legt alleen uit wat P1 concludeert onder zijn gespecificeerde datasets, parameterboekhouding en statistische protocol: in de gezamenlijke test van sterrenstelselrotatiecurven (RC) en zwakke lenswerking tussen sterrenstelsels (GGL) presteert het model van EFT’s gemiddelde gravitatiereactie duidelijk beter dan de hier geteste minimale DM_RAZOR-baseline. |
Deze gids interpreteert P1 niet als de claim dat “donkere materie is omvergeworpen”. P1 is slechts de eerste stap in de P-reeks-experimenten. Het test één observeerbare laag van EFT — de “gemiddelde gravitatiebodem” — niet de volledige inhoud van het complete EFT-raamwerk. |
0 | P1 in vijf minuten begrijpen: wat doet deze test precies?
Zie P1 als een consistentietest tussen verschillende meetkanalen. De vraag is niet alleen of een model één dataset kan fitten. In plaats daarvan zet P1 twee heel verschillende gravitatie-uitlezingen op dezelfde auditbank: rotatiecurven (RC) lezen de dynamica binnen sterrenstelselschijven, terwijl zwakke lenswerking tussen sterrenstelsels (GGL) de geprojecteerde gravitatiereactie op grotere schalen leest.
- RC is als een snelheidsmeter: het vertelt hoe snel gas en sterren op verschillende stralen in een sterrenstelselschijf roteren.
- GGL is als een weegschaal: door te meten hoe voorgrondsterrenstelsels het licht van achtergrondsterrenstelsels licht afbuigen, leidt het de gemiddelde gravitatie-/massaverdeling rond sterrenstelsels op grotere schalen af.
- De centrale vraag van P1 is: kan hetzelfde model eerst een patroon uit RC leren, dat patroon daarna naar GGL overdragen en dan nog steeds kloppen?
P1 in één zin |
P1 legt de lat hoger: van “fit het één meetkanaal goed?” naar “sluit het over meetkanalen heen?” Een model heeft waarschijnlijker een gravitatie-structuur opgepikt die RC en GGL delen als het goed presteert onder de juiste mapping en het signaal instort nadat de mapping is geschud. |
Tabel 0 | De kerncijfers van P1 en hoe u ze leest
Metriek | Lezing in P1 / P1A | Betekenis in gewone taal |
Gezamenlijke-fit ΔlogL_total | In de hoofdtekstvergelijking ligt EFT 1155–1337 boven DM_RAZOR | Het totale scoreverschil over de twee datasets; groter betekent een betere algehele verklaring. |
Sluitingssterkte ΔlogL_closure | In de hoofdtekstvergelijking ligt EFT op 172–281, terwijl DM_RAZOR 127 is | Het vermogen om GGL te voorspellen na inferentie uit alleen RC; groter betekent sterkere zelfconsistentie tussen meetkanalen. |
Shuffle-negatieve controle | Na het schudden van RC-bin→GGL-bin daalt het EFT-sluitingssignaal naar 6–23 | Als de juiste correspondentie wordt verbroken, zou het voordeel moeten verdwijnen; hoe scherper de instorting, hoe beter dit een schijnsignaal uitsluit. |
P1A-stresstest met meerdere DM-varianten | DM 7+1 + DM_STD, met EFT_BIN behouden als vergelijking | P1A kijkt niet alleen naar de minimale DM_RAZOR-baseline. Het plaatst meerdere laagdimensionale, auditeerbare DM-versterkingstakken in hetzelfde sluitingsprotocol. |
1 | Waarom P1 uitvoeren? Waar loopt kosmologie op sterrenstelselschaal vast?
Problemen op sterrenstelselschaal blijven moeilijk omdat de “extra gravitatie-/massabehoefte” niet alleen een rotatiecurveverschijnsel is. Veel waarnemingen laten een nauwe koppeling zien tussen zichtbare baryonische materie in sterrenstelsels en de feitelijke dynamische en lensuitlezingen. Voor de donkere-materieroute betekent dit dat donkere halo’s, baryonische feedback, de vormingsgeschiedenis van sterrenstelsels en observationele systematiek zeer nauwkeurig op elkaar moeten worden afgestemd. Voor zwaartekrachtroutes zonder donkere materie betekent het dat een model er niet alleen goed uit mag zien op RC; het moet ook zwakke lenswerking, populatieschaalrelaties en negatieve controles doorstaan.
Dat is de motivatie voor P1. Het vertrekt niet vanuit “donkere materie is fout” of “EFT moet juist zijn”. Het brengt één toetsbare claim onder audit: kan de gemiddelde gravitatiereactie van EFT een reproduceerbaar, overdraagbaar signaal achterlaten in de RC→GGL-sluiting tussen meetkanalen?
Externe literatuurcontext: waarom het RC+GGL-venster belangrijk is |
De radiale-versnellingsrelatie (RAR) die McGaugh, Lelli en Schombert in 2016 voorstelden, toont een nauwe correlatie met lage spreiding tussen de waargenomen versnelling die door rotatiecurven wordt getraceerd en de versnelling die uit baryonische materie wordt voorspeld. Dit maakt “koppeling tussen baryonen en gravitatiereactie” onvermijdelijk voor theorie op sterrenstelselschaal. |
Brouwer et al. (2021) gebruikten KiDS-1000-zwakke lenswerking om de RAR uit te breiden naar lagere versnellingen en grotere stralen, en vergeleken MOND, Verlinde’s emergente zwaartekracht en LambdaCDM-modellen. Zij merkten ook op dat verschillen tussen vroege en late typen sterrenstelsels, gashalo’s en de verbinding tussen sterrenstelsel en halo belangrijke verklaringskwesties blijven. |
Mistele et al. (2024) gebruikten verder zwakke lenswerking om cirkel-snelheidscurven voor geïsoleerde sterrenstelsels af te leiden, en rapporteerden geen duidelijke daling tot enkele honderden kpc en zelfs tot ongeveer 1 Mpc, in overeenstemming met de BTFR. Dit laat zien dat zwakke lenswerking een belangrijke externe uitlezing wordt voor het testen van gravitatiereactie op sterrenstelselschaal. |
De waarde van P1 ligt daarom niet in het feit dat het “als eerste RC en GGL samen bespreekt”. De waarde ligt erin dat beide in een auditeerbaar protocol worden geplaatst, opgebouwd uit een vaste mapping, een parameterboekhouding, RC-only→GGL-sluiting, shuffle-negatieve controles en P1A-stresstests met meerdere DM-varianten.
2 | Wat betekent EFT in P1? Het is niet Effective Field Theory
Hier verwijst EFT naar de Energiefilamenttheorie (Energy Filament Theory, EFT), niet naar de in de natuurkunde gangbare Effective Field Theory. In het technische P1-rapport wordt EFT terughoudend gebruikt: het gaat de vergelijking niet in als volledige eindtheorie, maar wordt eerst samengeperst tot een observeerbare, fitklare en falsifieerbare parameterisatie van “gemiddelde gravitatiereactie”.
Gewoon gezegd begint P1 niet met het bespreken van elke microscopische bron van extra zwaartekracht, en probeert het niet het hele EFT-raamwerk in één keer te bewijzen. Het stelt een smallere en hardere vraag: als er op sterrenstelselschaal een gemiddelde extra gravitatiereactie bestaat, kan die dan eerst RC verklaren en vervolgens worden overgedragen om GGL te voorspellen?
Welk deel van EFT test P1? |
P1 richt zich op de “gemiddelde gravitatiebodem”: een statistisch stabiele gemiddelde bijdrage die over samples kan worden overgedragen. |
P1 behandelt nog niet de “stochastische/ruisbodem”: de willekeurige termen, individuele verschillen of extra spreiding die meer microscopische fluctuatieprocessen kunnen introduceren. |
P1 behandelt ook niet het volledige microscopische mechanisme, de abundantie, levensduur of globale kosmologische randvoorwaarden. Het is de eerste stap in de P-reeks-experimenten, geen eindvonnis. |
3 | Het plan van de P1-reeks: waarom beginnen met de “gemiddelde bodem”?
De P-reeks kan worden begrepen als het observationele terughaalprogramma van EFT. Het legt niet alle claims tegelijk op tafel; het isoleert eerst het deel dat met publieke data het gemakkelijkst te testen is. De strategie van P1 is om eerst de gemiddelde term te testen: als de gemiddelde gravitatiereactie niet eens van RC naar GGL kan sluiten, dan ontbreekt een stevig ingangspunt voor de bespreking van complexere ruistermen of microscopische mechanismen.
Tabel 1 | Gelaagde positionering van de P-reeks
Laag | Gestelde vraag | Rol in P1 |
P1 | Kan gemiddelde gravitatiereactie sluiten in RC→GGL? | Hoofdvraag van het huidige rapport |
P1A | Als de DM-kant wordt versterkt, blijft de conclusie dan stabiel? | Bijlage B: DM 7+1 + DM_STD-stresstest |
Latere P-reeks-werkzaamheden | Kan het protocol worden uitgebreid naar meer data, meer meetkanalen en complexere systematiek? | Richting voor toekomstig werk |
Vragen op dieper niveau | Hoe hangen de gemiddelde term, de ruisterm en het microscopische mechanisme samen? | Buiten de conclusiescope van P1 |
4 | Wat zijn de data? Wat vertellen RC en GGL ons?
4.1 Rotatiecurven (RC): de “snelheidsmeter” binnen sterrenstelselschijven
Rotatiecurven leggen vast hoe snel gas en sterren op verschillende stralen rond het centrum van een sterrenstelsel bewegen. Hoe sneller de rotatie, des te sterker de vereiste middelpuntzoekende kracht op die straal — en dus des te sterker de effectieve zwaartekracht. P1 gebruikt de SPARC-database, met een voorbewerking die 104 sterrenstelsels en 2.295 snelheidsdatapunten omvat, verdeeld over 20 RC-bins.
4.2 Zwakke lenswerking (GGL): een “zwaartekrachtschaal” op grotere schaal
Zwakke lenswerking tussen sterrenstelsels meet hoe voorgrondsterrenstelsels het licht van achtergrondsterrenstelsels licht afbuigen. Dit komt overeen met een geprojecteerde gravitatiereactie op grotere, halo-schaalstralen en hangt niet af van de details van gasdynamica binnen een sterrenstelsel. P1 gebruikt de publieke GGL-data van KiDS-1000 / Brouwer et al. (2021): 4 bins voor stellaire massa, 15 radiale punten per bin, in totaal 60 datapunten, waarbij de volledige covariantie wordt gebruikt.
4.3 Vaste mapping: waarom 20 RC-bins → 4 GGL-bins belangrijk is
P1 verbindt de 20 RC-bins met de 4 GGL-bins via een vaste regel: elke GGL-bin correspondeert met 5 RC-bins, gecombineerd via een naar aantallen sterrenstelsels gewogen gemiddelde. Deze mapping blijft voor alle modellen ongewijzigd en fungeert als harde randvoorwaarde voor sluitingstests en eerlijke vergelijking.
Waarom de mapping niet achteraf afstemmen? |
Als men achteraf kon kiezen “welke RC-bins met welke GGL-bins corresponderen”, zou een model sluiting kunnen fabriceren door de correspondentie te herschikken. P1 vergrendelt de 20→4-mapping vooraf en breekt die bewust met een shuffle-negatieve controle, juist om te beoordelen of het sluitingssignaal werkelijk afhangt van een fysisch redelijke correspondentie. |
5 | Modellen en methoden: wat vergelijkt P1 precies?
5.1 De EFT-kant: laagdimensionale gemiddelde gravitatiereactie
Aan de EFT-kant wordt een laagdimensionale extra-snelheidsterm gebruikt om de gemiddelde gravitatiereactie te beschrijven. De vorm van de extra term wordt gestuurd door een dimensieloze kernelfunctie f(r/ℓ), waarbij ℓ de globale schaal is, en de amplitude per RC-bin wordt toegekend. Verschillende kernels vertegenwoordigen verschillende beginhellingen, overgangssnelheden en langbereikstaarten, en worden gebruikt voor robuustheidsstresstests.
5.2 De DM-kant: de hoofdtekstvergelijking en bijlage P1A moeten apart worden gelezen
In de hoofdtekstvergelijking is DM_RAZOR een geminimaliseerde, auditeerbare NFW-baseline: het gebruikt een vaste c–M-relatie en bevat geen halo-tot-halo-spreiding, adiabatische contractie, feedbackkernen, niet-sfericiteit of omgevingstermen. De kracht van dit ontwerp ligt in gecontroleerde vrijheidsgraden en eenvoudige reproduceerbaarheid; de zwakte is dat het niet elk LambdaCDM- of donkere-materiehalomodel kan vertegenwoordigen.
Daarom wordt de DM-kant in Bijlage B (P1A) omgezet in een reeks “gestandaardiseerde stresstests”. Zonder de gedeelde mapping of het sluitingsprotocol te wijzigen, voegt P1A geleidelijk laagdimensionale versterkingstakken toe, zoals SCAT, AC, FB, HIER_CMSCAT, CORE1P, lensing m en de gecombineerde baseline DM_STD, terwijl EFT_BIN als vergelijking behouden blijft. Kort gezegd is P1A geen vergelijking met slechts één minimale DM-baseline; het meet een reeks gangbare, auditeerbare DM-mechanismen met dezelfde “sluitingsliniaal”.
De precieze conclusiekadering die hier wordt gebruikt |
Hoofdtekst: de EFT-familie presteert in de hoofdvergelijking duidelijk beter dan de minimale DM_RAZOR. |
Bijlage B / P1A: onder meerdere laagdimensionale, auditeerbare DM-versterkingstakken en de DM_STD-stresstest verbeteren sommige gezamenlijke DM-fits, maar de sluitingssterkte elimineert het voordeel van EFT_BIN niet. |
De veiligste formulering is daarom: binnen de data, mapping, parameterboekhouding en het sluitingsprotocol van P1/P1A toont de gemiddelde gravitatiereactie van EFT sterkere consistentie tussen datasets; dit is niet hetzelfde als het uitsluiten van alle donkere-materiemodellen. |
5.3 Sluitingstests: de belangrijkste experimentele syntaxis van P1
1. Fit uitsluitend met RC om een reeks RC-only posterior-samples te verkrijgen.
2. Stem niet opnieuw af met GGL; gebruik de RC-posterior direct om GGL te voorspellen.
3. Gebruik de volledige covariantie om de GGL-voorspellingsscore onder de juiste mapping te berekenen: logL_true.
4. Permuteer de RC-bin→GGL-bin-correspondentie willekeurig om de negatieve-controlescore logL_perm te berekenen.
5. Trek de twee van elkaar af om de sluitingssterkte te krijgen: ΔlogL_closure = <logL_true> − <logL_perm>.
Analogie in gewone taal |
Een sluitingstest lijkt op een hertoets in een kruisverhoor. Het model leert eerst patronen in de RC-examenruimte en antwoordt daarna in de GGL-examenruimte. Als het een gedeelde regel heeft geleerd in plaats van een lokale truc, zou het na het wisselen van ruimte nog steeds goed moeten antwoorden; als de correspondentie tussen examenruimten bewust wordt geschud, zou het voordeel moeten verdwijnen. |
5.4 Voordat u de technische tabellen leest: vier ingangspunten
Tabel 5.4 | Leesroute voor de volgende reeks liggende technische tabellen
Ingangspunt | Waar u naar kijkt | Waarom het belangrijk is |
Tabel S1a | Totale score van de gezamenlijke RC+GGL-fit | Beantwoordt: “Als de twee datasets samen worden bekeken, wiens algehele verklaring is sterker?” |
Tabel S1b | Sluitingssterkte, shuffle en robuustheidsscans | Beantwoordt: “Kan wat uit RC is geleerd naar GGL worden overgedragen?” |
Tabel B0 | Definities van meerdere DM-versterkingstakken in P1A | Voorkomt dat P1 wordt gereduceerd tot “alleen een vergelijking met minimale DM_RAZOR”. |
Tabel B1 | P1A-scorebord voor sluiting en gezamenlijke fit | Controleert of het sluitingsvoordeel verdwijnt nadat DM is versterkt. |
Opmerking over lay-out |
Liggende pagina’s beginnen op de volgende pagina, zodat de brede tabellen uit het oorspronkelijke rapport intact kunnen blijven zonder kolommen te verwijderen of ze tot onleesbaarheid samen te persen. De hoofdtekst heeft al een uitleg in gewone taal gegeven; de liggende technische tabellen zijn voor lezers die waarden en modeltakken willen verifiëren. |
Figuur 0.1 | De workflow van P1’s sluitingstest in één schema

Opmerking: de bovenste keten is de “sluitingstest” (alleen RC fitten → de RC-posterior gebruiken om GGL te voorspellen); de onderste keten is de “gezamenlijke fit” (RC+GGL samen scoren). Rechts wordt de echte mapping vergeleken met de geschudde mapping om de sluitingssterkte ΔlogL te verkrijgen.
6 | Belangrijke technische tabellen: hoofdtabellen uit het oorspronkelijke rapport en P1A-tabellen
Tabel S1a | Hoofdmetrieken voor de gezamenlijke-fitvergelijking (RC+GGL, strict; behouden uit het oorspronkelijke rapport)
Model (werkruimte) | W-kernel | k | Gezamenlijke logL_total (beste) | ΔlogL_total t.o.v. DM | AICc | BIC |
DM_RAZOR | geen | 20 | -16927.763 | 0.0 | 33895.885 | 34010.811 |
EFT_BIN | geen | 21 | -15590.552 | 1337.21 | 31223.501 | 31344.155 |
EFT_WEXP | exponentieel | 21 | -15668.83 | 1258.932 | 31380.057 | 31500.711 |
EFT_WYUK | Yukawa | 21 | -15772.936 | 1154.827 | 31588.268 | 31708.922 |
EFT_WPOW | machtswetstaart | 21 | -15633.321 | 1294.442 | 31309.038 | 31429.692 |
Tabel S1b | Sluitings- en robuustheidsmetrieken (strict; behouden uit het oorspronkelijke rapport)
Model (werkruimte) | Sluitings-ΔlogL (true-perm) | ΔlogL na shuffle-negatieve controle | σ_int-scan ΔlogL-bereik | R_min-scan ΔlogL-bereik | cov-shrink-scan ΔlogL-bereik |
DM_RAZOR | 126.678 | 22.725 | — | — | — |
EFT_BIN | 231.611 | 14.984 | 459–1548 | 1243–1289 | 1337–1351 |
EFT_WEXP | 171.977 | 6.04 | 408–1471 | 1169–1207 | 1259–1277 |
EFT_WYUK | 179.808 | 14.688 | 380–1341 | 1065–1099 | 1155–1166 |
EFT_WPOW | 280.513 | 6.672 | 457–1500 | 1203–1247 | 1294–1308 |
Tabel B0 | Definities van DM-versterkingstakken in P1A (behouden uit Bijlage B van het oorspronkelijke rapport)
Werkruimte | dm_model | Nieuwe parameter (≤1) | Fysische motivatie (kern) | Implementatieprincipe (auditvriendelijk) |
|---|---|---|---|---|
DM_RAZOR | NFW (vaste c–M, geen spreiding) | — | Minimale, auditeerbare LambdaCDM-halo-baseline; gebruikt als strikte vergelijking met EFT | Vaste gedeelde mapping; strikte parameterboekhouding; alleen gebruikt als baseline voor relatieve vergelijking |
DM_RAZOR_SCAT | NFW + c–M-spreiding (legacy) | σ_logc | De c–M-relatie heeft spreiding; benaderd met een lognormale spreiding met één parameter | ≤1 nieuwe parameter; gebruikt nog steeds de gedeelde mapping; sluitingswinst is het acceptatiecriterium |
DM_RAZOR_AC | NFW + adiabatische contractie (legacy) | α_AC | Baryonische inval kan adiabatische halocontractie veroorzaken; benaderd met een sterkteparameter | ≤1 nieuwe parameter; mapping ongewijzigd; rapporteert AICc/BIC-veranderingen en sluitingswinst |
DM_RAZOR_FB | NFW + feedbackkern (legacy) | log r_core | Feedback kan een binnenkern creëren; benaderd met een kernschaal met één parameter | ≤1 nieuwe parameter; dezelfde sluitings-/negatieve-controlekadering; RC-only-verbetering is niet het enige doel |
DM_HIER_CMSCAT | Hiërarchische c–M-spreiding + prior | σ_logc(hier) | Een meer standaard hiërarchische c_i∼logN(c(M_i),σ_logc); beïnvloedt de gezamenlijke RC- en GGL-posterior | Expliciete prior; latente c_i gemarginaliseerd; blijft laagdimensionaal en auditeerbaar |
DM_CORE1P | Eenparameter-kernproxy (geïnspireerd op coreNFW/DC14) | log r_core | Gebruikt een kernproxy met één parameter voor het hoofdeffect van baryonische feedback, en vermijdt hoogdimensionale details van stervorming | Verwijst naar standaardliteratuur; ≤1 nieuwe parameter; gekoppeld aan de sluitingstest |
DM_RAZOR_M | NFW + lensing-shear-kalibratie-nuisance | m_shear(GGL) | Absorbeert een belangrijke systematiek aan de zwakke-lenskant met een effectieve parameter, waardoor het risico afneemt dat systematiek als fysica wordt behandeld | Nuisance expliciet vastgelegd; mag niet terugwerken op RC; resultaten worden vooral beoordeeld op sluitingsrobuustheid |
DM_STD | Gestandaardiseerde DM-baseline (HIER_CMSCAT + CORE1P + m) | σ_logc + log r_core (+ m_shear) | Brengt de drie meest voorkomende bezwaren samen in één nog steeds laagdimensionale gestandaardiseerde baseline | Rapporteert parameterboekhouding en informatiecriteria samen; sluiting is de hoofdmetriek; gebruikt als sterkste DM-verdedigingsvergelijking |
Tabel B1 | P1A-scorebord (groter is beter; behouden uit Bijlage B van het oorspronkelijke rapport)
Modeltak (werkruimte) | Δk | Beste RC-only logL_RC (Δ) | Sluitingssterkte ΔlogL_closure (Δ) | Beste gezamenlijke logL_total (Δ) |
DM_RAZOR | 0 | -15702.654 (+0.000) | 122.205 (+0.000) | -27347.068 (+0.000) |
DM_RAZOR_SCAT | 1 | -15702.294 (+0.361) | 121.236 (-0.969) | -23153.311 (+4193.758) |
DM_RAZOR_AC | 1 | -15703.689 (-1.035) | 121.531 (-0.674) | -23982.557 (+3364.511) |
DM_RAZOR_FB | 1 | -15496.046 (+206.609) | 129.454 (+7.249) | -27478.531 (-131.463) |
DM_HIER_CMSCAT | 1 | -15702.644 (+0.010) | 121.978 (-0.227) | -23153.160 (+4193.908) |
DM_CORE1P | 1 | -15723.158 (-20.504) | 122.056 (-0.149) | -27336.258 (+10.810) |
DM_RAZOR_M | 0 (+m) | -15702.654 (+0.000) | 122.205 (+0.000) | -27340.451 (+6.617) |
DM_STD | 2 (+m) | -15832.203 (-129.549) | 105.690 (-16.515) | -22984.445 (+4362.623) |
EFT_BIN | 1 | -14631.537 (+1071.117) | 204.620 (+82.415) | -19001.142 (+8345.926) |
Hoe u Tabel B1 leest (P1A-scorebord) |
• Δk: nieuw toegevoegde vrijheidsgraden (groter betekent een complexer model; complexer betekent niet automatisch beter). • Focus op twee kolommen: sluitingssterkte ΔlogL_closure(Δ) (groter betekent meer overdrachtszelfconsistentie) en beste gezamenlijke logL_total(Δ) (de totaalscore van de gezamenlijke fit). • De waarde tussen haakjes, (Δ), is het verschil ten opzichte van DM_RAZOR, waardoor directe vergelijking eenvoudiger wordt. |
• De hoofdvraag van deze tabel is of het sluitingsvoordeel verdwijnt nadat de DM-baseline “redelijk is versterkt”. • Leestip: DM_STD verbetert de gezamenlijke score duidelijk, maar de sluitingssterkte daalt; EFT_BIN blijft nog steeds hoger in sluitingssterkte. |
In één zin: binnen deze laagdimensionale, auditeerbare set DM-versterkingen levert verbetering van de gezamenlijke fit niet automatisch sterkere sluiting op; sluiting, dus overdraagbaarheid, blijft het sleutelcriterium. |
7 | Hoe moeten de hoofdresultaten worden gelezen?
7.1 Gezamenlijke fit: over beide datasets bekeken is de hoofdvergelijkingsscore van EFT hoger
Tabel S1a en Figuur S4 laten zien dat de EFT-familie, bij dezelfde data, dezelfde gedeelde mapping en ongeveer dezelfde parameterschaal, een gezamenlijke ΔlogL_total van 1155–1337 heeft ten opzichte van DM_RAZOR. Een algemene lezer kan dit zo begrijpen: onder dezelfde scoringsregel, toegepast op RC en GGL samen, krijgen de EFT-hoofdvergelijkingsmodellen een hogere totaalscore.
7.2 Sluitingstest: wat P1 vooral wil benadrukken is “overdraagbaarheid”
Een hoge sluitingssterkte betekent dat parameters die alleen uit RC zijn afgeleid GGL beter kunnen voorspellen zonder opnieuw naar GGL te kijken. In het P1-rapport bedraagt de ΔlogL_closure van EFT 172–281, terwijl DM_RAZOR 127 haalt. Dit resultaat is belangrijker dan zeggen dat “elk model zijn eigen data goed fit”, omdat het de vrijheid van het model op de tweede dataset beperkt.
7.3 Negatieve controle: waarom is “signaalinstorting” juist goed?
Nadat P1 de RC-bin→GGL-bin-groeperingscorrespondentie willekeurig door elkaar schudt, daalt het EFT-sluitingssignaal naar het bereik 6–23. Voor een algemene lezer is deze stap een soort anti-valsspeelcontrole: als het sluitingsvoordeel alleen door code, eenheden, covariantiebehandeling of toevallige fitting werd veroorzaakt, zou het voordeel zelfs bij een geschudde correspondentie kunnen blijven bestaan. In werkelijkheid stort het voordeel in, wat laat zien dat het van de juiste mapping afhangt.

Figuur S3 | Sluitingssterkte (groter is beter): gemiddeld log-likelihoodvoordeel voor RC-only → GGL-voorspelling.
Zo leest u deze figuur |
Deze figuur vormt de kern van P1. Hoe hoger de balk, hoe beter de uit RC geleerde informatie naar GGL wordt overgedragen. |
De EFT-familie ligt over het geheel hoger dan DM_RAZOR, wat wijst op sterkere EFT-sluiting tussen meetkanalen in het experiment “eerst RC leren, dan GGL voorspellen”. |

Figuur S4 | Gezamenlijke-fitvoordeel (groter is beter): beste RC+GGL logL_total ten opzichte van DM_RAZOR.
Zo leest u deze figuur |
Deze figuur toont de totaalscore nadat RC en GGL zijn gecombineerd. |
Alle EFT-modellen liggen ruim boven 0, wat aangeeft dat het EFT-voordeel in de hoofdvergelijking geen lokaal eenduidig punt-effect is, maar een algemeen patroon in de gezamenlijke analyse. |

Figuur R1 | Negatieve controle: het sluitingssignaal daalt scherp na het schudden van de groepering.
Zo leest u deze figuur |
Deze figuur laat zien dat het sluitingssignaal scherp daalt zodra de juiste RC↔GGL-binrelatie wordt verstoord. |
Hierdoor lijkt het P1-resultaat meer op echte consistentie in mapping tussen datasets dan op een numeriek toeval dat onder willekeurige mappings te verkrijgen is. |
8 | Robuustheid en controles: hoe voorkomt P1 dat het “alleen een mooi ogende fit” is?
De eenvoudigste kritiek op een technisch rapport is de vraag of het voordeel voortkomt uit één ruisinstelling, één datacut in het centrale gebied, één covariantiebehandeling of overfitting. P1 vangt dit op met meerdere stresstests.
Tabel 2 | Hoe u P1’s robuustheidstests en negatieve controles leest
Test | Zorg die het probeert uit te sluiten | Hoe u het leest |
σ_int-scan | Als RC extra onbekende spreiding bevat, blijft de conclusie dan stabiel? | Nadat RC-fouten worden versoepeld, blijven de EFT-rangorde en de schaal van het voordeel stabiel. |
R_min-scan | Als de centrale gebieden van sterrenstelsels niet volledig worden vertrouwd, blijft de conclusie dan stabiel? | Na het wegsnijden van de centrale gebieden behoudt EFT nog steeds een positief voordeel. |
cov-shrink-scan | Als de GGL-covariantieschatting onzeker is, blijft de conclusie dan stabiel? | Na covariantiekrimp richting de diagonaal is het voordeel niet gevoelig. |
Ablatieladder | Vertrouwt EFT op onnodige complexiteit om een fit af te dwingen? | De volledige EFT_BIN wordt ondersteund door de informatiecriteria. |
LOO-voorspelling op achtergehouden data | Verklaart het model alleen data die het al heeft gezien? | Na het achterhouden van een GGL-bin vertoont het model nog steeds sterke generalisatieprestaties. |
RC-bin-shuffle | Komt de sluiting voort uit de echte mapping? | De sluiting daalt nadat de groepering is geschud, wat mappingafhankelijkheid ondersteunt. |

Figuur R2 | Bereik van ΔlogL_total onder de σ_int-scan (groter is beter).
Zo leest u deze figuur |
Test of de voorsprong van EFT blijft bestaan na wijzigingen in de aangenomen intrinsieke RC-spreiding. |

Figuur R3 | Bereik van ΔlogL_total onder de R_min-scan (groter is beter).
Zo leest u deze figuur |
Test of het voordeel van EFT stabiel blijft nadat complexe centrale gebieden zijn weggesneden. |

Figuur R4 | Bereik van ΔlogL_total onder de cov-shrink-scan (groter is beter).
Zo leest u deze figuur |
Test of de rangorde gevoelig is voor veranderingen in de behandeling van zwakke-lenscovariantie. |

Figuur R5 | EFT_BIN-ablatieladder (AICc, kleiner is beter).
Zo leest u deze figuur |
Test of de volledige EFT_BIN nodig is om de data te verklaren, in plaats van alleen onnodige parameters toe te voegen. |

Figuur R6 | LOO: log-likelihoodverdeling voor achtergehouden bins.
Zo leest u deze figuur |
Test of het model nog voorspellende prestaties heeft op ongeziene GGL-bins. |

Figuur R7 | Negatieve controle: geschudde mapping veroorzaakt een duidelijke daling in sluitingsgemiddelde logL_true.
Zo leest u deze figuur |
Laat verder zien, vanuit het perspectief van gemiddelde logL_true, dat sluiting afhangt van de juiste mapping tussen datasets. |
9 | P1A: waarom “meerdere DM-modellen in de bijlage” een belangrijke correctie is
Deze sectie vraagt niet: “Heeft EFT slechts één minimale DM_RAZOR-baseline verslagen?” Ze vraagt of de conclusies van de sluitingstest en de gezamenlijke fit veranderen wanneer de DM-baseline wordt versterkt binnen een laagdimensionale, reproduceerbare en duidelijk vastgelegde parameterboekhouding (P1A). Met andere woorden: P1A wil het bezwaar verkleinen dat “er alleen een te zwakke DM-baseline is gekozen” en verplaatst de discussie naar de vraag of het sluitingsgedrag nog steeds verschilt onder een reeks auditeerbare DM-versterkingen.
P1A is niet ontworpen om alle mogelijke LambdaCDM-halomodellering uit te putten, en maakt van de DM-kant ook geen hoogdimensionale, niet-auditeerbare fitter. Het selecteert laagdimensionale, reproduceerbare versterkingen met een duidelijke parameterboekhouding: concentratiespreiding, adiabatische contractie, feedbackkern, hiërarchische c–M-spreidingsprior, een eenparameter-kernproxy, een zwakke-lenswerking shear-kalibratie-nuisance en de gecombineerde DM_STD-baseline.
Hoofdlezing van P1A |
Van de drie legacy-takken levert alleen feedback/kern een kleine netto toename van de sluitingssterkte op; SCAT en AC leveren geen netto sluitingswinst. |
DM_HIER_CMSCAT, DM_RAZOR_M en DM_CORE1P hebben zeer weinig effect op de sluitingssterkte of tonen geen significante netto verbetering. |
DM_STD kan de gezamenlijke logL aanzienlijk verbeteren, maar de sluitingssterkte daalt, wat suggereert dat het vooral de flexibiliteit van de gezamenlijke fit verbetert en niet de RC→GGL-overdrachtsvoorspellingskracht. |
EFT_BIN behoudt in P1A Tabel B1 nog steeds een hogere sluitingssterkte en een voordeel in de gezamenlijke fit; daarom mag de kernclaim van P1 niet worden gereduceerd tot “het versloeg alleen minimale DM_RAZOR”. |

Figuur B1 | P1A-scorebord: sluiting en gezamenlijke ΔlogL ten opzichte van de baseline (groter is beter).
Zo leest u deze figuur |
Deze figuur toont de prestaties van meerdere DM-versterkingstakken ten opzichte van de baseline. |
De betekenis is niet “alle DM is uitgesloten”, maar eerder dit: binnen de laagdimensionale, auditeerbare DM-versterkingen die P1A selecteert, neemt versterking van DM het sluitingsvoordeel van EFT_BIN niet weg. |
10 | Waarom het P1-experiment ertoe doet
10.1 Methodologische betekenis: “sluiting tussen meetkanalen” boven “fitten van één meetkanaal” plaatsen
Theorie op sterrenstelselschaal kan gemakkelijk blijven steken in de vraag of een model een bepaalde set rotatiecurven kan fitten. P1 tilt de vraag één niveau hoger: kunnen parameters die uit RC zijn geleerd zwakke lenswerking voorspellen zonder opnieuw op GGL af te stemmen? Daarmee verandert P1 van een “fitwedstrijd” in een “overdrachtsvoorspellingstest”.
10.2 Betekenis voor transparantie: de reproduceerbaarheidsketen als deel van het resultaat behandelen
Een belangrijke bijdrage van P1 is dat het de data, tabellen en figuren, runlabels, negatieve controles, het reproductiepakket en de auditketen samen vrijgeeft. Dat is belangrijk voor zowel voorstanders als critici: de discussie kan terugkeren naar dezelfde publieke data, dezelfde mapping, dezelfde scripts en dezelfde metrieken, in plaats van slogans te vergelijken.
10.3 Fysische betekenis: een sterke stresstest voor richtingen van “zwaartekracht zonder donkere materie”
Binnen zwaartekrachtrichtingen zonder donkere materie kunnen veel modellen een deel van de rotatiecurven of de RAR verklaren. De moeilijkere taak is om ook zwakke-lensuitlezingen te doorstaan en onder negatieve controles te laten zien dat het signaal afhangt van de juiste mapping. P1 doet ertoe omdat het de gemiddelde gravitatiereactie van EFT in een protocol plaatst dat op een extern examen lijkt: RC is het oefenterrein, GGL is het overdrachtsveld en shuffle is het anti-valsspeelveld.
10.4 Is dit een belangrijk experiment voor het veld van “zwaartekracht zonder donkere materie”?
Zorgvuldig geformuleerd: als de dataverwerking, het reproductiepakket en het sluitingsprotocol van P1 externe beoordeling doorstaan, dan kan het worden beschouwd als een RC+GGL-sluitingsexperiment dat in richtingen van zwaartekracht zonder donkere materie / gemodificeerde zwaartekracht serieus genomen moet worden. Het belang ervan ligt niet in de slogan “donkere materie is omvergeworpen”, maar in het bieden van een criterium tussen meetkanalen dat kan worden gerepliceerd, aangevochten en uitgebreid.
Bestaan er al RC+GGL-voorspellingssluitingsraamwerken op hetzelfde niveau? |
Er bestaan relevante raamwerken en observationele tradities: MOND/RAR ordent veel rotatiecurveverschijnselen goed; het KiDS-1000-werk over zwakke-lenswerking en RAR vergeleek ook MOND, Verlinde’s emergente zwaartekracht en LambdaCDM-modellen; LambdaCDM kan sommige zwakke-lens- en dynamische verschijnselen ook verklaren via sterrenstelsel–halo-verbindingen, gashalo’s en feedbackmodellering. |
Maar de precieze claim van P1 is niet dat “geen enkel ander raamwerk ter wereld RC+GGL kan verklaren”. Integendeel: onder P1’s eigen publieke protocol — vaste mapping, RC-only→GGL-sluiting, shuffle-negatieve controles, parameterboekhouding en P1A-stresstests met meerdere DM-varianten — rapporteert EFT sterkere sluitingsprestaties. |
Met andere woorden: het deel van P1 dat externe toetsing het meest waard is, is het concrete, reproduceerbare vergelijkingsprotocol. Een zeer waardevolle volgende stap is te zien of MOND/RAR, LambdaCDM/HOD, hydrodynamische simulaties of andere raamwerken voor gemodificeerde zwaartekracht onder hetzelfde protocol dezelfde of hogere sluitingsscores kunnen bereiken. |
11 | Wat kan P1 concluderen, en wat niet?
Tabel 3 | Grenzen van P1’s conclusies
Kan concluderen | Onder P1’s RC+GGL-data, vaste mapping en hoofdvergelijkingsprotocol heeft de EFT-familie hogere gezamenlijke-fitscores en sluitingssterkte dan de minimale DM_RAZOR. |
Kan concluderen | Binnen P1A’s laagdimensionale, auditeerbare bereik van DM-versterkingen elimineren meerdere DM-versterkingen het sluitingsvoordeel van EFT_BIN niet. |
Kan concluderen | De shuffle-negatieve controle laat zien dat het sluitingssignaal afhangt van de juiste mapping tussen datasets en niet onder willekeurige mappings te verkrijgen is. |
Kan niet concluderen | Men kan niet zeggen dat P1 alle donkere-materiemodellen heeft omvergeworpen. P1A put niet-sfericiteit, omgevingsafhankelijkheid, complexe sterrenstelsel–halo-verbindingen, hoogdimensionale feedback of volledige kosmologische simulaties nog steeds niet uit. |
Kan niet concluderen | Men kan niet zeggen dat het volledige EFT-raamwerk vanuit eerste principes is bewezen. P1 test alleen de fenomenologische laag van gemiddelde gravitatiereactie. |
Kan niet concluderen | Men kan niet zeggen dat alle systematiek is uitgesloten. P1 biedt alleen robuustheidsbewijs binnen de genoemde stresstests en auditscope. |
12 | Veelgestelde vragen van algemene lezers
V1: Zegt dit dat “donkere materie niet bestaat”?
Nee. De conclusies van P1 moeten beperkt blijven tot de data, het protocol en de vergelijkingsmodellen die hier zijn gebruikt. P1A gaat verder dan de minimale DM_RAZOR, maar vertegenwoordigt nog steeds niet alle mogelijke donkere-materiemodellen.
V2: Zegt dit dat “EFT bewezen is”?
Ook nee. P1 test EFT als een parameterisatie van gemiddelde gravitatiereactie en toont sterkere prestaties in RC→GGL-sluiting; het microscopische mechanisme en de volledige theorie behoren niet tot de conclusie van P1.
V3: Waarom geen significantiewaarde direct in σ rapporteren?
P1 gebruikt uniforme likelihoodscores, informatiecriteria en sluitingsverschillen. ΔlogL is een relatief voordeel onder dezelfde scoringsregel; het is niet gelijkwaardig aan één enkele σ-waarde.
V4: Waarom RC-bin→GGL-bin schudden?
Dit is een negatieve controle. Een echt signaal tussen meetkanalen zou van de juiste mapping moeten afhangen; als het na schudden even sterk blijft, zou dat juist wijzen op mogelijke implementatiebias of een statistisch vals signaal.
V5: Wat moet P1 hierna doen?
Breid hetzelfde protocol uit naar meer data, meer DM-vergelijkingen, complexere systematiek en meer raamwerken voor gemodificeerde zwaartekracht — vooral op manieren die externe teams in staat stellen opnieuw te testen onder dezelfde sluitingsmetriek.
13 | Miniwoordenlijst
Tabel 4 | Miniwoordenlijst
Term | Uitleg in één zin |
Rotatiecurve (RC) | De relatie tussen straal en rotatiesnelheid in een sterrenstelselschijf, gebruikt om de effectieve zwaartekracht binnen de schijf af te leiden. |
Zwakke lenswerking (GGL) | Een maat voor de gemiddelde gravitatie-/massaverdeling rond voorgrondsterrenstelsels via de statistische vervorming van de vormen van achtergrondsterrenstelsels. |
Sluitingstest | Gebruikt de RC-posterior om GGL te voorspellen en vergelijkt die daarna met de negatieve controle die door geschudde mapping ontstaat. |
Negatieve controle | Breekt bewust een sleutelstructuur om te zien of het signaal verdwijnt; gebruikt om valse signalen uit te sluiten. |
NFW-halo | Een dichtheidsprofiel voor donkere-materiehalo’s dat vaak wordt gebruikt in modellen voor koude donkere materie. |
c–M-relatie | De relatie tussen donkere-materiehaloconcentratie c en massa M; of spreiding wordt toegestaan beïnvloedt de modelflexibiliteit. |
DM_STD | De gestandaardiseerde DM-stresstesttak in P1A die meerdere laagdimensionale DM-versterkingen en een lensing-nuisanceterm combineert. |
ΔlogL | Het log-likelihoodverschil tussen twee modellen onder dezelfde scoringsregel; een positieve waarde betekent dat het eerste model beter is. |
Covariantie | Een matrixbeschrijving van correlaties tussen datapunten; zwakke-lensdata vereisen meestal de volledige covariantie. |
14 | Aanbevolen leesroute en citatie-ingangen
1. Lees eerst Secties 0–2 van deze gids om de vraag van P1 en de bewust terughoudende rol van EFT in P1 vast te leggen.
2. Lees daarna Figuur S3, Figuur S4 en Tabellen S1a/S1b om sluitingssterkte, gezamenlijke fitting en negatieve controles te begrijpen.
3. Als u bezorgd bent dat de “DM-baseline te zwak is”, ga dan direct naar Sectie 9 en Tabel B1 / Figuur B1.
4. Voor technische verificatie keert u terug naar het technische P1-rapport v1.1, het supplement met tabellen en figuren en de full_fit_runpack.
Belangrijkste archiefingangen |
Technisch P1-rapport (releaseniveau, Concept DOI): 10.5281/zenodo.18526334 |
Volledig P1-reproductiepakket (Concept DOI): 10.5281/zenodo.18526286 |
Gestructureerde EFT-kennisbank (optioneel, Concept DOI): 10.5281/zenodo.18853200 |
Licentie-opmerking: het technische rapport gebruikt CC BY-NC-ND 4.0; het volledige reproductiepakket gebruikt CC BY 4.0 (raadpleeg het technische rapport en de Zenodo-archieven als gezaghebbend). |
15 | Referenties en externe achtergrond
McGaugh, S. S., Lelli, F., & Schombert, J. M. (2016). The Radial Acceleration Relation in Rotationally Supported Galaxies. Physical Review Letters, 117, 201101. DOI: 10.1103/PhysRevLett.117.201101.
Famaey, B., & McGaugh, S. S. (2012). Modified Newtonian Dynamics (MOND): Observational Phenomenology and Relativistic Extensions. Living Reviews in Relativity, 15, 10. DOI: 10.12942/lrr-2012-10.
Brouwer, M. M., Oman, K. A., Valentijn, E. A., et al. (2021). The weak lensing radial acceleration relation: Constraining modified gravity and cold dark matter theories with KiDS-1000. Astronomy & Astrophysics, 650, A113. DOI: 10.1051/0004-6361/202040108.
Mistele, T., McGaugh, S., Lelli, F., Schombert, J., & Li, P. (2024). Indefinitely Flat Circular Velocities and the Baryonic Tully-Fisher Relation from Weak Lensing. The Astrophysical Journal Letters, 969, L3 / arXiv:2406.09685.
Bullock, J. S., & Boylan-Kolchin, M. (2017). Small-Scale Challenges to the LambdaCDM Paradigm. Annual Review of Astronomy and Astrophysics, 55, 343–387. DOI: 10.1146/annurev-astro-091916-055313.
Lelli, F., McGaugh, S. S., & Schombert, J. M. (2016). SPARC: Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves. The Astronomical Journal, 152, 157. DOI: 10.3847/0004-6256/152/6/157.
Navarro, J. F., Frenk, C. S., & White, S. D. M. (1997). A Universal Density Profile from Hierarchical Clustering. Astrophysical Journal, 490, 493.
Dutton, A. A., & Macciò, A. V. (2014). Cold dark matter haloes in the Planck era: evolution of structural parameters for NFW haloes. Monthly Notices of the Royal Astronomical Society, 441, 3359–3374.