[fix](iterator) Use explicit output schema in new_merge_iterator and new_union_iterator by uchenily · Pull Request #60772 · apache/doris

uchenily · 2026-02-15T05:52:38Z

This PR ensures merge/union iterators use an explicit output schema projection and copy only the requested columns, preventing column count mismatches when delete-predicate columns are read in addition to return columns.

BetaRowsetReader now builds an output_schema from return_columns and passes it to merge/union iterators, VMergeIteratorContext copies using the output schema (not the incorrect _iter->schema())

Consider the following table:

CREATE TABLE tbl (
  k INT NOT NULL,
  v1 INT NOT NULL,
  v2 INT NOT NULL
) DUPLICATE KEY(k) ...;

And a delete predicate applied to a non-key column:

DELETE FROM tbl WHERE v1 = 1;

When executing ORDER BY k LIMIT n, Doris has a Top-N optimization. Even though the query is SELECT *, the engine initially avoids scanning all columns. It constructs a minimal intermediate schema containing only the sort keys (k) and the internal __DORIS_ROWID_COL__ to perform the merge and sorting efficiently. (_col_ids = {0, 3}, ==> _num_columns = 2). However, because a delete predicate exists on column v1, the BetaRowsetReader add v1 to this intermediate schema to evaluate and filter out deleted rows during the scan. (_col_ids = {0, 3, 1}, note that column v1 (index=1) is appended to this schema ==> _num_columns = 3)

The previous implementation of VMergeIteratorContext::copy_rows used the incorrect _num_columns value, resulting in an array out-of-bounds access and causing BE coredumped.

Detailed reproduction steps are follows:

modify conf/be.conf

write_buffer_size = 8

execute the following sql

CREATE TABLE tbl1
(
    k INT NOT NULL,
    v1 INT NOT NULL,
    v2 INT NOT NULL
)
DUPLICATE KEY(k)
DISTRIBUTED BY HASH(k) BUCKETS 5
PROPERTIES(
    "replication_num" = "1"

);
CREATE TABLE tbl2
(
    k INT NOT NULL,
    v1 INT NOT NULL,
    v2 INT NOT NULL
)
DUPLICATE KEY(k)
DISTRIBUTED BY HASH(k) BUCKETS 1
PROPERTIES(
    "replication_num" = "1"
);

INSERT INTO tbl1 VALUES (1, 1, 1),(2, 2, 2),(3, 3, 3),(4, 4, 4),(5, 5, 5);
INSERT INTO tbl2 SELECT * FROM tbl1;
SELECT * FROM tbl2 ORDER BY k limit 100; -- ok

DELETE FROM tbl2 WHERE v1 = 100;
SELECT * FROM tbl2 ORDER BY k limit 100; -- coredump

Co-authored-by: yiguolei guolei@selectdb.com

What problem does this PR solve?

Issue Number: close #xxx

Related PR: #xxx

Problem Summary:

Release note

None

Check List (For Author)

Test
- Regression test
- Unit Test
- Manual test (add detailed scripts or steps below)
- No need to test or manual test. Explain why:
  - This is a refactor/code format and no logic has been changed.
  - Previous test can cover this change.
  - No code files have been changed.
  - Other reason
Behavior changed:
- No.
- Yes.
Does this need documentation?
- No.
- Yes.

Check List (For Reviewer who merge this PR)

Confirm the release note
Confirm test cases
Confirm document
Add branch pick label

Thearas · 2026-02-15T05:52:44Z

Thank you for your contribution to Apache Doris.
Don't know what should be done next? See How to process your PR.

Please clearly describe your PR:

What problem was fixed (it's best to include specific error reporting information). How it was fixed.
Which behaviors were modified. What was the previous behavior, what is it now, why was it modified, and what possible impacts might there be.
What features were added. Why was this function added?
Which code was refactored and why was this part of the code refactored?
Which functions were optimized and what is the difference before and after the optimization?

uchenily · 2026-02-15T06:00:24Z

run buildall

doris-robot · 2026-02-15T08:05:42Z

TPC-H: Total hot run time: 28891 ms

machine: 'aliyun_ecs.c7a.8xlarge_32C64G'
scripts: https://github.com/apache/doris/tree/master/tools/tpch-tools
Tpch sf100 test result on commit bf26b46316cac30d13587d4d832f7286d6dafa24, data reload: false

------ Round 1 ----------------------------------
============================================
q1	17660	4458	4324	4324
q2	q3	10652	814	544	544
q4	4692	367	257	257
q5	7834	1202	1003	1003
q6	224	174	148	148
q7	803	848	693	693
q8	10670	1503	1382	1382
q9	5947	4777	4712	4712
q10	6899	1888	1625	1625
q11	453	269	258	258
q12	749	569	474	474
q13	17819	4251	3421	3421
q14	233	239	223	223
q15	982	788	786	786
q16	743	726	686	686
q17	728	878	463	463
q18	6180	5327	5200	5200
q19	1341	989	637	637
q20	509	513	408	408
q21	4529	1870	1400	1400
q22	361	284	247	247
Total cold run time: 100008 ms
Total hot run time: 28891 ms

----- Round 2, with runtime_filter_mode=off -----
============================================
q1	4473	4353	4368	4353
q2	q3	1765	2191	1729	1729
q4	863	1164	772	772
q5	4066	4352	4335	4335
q6	186	177	144	144
q7	1729	1597	1485	1485
q8	2449	2649	2583	2583
q9	7924	7537	7323	7323
q10	2653	2832	2419	2419
q11	539	465	426	426
q12	514	630	511	511
q13	3950	4526	3618	3618
q14	284	301	277	277
q15	878	871	823	823
q16	738	782	778	778
q17	1214	1576	1416	1416
q18	7084	6908	6607	6607
q19	936	887	912	887
q20	2059	2173	2178	2173
q21	4055	3565	3413	3413
q22	470	452	405	405
Total cold run time: 48829 ms
Total hot run time: 46477 ms

doris-robot · 2026-02-15T08:17:06Z

TPC-DS: Total hot run time: 184014 ms

machine: 'aliyun_ecs.c7a.8xlarge_32C64G'
scripts: https://github.com/apache/doris/tree/master/tools/tpcds-tools
TPC-DS sf100 test result on commit bf26b46316cac30d13587d4d832f7286d6dafa24, data reload: false

query5	4825	675	531	531
query6	337	236	215	215
query7	4246	472	285	285
query8	352	275	246	246
query9	8747	2790	2818	2790
query10	537	400	332	332
query11	16920	17529	17333	17333
query12	215	149	155	149
query13	1612	490	381	381
query14	7170	3327	3130	3130
query14_1	3031	2890	3032	2890
query15	229	210	184	184
query16	1029	494	455	455
query17	1213	740	665	665
query18	2943	449	346	346
query19	217	227	190	190
query20	145	142	127	127
query21	221	147	127	127
query22	5367	4951	4732	4732
query23	17088	16723	16569	16569
query23_1	16705	16754	16602	16602
query24	7204	1623	1228	1228
query24_1	1233	1286	1211	1211
query25	545	449	386	386
query26	1237	260	156	156
query27	2764	475	277	277
query28	4474	1899	1887	1887
query29	798	569	456	456
query30	309	244	210	210
query31	867	729	645	645
query32	87	74	73	73
query33	513	335	285	285
query34	927	916	575	575
query35	654	680	618	618
query36	1084	1088	1014	1014
query37	143	94	88	88
query38	2949	2901	2847	2847
query39	896	900	839	839
query39_1	827	852	825	825
query40	232	159	137	137
query41	63	60	59	59
query42	106	100	103	100
query43	375	392	347	347
query44	
query45	194	190	184	184
query46	889	987	623	623
query47	2119	2118	2018	2018
query48	328	314	232	232
query49	650	466	386	386
query50	686	277	220	220
query51	4126	4196	4043	4043
query52	108	108	94	94
query53	291	347	289	289
query54	309	273	268	268
query55	93	85	82	82
query56	322	336	312	312
query57	1342	1326	1271	1271
query58	289	283	273	273
query59	2670	2638	2533	2533
query60	332	345	330	330
query61	150	139	144	139
query62	628	591	536	536
query63	319	292	280	280
query64	4915	1375	1110	1110
query65	
query66	1404	468	365	365
query67	16430	16607	16345	16345
query68	
query69	421	331	300	300
query70	1002	959	895	895
query71	347	325	308	308
query72	2995	2695	2400	2400
query73	564	561	317	317
query74	9981	9938	9777	9777
query75	2864	2742	2474	2474
query76	2312	1053	676	676
query77	359	389	313	313
query78	11202	11302	10722	10722
query79	3164	809	613	613
query80	1802	679	552	552
query81	598	277	244	244
query82	997	150	113	113
query83	337	268	242	242
query84	257	118	100	100
query85	928	486	430	430
query86	492	304	303	303
query87	3133	3078	2996	2996
query88	3539	2658	2641	2641
query89	441	372	344	344
query90	2015	175	179	175
query91	169	161	134	134
query92	84	79	70	70
query93	1489	854	514	514
query94	649	331	297	297
query95	594	396	312	312
query96	642	538	236	236
query97	2444	2471	2429	2429
query98	236	219	212	212
query99	989	960	874	874
Total cold run time: 258345 ms
Total hot run time: 184014 ms

uchenily · 2026-02-15T09:18:49Z

run beut

be/src/olap/rowset/beta_rowset_reader.cpp

be/src/util/cpu_info.cpp

be/src/vec/olap/vgeneric_iterators.h

be/src/vec/olap/vgeneric_iterators.cpp

yiguolei · 2026-02-15T12:43:51Z

be/src/olap/rowset/beta_rowset_reader.cpp

    // delete_hanlder is always set, but it maybe not init, so that it will return empty conditions
    // or predicates when it is not inited.
    if (_read_context->delete_handler != nullptr) {
        _read_context->delete_handler->get_delete_conditions_after_version(


把你github pr description 那个例子，弄成regression test 加入到PR 里

有什么更直接的办法创建overlapping状态的rowset吗, 我复现的步骤里面需要改 be.conf 添加 write_buffer_size = 8 这个没法放到回归测试

可以借助docker case，参考regression-test目录下带docker tag的suites来构造测试case。
例如：suite("test_cloud_calc_sync_version","docker")

也可以通过DebugPoint注入的方式让memtable提前下刷，构造若干non overlap的小segment。
例如：https://github.com/apache/doris/blob/afce69a6d52d9254bb98fcf8fce1135a4bb998c0/regression-test/suites/schema_change_p0/test_non_overlap_seg_heavy_sc.groovy

uchenily · 2026-02-16T04:27:39Z

run buildall

doris-robot · 2026-02-16T05:05:36Z

TPC-H: Total hot run time: 28633 ms

machine: 'aliyun_ecs.c7a.8xlarge_32C64G'
scripts: https://github.com/apache/doris/tree/master/tools/tpch-tools
Tpch sf100 test result on commit ccc8840edb823561e98fbf3d74d1adc264fa494b, data reload: false

------ Round 1 ----------------------------------
============================================
q1	17651	4526	4331	4331
q2	q3	10656	788	525	525
q4	4680	356	253	253
q5	7575	1202	1038	1038
q6	171	175	150	150
q7	786	857	668	668
q8	9307	1450	1285	1285
q9	4832	4772	4607	4607
q10	6815	1868	1639	1639
q11	476	249	231	231
q12	707	569	464	464
q13	17766	4204	3403	3403
q14	223	233	208	208
q15	984	792	789	789
q16	753	725	678	678
q17	716	862	438	438
q18	5926	5376	5227	5227
q19	1161	992	640	640
q20	511	504	383	383
q21	4500	1878	1434	1434
q22	347	289	242	242
Total cold run time: 96543 ms
Total hot run time: 28633 ms

----- Round 2, with runtime_filter_mode=off -----
============================================
q1	4421	4339	4338	4338
q2	q3	1738	2173	1716	1716
q4	833	1154	786	786
q5	3993	4332	4325	4325
q6	176	175	140	140
q7	1712	1593	1500	1500
q8	2401	2620	2535	2535
q9	7225	7745	7448	7448
q10	2677	2944	2405	2405
q11	531	440	421	421
q12	498	584	438	438
q13	3917	4459	3572	3572
q14	283	315	297	297
q15	889	811	838	811
q16	756	783	733	733
q17	1215	1549	1274	1274
q18	7091	6855	6592	6592
q19	930	888	951	888
q20	2099	2261	2009	2009
q21	3903	3408	3479	3408
q22	483	484	411	411
Total cold run time: 47771 ms
Total hot run time: 46047 ms

doris-robot · 2026-02-16T05:16:56Z

TPC-DS: Total hot run time: 184048 ms

machine: 'aliyun_ecs.c7a.8xlarge_32C64G'
scripts: https://github.com/apache/doris/tree/master/tools/tpcds-tools
TPC-DS sf100 test result on commit ccc8840edb823561e98fbf3d74d1adc264fa494b, data reload: false

query5	4846	653	527	527
query6	342	238	213	213
query7	4232	464	275	275
query8	349	259	238	238
query9	8787	2741	2715	2715
query10	564	394	339	339
query11	16901	17521	17366	17366
query12	187	122	122	122
query13	1321	486	341	341
query14	7054	3330	3056	3056
query14_1	2875	2910	2915	2910
query15	206	203	213	203
query16	994	474	452	452
query17	1120	734	610	610
query18	3137	454	341	341
query19	220	231	193	193
query20	146	134	130	130
query21	225	150	116	116
query22	5543	5718	4923	4923
query23	17183	16838	16504	16504
query23_1	16616	16716	16707	16707
query24	7151	1611	1223	1223
query24_1	1214	1227	1233	1227
query25	543	454	392	392
query26	1238	261	148	148
query27	2772	462	283	283
query28	4502	1861	1857	1857
query29	787	569	457	457
query30	318	241	211	211
query31	861	709	636	636
query32	81	71	66	66
query33	507	331	278	278
query34	922	898	561	561
query35	637	683	599	599
query36	1102	1146	948	948
query37	125	93	80	80
query38	2940	2908	2872	2872
query39	920	853	851	851
query39_1	828	821	820	820
query40	228	150	133	133
query41	65	60	57	57
query42	107	101	103	101
query43	378	400	352	352
query44	
query45	194	190	185	185
query46	871	969	633	633
query47	2150	2152	2055	2055
query48	315	330	234	234
query49	658	483	397	397
query50	683	296	221	221
query51	4067	4076	4039	4039
query52	112	108	97	97
query53	291	344	289	289
query54	321	293	272	272
query55	90	87	82	82
query56	320	324	331	324
query57	1355	1327	1270	1270
query58	295	282	288	282
query59	2541	2674	2510	2510
query60	349	338	339	338
query61	177	172	171	171
query62	641	598	541	541
query63	314	286	282	282
query64	4910	1376	1063	1063
query65	
query66	1398	464	366	366
query67	16417	16625	16391	16391
query68	
query69	387	314	292	292
query70	940	973	964	964
query71	335	302	309	302
query72	2774	2640	2391	2391
query73	572	545	321	321
query74	9988	9943	9756	9756
query75	2824	2714	2441	2441
query76	2285	1025	695	695
query77	368	369	306	306
query78	11130	11382	10767	10767
query79	1153	816	591	591
query80	1086	601	509	509
query81	540	278	246	246
query82	1328	155	119	119
query83	358	258	249	249
query84	260	112	99	99
query85	879	474	447	447
query86	384	330	299	299
query87	3135	3100	2981	2981
query88	3537	2654	2656	2654
query89	416	372	337	337
query90	1824	174	171	171
query91	176	162	134	134
query92	78	72	72	72
query93	910	835	498	498
query94	506	314	274	274
query95	580	392	307	307
query96	641	512	226	226
query97	2502	2499	2432	2432
query98	223	223	219	219
query99	987	941	902	902
Total cold run time: 254036 ms
Total hot run time: 184048 ms

uchenily · 2026-02-16T07:30:29Z

run beut

uchenily · 2026-02-16T07:30:57Z

run nonConcurrent

uchenily · 2026-02-16T07:31:03Z

run p0

hello-stephen · 2026-02-16T08:46:28Z

BE UT Coverage Report

Increment line coverage 100.00% (21/21) 🎉

Increment coverage report
Complete coverage report

Category	Coverage
Function Coverage	52.67% (19536/37090)
Line Coverage	36.24% (182152/502672)
Region Coverage	32.61% (141458/433843)
Branch Coverage	33.62% (61280/182264)

hello-stephen · 2026-02-16T08:53:05Z

BE Regression && UT Coverage Report

Increment line coverage 100.00% (21/21) 🎉

Increment coverage report
Complete coverage report

Category	Coverage
Function Coverage	73.44% (26689/36343)
Line Coverage	56.62% (283902/501423)
Region Coverage	54.31% (238004/438220)
Branch Coverage	55.96% (102396/182968)

hello-stephen · 2026-02-16T09:50:54Z

BE Regression && UT Coverage Report

Increment line coverage 100.00% (21/21) 🎉

Increment coverage report
Complete coverage report

Category	Coverage
Function Coverage	73.42% (26684/36343)
Line Coverage	56.60% (283819/501423)
Region Coverage	54.29% (237892/438220)
Branch Coverage	55.94% (102353/182968)

uchenily · 2026-02-16T10:32:54Z

run nonConcurrent

hello-stephen · 2026-02-16T11:54:56Z

BE Regression && UT Coverage Report

Increment line coverage 100.00% (21/21) 🎉

Increment coverage report
Complete coverage report

Category	Coverage
Function Coverage	73.42% (26684/36343)
Line Coverage	56.60% (283815/501423)
Region Coverage	54.29% (237892/438220)
Branch Coverage	55.94% (102353/182968)

uchenily · 2026-02-16T13:43:34Z

run buildall

uchenily · 2026-02-16T15:06:33Z

run buildall

github-actions · 2026-02-16T15:18:38Z

PR approved by at least one committer and no changes requested.

github-actions · 2026-02-16T15:18:41Z

PR approved by anyone and no changes requested.

doris-robot · 2026-02-16T15:44:07Z

TPC-H: Total hot run time: 28647 ms

machine: 'aliyun_ecs.c7a.8xlarge_32C64G'
scripts: https://github.com/apache/doris/tree/master/tools/tpch-tools
Tpch sf100 test result on commit 3ef93a2d4e44b54f1ef6f3ef30c7ea78b3cf691d, data reload: false

------ Round 1 ----------------------------------
============================================
q1	17630	4456	4282	4282
q2	q3	10650	777	520	520
q4	4695	353	254	254
q5	7540	1195	1009	1009
q6	173	174	147	147
q7	775	853	681	681
q8	9307	1457	1320	1320
q9	4833	4739	4679	4679
q10	6823	1872	1622	1622
q11	473	273	241	241
q12	710	564	464	464
q13	17773	4217	3423	3423
q14	220	233	218	218
q15	963	792	781	781
q16	743	723	669	669
q17	707	901	414	414
q18	5957	5273	5289	5273
q19	1106	982	603	603
q20	505	514	397	397
q21	4376	1819	1406	1406
q22	339	290	244	244
Total cold run time: 96298 ms
Total hot run time: 28647 ms

----- Round 2, with runtime_filter_mode=off -----
============================================
q1	4407	4362	4341	4341
q2	q3	1781	2178	1737	1737
q4	840	1172	743	743
q5	3978	4288	4266	4266
q6	181	172	143	143
q7	1721	1551	1487	1487
q8	2377	2611	2488	2488
q9	7182	7843	7394	7394
q10	2731	2860	2404	2404
q11	502	441	413	413
q12	520	591	454	454
q13	3905	4411	3657	3657
q14	287	295	279	279
q15	898	844	823	823
q16	728	790	710	710
q17	1156	1496	1321	1321
q18	7205	6789	6779	6779
q19	872	874	869	869
q20	2075	2162	2018	2018
q21	4143	3396	3326	3326
q22	564	462	395	395
Total cold run time: 48053 ms
Total hot run time: 46047 ms

doris-robot · 2026-02-16T15:55:27Z

TPC-DS: Total hot run time: 183103 ms

machine: 'aliyun_ecs.c7a.8xlarge_32C64G'
scripts: https://github.com/apache/doris/tree/master/tools/tpcds-tools
TPC-DS sf100 test result on commit 3ef93a2d4e44b54f1ef6f3ef30c7ea78b3cf691d, data reload: false

query5	5121	637	517	517
query6	332	213	192	192
query7	4211	455	271	271
query8	335	248	239	239
query9	8718	2748	2768	2748
query10	542	374	325	325
query11	17079	17574	17048	17048
query12	211	135	129	129
query13	1600	485	382	382
query14	6819	3337	3067	3067
query14_1	2969	3143	2823	2823
query15	207	192	169	169
query16	998	527	483	483
query17	1552	896	623	623
query18	2995	476	363	363
query19	226	221	184	184
query20	136	140	131	131
query21	216	132	121	121
query22	5321	5148	4884	4884
query23	17174	16772	16512	16512
query23_1	16588	16514	16612	16514
query24	7155	1602	1211	1211
query24_1	1234	1233	1225	1225
query25	575	447	403	403
query26	1255	263	144	144
query27	2779	481	284	284
query28	4489	1863	1845	1845
query29	796	542	473	473
query30	313	244	206	206
query31	861	758	644	644
query32	77	75	66	66
query33	517	336	266	266
query34	898	910	571	571
query35	635	693	586	586
query36	1077	1106	932	932
query37	137	98	79	79
query38	2946	2979	2918	2918
query39	891	864	853	853
query39_1	828	820	861	820
query40	222	146	129	129
query41	95	58	57	57
query42	109	103	99	99
query43	374	376	356	356
query44	
query45	199	185	181	181
query46	874	987	606	606
query47	2121	2141	2026	2026
query48	310	318	227	227
query49	643	453	361	361
query50	676	273	212	212
query51	4114	4037	4065	4037
query52	108	105	93	93
query53	290	336	287	287
query54	286	264	247	247
query55	91	86	85	85
query56	308	304	306	304
query57	1341	1324	1274	1274
query58	279	292	267	267
query59	2593	2633	2507	2507
query60	324	329	315	315
query61	147	146	144	144
query62	627	589	542	542
query63	310	283	272	272
query64	4900	1251	960	960
query65	
query66	1385	453	358	358
query67	16341	16326	16212	16212
query68	
query69	397	315	299	299
query70	1020	1018	967	967
query71	340	309	296	296
query72	2939	2831	2556	2556
query73	537	547	324	324
query74	9973	9888	9800	9800
query75	2874	2763	2454	2454
query76	2303	1057	677	677
query77	377	388	342	342
query78	11223	11471	10696	10696
query79	1148	764	601	601
query80	1390	632	525	525
query81	572	281	247	247
query82	1001	149	116	116
query83	336	263	252	252
query84	251	114	95	95
query85	893	460	412	412
query86	426	330	292	292
query87	3097	3147	2962	2962
query88	3578	2656	2659	2656
query89	425	365	342	342
query90	1952	173	160	160
query91	159	149	131	131
query92	76	77	72	72
query93	923	845	500	500
query94	631	314	294	294
query95	588	328	384	328
query96	637	509	229	229
query97	2463	2467	2380	2380
query98	224	221	220	220
query99	1013	1008	909	909
Total cold run time: 255470 ms
Total hot run time: 183103 ms

doris-robot · 2026-02-16T16:30:44Z

BE UT Coverage Report

Increment line coverage 86.67% (26/30) 🎉

Increment coverage report
Complete coverage report

Category	Coverage
Function Coverage	52.67% (19535/37090)
Line Coverage	36.23% (182135/502668)
Region Coverage	32.58% (141353/433807)
Branch Coverage	33.61% (61258/182258)

hello-stephen · 2026-02-16T18:20:03Z

BE Regression && UT Coverage Report

Increment line coverage 86.67% (26/30) 🎉

Increment coverage report
Complete coverage report

Category	Coverage
Function Coverage	63.58% (23106/36343)
Line Coverage	46.79% (234607/501419)
Region Coverage	43.96% (192611/438184)
Branch Coverage	45.15% (82612/182962)

hello-stephen · 2026-02-17T01:57:12Z

BE Regression && UT Coverage Report

Increment line coverage 86.67% (26/30) 🎉

Increment coverage report
Complete coverage report

Category	Coverage
Function Coverage	63.58% (23106/36343)
Line Coverage	46.79% (234607/501419)
Region Coverage	43.96% (192611/438184)
Branch Coverage	45.15% (82612/182962)

Hastyshell · 2026-02-22T14:34:19Z

LGTM, a regression test would be nice

uchenily added 4 commits February 15, 2026 12:30

fix coredump

8b10dd1

Add check

610e72a

fix new_union_iterator

84d795e

fix check

c4a0fc0

uchenily changed the title ~~[fix](iterator)~~ [fix](iterator) Use explicit output schema in new_merge_iterator and new_union_iterator Feb 15, 2026

format

bf26b46