snoopy1866 / descriptive-statistics-macro Goto Github PK

精简参数 VAR 的功能，以下调用方式仅对分类名称进行重命名操作：
```
VAR = SEX("" = "Missing" "男" = "Male" "女" = "Female")
```
分类的排序由参数 BY 控制
当参数 VAR 指定对不存在的分类名称重命名时，在日志中输出 WARNING

[feat] %qualify_multi_test 参数 `T_FORMAT`, `P_FORMAT` 合并入 `STAT_FORMAT`

[bug] %quantify 指定 label = '处方剂量体积（%nrstr(%%)）' 时会导致错误

Descriptive-Statistics-Macro/gbk/quantify.sas

Lines 571 to 575 in dca88cc

 create table tmp_quantify_outdata as 

 select 

 0 as SEQ, 

 %sysfunc(quote(&label_sql_expr)) as ITEM, 

 "" as VALUE

下面的代码中，label_sql_expr 解析后含有百分号，SAS 会尝试继续解析 % 后的 ），进而导致错误。

%sysfunc(quote(&label_sql_expr))

[bug] %quantify_multi 分组数据最大小数位数与其他组别不一致导致输出格式存在差异

例如：试验组最大小数位数为1，对照组均为整数，则使用 quantify_multi 分组统计时，试验组和对照组的统计量输出格式不一致。

[bug] %qualify_multi 中间数据集 `temp_res_group_level_&i` 变量 `item` 长度不一致可能导致在 merge 操作时被截断

MLOGIC(QUALIFY): 准备结束执行。
MPRINT(QUALIFY_MULTI):  ;
SYMBOLGEN:  宏变量 QUALIFY_EXIT_WITH_ERROR 解析为 FALSE
MLOGIC(QUALIFY_MULTI):  %IF 条件 %bquote(&qualify_exit_with_error) = TRUE 为 FALSE
MLOGIC(QUALIFY_MULTI):  %DO 循环的索引变量 I 当前为 3；循环将不再迭代。
MPRINT(QUALIFY_MULTI):   data tmp_qualify_m_outdata;
SYMBOLGEN:  宏变量 GROUP_LEVEL_N 解析为        2
MLOGIC(QUALIFY_MULTI): %DO 循环正准备开始；索引变量为 I；起始值为 1；截止值为 2；增量值为 1。
SYMBOLGEN:  宏变量 I 解析为 1
MLOGIC(QUALIFY_MULTI): %DO 循环的索引变量 I 当前为 2；循环将再次迭代。
SYMBOLGEN:  宏变量 I 解析为 2
MLOGIC(QUALIFY_MULTI):  %DO 循环的索引变量 I 当前为 3；循环将不再迭代。
MPRINT(QUALIFY_MULTI):   merge temp_res_group_level_1 temp_res_group_level_2
tmp_qualify_m_res_sum ;
SYMBOLGEN:  宏变量 GROUP_LEVEL_N 解析为        2
MLOGIC(QUALIFY_MULTI): %DO 循环正准备开始；索引变量为 I；起始值为 1；截止值为 2；增量值为 1。
SYMBOLGEN:  宏变量 I 解析为 1
SYMBOLGEN: && 解析为 &。
SYMBOLGEN:  宏变量 I 解析为 1
SYMBOLGEN:  宏变量 I 解析为 1
SYMBOLGEN:  宏变量 GROUP_LEVEL_1 解析为 "试验组"
SYMBOLGEN:  宏变量 I 解析为 1
SYMBOLGEN: && 解析为 &。
SYMBOLGEN:  宏变量 I 解析为 1
SYMBOLGEN:  宏变量 GROUP_LEVEL_1 解析为 "试验组"
SYMBOLGEN:  宏变量 I 解析为 1
SYMBOLGEN: && 解析为 &。
SYMBOLGEN:  宏变量 I 解析为 1
SYMBOLGEN:  宏变量 GROUP_LEVEL_1 解析为 "试验组"
SYMBOLGEN:  宏变量 I 解析为 1
SYMBOLGEN: && 解析为 &。
SYMBOLGEN:  宏变量 I 解析为 1
SYMBOLGEN:  宏变量 GROUP_LEVEL_1 解析为 "试验组"
SYMBOLGEN:  宏变量 I 解析为 1
SYMBOLGEN: && 解析为 &。
SYMBOLGEN:  宏变量 I 解析为 1
SYMBOLGEN:  宏变量 GROUP_LEVEL_1 解析为 "试验组"
MLOGIC(QUALIFY_MULTI): %DO 循环的索引变量 I 当前为 2；循环将再次迭代。
SYMBOLGEN:  宏变量 I 解析为 2
SYMBOLGEN: && 解析为 &。
SYMBOLGEN:  宏变量 I 解析为 2
SYMBOLGEN:  宏变量 I 解析为 2
SYMBOLGEN:  宏变量 GROUP_LEVEL_2 解析为 "对照组"
SYMBOLGEN:  宏变量 I 解析为 2
SYMBOLGEN: && 解析为 &。
SYMBOLGEN:  宏变量 I 解析为 2
SYMBOLGEN:  宏变量 GROUP_LEVEL_2 解析为 "对照组"
SYMBOLGEN:  宏变量 I 解析为 2
SYMBOLGEN: && 解析为 &。
SYMBOLGEN:  宏变量 I 解析为 2
SYMBOLGEN:  宏变量 GROUP_LEVEL_2 解析为 "对照组"
SYMBOLGEN:  宏变量 I 解析为 2
SYMBOLGEN: && 解析为 &。
SYMBOLGEN:  宏变量 I 解析为 2
SYMBOLGEN:  宏变量 GROUP_LEVEL_2 解析为 "对照组"
SYMBOLGEN:  宏变量 I 解析为 2
SYMBOLGEN: && 解析为 &。
SYMBOLGEN:  宏变量 I 解析为 2
SYMBOLGEN:  宏变量 GROUP_LEVEL_2 解析为 "对照组"
MLOGIC(QUALIFY_MULTI):  %DO 循环的索引变量 I 当前为 3；循环将不再迭代。
MPRINT(QUALIFY_MULTI):   label value_1 = "试验组" n_1 = "试验组"(频数) n_1_fmt =
"试验组"(频数格式化) rate_1 = "试验组"(频率) rate_1_fmt = "试验组"(频率格式化) value_2 =
"对照组" n_2 = "对照组"(频数) n_2_fmt = "对照组"(频数格式化) rate_2 = "对照组"(频率)
rate_2_fmt = "对照组"(频率格式化) value_sum = "合计" n_sum = "合计(频数)" n_sum_fmt =
"合计(频数格式化)" rate_sum = "合计(频率)" rate_sum_fmt = "合计(频率格式化)" item = "分类";
MPRINT(QUALIFY_MULTI):   run;

WARNING: 输入数据集为变量“ITEM”指定了多个长度。 这会造成数据截断。
NOTE: 从数据集 WORK.TEMP_RES_GROUP_LEVEL_1. 读取了 2 个观测
NOTE: 从数据集 WORK.TEMP_RES_GROUP_LEVEL_2. 读取了 4 个观测
NOTE: 从数据集 WORK.TMP_QUALIFY_M_RES_SUM. 读取了 5 个观测
NOTE: 数据集 WORK.TMP_QUALIFY_M_OUTDATA 有 5 个观测和 17 个变量。
NOTE: “DATA 语句”所用时间（总处理时间）:
      实际时间          0.02 秒
      CPU 时间          0.01 秒

[bug] %qualify 参数 `by` 指定的 format 含有数据集中未出现的值时，在参数 `var` 中对该分类的重命名不起作用。

当指定参数 by 为一个 format，且在参数 var 上对分类进行重命名，如果数据集中缺少被重命名的分类，则该分类在输出数据集中将保持 format 中的值，而不是预期中重命名之后的值。

例如：

proc format;
    value yn
        1 = "Y"
        2 = "N";
run;

%qualify_multi_test(indata      = adsl,
                    var         = wdfl("Y" = "是", "N" = "否"),
                    group       = arm,
                    groupby     = armn,
                    by          = yn.,
                    outdata     = out,
                    stat_format = (#rate = srate.),
                    label       = '是否剔除, n(%)');

若数据集 adsl 中变量 wdfl 的值均为 N，则输出结果中，本应经过重命名后显示为 “是” 的分类仍然显示为原始值 Y：

[bug] %quantify 奇数个转义字符 `#` 解析错误

[feat] %quantify 自动识别小数位数

[bug] %desc_coun 分类名称长度超出 200 时结果被截断

原因：程序内部使用 PROC SQL 生成数据集，在 PROC SQL 中，使用了 CAT 函数家族进行字符串的连接。在 PROC SQL 中，CAT 函数返回值始终为 200（即便事先指定了变量的 length = 32767），导致 sql 表达式的结果被截断。

解决办法：改用字符串连接符 ||，并配合 left, trim, strip 去除前后空格。

[bug] %qualify_multi_test 列联表存在例数为零的行/列时，未正确输出

NOTE: No statistics are computed for NHYW * RANDGUP_STD because NHYW has fewer than 2 nonmissing levels.
WARNING: No OUTPUT data set is produced for this table because a row or column variable has 
         fewer than 2 nonmissing levels and no statistics are computed.

[feat] %quantify_multi_test、%qualify_multi_test 多组别情况下，支持统计量和P值的计算。

[feat] %qualify 支持在 OCCDS 数据集上分别统计例数和例次

新增参数 UID，指定观测的唯一标识符变量。

若指定 UID = USUBJID，将根据变量 USUBJID 对数据集进行去重，去重前统计结果为例次，去重后统计结果为例数
若指定 UID = #NULL，将不会对数据集进行去重，统计结果为例数，这是 默认行为。

%qualify_multi_test 的行为将基于例数进行。

[feat] 增加较基线变化值的定量统计

新增参数 BCHG = variable

[bug] %qualify 指定统计量 N 的格式后，统计量 FREQ 的格式未同步变更

Descriptive-Statistics-Macro/gbk/qualify.sas

Lines 464 to 469 in 540512a

 %if %bquote(&stat_format) = #AUTO %then %do; 

 %let FREQ_format = best.; 

 %let RATE_format = percentn9.2; 

 %let TIMES_format = &FREQ_format; 

 %let N_format = &FREQ_format; 

 %end;

%let N_format = &FREQ_format; 导致统计量 N 的输出格式跟随统计量 FREQ，两者不存在双向同步。

NOTE: 变量 AGE_StdDev 在文件“WORK.TMP_QUANTIFY_STAT”中已存在，改用 AGE_StdDev2。

原因：解析后的统计量传入 PROC MEANS 语句前没有进行去重。

Descriptive-Statistics-Macro/utf8/quantify.sas

Lines 523 to 529 in 7858c54

 proc means data = &indata %do i = 1 %to &part_n; 

 %do j = 1 %to &&stat_&i; 

 %bquote( )%bquote(&&stat_&i._&j) 

 %end; 

 %end; 

 noprint 

 ;

[bug] %qualify, %quantify 首次调用时指定 `stat_format` 会导致错误。

[bug] %qualify_multi 未指定参数 `GROUPBY` 时，未创建宏变量 `group_level_freq_1`

以下代码段没有创建宏变量 group_level_freq_1：

Descriptive-Statistics-Macro/utf8/qualify_multi.sas

Lines 181 to 186 in 540512a

 %else %if %superq(groupby) = #AUTO %then %do; 

 proc sql noprint; 

 select distinct quote(strip(&group_var)) into : group_level_1- from %superq(indata) where not missing(&group_var); 

 select count(distinct &group_var) into : group_level_n from %superq(indata); 

 quit; 

 %end;

建议参考以下代码段：

Descriptive-Statistics-Macro/utf8/qualify_multi.sas

Lines 202 to 219 in 540512a

 proc sql noprint; 

 create table tmp_qualify_m_groupby_sorted as 

 select 

 distinct 

 &group_var, 

 &groupby_var 

 from %superq(indata) where not missing(&group_var) order by &groupby_var &groupby_direction, &group_var; 

 select quote(strip(&group_var)) into : group_level_1- from tmp_qualify_m_groupby_sorted; 

 select quote(strip(&group_var) || '(频数)') into : group_level_freq_1- from tmp_qualify_m_groupby_sorted; 

 select quote(strip(&group_var) || '(频数格式化)') into : group_level_freq_fmt_1- from tmp_qualify_m_groupby_sorted; 

 select quote(strip(&group_var) || '(频数)(兼容)') into : group_level_n_1- from tmp_qualify_m_groupby_sorted; 

 select quote(strip(&group_var) || '(频数格式化)(兼容)') into : group_level_n_fmt_1- from tmp_qualify_m_groupby_sorted; 

 select quote(strip(&group_var) || '(频次)') into : group_level_times_1- from tmp_qualify_m_groupby_sorted; 

 select quote(strip(&group_var) || '(频次格式化)') into : group_level_times_fmt_1- from tmp_qualify_m_groupby_sorted; 

 select quote(strip(&group_var) || '(频率)') into : group_level_rate_1- from tmp_qualify_m_groupby_sorted; 

 select quote(strip(&group_var) || '(频率格式化)') into : group_level_rate_fmt_1- from tmp_qualify_m_groupby_sorted; 

 select count(distinct &group_var) into : group_level_n from tmp_qualify_m_groupby_sorted; 

 quit;

参数 INDATA 指定的数据集中分析变量 VAR 未覆盖所有需要分析的分类；
参数 BY 指定了一个输出格式 format 作为排序的依据；
format 包含 INDATA 数据集中分析变量 VAR 没有出现的分类。

例如：房颤现病史表格中，变量 NHYW 的值均为 有，但统计时要求输出 有 和 无 两种情况的比例，此时输出数据集中仅包含 有 情况的结果。

[feat] %qualify 参数 `SUFFIX` 支持指定变量的值

例如：

%qualify(..., VAR = AVALD, SUFFIX = $"（{AVALC}）")

预期输出数据集中，各分类显示的值分别为：

非常容易（5分）
非常锁定牢固（5分）
较为便捷（4分）
非常顺畅（5分）
非常减轻疲劳（5分）

	create table tmp_quantify_outdata as
	select
	0 as SEQ,
	%sysfunc(quote(&label_sql_expr)) as ITEM,
	"" as VALUE

	%if %bquote(&stat_format) = #AUTO %then %do;
	%let FREQ_format = best.;
	%let RATE_format = percentn9.2;
	%let TIMES_format = &FREQ_format;
	%let N_format = &FREQ_format;
	%end;

	proc means data = &indata %do i = 1 %to &part_n;
	%do j = 1 %to &&stat_&i;
	%bquote( )%bquote(&&stat_&i._&j)
	%end;
	%end;
	noprint
	;

	%else %if %superq(groupby) = #AUTO %then %do;
	proc sql noprint;
	select distinct quote(strip(&group_var)) into : group_level_1- from %superq(indata) where not missing(&group_var);
	select count(distinct &group_var) into : group_level_n from %superq(indata);
	quit;
	%end;

	proc sql noprint;
	create table tmp_qualify_m_groupby_sorted as
	select
	distinct
	&group_var,
	&groupby_var
	from %superq(indata) where not missing(&group_var) order by &groupby_var &groupby_direction, &group_var;
	select quote(strip(&group_var)) into : group_level_1- from tmp_qualify_m_groupby_sorted;
	select quote(strip(&group_var) \|\| '(频数)') into : group_level_freq_1- from tmp_qualify_m_groupby_sorted;
	select quote(strip(&group_var) \|\| '(频数格式化)') into : group_level_freq_fmt_1- from tmp_qualify_m_groupby_sorted;
	select quote(strip(&group_var) \|\| '(频数)(兼容)') into : group_level_n_1- from tmp_qualify_m_groupby_sorted;
	select quote(strip(&group_var) \|\| '(频数格式化)(兼容)') into : group_level_n_fmt_1- from tmp_qualify_m_groupby_sorted;
	select quote(strip(&group_var) \|\| '(频次)') into : group_level_times_1- from tmp_qualify_m_groupby_sorted;
	select quote(strip(&group_var) \|\| '(频次格式化)') into : group_level_times_fmt_1- from tmp_qualify_m_groupby_sorted;
	select quote(strip(&group_var) \|\| '(频率)') into : group_level_rate_1- from tmp_qualify_m_groupby_sorted;
	select quote(strip(&group_var) \|\| '(频率格式化)') into : group_level_rate_fmt_1- from tmp_qualify_m_groupby_sorted;
	select count(distinct &group_var) into : group_level_n from tmp_qualify_m_groupby_sorted;
	quit;

snoopy1866 / descriptive-statistics-macro Goto Github PK

descriptive-statistics-macro's Introduction

简介

详细文档

descriptive-statistics-macro's People

Contributors

Watchers

descriptive-statistics-macro's Issues

Recommend Projects

Recommend Topics

Recommend Org