Use the new tuple intrinsics to get rid of build errors in X280 BLIS …

…code. However, it does not get correct results for complex BLIS routines which use segment loads (or call those that do). The intrinsic types check out and make sense, but it returns wrong answers. It's probably something really simple. For historical reference, see: riscv-non-isa/riscv-c-api-doc#43 flame#737 (comment) https://reviews.llvm.org/D152134 riscv-non-isa/rvv-intrinsic-doc#139 riscv-non-isa/rvv-intrinsic-doc#198 https://github.com/riscv-non-isa/rvv-intrinsic-doc/blob/master/rvv-intrinsic-rfc.md https://github.com/riscv-non-isa/rvv-intrinsic-doc/blob/master/auto-generated/intrinsic_funcs/02_vector_unit-stride_segment_load_store_instructions_zvlsseg.md https://github.com/riscv-non-isa/rvv-intrinsic-doc/blob/master/auto-generated/intrinsic_funcs/03_vector_stride_segment_load_store_instructions_zvlsseg.md https://github.com/riscv-non-isa/rvv-intrinsic-doc/blob/master/auto-generated/intrinsic_funcs/04_vector_indexed_segment_load_store_instructions_zvlsseg.md
leekillough · Jul 6, 2023 · 9fc9359 · 9fc9359
1 parent 7ae57cf
commit 9fc9359
Show file tree

Hide file tree

Showing 12 changed files with 226 additions and 123 deletions.
diff --git a/kernels/sifive_x280/1/bli_addv_sifive_x280_intr/bli_addv_sifive_x280_intr_complex.c b/kernels/sifive_x280/1/bli_addv_sifive_x280_intr/bli_addv_sifive_x280_intr_complex.c
@@ -47,29 +47,37 @@ ADDV(PRECISION_CHAR, void)
     size_t avl = n;
     while (avl) {
         size_t vl = VSETVL(PREC, LMUL)(avl);
-        RVV_TYPE_F(PREC, LMUL) xvec_real, xvec_imag, yvec_real, yvec_imag;
+        RVV_TYPE_F_X2(PREC, LMUL) xvec, yvec;
 
         if (incx == 1)
-            VLSEG2_V_F(PREC, LMUL)( &xvec_real, &xvec_imag, (BASE_DT*) x, vl);
+            xvec = VLSEG2_V_F(PREC, LMUL)( (BASE_DT*) x, vl);
         else
-            VLSSEG2_V_F(PREC, LMUL)(&xvec_real, &xvec_imag, (BASE_DT*) x, 2*FLT_SIZE*incx, vl);
-        
+            xvec = VLSSEG2_V_F(PREC, LMUL)( (BASE_DT*) x, 2*FLT_SIZE*incx, vl);
+
         if (incy == 1)
-            VLSEG2_V_F(PREC, LMUL)( &yvec_real, &yvec_imag, (BASE_DT*) y, vl);
+            yvec = VLSEG2_V_F(PREC, LMUL)( (BASE_DT*) y, vl);
         else
-            VLSSEG2_V_F(PREC, LMUL)(&yvec_real, &yvec_imag, (BASE_DT*) y, 2*FLT_SIZE*incy, vl);
-
+            yvec = VLSSEG2_V_F(PREC, LMUL)( (BASE_DT*) y, 2*FLT_SIZE*incy, vl);
+
+        RVV_TYPE_F(PREC, LMUL) xvec_real = RVV_GET_REAL(PREC, LMUL, xvec);
+        RVV_TYPE_F(PREC, LMUL) xvec_imag = RVV_GET_IMAG(PREC, LMUL, xvec);
+        RVV_TYPE_F(PREC, LMUL) yvec_real = RVV_GET_REAL(PREC, LMUL, yvec);
+        RVV_TYPE_F(PREC, LMUL) yvec_imag = RVV_GET_IMAG(PREC, LMUL, yvec);
+
         yvec_real = VFADD_VV(PREC, LMUL)(yvec_real, xvec_real, vl);
         if (conjx == BLIS_NO_CONJUGATE)
             yvec_imag = VFADD_VV(PREC, LMUL)(yvec_imag, xvec_imag, vl);
         else
             yvec_imag = VFSUB_VV(PREC, LMUL)(yvec_imag, xvec_imag, vl);
 
+        RVV_SET_REAL(PREC, LMUL, yvec, yvec_real);
+        RVV_SET_IMAG(PREC, LMUL, yvec, yvec_imag);
+
         if (incy == 1)
-            VSSEG2_V_F(PREC, LMUL)( (BASE_DT*) y, yvec_real, yvec_imag, vl);
+            VSSEG2_V_F(PREC, LMUL)( (BASE_DT*) y, yvec, vl);
         else
-            VSSSEG2_V_F(PREC, LMUL)((BASE_DT*) y, 2*FLT_SIZE*incy, yvec_real, yvec_imag, vl);
-        
+            VSSSEG2_V_F(PREC, LMUL)((BASE_DT*) y, 2*FLT_SIZE*incy, yvec, vl);
+
         x += vl*incx;
         y += vl*incy;
         avl -= vl;

diff --git a/kernels/sifive_x280/1/bli_axpbyv_sifive_x280_intr/bli_axpbyv_sifive_x280_intr_complex.c b/kernels/sifive_x280/1/bli_axpbyv_sifive_x280_intr/bli_axpbyv_sifive_x280_intr_complex.c
@@ -38,7 +38,7 @@
 AXPBYV(PRECISION_CHAR, void)
 {
     // Computes y := beta * y + alpha * conjx(x)
-    
+
     if (n <= 0) return;
 
     const DATATYPE* restrict alpha = alpha_;
@@ -59,7 +59,7 @@ AXPBYV(PRECISION_CHAR, void)
         return;
     }
 
-    // Note: in the cases alpha = 0 && beta = 1, or alpha = 1 && beta = 0, we 
+    // Note: in the cases alpha = 0 && beta = 1, or alpha = 1 && beta = 0, we
     // will canonicalize NaNs whereas the reference code will propagate NaN payloads.
 
     // TO DO (optimization): special cases for alpha = +-1, +-i, beta = +-1, +-i
@@ -68,23 +68,28 @@ AXPBYV(PRECISION_CHAR, void)
     size_t avl = n;
     while (avl) {
         size_t vl = VSETVL(PREC, LMUL)(avl);
-        RVV_TYPE_F(PREC, LMUL) xvec_real, xvec_imag, yvec_real, yvec_imag, temp_real, temp_imag;
+        RVV_TYPE_F_X2(PREC, LMUL) xvec, yvec;
 
         if (incx == 1)
-            VLSEG2_V_F(PREC, LMUL)( &xvec_real, &xvec_imag, (BASE_DT*) x, vl);
+            xvec = VLSEG2_V_F(PREC, LMUL)( (BASE_DT*) x, vl);
         else
-            VLSSEG2_V_F(PREC, LMUL)(&xvec_real, &xvec_imag, (BASE_DT*) x, 2*FLT_SIZE*incx, vl);
-        
+            xvec = VLSSEG2_V_F(PREC, LMUL)( (BASE_DT*) x, 2*FLT_SIZE*incx, vl);
+
         if (incy == 1)
-            VLSEG2_V_F(PREC, LMUL)( &yvec_real, &yvec_imag, (BASE_DT*) y, vl);
+            yvec = VLSEG2_V_F(PREC, LMUL)( (BASE_DT*) y, vl);
         else
-            VLSSEG2_V_F(PREC, LMUL)(&yvec_real, &yvec_imag, (BASE_DT*) y, 2*FLT_SIZE*incy, vl);
-
+            yvec = VLSSEG2_V_F(PREC, LMUL)( (BASE_DT*) y, 2*FLT_SIZE*incy, vl);
+
+        RVV_TYPE_F(PREC, LMUL) xvec_real = RVV_GET_REAL(PREC, LMUL, xvec);
+        RVV_TYPE_F(PREC, LMUL) xvec_imag = RVV_GET_IMAG(PREC, LMUL, xvec);
+        RVV_TYPE_F(PREC, LMUL) yvec_real = RVV_GET_REAL(PREC, LMUL, yvec);
+        RVV_TYPE_F(PREC, LMUL) yvec_imag = RVV_GET_IMAG(PREC, LMUL, yvec);
+
         // Computed as:
         // y.real = beta.real * y.real - beta.imag * y.imag + alpha.real * x.real - alpha.imag * conj(x.imag)
         // y.imag = beta.real * y.imag + beta.imag * y.real + alpha.imag * x.real + alpha.real * conj(x.imag)
-        temp_real = VFMUL_VF(PREC, LMUL)  (yvec_real, beta->real, vl);
-        temp_imag = VFMUL_VF(PREC, LMUL)  (yvec_imag, beta->real, vl);
+        RVV_TYPE_F(PREC, LMUL) temp_real = VFMUL_VF(PREC, LMUL)  (yvec_real, beta->real, vl);
+        RVV_TYPE_F(PREC, LMUL) temp_imag = VFMUL_VF(PREC, LMUL)  (yvec_imag, beta->real, vl);
         temp_real = VFNMSAC_VF(PREC, LMUL)(temp_real, beta->imag, yvec_imag, vl);
         temp_imag = VFMACC_VF(PREC, LMUL) (temp_imag, beta->imag, yvec_real, vl);
         yvec_real = VFMACC_VF(PREC, LMUL) (temp_real, alpha->real, xvec_real, vl);
@@ -97,11 +102,14 @@ AXPBYV(PRECISION_CHAR, void)
             yvec_imag = VFNMSAC_VF(PREC, LMUL)(yvec_imag, alpha->real, xvec_imag, vl);
         }
 
+        RVV_SET_REAL(PREC, LMUL, yvec, yvec_real);
+        RVV_SET_IMAG(PREC, LMUL, yvec, yvec_imag);
+
         if (incy == 1)
-            VSSEG2_V_F(PREC, LMUL)( (BASE_DT*) y, yvec_real, yvec_imag, vl);
+            VSSEG2_V_F(PREC, LMUL)( (BASE_DT*) y, yvec, vl);
         else
-            VSSSEG2_V_F(PREC, LMUL)((BASE_DT*) y, 2*FLT_SIZE*incy, yvec_real, yvec_imag, vl);
-        
+            VSSSEG2_V_F(PREC, LMUL)((BASE_DT*) y, 2*FLT_SIZE*incy, yvec, vl);
+
         x += vl*incx;
         y += vl*incy;
         avl -= vl;

diff --git a/kernels/sifive_x280/1/bli_axpyv_sifive_x280_intr/bli_axpyv_sifive_x280_intr_complex.c b/kernels/sifive_x280/1/bli_axpyv_sifive_x280_intr/bli_axpyv_sifive_x280_intr_complex.c
@@ -41,25 +41,30 @@ AXPYV(PRECISION_CHAR, void)
     const DATATYPE* restrict alpha = alpha_;
     const DATATYPE* restrict x = x_;
     DATATYPE* restrict y = y_;
-    
+
     if (n <= 0) return;
     if (alpha->real == 0 && alpha->imag == 0) return;
 
     size_t avl = n;
     while (avl) {
         size_t vl = VSETVL(PREC, LMUL)(avl);
-        RVV_TYPE_F(PREC, LMUL) xvec_real, xvec_imag, yvec_real, yvec_imag;
+        RVV_TYPE_F_X2(PREC, LMUL) xvec, yvec;
 
         if (incx == 1)
-            VLSEG2_V_F(PREC, LMUL)( &xvec_real, &xvec_imag, (BASE_DT*) x, vl);
+            xvec = VLSEG2_V_F(PREC, LMUL)( (BASE_DT*) x, vl);
         else
-            VLSSEG2_V_F(PREC, LMUL)(&xvec_real, &xvec_imag, (BASE_DT*) x, 2*FLT_SIZE*incx, vl);
-        
+            xvec = VLSSEG2_V_F(PREC, LMUL)( (BASE_DT*) x, 2*FLT_SIZE*incx, vl);
+
         if (incy == 1)
-            VLSEG2_V_F(PREC, LMUL)( &yvec_real, &yvec_imag, (BASE_DT*) y, vl);
+            yvec = VLSEG2_V_F(PREC, LMUL)( (BASE_DT*) y, vl);
         else
-            VLSSEG2_V_F(PREC, LMUL)(&yvec_real, &yvec_imag, (BASE_DT*) y, 2*FLT_SIZE*incy, vl);
-
+            yvec = VLSSEG2_V_F(PREC, LMUL)( (BASE_DT*) y, 2*FLT_SIZE*incy, vl);
+
+        RVV_TYPE_F(PREC, LMUL) xvec_real = RVV_GET_REAL(PREC, LMUL, xvec);
+        RVV_TYPE_F(PREC, LMUL) xvec_imag = RVV_GET_IMAG(PREC, LMUL, xvec);
+        RVV_TYPE_F(PREC, LMUL) yvec_real = RVV_GET_REAL(PREC, LMUL, yvec);
+        RVV_TYPE_F(PREC, LMUL) yvec_imag = RVV_GET_IMAG(PREC, LMUL, yvec);
+
         yvec_real = VFMACC_VF(PREC, LMUL)( yvec_real, alpha->real, xvec_real, vl);
         yvec_imag = VFMACC_VF(PREC, LMUL)( yvec_imag, alpha->imag, xvec_real, vl);
         if (conjx == BLIS_NO_CONJUGATE){
@@ -70,11 +75,15 @@ AXPYV(PRECISION_CHAR, void)
             yvec_imag = VFNMSAC_VF(PREC, LMUL)(yvec_imag, alpha->real, xvec_imag, vl);
         }
 
+
+        RVV_SET_REAL(PREC, LMUL, yvec, yvec_real);
+        RVV_SET_IMAG(PREC, LMUL, yvec, yvec_imag);
+
         if (incy == 1)
-            VSSEG2_V_F(PREC, LMUL)( (BASE_DT*) y, yvec_real, yvec_imag, vl);
+            VSSEG2_V_F(PREC, LMUL)( (BASE_DT*) y, yvec, vl);
         else
-            VSSSEG2_V_F(PREC, LMUL)((BASE_DT*) y, 2*FLT_SIZE*incy, yvec_real, yvec_imag, vl);
-        
+            VSSSEG2_V_F(PREC, LMUL)((BASE_DT*) y, 2*FLT_SIZE*incy, yvec, vl);
+
         x += vl*incx;
         y += vl*incy;
         avl -= vl;

diff --git a/kernels/sifive_x280/1/bli_dotv_sifive_x280_intr/bli_dotv_sifive_x280_intr_complex.c b/kernels/sifive_x280/1/bli_dotv_sifive_x280_intr/bli_dotv_sifive_x280_intr_complex.c
@@ -42,7 +42,7 @@ DOTV(PRECISION_CHAR, void)
     DATATYPE* restrict rho = rho_;
     const DATATYPE* restrict x = x_;
     const DATATYPE* restrict y = y_;
-    
+
     if (n <= 0) {
         rho->real = 0;
         rho->imag = 0;
@@ -60,18 +60,23 @@ DOTV(PRECISION_CHAR, void)
     bool first = true;
     while (avl) {
         size_t vl = VSETVL(PREC, LMUL)(avl);
-        RVV_TYPE_F(PREC, LMUL) xvec_real, xvec_imag, yvec_real, yvec_imag;
+        RVV_TYPE_F_X2(PREC, LMUL) xvec, yvec;
 
         if (incx == 1)
-            VLSEG2_V_F(PREC, LMUL)( &xvec_real, &xvec_imag, (BASE_DT*) x, vl);
+            xvec = VLSEG2_V_F(PREC, LMUL)( (BASE_DT*) x, vl);
         else
-            VLSSEG2_V_F(PREC, LMUL)(&xvec_real, &xvec_imag, (BASE_DT*) x, 2*FLT_SIZE*incx, vl);
-        
+            xvec = VLSSEG2_V_F(PREC, LMUL)( (BASE_DT*) x, 2*FLT_SIZE*incx, vl);
+
         if (incy == 1)
-            VLSEG2_V_F(PREC, LMUL)( &yvec_real, &yvec_imag, (BASE_DT*) y, vl);
+            yvec = VLSEG2_V_F(PREC, LMUL)( (BASE_DT*) y, vl);
         else
-            VLSSEG2_V_F(PREC, LMUL)(&yvec_real, &yvec_imag, (BASE_DT*) y, 2*FLT_SIZE*incy, vl);
-
+            yvec = VLSSEG2_V_F(PREC, LMUL)( (BASE_DT*) y, 2*FLT_SIZE*incy, vl);
+
+        RVV_TYPE_F(PREC, LMUL) xvec_real = RVV_GET_REAL(PREC, LMUL, xvec);
+        RVV_TYPE_F(PREC, LMUL) xvec_imag = RVV_GET_IMAG(PREC, LMUL, xvec);
+        RVV_TYPE_F(PREC, LMUL) yvec_real = RVV_GET_REAL(PREC, LMUL, yvec);
+        RVV_TYPE_F(PREC, LMUL) yvec_imag = RVV_GET_IMAG(PREC, LMUL, yvec);
+
         if (first) {
             acc_real = VFMUL_VV(PREC, LMUL)(xvec_real, yvec_real, vl);
             acc_imag = VFMUL_VV(PREC, LMUL)(xvec_imag, yvec_real, vl);
@@ -93,7 +98,6 @@ DOTV(PRECISION_CHAR, void)
         avl -= vl;
     }
 
-
     RVV_TYPE_F(PREC, m1) sum_real = VFMV_S_F(PREC, m1)(0.f, 1);
     RVV_TYPE_F(PREC, m1) sum_imag = VFMV_S_F(PREC, m1)(0.f, 1);
     sum_real = VF_REDUSUM_VS(PREC, LMUL)(acc_real, sum_real, n);

diff --git a/kernels/sifive_x280/1/bli_dotxv_sifive_x280_intr/bli_dotxv_sifive_x280_intr_complex.c b/kernels/sifive_x280/1/bli_dotxv_sifive_x280_intr/bli_dotxv_sifive_x280_intr_complex.c
@@ -44,7 +44,7 @@ DOTXV(PRECISION_CHAR, void)
     DATATYPE* restrict rho = rho_;
     const DATATYPE* restrict x = x_;
     const DATATYPE* restrict y = y_;
-    
+
     if (beta->real == 0 && beta->imag == 0){
         rho->real = 0;
         rho->imag = 0;
@@ -69,18 +69,23 @@ DOTXV(PRECISION_CHAR, void)
     bool first = true;
     while (avl) {
         size_t vl = VSETVL(PREC, LMUL)(avl);
-        RVV_TYPE_F(PREC, LMUL) xvec_real, xvec_imag, yvec_real, yvec_imag;
+        RVV_TYPE_F_X2(PREC, LMUL) xvec, yvec;
 
         if (incx == 1)
-            VLSEG2_V_F(PREC, LMUL)( &xvec_real, &xvec_imag, (BASE_DT*) x, vl);
+            xvec = VLSEG2_V_F(PREC, LMUL)( (BASE_DT*) x, vl);
         else
-            VLSSEG2_V_F(PREC, LMUL)(&xvec_real, &xvec_imag, (BASE_DT*) x, 2*FLT_SIZE*incx, vl);
-        
+            xvec = VLSSEG2_V_F(PREC, LMUL)( (BASE_DT*) x, 2*FLT_SIZE*incx, vl);
+
         if (incy == 1)
-            VLSEG2_V_F(PREC, LMUL)( &yvec_real, &yvec_imag, (BASE_DT*) y, vl);
+            yvec = VLSEG2_V_F(PREC, LMUL)( (BASE_DT*) y, vl);
         else
-            VLSSEG2_V_F(PREC, LMUL)(&yvec_real, &yvec_imag, (BASE_DT*) y, 2*FLT_SIZE*incy, vl);
-
+            yvec = VLSSEG2_V_F(PREC, LMUL)( (BASE_DT*) y, 2*FLT_SIZE*incy, vl);
+
+        RVV_TYPE_F(PREC, LMUL) xvec_real = RVV_GET_REAL(PREC, LMUL, xvec);
+        RVV_TYPE_F(PREC, LMUL) xvec_imag = RVV_GET_IMAG(PREC, LMUL, xvec);
+        RVV_TYPE_F(PREC, LMUL) yvec_real = RVV_GET_REAL(PREC, LMUL, yvec);
+        RVV_TYPE_F(PREC, LMUL) yvec_imag = RVV_GET_IMAG(PREC, LMUL, yvec);
+
         if (first) {
             acc_real = VFMUL_VV(PREC, LMUL)(xvec_real, yvec_real, vl);
             acc_imag = VFMUL_VV(PREC, LMUL)(xvec_imag, yvec_real, vl);
@@ -102,7 +107,6 @@ DOTXV(PRECISION_CHAR, void)
         avl -= vl;
     }
 
-
     RVV_TYPE_F(PREC, m1) sum_real = VFMV_S_F(PREC, m1)(0.f, 1);
     RVV_TYPE_F(PREC, m1) sum_imag = VFMV_S_F(PREC, m1)(0.f, 1);
     sum_real = VF_REDUSUM_VS(PREC, LMUL)(acc_real, sum_real, n);

diff --git a/kernels/sifive_x280/1/bli_scal2v_sifive_x280_intr/bli_scal2v_sifive_x280_intr_complex.c b/kernels/sifive_x280/1/bli_scal2v_sifive_x280_intr/bli_scal2v_sifive_x280_intr_complex.c
@@ -41,7 +41,7 @@ SCAL2V(PRECISION_CHAR, void)
     const DATATYPE* restrict alpha = alpha_;
     const DATATYPE* restrict x = x_;
     DATATYPE* restrict y = y_;
-    
+
     if (n <= 0) return;
     if (alpha->real == 0 && alpha->imag == 0) {
         SETV(PRECISION_CHAR)(BLIS_NO_CONJUGATE, n, alpha, y, incy, cntx);
@@ -56,13 +56,18 @@ SCAL2V(PRECISION_CHAR, void)
     size_t avl = n;
     while (avl) {
         size_t vl = VSETVL(PREC, LMUL)(avl);
-        RVV_TYPE_F(PREC, LMUL) xvec_real, xvec_imag, yvec_real, yvec_imag;
+        RVV_TYPE_F_X2(PREC, LMUL) xvec, yvec;
 
         if (incx == 1)
-            VLSEG2_V_F(PREC, LMUL)( &xvec_real, &xvec_imag, (BASE_DT*) x, vl);
+            xvec = VLSEG2_V_F(PREC, LMUL)( (BASE_DT*) x, vl);
         else
-            VLSSEG2_V_F(PREC, LMUL)(&xvec_real, &xvec_imag, (BASE_DT*) x, 2*FLT_SIZE*incx, vl);
-
+            xvec = VLSSEG2_V_F(PREC, LMUL)( (BASE_DT*) x, 2*FLT_SIZE*incx, vl);
+
+        RVV_TYPE_F(PREC, LMUL) xvec_real = RVV_GET_REAL(PREC, LMUL, xvec);
+        RVV_TYPE_F(PREC, LMUL) xvec_imag = RVV_GET_IMAG(PREC, LMUL, xvec);
+        RVV_TYPE_F(PREC, LMUL) yvec_real = RVV_GET_REAL(PREC, LMUL, yvec);
+        RVV_TYPE_F(PREC, LMUL) yvec_imag = RVV_GET_IMAG(PREC, LMUL, yvec);
+
         yvec_real = VFMUL_VF(PREC, LMUL)(xvec_real, alpha->real, vl);
         yvec_imag = VFMUL_VF(PREC, LMUL)(xvec_real, alpha->imag, vl);
         if (conjx == BLIS_NO_CONJUGATE) {
@@ -73,11 +78,15 @@ SCAL2V(PRECISION_CHAR, void)
             yvec_imag = VFNMSAC_VF(PREC, LMUL)(yvec_imag, alpha->real, xvec_imag, vl);
         }
 
+        RVV_SET_REAL(PREC, LMUL, yvec, yvec_real);
+        RVV_SET_IMAG(PREC, LMUL, yvec, yvec_imag);
+#pragma GCC diagnostic ignored "-Wuninitialized"
+
         if (incy == 1)
-            VSSEG2_V_F(PREC, LMUL)( (BASE_DT*) y, yvec_real, yvec_imag, vl);
+            VSSEG2_V_F(PREC, LMUL)( (BASE_DT*) y, yvec, vl);
         else
-            VSSSEG2_V_F(PREC, LMUL)((BASE_DT*) y, 2*FLT_SIZE*incy, yvec_real, yvec_imag, vl);
-        
+            VSSSEG2_V_F(PREC, LMUL)((BASE_DT*) y, 2*FLT_SIZE*incy, yvec, vl);
+
         x += vl*incx;
         y += vl*incy;
         avl -= vl;

diff --git a/kernels/sifive_x280/1/bli_scalv_sifive_x280_intr/bli_scalv_sifive_x280_intr_complex.c b/kernels/sifive_x280/1/bli_scalv_sifive_x280_intr/bli_scalv_sifive_x280_intr_complex.c
@@ -40,7 +40,7 @@ SCALV(PRECISION_CHAR, void)
     // Computes x = conjalpha(alpha) * x
     const DATATYPE* restrict alpha = alpha_;
     DATATYPE* restrict x = x_;
-    
+
     if (n <= 0 || (alpha->real == 1 && alpha->imag == 0)) return;
 
     if (alpha->real == 0 && alpha->imag==0){
@@ -51,13 +51,16 @@ SCALV(PRECISION_CHAR, void)
     size_t avl = n;
     while (avl) {
         size_t vl = VSETVL(PREC, LMUL)(avl);
-        RVV_TYPE_F(PREC, LMUL) xvec_real, xvec_imag;
+        RVV_TYPE_F_X2(PREC, LMUL) xvec;
 
         if (incx == 1)
-            VLSEG2_V_F(PREC, LMUL)( &xvec_real, &xvec_imag, (BASE_DT*) x, vl);
+            xvec = VLSEG2_V_F(PREC, LMUL)( (BASE_DT*) x, vl);
         else
-            VLSSEG2_V_F(PREC, LMUL)(&xvec_real, &xvec_imag, (BASE_DT*) x, 2*FLT_SIZE*incx, vl);
-
+            xvec = VLSSEG2_V_F(PREC, LMUL)( (BASE_DT*) x, 2*FLT_SIZE*incx, vl);
+
+        RVV_TYPE_F(PREC, LMUL) xvec_real = RVV_GET_REAL(PREC, LMUL, xvec);
+        RVV_TYPE_F(PREC, LMUL) xvec_imag = RVV_GET_IMAG(PREC, LMUL, xvec);
+
         RVV_TYPE_F(PREC, LMUL) temp_real = VFMUL_VF(PREC, LMUL)(xvec_real, alpha->real, vl);
         RVV_TYPE_F(PREC, LMUL) temp_imag = VFMUL_VF(PREC, LMUL)(xvec_imag, alpha->real, vl);
         if (conjalpha == BLIS_NO_CONJUGATE) {
@@ -67,13 +70,17 @@ SCALV(PRECISION_CHAR, void)
             temp_real = VFMACC_VF(PREC, LMUL) (temp_real, alpha->imag, xvec_imag, vl);
             temp_imag = VFNMSAC_VF(PREC, LMUL)(temp_imag, alpha->imag, xvec_real, vl);
         }
-
+
+        RVV_TYPE_F_X2(PREC, LMUL) temp;
+        RVV_SET_REAL(PREC, LMUL, temp, temp_real);
+        RVV_SET_IMAG(PREC, LMUL, temp, temp_imag);
+#pragma GCC diagnostic ignored "-Wuninitialized"
 
         if (incx == 1)
-            VSSEG2_V_F(PREC, LMUL)( (BASE_DT*) x, temp_real, temp_imag, vl);
+            VSSEG2_V_F(PREC, LMUL)( (BASE_DT*) x, temp, vl);
         else
-            VSSSEG2_V_F(PREC, LMUL)((BASE_DT*) x, 2*FLT_SIZE*incx, temp_real, temp_imag, vl);
-        
+            VSSSEG2_V_F(PREC, LMUL)((BASE_DT*) x, 2*FLT_SIZE*incx, temp, vl);
+
         x += vl*incx;
         avl -= vl;
     }