huaweicloud / dls-example Goto Github PK

View Code? Open in Web Editor NEW

45.0 6.0 60.0 3.38 MB

Introduction of usage deep learning service of huawei cloud

Python 100.00%

dls-example's Issues

执行TFServing预测作业的客户端代码报错，提示Connect Failed

基本信息

Python版本: 2.7
MoXing版本：(未使用则不填写)
浏览器：

问题描述 / 重现步骤

创建预测作业，所使用的引擎为TFServing，作业显示为运行中，但是使用样例客户端代码显示连接不上。

作业基本信息

相关作业类型: 预测作业
作业ID:
引擎类型: TF
运行参数：
计算节点个数：
计算节点规格：

预置模型库读取TFRecord数据集很慢

基本信息

Python版本: 2.7
MoXing版本：
浏览器：

问题描述 / 重现步骤

运行作业日志提示如下信息，并经过很长时间都没有反应。日志一直卡在下面这句话。

INFO:tensorflow:Find tfrecord files. Using tfrecord files in this job.
INFO:tensorflow:Automatically extracting num_samples from tfrecord. If the dataset is large, it may take some time. You can also manually specify the num_samples to Dataset to save time.

作业基本信息

相关作业类型: 预置模型库-创建训练作业
作业ID:
引擎类型: TensorFlow
运行参数：
计算节点个数：
计算节点规格：

训练作业错误. InvalidArgumentError: slice index 2 of dimension 0 out of bounds.

基本信息

Python版本: 2.7
MoXing版本：1.0.6
浏览器：Chrome

问题描述 / 重现步骤

预置模型库 -> ResNet_v1_50 -> 创建训练作业 -> 选择一个数据集并提交作业

作业基本信息

相关作业类型: 训练作业
作业ID:
引擎类型: TensorFlow
运行参数：

train_url=s3://zzy/zzy/data/log/carped/
model_name=resnet_v1_50
checkpoint_url=s3://zzy/zzy/pretrained_model/resnet_v1_50/

计算节点个数：1
计算节点规格：1*P100

训练作业失败，报AssertionError: can only join a started process

基本信息

Python版本: (2.7)
MoXing版本：(未使用则不填写)
浏览器：Chrome

问题描述 / 重现步骤

按照官网的教程，https://support.huaweicloud.com/usermanual-dls/dls_01_0077.html
在ROMA上训练失败

作业基本信息

相关作业类型:
作业ID:d2f13d03-cd72-4d60-88cf-15b5e3fad120
引擎类型: (TensorFlow or MXNet)
运行参数：train_url=s3://final-model; model_name=resnet_v1_50; checkpoint_url=s3://final-model/resnet_v1_50
计算节点个数：1
计算节点规格：8核|64GiB|1*P100

运行pytorch作业出现错误 RuntimeError: unable to write to file

基本信息

Python版本: (2.7 / 3.6)
MoXing版本：(未使用则不填写)
浏览器：

问题描述 / 重现步骤

提交基于pytorch的训练作业时，遇到如下错误：

RuntimeError: unable to write to file </torch_76_3625483894> at /pytorch/aten/src/TH/THAllocator.c:383

作业基本信息

相关作业类型: 训练作业
作业ID:
引擎类型: pytorch
运行参数：
计算节点个数：
计算节点规格：

Error when reading .npy/.npz files using moxing

基本信息

Python版本: (3.6)
MoXing版本：(未使用则不填写)
浏览器：

问题描述 / 重现步骤

Error when reading .npy/.npz files using moxing

Error log：
Traceback (most recent call last):
File "src/main_kaggle.py", line 12, in
train_img, train_mask = read_train_data(mod)
File "/home/work/user-job-dir/src/data_util.py", line 18, in read_train_data
X_train = np.load(mox.file.read('s3://bucket-medical/ISLES/npy_data/train_'+MODULE_SELECTED+'_img.npy', binary=True))
File "/usr/local/anaconda3/lib/python3.6/site-packages/numpy/lib/npyio.py", line 404, in load
magic = fid.read(N)
AttributeError: 'bytes' object has no attribute 'read'

作业基本信息

相关作业类型:
作业ID:
引擎类型: (TensorFlow)
运行参数：
计算节点个数：
计算节点规格：

absl.flags._exceptions.UnrecognizedFlagError: Unknown command line flag 'num_gpus'

基本信息

Python版本: ( 3.6)
MoXing版本：(未使用则不填写)
浏览器：chrome

问题描述 / 重现步骤

使用num_gpus = mox.get_flag('num_gpus')，出现错误
(简单描述问题信息，如果是bug，请描述重现步骤)

作业基本信息

相关作业类型:
作业ID:
引擎类型: (TensorFlow)
运行参数：
计算节点个数：1
计算节点规格：16核|128GiB|2*P100

checkpoint保存失败

基本信息

Python版本: 3.6
MoXing版本：(未使用则不填写)
浏览器：Chrome

问题描述 / 重现步骤

在保存训练模型时， TensorBoard数据文件可以保存，但是ModelCheckpoint数据文件无法保存，另外参考文档https://bbs.huaweicloud.com/forum/thread-11660-1-1.html中有提到
 ，“由于cp_callback、tb_callback不能直接写入，...”，求解惑。

作业基本信息

相关作业类型:
作业ID:
引擎类型: TensorFlow
运行参数：
计算节点个数：1
计算节点规格：8核 | 64GiB | 1*P100 | 750GB
--

训练作业突然失败停止

基本信息

Python版本: (2.7 / 3.6)
MoXing版本：(1.8.2)
浏览器：Chrome

问题描述 / 重现步骤

正常启动程序，训练ResNet50模型（300M左右模型文件），但是运行了多个epoch后突然显示以下信息（见Log），任务失败。原因是Unable to connect to endpoint，可能是OBS连接不稳定所致。

(简单描述问题信息，如果是bug，请描述重现步骤)

作业基本信息

相关作业类型:
作业ID: resnet-42586680-10
引擎类型: (TensorFlow)
运行参数：无
计算节点个数：1
计算节点规格：单机8卡

预测客户端，no module named predict_pb2

在命令行中输入示例，如下，
python dls-tfserving-client/python/predict.py
--task_type="image_classification"
--host=my.host
--port=my.port
--data_path="xx/dls-tfserving-client/data/flowers/flower1.jpg"
--labels_file_path="xx/dls-tfserving-client/data/flowers/labels.txt"
--model_name="graph"
出现如下问题，请问如何解决呢

训练作业提示：数据集找不到，No such file or directory

基本信息

Python版本: 2.7
MoXing版本：
浏览器：

问题描述 / 重现步骤

训练数据集在OBS上存在，创建训练作业填写data_url为OBS路径，训练失败，提示:No such file or directory

作业基本信息

相关作业类型: 训练作业
作业ID:
引擎类型: TensorFlow
运行参数：
计算节点个数：
计算节点规格：

test

公有云运行TensorFlow训练作业出现错误：truncated record at xxxxx

基本信息

Python版本: (2.7 / 3.6)
MoXing版本：(未使用则不填写)
浏览器：

问题描述 / 重现步骤

在公有云上提交训练作业(比如冰山识别项目)，训练过程中连接obs读取tfrecord数据时出现错误，报错信息大致如下所示：

INFO:tensorflow:Error reported to Coordinator: <class 'tensorflow.python.framework.errors_impl.DataLossError'>, truncated record at 9832454
	 [[Node: parallel_read/ReaderReadV2 = ReaderReadV2[_device="/job:localhost/replica:0/task:0/device:CPU:0"](parallel_read/TFRecordReaderV2, parallel_read/filenames)]]

作业基本信息

相关作业类型: 训练作业
作业ID:
引擎类型: TensorFlow
运行参数：
计算节点个数：
计算节点规格：

预置模型库里的模型拷贝完成之后，如何删除

问题描述 / 重现步骤

对于DLS预置模型库里的模型拷贝完成之后，如何删除

作业基本信息

相关作业类型: 预置模型库

创建训练作业失败(ValueError: learning_rate_strategy should be like: ...)

基本信息

Python版本: 2.7
MoXing版本：(未使用则不填写)
浏览器：

问题描述 / 重现步骤

这是训练集数据

作业基本信息

相关作业类型: 训练作业
作业ID:
引擎类型: TensorFlow
运行参数：train_url=s3://donotdel-dls/models/
model_name=resnet_v1_50
checkpoint_url=s3://donotdel-dls/models/resnet_v1_50/
batch_size=2
计算节点个数：1
计算节点规格：8核 | 32GiB
--

训练作业日志错误信息： error: unrecognized arguments: --data_url=s3://my_bucket/data

训练作业日志错误日志： error: unrecognized arguments: --data_url=s3://my_bucket/data

使用DLS时，代码中文件读取的问题

你好，在使用tensorflow训练模型时，lable文件的读取和图像文件应该怎么读取？

启动预测作业找不到模型, no versions of servable mode found

基本信息

Python版本: 2.7
MoXing版本：
浏览器：

问题描述 / 重现步骤

启动预测作业，如果提示信息类似如下：

tensorflow_serving/sources/storage_path/file_system_storage_path_source.cc:268] No versions of servable resnet_v1_50 found under base path s3://dls-test/log/resnet_v1_50/1/

作业基本信息

相关作业类型: 预测作业
作业ID:
引擎类型: TensorFlow
运行参数：
计算节点个数：
计算节点规格：

提交自定义网络模型时如何设置参数

基本信息

Python版本: (2.7 / 3.6)
MoXing版本：(未使用则不填写)
浏览器：

问题描述 / 重现步骤

(简单描述问题信息，如果是bug，请描述重现步骤)
在DLS提交自定义的网络模型，如何设置运行参数

作业基本信息

相关作业类型:
作业ID:
引擎类型: (TensorFlow or MXNet) TensorFlow
运行参数：
计算节点个数：8核
计算节点规格：60G

保存模型出现Unable to connect to endpoint错误

基本信息

Python版本: 3.6
MoXing版本：(未使用则不填写)
浏览器：Chrome

问题描述 / 重现步骤

使用的模型是Transformer (paper: Attention is all you need)。
模型大小为1024 units (参数量约382x4 MB) 时，出现错误信息。
模型大小为512 units (参数量约148x4 MB) 时运行正常。
尝试设置环境变量 S3_REQUEST_TIMEOUT_MSEC 和 S3_REQUEST_TIMEOUT到更大的值，比如6000000，依旧在大模型上出现错误

训练使用的Adam，因此保存checkpoint的时候参数量会更大
如果使用SGD，也不会出现问题

作业基本信息

相关作业类型:
作业ID:
引擎类型: Tensorflow 1.4
运行参数：
计算节点个数：1
计算节点规格：8xP100

无法打开上传的juypter notebook 也无法引用同目录下的.py 文件

基本信息

Python版本: 3.6
MoXing版本：(未使用则不填写)
浏览器：chrome

问题描述 / 重现步骤

无法打开我上传的文件，文件路径：bucket-8579 ＞zhicheng-> keyword_extraction.ipynb. 打开以后提示说：string do not have split method之类的
试图引用 import Ipynb_importer ，但是报错说找不到文件，但是文件就在工作目录下啊
(简单描述问题信息，如果是bug，请描述重现步骤)

作业基本信息

相关作业类型:
作业ID:
引擎类型: TensorFlow
运行参数：
计算节点个数：
计算节点规格：

numpy.load读文件失败

基本信息

Python版本: (2.7 / 3.6)
MoXing版本：(未使用则不填写)
浏览器：

问题描述 / 重现步骤

(简单描述问题信息，如果是bug，请描述重现步骤)

作业基本信息

相关作业类型: 训练
作业ID:prejob-92946102
引擎类型: TensorFlow
运行参数：
计算节点个数：1
计算节点规格：8核|64GiB|1*P100

TensorFlow-1.8作业反复打印aws_logging

基本信息

Python版本: (2.7 / 3.6)
MoXing版本：(未使用则不填写)
浏览器：

问题描述 / 重现步骤

基于TensorFlow-1.8启动训练作业，并在代码中使用 tf.gfile模块连接OBS。
（AKSK等基本环境变量在DLS中已经设置好）
启动训练作业后会频繁打印如下日志信息。

作业基本信息

相关作业类型: 训练作业
作业ID:
引擎类型: (TensorFlow or MXNet)： TensorFlow
运行参数：
计算节点个数：
计算节点规格：

读数据报错

基本信息

Python版本: (2.7 / 3.6)

IOError: [Errno 2] No such file or directory: 's3://bucket-3216/train_data/data/label_map.txt'

callback保存训练模型报错

基本信息

Python版本: ( 3.6)
MoXing版本：(未使用则不填写)
浏览器：

问题描述 / 重现步骤

(简单描述问题信息，如果是bug，请描述重现步骤)

作业基本信息

相关作业类型:
作业ID:
引擎类型: (TensorFlow or MXNet)
运行参数：
计算节点个数：
计算节点规格：

训练作业失败，ImportError: No module named module_dir

基本信息

Python版本: 2.7
MoXing版本：
浏览器：

问题描述 / 重现步骤

代码结构如下：

project_dir
    |- main.py
  |- module_dir
    |- module_file.py

用户在main.py中有代码

from module_dir import module_file

发生如下错误：

Traceback (most recent call last):
  File "project_dir/main.py", line 1, in <module>
    from module_dir import module_file
ImportError: No module named module_dir

作业基本信息

相关作业类型: 训练作业
作业ID:
引擎类型: TensorFlow
运行参数：
计算节点个数：
计算节点规格：

训练作业日志显示错误信息： AttributeError: 'module' object has no attribute '_FlagValues'

训练作业出错：input must be 4-dimensional[1,1,300,300,3].

问题描述 / 重现步骤

DLS服务-预置模型库-创建训练作业-选择自己的一个数据集并训练出现错误。

作业基本信息

作业ID:
引擎类型: TensorFlow
运行参数：
train_url=s3://cat-body-six-classes/model.resnet_v1_50/
batch_size=32
learning_rate_strategy=10:0.01,20:0.001
file_pattern=flowers_*
max_epoches=20
image_size=224
num_classes=6
samples_per_epoch=589
checkpoint_exclude_patterns=logits.global_step
计算节点个数：1
计算节点规格：1*P100
截图：

任务不执行

基本信息

Python版本: (3.6)
MoXing版本：(未使用则不填写)
浏览器：Chrome

问题描述 / 重现步骤

提交任务之后不执行代码，print信息未打印。

代码入口处：
if name == 'main':

print('Configuring CNN model...')
print('train level : ' + str(args.level))

作业基本信息

相关作业类型:
作业ID: 0e03da5b-c4a8-4de9-ac1f-38deb740b531
引擎类型: TensorFlow1.4 PY 3.6
运行参数：

method=train; level=2; embedding_dim=300; type=new; l2beta=0.001; hidden_dim=1000; max_contract_length=20000; print_per_batch=10; max_train=30000; model=rcnn; risk=Payment Collection; num_filters=256; learning_rate=0.001

计算节点个数：1
计算节点规格：64核|512GiB|8*P100

tensorflow在s3写tensorboard到达5GB时停止

基本信息

Python版本: (2.7 / 3.6)
MoXing版本：(未使用则不填写)
浏览器：

问题描述 / 重现步骤

提交训练作业，一直向tensorboard中写入数据，不到5GB时，报错：

2018-08-17 13:06:50.929457: I tensorflow/core/platform/s3/aws_logging.cc:54] Found secret key
2018-08-17 13:06:50.929633: I tensorflow/core/platform/s3/aws_logging.cc:54] Connection has been released. Continuing.
2018-08-17 13:06:50.936199: W tensorflow/core/platform/s3/aws_logging.cc:57] Encountered Unknown AWSError
EntityTooLarge
Your proposed upload exceeds the maximum allowed object size.:	
2018-08-17 13:06:50.936241: W tensorflow/core/platform/s3/aws_logging.cc:57] If the signature check failed. This could be because of a time skew. Attempting to adjust the signer.

作业基本信息

相关作业类型: 训练作业
作业ID:
引擎类型: TensorFlow
运行参数：
计算节点个数：
计算节点规格：

训练作业没有训练信息，很快就结束训练了

基本信息

Python版本: 2.7
MoXing版本：
浏览器：

问题描述 / 重现步骤

启动一个训练作业时，发现很快就结束了，控制台也没有打印任何与loss或是accuracy相关的信息。

输出日志信息如下：

INFO:tensorflow:Restoring parameters from s3://bucket_name/log/model.ckpt-xxx
INFO:tensorflow:Saving checkpoints for xxx into s3://bucket_name/log

作业基本信息

相关作业类型: 训练作业
作业ID:
引擎类型: TensorFlow
运行参数：
计算节点个数：
计算节点规格：

开发环境中无法新建python

基本信息

Python版本: (2.7 / 3.6)
MoXing版本：(未使用则不填写)
浏览器：

问题描述 / 重现步骤

开发环境中新建python 提示：Unexpected error while saving file : Untitled.ipynb unable to open database file

(简单描述问题信息，如果是bug，请描述重现步骤)

已经解决，原因是由于用户调试过程中，自己的代码出错生产了这些core dump，导致磁盘空间不足。用户再调试的时候，可以删除掉/home/work目录下面产生的core dump，这样就不会有问题

huaweicloud / dls-example Goto Github PK

dls-example's Issues

基本信息

问题描述 / 重现步骤

作业基本信息

相关源码 / 输出日志

基本信息

问题描述 / 重现步骤

作业基本信息

基本信息

问题描述 / 重现步骤

作业基本信息

相关源码 / 输出日志

基本信息

问题描述 / 重现步骤

作业基本信息

相关源码 / 输出日志

基本信息

问题描述 / 重现步骤

作业基本信息

相关源码 / 输出日志

基本信息

问题描述 / 重现步骤

作业基本信息

相关源码 / 输出日志

基本信息

问题描述 / 重现步骤

作业基本信息

相关源码 / 输出日志

基本信息

问题描述 / 重现步骤

作业基本信息

相关源码 / 输出日志

基本信息

问题描述 / 重现步骤

作业基本信息

相关源码 / 输出日志

基本信息

问题描述 / 重现步骤

作业基本信息

相关源码 / 输出日志

基本信息

问题描述 / 重现步骤

作业基本信息

相关源码 / 输出日志

问题描述 / 重现步骤

作业基本信息

相关源码 / 输出日志

基本信息

问题描述 / 重现步骤

作业基本信息

相关源码 / 输出日志

基本信息

问题描述 / 重现步骤

作业基本信息

基本信息

问题描述 / 重现步骤

作业基本信息

相关源码 / 输出日志

基本信息

问题描述 / 重现步骤

作业基本信息

相关源码 / 输出日志

基本信息

问题描述 / 重现步骤

作业基本信息

相关源码 / 输出日志

基本信息

问题描述 / 重现步骤

作业基本信息

相关源码 / 输出日志

基本信息

问题描述 / 重现步骤

作业基本信息

相关源码 / 输出日志

基本信息

基本信息

问题描述 / 重现步骤

作业基本信息

相关源码 / 输出日志