kamonohashi / kamonohashi Goto Github PK
View Code? Open in Web Editor NEWAI開発プラットフォームKAMONOHASHI
Home Page: https://kamonohashi.ai/
License: Apache License 2.0
AI開発プラットフォームKAMONOHASHI
Home Page: https://kamonohashi.ai/
License: Apache License 2.0
発生した現象
GitLab 11.8以降のGitlabをレジストリ登録した場合、
学習・推論・前処理の新規作成がエラーで実行できません
(エラー詳細は後日記載)
再現手順
GitLab 11.10を構築します。
KAMOBOHASHIのレジストリ登録を行います
学習の新規作成を実行し、コンテナ選択のステップまで進めます
期待する動作
GitLab 11.8以降のサポート
環境
スクリーンショット、ログ
その他の情報
#1
https://docs.gitlab.com/ee/api/container_registry.html
KAMONOHASHIへのリクエスト
各学習が親子関係を持てるようになっているので、それを可視化する機能が欲しい。
学習がどんな試行錯誤でどう発展していったのか、後で振り返れるようにしたい。
メニューアクセス管理画面のアクセス許可ロール部が見切れてしまう。
横スクロールバーが表示されないことにより、
見切れたロールについては編集することができない。
KAMONOHASHIへのリクエスト
特定期間の計算リソース使用量をグラフや統計レポートなどで可視化したい。
各案件の稼働状況を確認したり、計算リソースの拡張計画を考える際の参考になる。
発生した現象
ユーザ名にドット(.)が入ったアカウントで学習を実行すると、「Failed to run training. The message bellow may be help to resolve: Can not access to created container. Status: Empty」と言うエラーが発生する。
再現手順
ユーザ名にドット(.)が入ったアカウントで学習を実行する。
k8sのログには「Error creating: Pod "training-1-bvv7m" is invalid: [spec.volumes[9].name: Invalid value: "(アカウント名)-token-wvz7s": a DNS-1123 label must consist of lower case alphanumeric characters or '-', and must start and end with an alphanumeric character (e.g. 'my-name', or '123-abc', regex used for validation is 'a-z0-9?'), spec.containers[0].volumeMounts[9].name: Not found: "(アカウント名)-token-wvz7s", spec.containers[1].volumeMounts[9].name: Not found: "(アカウント名)-token-wvz7s", spec.initContainers[0].volumeMounts[9].name: Not found: "(アカウント名)-token-wvz7s"]」が表示される。
期待する動作
学習が正常に実行開始する。
環境
Nvidia GPU CloudにあるDockerイメージを利用できるようにしてほしい
発生した現象
各ノードでapt updateを実施せずにデプロイツールを実行した場合に
デプロイツールでnfs-commonのインストール時にFailed to fetch ...エラーが出てデプロイ失敗します
ワークアラウンドは、
すべてのノードで apt apdateを実施してからデプロイツールを実行することです
再現手順
AWS/AzureにVMを構築し、apt updateを実施せずにデプロイを実行します
期待する動作
apt updateを手動実行しなくてよい
環境
スクリーンショット、ログ
その他の情報
#1
https://kamonohashi.ai/docs/install-and-setup は、KAMONOHASHIを最小4台のマシンで構築する手順となっている。
試しに使ってみようとした際には台数が多いので、1ノード(All In One)で構築できるようにしたい。
#7 を分割
学習コンテナにシェル接続できる機能があるが、その時に行った操作のログを保存・参照できる機能が欲しい。
#7 を分割
KAMONOHASHIへのリクエスト
依存パッケージのバージョンアップ
Upgrade Microsoft.AspNetCore.All to version 2.1.4 or later.
Upgrade webpack-bundle-analyzer to version 3.3.2 or later.
Upgrade webpack-dev-server to version 3.1.11 or later.
#1 に関連
現状はテナント単位で権限管理がされているのを、ユーザ単位でもできるようにしたい
#7 を分割
KAMONOHASHIへのリクエスト
ジョブ停止時にはスクリプトエラーによる終了やユーザーキャンセル(ジョブ停止ボタン)が存在するが、どちらもUI上ではKilledと扱われてしまう。別のステータスとしてユーザーキャンセルを取得したい。
ファイル一覧画面のファイルサイズの単位表記が他画面と統一されていない。
・MiB
・KiB
オンプレミスのGPUが埋まっている際に、クラウド上でジョブを実行する機能が欲しい
KAMONOHASHIへのリクエスト
前処理管理、学習管理、推論管理において、
リソース表示のMAX値が以下のように固定値になっている。
存在しないリソース数を設定して実行した場合、リソースが不足しているため動作しない。
MAX値を対象のユーザが使用することができる上限値に変更してほしい。
発生した現象
KAMONOHASHIをインストールしたサーバの/var/log/kamonohashi/platypus-web-api/にあるLogicDebug.logに、以下のようなログが出力されている。
LogicDebug.log.2019-06-16:2019/06/16 01:00:25.550,DEBUG,74,BackupPostgresTimer,-,-,TimerScheduleOptionsBase#getDueTime(): タイムゾーン "Etc/UTC" での現在日付: 曜日 Sunday, 日付時刻 06/16/2019 01:00:25
OSタイムゾーンはJSTで、ログの時刻も実態はJSTになっているが、表示だけEtc/UTCとなっている。
再現手順
定期バックアップを実施する
期待する動作
表示もJSTになる
環境
スクリーンショット、ログ
ホスト&コンテナのdateコマンド実行結果
$:/var/log/kamonohashi/platypus-web-api# docker exec -it 814d18c6d6ec date
Wed Jun 19 14:21:43 JST 2019
$:/var/log/kamonohashi/platypus-web-api# date
2019年 6月 19日 水曜日 14:21:45 JST
その他の情報
なし
KAMONOHASHIにREST APIでアクセスできるように、APIリファレンスを公開してほしい
#7 を分割
発生した現象
学習コンテナ内でデーダウンロード中、ネットワークエラーでデータファイルのダウンロードに失敗しました。
その際、学習がそこで止まることなく、後続の処理が実行されます。
再現手順
コンテナがデプロイされた後、コンテナからKAMONOHASHIアプリケーションサーバへの通信を遮断
期待する動作
データ不備の状態で学習が行われてしまうので、ダウンロード失敗時は学習自体も失敗として停止してほしいです。
環境
発生した現象
1.0.1のデプロイツールがnvidia-dockerのインストールで失敗する
再現手順
1.0.1のデプロイツールを実行
期待する動作
1.0.1のデプロイツールがnvidia-dockerのインストールが成功
環境
スクリーンショット、ログ
failed: [gpu01] (item=['nvidia-container-runtime=2.0.0+docker18.09.6-3', 'nvidia-docker2=2.0.3+docker18.09.6-3']) => {"cache_update_time": 1561685018, "cache_updated": true, "changed": false, "item": ["nvidia-container-runtime=2.0.0+docker18.09.6-3", "nvidia-docker2=2.0.3+docker18.09.6-3"], "msg": "'/usr/bin/apt-get -y -o \"Dpkg::Options::=--force-confdef\" -o \"Dpkg::Options::=--force-confold\" install 'nvidia-container-runtime=2.0.0+docker18.09.6-3' 'nvidia-docker2=2.0.3+docker18.09.6-3'' failed: E: Unable to correct problems, you have held broken packages.\n", "rc": 100, "stderr": "E: Unable to correct problems, you have held broken packages.\n", "stderr_lines": ["E: Unable to correct problems, you have held broken packages."], "stdout": "Reading package lists...\nBuilding dependency tree...\nReading state information...\nSome packages could not be installed. This may mean that you have\nrequested an impossible situation or if you are using the unstable\ndistribution that some required packages have not yet been created\nor been moved out of Incoming.\nThe following information may help to resolve the situation:\n\nThe following packages have unmet dependencies:\n nvidia-docker2 : Depends: docker-ce (= 5:18.09.6~3-0~ubuntu-xenial) but 5:18.09.7~3-0~ubuntu-xenial is to be installed or\n docker-ee (= 5:18.09.6~3-0~ubuntu-xenial) but it is not installable\n", "stdout_lines": ["Reading package lists...", "Building dependency tree...", "Reading state information...", "Some packages could not be installed. This may mean that you have", "requested an impossible situation or if you are using the unstable", "distribution that some required packages have not yet been created", "or been moved out of Incoming.", "The following information may help to resolve the situation:", "", "The following packages have unmet dependencies:", " nvidia-docker2 : Depends: docker-ce (= 5:18.09.6~3-0~ubuntu-xenial) but 5:18.09.7~3-0~ubuntu-xenial is to be installed or", " docker-ee (= 5:18.09.6~3-0~ubuntu-xenial) but it is not installable"]}
その他の情報
Client:
Version: 18.09.6
API version: 1.39
Go version: go1.10.8
Git commit: 481bc77
Built: Sat May 4 02:35:27 2019
OS/Arch: linux/amd64
Experimental: false
Server: Docker Engine - Community
Engine:
Version: 18.09.5
API version: 1.39 (minimum version 1.12)
Go version: go1.10.8
Git commit: e8ff056
Built: Thu Apr 11 04:10:53 2019
OS/Arch: linux/amd64
Experimental: false
発生した現象
学習、推論実行画面にて、環境変数のKeyに数字を設定して、
実行ボタンを押下すると、エラーになるがメッセージが不適切。
スクリーンショット、ログ
Failed to run training. The message bellow may be help to resolve: 422 : Job.batch "training-168" is invalid: [spec.template.spec.containers[0].env[20].name: Invalid value: "0123": a valid environment variable name must consist of alphabetic characters, digits, '_', '-', or '.', and must not start with a digit (e.g. 'my.env-name', or 'MY_ENV.NAME', or 'MyEnvName1', regex used for validation is '[-._a-zA-Z][-._a-zA-Z0-9]*'), spec.template.spec.containers[1].env[20].name: Invalid value: "0123": a valid environment variable name must consist of alphabetic characters, digits, '_', '-', or '.', and must not start with a digit (e.g. 'my.env-name', or 'MY_ENV.NAME', or 'MyEnvName1', regex used for validation is '[-._a-zA-Z][-._a-zA-Z0-9]*'), spec.template.spec.initContainers[0].env[20].name: Invalid value: "0123": a valid environment variable name must consist of alphabetic characters, digits, '_', '-', or '.', and must not start with a digit (e.g. 'my.env-name', or 'MY_ENV.NAME', or 'MyEnvName1', regex used for validation is '[-._a-zA-Z][-._a-zA-Z0-9]*')]
発生した現象
ブラウザにおいて、推論実行画面に表示されるモデルのコミットIDと実行されるコミットIDが異なる。
再現手順
期待する動作
推論実行画面のコミットIDとコミット詳細のコミットIDが一致していること。
具体的には下記のいずれかを期待する。
・推論実行画面のコミットIDがコミット詳細のものに変わる。
・コミット詳細のコミットIDが推論実行画面と同じく変化しない。
環境
発生した現象
リソース管理画面から異なるテナントの前処理を削除しようとしたが、認証エラーが発生し削除できない。
再現手順
期待する動作
リソース管理から異なるテナントであっても前処理を削除できる。
環境
発生した現象
データ名など文字列のものについて検索をする際、
接頭に「!」をつけ、「を含む」を選択すると、「を含まない」として検索される。
期待する動作
「!」で始まる文字列が正しく検索される。
学習や前処理など、データをコンテナ内にダウンロードする際、データ名やタグ・メモなど、メタ情報も取得したい。例えば、メタ情報が書かれたjsonがどこかに一緒にダウンロードされてる、など。
監査機能として、ユーザがKAMONOHASHIで行った操作のログを保存・参照できる機能が欲しい
#7 を分割
KAMONOHASHIへのリクエスト
一覧に更新ボタンが存在する以下の画面について
更新ボタンを押下した際、画面上の設定情報をもとにすべてのデータについて更新をかけている。
これでは、2人以上のユーザが同一画面を操作し更新ボタンを押下すると、
後から更新した人の情報がDBに設定されてしまう。
「画面表示の値」と「更新ボタン押下時の値」に差がある項目のみを更新したほうがよい。
既に実装済みかもしれませんが、欲しい機能の要望を書いてみた。
・マルチクラウド対応
・REST APIでのアクセス(APIリファレンスの共有)
・JOB定期実行(外部からcliやREST APIコールでもいいかも)
・ユーザ別アクセス制限や画面操作ログ保存
・ターミナル実行時の操作ログ保存
・お試し構成(All in Oneタイプ)
発生した現象
ユーザ情報設定画面のRegistry Token表示部分で、ユーザ名/リポジトリの部分が正常に表示されません。
再現手順
新規GitLabレジストリを登録し、自分が所属するテナントに割り当て。
そして登録したレジストリに対してトークンを割り当てるために、ユーザ情報設定画面のRegistry Tokenタブに遷移。
期待する動作
GitLabレジストリで登録したプロジェクト名が表示される。
環境
不具合を確認した環境を書いてください
発生した現象
学習・推論を実行した際、処理が正常に完了し、結果ファイル作成と、LOG上での”Completed”表示が行わたにもかかわらず、画面上のステータスがFailedとなる。
同時に別のクライアントから当該レコードの参照を行うと、発生する。
再現手順
学習あるいは推論を行い、完了する直前に当該レコードをWeb上で参照して、ページリロードを繰り返す。
期待する動作
ステータスがCompletedになる。
環境
学習を実行する際に付ける名前を、後から変更できるようにしたい
KAMONOHASHIへのリクエスト
学習完了後に結果をZip圧縮する機能があるが、これをスキップするオプションを付けたい。
ただ、Zip圧縮によって結果ファイルのダウンロードが容易になるなどメリットもあるため、ユーザ側でON/OFFを切り替えられるようになるとありがたい。
発生した現象
自己署名証明書で構築したGitLabでgit clone
できない
再現手順
GitLabに自己署名証明書を使用してhttpsでアクセスするようにKAMONOHASHIに登録する
期待する動作
自己署名証明書でもソースコードがgit cloneできる
環境
不具合を確認した環境を書いてください
スクリーンショット、ログ
fatal: unable to access 'https://*****': server certificate verification failed. CAfile: /etc/ssl/certs/ca-certificates.crt CRLfile: none
その他の情報
CLIコンテナのgit設定でsslのチェックをしないようにする必要があります
KAMONOHASHIへのリクエスト
kamonohashi-cliにて推論ジョブの一覧を取る方法が存在しない。
学習ジョブのkqi training listに相当するものが欲しい。
KAMONOHASHI上に保存されているデータのバックアップ・リストア方法を知りたい
発生した現象
設定クォータ以上のリソースを設定して、ジョブを実行しようとした際、
エラーメッセージが表示されるが、どういう状況かわからない
スクリーンショット、ログ
Failed to run training. The message bellow may be help to resolve: Can not access to created container. Status: Empty
以下のパッケージのバージョンを上げる予定です。
githubのapiはアクセス頻度に制限があり、403エラーが発生する可能性があります。
https://developer.github.com/v3/rate_limit/
改善するには、KAMONOHASHIのユーザ情報設定画面から、GitHubのトークンを登録してください。
メモリの指定が足りない場合にコンテナが落ちますが、エラー表示が分かりにくいです。
現状はcontainers with unready status: [main] とだけ出ているのを改善予定です。
apt update未実施でデプロイする際、nfs-commonのインストール時にFailed to fetch ...
といったエラーが出る場合があります。
全てのマシン上でsudo apt-get update
を実行した後、再デプロイすることで解決可能です。
11.8 で実装された GitLab Container Registry API に対応していません。
.
が含まれているユーザー名が使用できませんテナントリソース管理画面のユーザ名の項目において、本来のユーザ名が表示されていない。
現象は、#29 と同様。
jobのstate変更時などにwebhookが飛ぶと、以下のようなシチュエーションで便利なので、実装されると嬉しいです!
データ管理画面から前処理実行ボタンを押下すると、前処理画面が表示されるはずだが、
テナントロールの設定を以下のようにした場合、エラー画面が表示される。
・データ管理 ・・・ 〇
・前処理管理 ・・・ ×
画面遷移させない動作が正常だと思われる。
KAMONOHASHIへのリクエスト
ローカル環境など、KAMONOHASHIの外で実行した学習も、結果を一元管理したいため、KAMONOHASHIに登録できるようにしてほしい。
推論管理画面の[マウントした学習]の項目で「含まない」検索を実施したが、
動作が正しくない。
発生した現象
ユーザからテナントを外した際の動作についてです。
(現在の動作)
・Git Tokenは維持されている。(削除せずに残り続ける)
・Registry Tokenは削除される。
期待する動作
(動作1)
・Git Token、Registry Tokenともに削除される。
(動作2)
・Git Token、Registry Tokenともに維持される。
データ同様、学習にもタグを付与したい
KAMONOHASHIへのリクエスト
OOM kill時のエラー表示
メモリの指定が足りない場合にコンテナが落ちますが、エラー表示が分かりにくいです。
現状はcontainers with unready status: [main] とだけ出ているのを改善予定です。
#1
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.