Git Product home page Git Product logo

speech-to-text-webcam-overlay's Introduction

Ippei Suzuki / 鈴木 一平

Ippei Suzuki is a videographer, representative director and head of production function of BONSAI STUDIO INC. He mainly works on video production, such as technology introductions or event highlights. He also works as live streaming engineer. Based on his understanding of technology that draws on his background as an interdisciplinary researcher in informatics and computer science, he is particularly good at producing videos that introduce products, services, and companies using advanced computer technology. Additionally, he handles the entire production flow from storyline planning to filming, editing, and delivery. As an academic researcher, he is interested in how we can change the way we see and experience the world through emerging technologies of visual equipment such as cameras and displays. He received awards such as Best Paper in Augmented Human 2017 & 2019 (peer-reviewed international conference), James Dyson Award 2021 Japan National Winner, GOOD DESIGN AWARD 2021, and JASSO Students of the Year 2017 Grand Prize (Academia).

映像ディレクター。BONSAI STUDIO 株式会社 代表取締役・プロダクション責任者。技術紹介映像やイベント記録映像の制作や,ライブ配信のディレクションやオペレーションを主に行う。情報学やコンピュータサイエンスの学際的な研究者であるバックグラウンドを活かした技術への理解を土台に,特に先進計算機技術のプロダクト・サービス・企業を紹介する映像の制作を得意としている。構成立案から撮影・編集・納品まで制作フロー全体を一気通貫で対応。研究者としては,新しい映像装置や新しい映像の使い方を通じて人間の世界の見方や体験がどのように変わるのかに興味を持つ。受賞歴に,査読付き国際会議 Augmented Human 2017 / 2019 最優秀論文賞,James Dyson Award 2021 国内最優秀賞,グッドデザイン賞2021,2017 JASSO 優秀学生顕彰大賞(学術分野)など。

HP - https://1heisuzuki.com
COMPANY - https://BONSAISTUDIO.JP
Twitter - https://twitter.com/1heisuzuki
Facebook - https://www.facebook.com/1heisuzuki
Instagram - https://www.instagram.com/1heisuzuki
Google Scholar - https://scholar.google.co.jp/citations?user=u9AMNXoAAAAJ

speech-to-text-webcam-overlay's People

Contributors

1heisuzuki avatar nagataniyoshiki avatar pklion avatar sksthrs avatar sorahlyrics avatar syado avatar toruki avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

speech-to-text-webcam-overlay's Issues

UDフォントの導入

名称は
font-family:"BIZ UDGothic";
です。よろしくお願いします。
(プルリクを送るほどでは無いものの Twitter だけだと忘れるので Issue で失礼します。)

名前(または愛称)をつけませんか。

今の状態だと「Speech to text webcam overlay」「1heisuzukiさんの字幕のやつ」となって長く、言及が微妙にしづらい状態です。何か名前か愛称があると呼びやすくなって良いのでは、と思いました。

文字に輪郭を付ける

こちらでちょっと試してみたところ,少し文字の輪郭を付けると背景に影響されることが減る気がしました。もしよろしければお試しください(評価実験等の成果を反映した設定なのでしたら捨て置き下さい)。
-webkit-text-stroke: 1px #000;

時刻の記録にチェックを入れるとログにテキストが入らない

「認識結果のログ」の「時刻の記録」にチェックを入れると、認識結果のテキストがログのテキストエリアに入らないように見えます (日本語でも英語でも)。

以前は入っていましたが、7月9日に確認したのが最後で、久しぶりに試した 10月1日以降、入らなくなりました。
Chrome のバージョン : 94.0.4606.71(Official Build) (x86_64)(macOS 11.6)

素晴らしいページをありがとうございます。

日本語以外の選択肢があったら

@1heisuzuki
素晴らしいシステムを開発していただき、ありがとうございます。
もし、音声認識には日本語以外の選択肢があったら、語学的な口頭練習にも役に立っているのではないかと思いますが、この機能を開発なさるご予定がございますか。

Safariでも利用可能にする

macOS の Safari と,iOS の Safari で WebSpeechAPIが利用可能になったとのこと。
https://caniuse.com/?search=Web%20Speech%20API

現在,Chorome 以外の場合は JavaScriptの処理が途中で exit するようになっているが,それを廃止するのを検討中。

軽く試した所,Safari では動作が重くなるような気がする。
また,現状の CSS だと Safari ではスライダーがうまく表示されていないので,そのバグ解消も同時に行いたい。

画面の**に文字を寄せる機能

16:9ではないウインドウサイズで相手が会議に参加すると16:9の映像の両端がカットされてしまうため,文字が見えなくなることの対策

動作環境の追記依頼

次の環境でも動作しました。

ChromiumベースのEdgeは、さすがに(Googleに依存する)Speech Recognition APIが動きませんね。

適切な位置で改行する

単純な文字数での改行だと読みづらくなってしまうので,単語が切れないように改行すると読みやすいかもしれない。kuromoji.js等が活用できるかも

ショートカットキーで字幕をオンオフできるようにしたい

もともとスクロールしないと字幕オンオフのボタンに到達できず,ユーザーの画面サイズによっては画面をスクロールせざるを得ない状況だった。一旦,ボタン配置を変更して対応した。

ショートカットキーにする場合は,意図せずショートカットキーを押してしまったときの対策(字幕がオフですよと何か表示するとか?
)が必要かもしれない・

ボタンデザインの改善

SS 2020-05-28 at 11 12 35

現状だと文字を読まなければならないため,アイコンつきでボタン化したい。
アイコン作成時は自作のもの(レポジトリをCC0で提供しているため)

UIをシンプルにする

デフォルトでは最低限のUIを表示しておいて,「Advanced Options」のような形で展開されるようにするとスッキリして良いかもしれない

全画面表示モードを作る

ウインドウ全体にビデオが表示されて,コントロールとかが見えなくなるモードがあるといいかも

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.